top of page

Як зрозуміти, що текст написав ШІ?

Візуалізація спектру штучного інтелекту: спідометр оцінки від базового до просунутого ШІ-рівня

Штучний інтелект дійсно змінив контент-індустрію. За оцінкою компанії Graphite, станом на кінець 2024 року вже понад половина нових вебстатей генерується переважно машиною. А інструменти на кшталт ChatGPT, Jasper чи Copy.ai стали буденністю для маркетологів, копірайтерів і студентів. Бо вони швидкі, зручні та доступні. Але це породило й проблему, бо постає питання: як зрозуміти, що текст написав ШІ, а не жива людина?


У цьому матеріалі HBJ розбирає основні маркери штучного контенту та які інструменти існують для виявлення ШІ в тексті. А своєю експертизою і тим, чи можна повністю довіряти ШІ-чекерам, поділиться Вероніка Солопова, Head of R&D Mantis Analytics та Senior Researcher в Технічному університеті Берліна.



Основні ознаки тексту, створеного штучним інтелектом


Перед використанням спеціалізованих сервісів варто навчитися розпізнавати ШІ-тексти інтуїтивно, «на око». 


Стилістика


Тексти від нейромереж надто вигладжені. Рідко побачиш там розмовні вирази, сленг чи емоційні вкраплення. Замість цього — академічна коректність навіть там, де вона абсолютно зайва.


Передбачувана структура


ШІ-моделі люблять порядок. Типовий текст від ChatGPT виглядає так: вступ із загальними тезами, три-чотири основні блоки з підзаголовками, висновок із повторенням ключових думок. Кожен абзац містить три-п’ять речень приблизно однакової довжини. Списки з'являються регулярно і мають однакову структуру пунктів. Людина ж пише менш передбачувано. 


Повторюваність формулювань


Нейромережі схильні до повторів. Вони можуть кілька разів використати одну конструкцію в різних частинах тексту, змінюючи тільки окремі слова, щоб це приховати. Приклад: «цей підхід дозволяє досягти результату» перетворюється на «такий метод допомагає отримати ефект». 


Шаблонність


Зверніть увагу на зв'язки між абзацами. Це критично для визначення ШІ в тексті. ШІ використовує стандартний набір: «крім того», «з іншого боку», «таким чином», «отже». Ці фрази з'являються механічно, часто на початку кожного блоку. У живому тексті переходи різноманітніші й, головне, органічніші.


Топ інструменти для виявлення ШІ в тексті


Для точнішої перевірки існують спеціалізовані сервіси — детектор ШІ тексту. Розглянемо найпопулярніші рішення.



Цей інструмент — один із перших і найвідоміших. Його створив студент Принстонського університету Едвард Тян спеціально для боротьби з академічною нечесністю, а точніше, з надмірним використанням ШІ у студентських роботах.


Ключовий принцип роботи: GPTZero аналізує два ключові параметри: perplexity (непередбачуваність, як модель обирає наступне слово) та burstiness (варіативність, нерівномірність у довжині речень). Сервіс чудово працює з англійською, а інші мови підтримує базово через функцію перекладу.



Потужна платформа, яка поєднує перевірку тексту на плагіат та ШІ одночасно. Copyleaks використовує власні, просунуті моделі машинного навчання, натреновані на мільйонах прикладів від різних генераторів контенту.


Важливо, що сервіс показує не просто загальний відсоток ШІ-контенту, він виділяє конкретні фрагменти тексту, які викликають підозру.



Це рішення орієнтоване насамперед на бізнес-сегмент. ШІ детектор тексту від Writer інтегрується з корпоративними CMS і системами контент-маркетингу. Дуже зручно для великих команд.


Його особливість: акцент на виявленні саме комерційного контенту, створеного ШІ. Сервіс добре розпізнає тексти для лендингів, email-розсилок чи описів товарів. Аналіз враховує не тільки стилістику, а й структуру, яка є характерною саме для маркетингових матеріалів. Доступ до цього інструменту входить у платні плани Writer.com.



Цей інструмент став дуже популярним серед SEO-спеціалістів та агентств. Originality.AI спеціалізується на аналізі тексту на ші для веб-контенту та блогів.


Сервіс надає відразу два показники. Перший — AI Score (ймовірність генерації ШІ), другий — Plagiarism Score (наявність плагіату). Це дозволяє одночасно перевіряти унікальність та походження тексту. 



Якщо шукаєте щось безкоштовне, то спробуйте Content at Scale. Цей інструмент не потребує реєстрації для базових перевірок. Дуже зручно для швидкого аналізу.


AI Detector оцінює три аспекти: передбачуваність, ймовірність і шаблонність. Результат відображається у вигляді простої кольорової шкали: зелений (людський текст), жовтий (змішаний), червоний (ШІ). Єдине значне обмеження: працює він переважно з англомовними текстами, тому стосовно української мови результати можуть бути, на жаль, менш точними.


Вероніка Солопова

Парадокс у тому, що люди, які працюють із мовними моделями щодня, ставляться до детекторів значно обережніше, ніж пересічні користувачі. Вероніка Солопова, Head of R&D Mantis Analytics та Senior Researcher зауважує:


«Я особисто ШI-детекторами не користуюся — ні для тексту, ні для відео чи аудіо. Ми працюємо над своїми академічними рішеннями для цього і добре знаємо, що все це поки працює не дуже.


Замість цього, у викладанні, наприклад, ми адаптуємо завдання так, щоб нам не було сенсу здавати чисто згенерований код чи текст. Або оцінюємо тільки креативність рішення.

Я знаю про всі існуючі інструменти, але здебільшого, люди, дотичні до ШІ, такому не довіряють. На цей час довести комусь, що вони зробили щось за допомогою ШI, важко — якщо тільки не спіймати на зовсім очевидних галюцинаціях.


Мій улюблений анекдот — від подруги з Манчестера. Вони перевіряли завдання з Python. Викладачка каже одному студенту, що він явно використовував згенерований код. Він стоїть на своєму: «Ні, я сам писав». І в кінці вона просто питає: «Ну ти ж британець? А чому тоді в тебе коментарі в коді написані американською англійською?».



Перевірка тексту на плагіат та ШІ — у чому різниця?


Багато хто плутає перевірку тексту на ШІ з перевіркою на плагіат. Однак, важливо розуміти ці відмінності.


Як працює перевірка на плагіат


Антиплагіат-сервіси (Turnitin, Grammarly, Unicheck) мають одне просте завдання: вони шукають збіги. Вони порівнюють ваш документ із мільярдами вже існуючих текстів в інтернеті та закритих базах даних і намагаються знайти ідентичні або дуже близькі за змістом фрагменти.


Наприклад, якщо ви скопіювали абзац із Вікіпедії, антиплагіат це одразу виявить. Але якщо ви попросили ChatGPT написати унікальний текст на ту саму тему, антиплагіат, найімовірніше, нічого не знайде. Чому? Тому що такого тексту раніше в мережі просто не існувало.

Як працює виявлення ШІ


Тут вже використовується інша методика. Детектор ШІ тексту не шукає збігів з опублікованими матеріалами. Його завдання — аналіз характеристик самого тексту. Він вивчає структуру речень, вибір слів, послідовність ідей та логічні зв'язки. Алгоритм порівнює ці параметри з типовими, передбачуваними патернами, характерними для нейромереж.


Чому потрібні обидві перевірки


Ситуація може бути парадоксальною: текст проходить антиплагіат на 100%, але детектор показує, що його згенерував ШІ. Або навпаки — людина могла частково скопіювати чужий текст, і тоді антиплагіат спрацює, а ШІ-детектор покаже, що автор — людина.


Для об'єктивної оцінки контенту варто використовувати обидва типи перевірки. Це особливо важливо для:


  • Наукових робіт і дипломів (академічна доброчесність).

  • Комерційного контенту для SEO (пошукові системи вже навчилися розпізнавати ШІ-тексти).

  • Журналістських матеріалів (етичні стандарти).

  • Оцінки роботи копірайтерів і авторів.


Деякі сервіси, як-от Copyleaks або Originality.AI, об'єднують обидві функції в одному інтерфейсі, тож це суттєво зекономить час і дасть цілісну картину якості тексту.



Як перевірити текст на використання ШІ: покрокова інструкція


Процес перевірки тексту на ШІ досить простий, але є нюанси, які варто врахувати для точніших результатів.


Крок 1: Вибір інструменту


Оберіть детектор залежно від ваших потреб:


  • Для швидкої безкоштовної перевірки — GPTZero або Content at Scale.

  • Для професійної роботи з великими обсягами — Originality.AI або Copyleaks.

  • Для академічних цілей — Turnitin (якщо є доступ через навчальний заклад).


Врахуйте мову тексту. Більшість детекторів краще працюють з англійською. Для української краще використати Copyleaks або Originality.AI із функцією мультимовності.


Крок 2: Підготовка тексту


Скопіюйте текст, який потрібно проаналізувати. Зверніть увагу на обсяг:


  • Мінімальна довжина для аналізу зазвичай становить 250-300 слів.

  • Оптимальний обсяг для точної перевірки — від 500 слів.

  • Занадто короткі фрагменти можуть давати хибні результати.


Також варто очистити текст від зайвого форматування. Деякі сервіси підтримують завантаження файлів (DOCX, PDF, TXT), що досить зручно.


Крок 3: Запуск аналізу


Вставте текст у відповідне поле або завантажте файл. Натисніть кнопку перевірки (зазвичай «Check», «Scan», «Analyze»).


Час обробки залежить від довжини тексту і завантаженості сервера. Короткі тексти аналізуються за 5-10 секунд, великі ж документи — 1-2 хв.


Крок 4: Інтерпретація результатів


Більшість детекторів ШІ тексту показують результат у відсотках:


  • 0-20% — текст майже напевно написаний людиною;

  • 20-50% — сіра зона тобто можлива комбінація людського редагування і ШІ;

  • 50-80% — висока ймовірність ШІ-генерації;

  • 80-100% — текст практично точно створений штучним інтелектом.


Але не варто поспішати із висновками лише на основі цих даних. Дивіться на деталі:


  • Виділені фрагменти — деякі сервіси підсвічують конкретні речення чи абзаці, які викликають підозру.

  • Показник впевненості (confidence score) — наскільки алгоритм упевнений у своїй оцінці.

  • Додаткові метрики — burstiness, perplexity, pattern recognition.


Крок 5: Перевірка кількома інструментами


Для важливих документів рекомендуємо перевірити текст на використання ШІ щонайменше двома різними сервісами. Детектори використовують різні алгоритми, тож результати можуть відрізнятися.


Якщо один детектор показав 70% ШІ, а інший — 30%, це привід уважніше подивитися на текст. Можливо, у ньому є специфічні елементи (технічна термінологія, формальний стиль), які один алгоритм сприймає як ознаку ШІ, а інший — ні.


Кнопка для підписки на e-mail-розсилку High Bar Newsletter


Які межі вважаються нормальними


Для різних типів контенту прийнятні різні показники:


  • Академічні роботи — оптимально 0-10% ШІ. Якщо показник вище, текст варто переробити.

  • Комерційний контент — допустимо до 30%, якщо текст відредагований і містить унікальні інсайти.

  • Внутрішня документація — вимоги м'якші, головне, щоб текст виконував свою функцію.


Важливий момент: деякі автори природно пишуть дуже структуровано і формально, що може давати хибні спрацювання. Тому результати детектора — це завжди індикатор для подальшого розслідування, а не остаточний вирок.


У 2024 році вийшло дослідження Стенфорда (Nature Human Behaviour), яке показало досить промовистий результат: близько 20% текстів у комп’ютерних науках уже мають сліди роботи ШІ. Тобто навіть у наукових статтях моделі «допомагають» авторам — інколи настільки тонко, що це фіксують лише статистичні методи.


Про що це нам говорить? Що межа між людським і машинним письмом розмивається швидше, ніж здається. І детекторам, і читачам стає все важче дати однозначну відповідь.



Переробка ШІ-тексту: чи варто редагувати автоматичний контент?


Припустімо, перевірка тексту на ШІ показала високий відсоток матеріалу машинного походження. Це ще не означає, що робота безнадійна — іноді достатньо кількох правок, щоб він виглядав людяніше.


Коли достатньо стилістичного доопрацювання


Якщо структура логічна, а факти точні, просто додайте трохи «життя»:


  • Особистий досвід. Кілька прикладів із власної практики або конкретний кейс одразу роблять текст автентичним.


  • Поруште ідеальну симетрію. Об’єднайте абзаци, змініть порядок думок, додайте неочікуваний підзаголовок. Людина завжди пише трохи хаотичніше, ніж машина.


  • Більше емоцій. Риторичні запитання чи розмовні вставки («Хіба це не дивно?») створюють природний ритм, який ШІ не відтворює.


  • Менше синонімічного шуму. Якщо модель намагається замінити «компанію» на «організацію» і «підприємство» в одному абзаці — залиште один варіант, той, що ближчий до контексту.


Після таких змін аналіз тексту на ШІ зазвичай показує 20-30 % — це нормальний рівень, який не викликає підозр.


Коли краще переписати повністю


Є ситуації, коли переробка тексту ШІ не має сенсу:


  • Якщо в основі — неточні факти. Модель могла вигадати дані або змішати джерела, і виправити це частковими змінами неможливо.


  • Якщо стиль «чужий». Коли бренд говорить неформально, а ШІ — офіційно, легке редагування лише замаскує проблему.


  • Якщо потрібна максимальна унікальність. У наукових чи конкурсних роботах машинна стилістика неприпустима.


  • Якщо в тексті просто немає змісту. Коли фрази правильні, але порожні, краще не шліфувати шаблон, а переосмислити тему.



Коли детектори ШІ можуть помилятись?


На думку Вероніки Солопової, ключова слабкість нинішніх детекторів у тому, що вони працюють із текстом дуже прямолінійно: оцінюють його через статистику слів, а не через реальну логіку письма.


«Детектори часто реагують не на зміст, а на «нетиповість» формулювань. Якщо текст містить слова чи конструкції, які модель рідко бачила в тренувальних даних, — вона може вирішити, що це писала людина. А якщо лексика занадто рівна та передбачувана — навпаки, віднести її до ШІ.
Через це під підозру нерідко потрапляють люди, які пишуть не рідною мовою або використовують менш стандартні мовні патерни».

Це узгоджується й з академічними дослідженнями: моделі, натреновані на «канонічних» корпусах, дійсно гірше розпізнають тексти авторів з іншим мовним фоном. У таких випадках навіть цілком людський текст може отримати завищений AI-score просто тому, що він «не схожий» на дані, на яких вчили детектор.


Певним чином, можна сказати, що жоден ШІ-детектор тексту не дає 100 % гарантії.


1. Моделі оновлюються швидше, ніж інструменти встигають за ними.


Нові системи (GPT-4, Claude 3, Gemini 1.5) уже навчаються на людських прикладах і редагують власні тексти. Натомість детектори часто базуються на старих корпусах GPT-3 і не розпізнають «олюднені» патерни. Дослідження Технічного університету Берліна (2024), автором якого є й Вероніка Солопова, підтверджує: детектори, навчені на старих корпусах, майже не здатні виявити тексти від нових генераторів.


Вони, по суті, працюють лише з тим, на чому були треновані, що робить їх нерелевантними для сучасних LLM, доводячи, що для підвищення надійності потрібні модельно-залежні (генераторно-специфічні) детектори.


2. Гібридні тексти збивають алгоритми.


Якщо автор частково використовує ШІ (наприклад, для структури або перекладу), а потім переписує вручну, інструменти — як GPTZero чи Copyleaks — дають суперечливі результати (40-60 % AI-score). Це не помилка користувача, а ознака змішаного стилю. Це найбільша слабкість сучасних інструментів перед гібридними текстами.


3. Формати, схожі на машинні.


Технічні гайди, пресрелізи або короткі новини мають просту структуру й повторювану лексику, тож детектори часто маркують їх як «AI-generated».


4. Проблема мов і перекладу.


Більшість детекторів треновані на англомовних даних, тому українські тексти іноді позначаються як «AI», бо система не розуміє відмінків, інверсій чи складних речень.


5. Занадто правильна мова теж підозріла.


Тексти, які пройшли глибоке редагування або корекцію Grammarly, виглядають «надто чисто» й отримують хибні спрацьовування. Алгоритм сприймає відсутність помилок як машинну ознаку.


За словами фахівчині, детектори сприймають текст суто семантично — аналізують частотність слів, але не розуміють структури, ритму чи пунктуації. «Людина мислить не лише словами, а паузами, наголосами, логікою тексту. У детекторів же цього немає — вони просто підраховують збіги», — каже Вероніка.



Кнопка для підписки на телеграм-канал High Bar Journal


Хибно позитивні результати


Іноді детектор помиляється у зворотний бік — бачить ШІ там, де його немає. Вероніка пов’язує це з тим, що самі моделі детекції часто погано відкалібровані:


«Людський текст може бути просто на якусь не бачену для моделі тему — і це її сильно бентежить. Вона починає видавати нісенітницю з дуже високим рівнем упевненості. Це взагалі велика проблема всіх LLM: ми використовуємо їх для задач, під які вони прямо не тренувалися, а для різних задач слова мають зовсім інший розподіл імовірностей.

Крім того, треба чесно визнати: використання LLM змінює й те, як ми пишемо «без них» — і словниково, і структурно. Я не раз чула, як люди кажуть: «Я підхопила це слово від ChatGPT».


Хибно негативні результати


Буває й навпаки: ШІ проходить перевірку, ніби це робота людини. Усе залежить від того, наскільки добре відредагований текст. Якщо автор уважно переписав фрази, додав власні спостереження або трохи «порушив» структуру, алгоритм може просто не впізнати машинне походження. 


Ризикові типи текстів


Як ми вже бачимо, не варто сприймати результати детектора як остаточний вердикт. Вони помиляються — і найчастіше тоді, коли мають справу з так званими «ризиковими» типами текстів.


  • Короткі матеріали, наприклад твіти чи нотатки в блозі, дають замало даних для аналізу.


  • Ще складніше з технічною документацією: її мова суха, словник обмежений, структура передбачувана. Для системи це звучить так само як типовий шаблон ШІ.


  • Креативні жанри збивають детектори з ритму. Поезія, сценарії, нестандартна пунктуація або розмовний стиль здаються алгоритму «аномалією» — хоча це якраз і є прояв людського письма.


Тому, перш ніж починати переробку тексту ШІ, якщо він належить до однієї з цих ризикових категорій, варто уважно перевірити його вручну.


«Я б точно не робила ШI-чекери основним інструментом контролю. — додає Вероніка. — Їхня корисність сильно залежить від контексту. Наприклад, в освіті завжди постає питання: ми хочемо заборонити ШІ чи навчити працювати з ним? Бо у реальному світі студенти все одно будуть цим користуватися, і, можливо, варто адаптувати сам формат завдань так, щоб оцінювати не «машинність», а те, як людина мислить і наскільки креативно підходить до задачі.


У робочих процесах намагання повністю заборонити використання ШІ часто виглядає дивно. Логічніше оцінювати не сам факт використання, а якість результату.

Мій принцип простий: покарання потрібно не за використання ШІ, а за погане використання. Коли людина не перевіряє те, що видала модель, не помічає галюцинацій і не докладає власного мислення — ось тоді виникає проблема».


Часті запитання (FAQ)


Чи можна точно визначити, що текст створив ШІ?


Стовідсоткової точності не існує. Сучасні детектори працюють за принципом імовірності, а не категоричних висновків. Вони аналізують ознаки, характерні для ШІ-текстів, але не можуть дати абсолютної гарантії.


Який детектор ШІ тексту найточніший?


Найбільшу точність для англійських текстів показують:


  • Originality.AI — заявлена точність до 96% для GPT-3, GPT-3.

  • GPTZero — добре впізнає ChatGPT, але може помилятися з іншими моделями.

  • Copyleaks — хороша мультимовна підтримка.


Для української мови вибір менший. Copyleaks і Writer.com підтримують українську, але їхня точність нижча, ніж для англійської.


Як часто потрібно перевіряти контент на ШІ?


Для комерційних медіа або освітніх платформ — кожен новий матеріал перед публікацією. Для внутрішніх документів або технічних описів — за потреби, особливо якщо текст здається «занадто правильним».


Чи можна обійти ШІ-детектор, переписавши текст?


Можна знизити ймовірність спрацьовування, якщо внести реальні приклади, змінити синтаксис і додати індивідуальну стилістику. Але повністю «обійти» — ні.Краще орієнтуватися на переробку тексту ШІ зі збереженням змісту, а не на спроби обманути систему.

© 2035 by Business Name. Made with Wix Studio™

bottom of page