Як ChatGPT та Claude конкурують у генерації коду — практичне порівняння

Катерина Шевченко
2 години тому
Читати 8 хв

Станом на кінець 2025 року на ринку AI серед провайдерів моделей для розробки та генерації коду переважно лідирують три гравці: OpenAI, Anthropic та Google. Вони змагаються не лише в ефективності та здібностях моделей, а й у швидкості генерації відповіді, вартості токенів, довжині контексту та відповідно стабільності під час довгих сесій. У прикладному сенсі це найчастіше зводиться до вибору chatgpt vs claude для роботи з кодом: швидкість, контекст і стабільність у довгих сесіях.

Владислав Прудіус, Software Engineer в освітній команді Genesis, порівняв GPT-5.2 і Claude Opus 4.5 на реальних продакшн-кейсах із кодових баз команди: від багів у SQL/MongoDB до логування та нового модуля у внутрішній CRM. Нижче у матеріалі HBJ — методологія тесту, 4 задачі з конкретними результатами по якості, швидкості та вартості, і висновки, які можуть допомогти обрати модель під сценарії розробки.

Gemini vs ChatGPT vs Claude: лідери бенчмарків для коду

За більшістю публічних бенчмарків для генерації коду зараз лідирують:

OpenAI: лінійка GPT‑5.x (зокрема GPT‑5.2, включно з Codex‑режимами для коду).
Anthropic: Claude Sonnet 4.5 та Claude Opus 4.5, де Opus є топовою моделлю в категорії reasoning і показує високі результати в агентному режимі.
Google: Gemini 3 Pro закриває широкий спектр кейсів і в частині кодових бенчмарків конкурує з OpenAI та Anthropic.

Далі в статті звузимо фокус і порівняємо напряму GPT-5.2 та Claude Opus 4.5.

ChatGPT vs Claude: короткий огляд

ChatGPT і Claude — це розмовні асистенти на базі великих мовних моделей. Якщо дивитися прагматично, різниця між ними частіше не в «розмірі моделі», а в тому, як саме виробник налаштовує поведінку моделі та які принципи закладає в підхід до безпечності й надійності.

OpenAI використовує підхід, де модель донавчають так, щоб вона краще виконувала інструкції, зокрема через навчання з підкріпленням на основі відгуків людей (RLHF).

Anthropic, зі свого боку, описує «конституційний» підхід: модель орієнтується на набір письмових принципів, проходить етап самокритики/самовиправлення, а далі — навчання з підкріпленням із використанням оцінювання від іншої моделі (RLAIF).

Порівняння флагманських моделей в «реальних» умовах

Кожна задача нижче була протестована на кодових базах наших продакшен-проєктів, що надає певне розуміння, як найкращі LLM наразі справляються в умовах великих проєктів, недостатньої документації та відсутності ідеальних промптів.

Оскільки це реальні проєкти, ми вочевидь не можемо поділитися повними діалогами з LLM агентами. Проте всі 4 використані промпти для кожної задачі ми опублікували на GitHub.

Task 1: Проблеми збереження даних в БД через API

Опис

Нещодавно ми мали проблему в одному з бекенд-сервісів: оновлення певного запису не зберігалося в базі даних, хоча помилок не було й поверхнево все виглядало коректно. Це API-сервіс на TypeScript, відповідальний за менеджмент даних про профілі користувачів та їх збереження в SQL-базі. У нашому випадку через особливості даних користувачів вони зберігаються у двох окремих таблицях.

Ми надали LLM-агенту потрібні логи та приклад HTTP-запиту, який дозволяв відтворити проблему, і поставили завдання розібратися з причиною та вирішити її.

Результат

Обидві моделі успішно впорались із завданням: виявили, що проблема була в запиті INSERT … ON DUPLICATE KEY UPDATE — для ключових полів не була вказана функція VALUES(), через що оновлені дані не потрапляли в БД. Claude Opus 4.5 впорався за 42 секунди: знайшов і пофіксив проблему та використав ~120,000 токенів у процесі — це майже на 600,000 токенів менше, ніж GPT 5.2. Остання модель, своєю чергою, запропонувала більш коректне рішення, використовуючи вже наявну в проєкті функцію-утиліту для VALUES(), і зробила це лише за 1 хвилину, однак потім витратила ще 3 хвилини на додавання інтеграційного тесту для відповідної операції збереження змін, про який ми її не просили.

Task 2: «Task not accessible» — проблема консистентності в MongoDB

Опис

Наступна задача пов’язана з іншим проєктом — повноцінним монорепозиторієм із back-end + front-end на express.js та Vue.js, розміром понад 800,000 токенів.

Кейс також стосувався інциденту, і завданням для LLM було знайти причину та вирішити проблему. Загалом це навчальна платформа, і ситуація полягала в тому, що для деяких занять були відсутні деталі про певні завдання всередині них: для користувачів це виглядало як помилка, і вони не могли завершити заняття.

Результат

У цьому випадку з проблемою зміг розібратися лише GPT 5.2: коректно припустив, що причина, найімовірніше, у самих даних у MongoDB, а саме — в невідповідності ключів між колекціями. Однак модель не надала готового рішення, а натомість запропонувала зробити фікс у наступній інтеракції: «If you want, I can now:...», і зосередилась на іншій потенційній причині, яка насправді не була релевантною до задачі.

Claude Opus 4.5 натомість некоректно зрозумів проблему і пішов іншим шляхом: намагався виправити запит до бази даних замість аналізу кореневої причини. Обидві моделі використали близько 600,000 токенів і впорались за 5 хвилин та 2 хвилини відповідно (GPT 5.2 і Claude Opus 4.5).

Task 3: Налаштування project‑wide логування

Опис

Третя задача передбачала налаштування observability сетапу для ще одного нашого проєкту. Це чималий репозиторій внутрішніх адмінпанелей, розроблений за допомогою кастомного full stack-рішення на Svelte — понад 500 файлів і майже 650,000 токенів.

Завданням, яке ми надали LLM, було налаштувати всі потрібні інструменти для логування в цьому проєкті (ми надали список конкретних бібліотек) та замінити всі наявні console.log на використання нового налаштованого логера на Pino. Ключовою складністю було коректно реалізувати логування і для сервера, і для браузера, а також перенести велику кількість файлів на новий підхід.

Результат

Із цим завданням обидві моделі впорались на схожому рівні: налаштували коректний сетап із вказаних бібліотек та інструментів моніторингу, однак жодна не змогла повноцінно перевести проєкт на новий підхід до логування. GPT 5.2 працював особливо довго: після 11 хвилин роботи модель зупинилась, так і не завершивши задачу — окремо запромптили її продовжити. Загалом GPT 5.2 обрав надто складний підхід і використав чимало абстракцій, зокрема абстрактний Logger, власні рівні логування та адаптер для бібліотеки Pino — це значно відрізняється від простих і читабельних рішень, які вже присутні в проєкті. Opus 4.5 впорався за 12 хвилин і запропонував більш чистий та зрозумілий код, консистентний із практиками цього проєкту, який використовував нативні методи бібліотеки Pino. Обидва рішення обійшлись приблизно в $6.5.

Task 4: Імплементація нового модуля у внутрішній CRM

Опис

Остання задача була в межах попереднього проєкту з внутрішніми адмінпанелями із Task 3. Завдання полягало в тому аби LLM реалізувала новий модуль до існуючої внутрішньої CRM — це передбачало 2 нові сторінки та понад 4 фронтенд-компонентів. Додатковою складністю було те, що проєкт використовує чимало спільних кастомних компонентів і функціоналу, а також нетривіальні підходи та технології (зокрема Svelte, Telefunc тощо)

Результат

Обидві моделі створили коректну файлову структуру із 7 файлів, та змогли інтегруватись з існуючою схемою в базі даних (використали 5 SQL таблиць в межах цього модулю), для перегляду та оновлення відповідних даних подій для нового модуля CRM. Також обидва рішення були дійсно консистентними з іншими адмін панелями, і використовували коректні компоненти та підходи. Однак GPT 5.2 надав не повне рішення — не реалізував форму для оновлення даних події і натомість запропонував це зробити окремо: «If you want, I can move on to the next todo: implementing the real EventEditModal using…». Також, GPT 5.2 забув оновити навігацію для адмінпанелі, тож нові сторінки не були доступні через меню.

Claude Opus 4.5 також забув оновити навігацію, проте не припустився решти помилок — рішення було загалом коректним та відповідало завданню. Також, Opus 4.5 в процесі генерації надавав, за моєю суб’єктивною оцінкою, кращі пояснення до змін, наприклад:

### Files Created:

1. src/routes/(panels)/management/crm/events/filters.ts - Filter schema with multi-select filters for project, domain, and category.
2. src/routes/(panels)/management/crm/events/page.telefunc.ts - Data provider with Kysely queries for events CRUD, stakeholder management…

В той час як GPT 5.2 надавав надто великі та не такі структуровані пояснення (принаймні в даному кейсі). Моделі впорались за 13 та 19 хвилин відповідно, однак Claude Opus 4.5 обійшовся в ~3 рази дорожче — $16, GPT 5.2 за ~$5.4.

ChatGPT vs Claude: результати

У чотирьох продакшн-задачах, на яких ми протестували моделі, Claude Opus 4.5 показав стабільно вищу продуктивність: більше доведених до кінця змін у коді, краще розуміння контексту репозиторію та менше зайвого «If you want, I can…» порівняно з GPT-5.2. Також помітною перевагою моделі від Anthropic була швидкість вирішення завдань — у 2-4 рази вища, ніж у GPT 5.2.

Водночас GPT 5.2 теж є сильним інструментом: добре справляється з великим контекстом (тобто великими репозиторіями) і часто під час виконання пропонує додаткові кроки на кшталт тестів, документації або рефакторингу. Також рішення GPT були стабільно дешевшими: навіть попри те, що іноді модель використовувала у 2-5 разів більше токенів, GPT 5.2 загалом обходився у 2-3 рази дешевше (за винятком Task 3).

З цього можна зробити висновок, що обидві моделі є ефективними агентами та можуть суттєво допомогти з локалізацією і вирішенням проблем у коді, реалізацією нового комплексного функціоналу та загалом роботою у великій, складній кодовій базі. У нашому суб’єктивному тесті Claude Opus 4.5 виявився значно швидшим і в більшості випадків якіснішим, тоді як GPT 5.2 був повільнішим, але відчутно дешевшим і пропонував конкурентні рішення — інколи навіть кращі за Claude.

Загалом ринок AI дуже швидко змінюється, і з кожною новою frontier моделлю, лідер буде змінюватися, і з ним швидкість та якість відповідей. Важливий фактор вибору — те, наскільки модель вже інтегрована в інструменти розробки, якими користується команда. Тому варто вибудовувати культуру, де команда регулярно тестує нові AI-інструменти та підбирає найкращі підходи під конкретні задачі — лише так можна тримати темп із розвитком індустрії.

Часті запитання (FAQ)

Чи можна комбінувати ChatGPT і Claude для вивчення нових мов або технологій?

Так, комбінувати ChatGPT і Claude можна, і це ефективніше. Використовуйте ChatGPT для розбору термінів, базових прикладів і створення плану впровадження під ваш стек. Claude — для edge-кейсів, перевірки сумісності, міграції та оцінки ризиків.

Claude AI vs ChatGPT — хто краще розуміє контекст і помилки?

Якщо контекстом вважати довгу сесію, великі шматки коду й багатокрокові інструкції, то в практиці частіше стабільнішим виглядає Claude: він краще тримає рамки задачі й рідше робить зайві припущення. Якщо ж мова про пошук помилок у типових сценаріях і швидке пропонування фіксів та покращень (тести, рефакторинг), то ChatGPT часто дає більш продуктивний результат, але інколи з надмірною впевненістю — тому критичні місця варто перевіряти запуском тестів і мінімальним відтворенням багу.

Як Gemini впливає на конкуренцію між ChatGPT та Claude AI?

Gemini додає третю опцію від великого провайдера, тому вибір для команд частіше зводиться до того, що краще лягає в робочий процес: доступ, інтеграції, контроль витрат, зручність у щоденних інструментах (Gemini app/AI Studio/Vertex AI, Android Studio).

На практиці це зміщує конкуренцію в екосистему: команди частіше тестують 2-3 моделі на своїх кейсах і комбінують їх під задачі, особливо коли робоче середовище дозволяє швидко перемикатися між провайдерами (зокрема через інструменти на кшталт Antigravity).

Як ChatGPT та Claude конкурують у генерації коду — практичне порівняння

Gemini vs ChatGPT vs Claude: лідери бенчмарків для коду

ChatGPT vs Claude: короткий огляд

Популярні підходи до порівняння моделей у генерації коду

Обраний підхід до порівняння

Порівняння флагманських моделей в «реальних» умовах

Task 1: Проблеми збереження даних в БД через API

Опис

Результат

Task 2: «Task not accessible» — проблема консистентності в MongoDB

Опис

Результат

Task 3: Налаштування project‑wide логування

Опис

Результат

Task 4: Імплементація нового модуля у внутрішній CRM

Опис

Результат

ChatGPT vs Claude: результати

Часті запитання (FAQ)

Чи можна комбінувати ChatGPT і Claude для вивчення нових мов або технологій?

Claude AI vs ChatGPT — хто краще розуміє контекст і помилки?

Як Gemini впливає на конкуренцію між ChatGPT та Claude AI?