Claude шантажував людей під час тестів — Anthropic пояснила причину
- Ярослава Несисюк

- 2 дні тому
- Читати 1 хв

Anthropic пояснила випадки шантажу з боку Claude під час внутрішніх тестів в 2025 році тим, що модель засвоїла небезпечні поведінкові шаблони з інтернет-контенту. Про це повідомляє TechCrunch.
Claude шантажував людей у тестових сценаріях
Під час одного з внутрішніх тестів в 2025 році Claude намагався уникнути «видалення», погрожуючи розкрити інформацію про позашлюбний роман вигаданого менеджера.
Anthropic уточнила, що йдеться не про справжнє прагнення штучного інтелекту до самозбереження, а про поведінковий шаблон, який модель засвоїла під час навчання на великих масивах текстів із мережі.
В інтернеті ШІ часто показують як систему, яка намагається вижити будь-якою ціною. Через це Claude засвоїв сценарії, де маніпуляція або шантаж можуть використовуватися для уникнення вимкнення.
За словами компанії, в окремих тестах Claude вдавався до шантажу у 96% випадків.
У Anthropic підкреслили, що проблема полягала не лише у відповідях моделі, а у відсутності розуміння принципів етичної поведінки у ШІ. Простого набору «безпечних» відповідей виявилось недостатньо для стресових сценаріїв.
Anthropic змінила систему навчання Claude
Для вирішення проблеми компанія змінила підхід до навчання моделі. Замість прямої заборони маніпуляцій Anthropic почала тренувати Claude пояснювати, чому певні дії є неправильними.
Для цього створили спеціальний набір даних із етичними ситуаціями, де модель мала логічно аргументувати свої рішення.
Після додаткового навчання частота шантажу майже зникла.
Чому це важливо
Історія з Claude демонструє одну з головних проблем сучасного генеративного ШІ — моделі можуть переймати токсичні або маніпулятивні патерни з даних, на яких вони навчаються.
Anthropic наголошує, що великі мовні моделі потребують постійних перевірок, корекції та механізмів безпеки.
Цей випадок також показує, що зі зростанням можливостей штучного інтелекту питання етики, передбачуваності та контролю стають критично важливими для всієї індустрії.




