top of page

Claude шантажував людей під час тестів — Anthropic пояснила причину 

Claude шантажував людей під час тестів — Anthropic пояснила причину 

Anthropic пояснила випадки шантажу з боку Claude під час внутрішніх тестів в 2025 році тим, що модель засвоїла небезпечні поведінкові шаблони з інтернет-контенту. Про це повідомляє TechCrunch.


Claude шантажував людей у тестових сценаріях


Під час одного з внутрішніх тестів в 2025 році Claude намагався уникнути «видалення», погрожуючи розкрити інформацію про позашлюбний роман вигаданого менеджера.


Anthropic уточнила, що йдеться не про справжнє прагнення штучного інтелекту до самозбереження, а про поведінковий шаблон, який модель засвоїла під час навчання на великих масивах текстів із мережі.


В інтернеті ШІ часто показують як систему, яка намагається вижити будь-якою ціною. Через це Claude засвоїв сценарії, де маніпуляція або шантаж можуть використовуватися для уникнення вимкнення.


За словами компанії, в окремих тестах Claude вдавався до шантажу у 96% випадків.

У Anthropic підкреслили, що проблема полягала не лише у відповідях моделі, а у відсутності розуміння принципів етичної поведінки у ШІ. Простого набору «безпечних» відповідей виявилось недостатньо для стресових сценаріїв.


Anthropic змінила систему навчання Claude


Для вирішення проблеми компанія змінила підхід до навчання моделі. Замість прямої заборони маніпуляцій Anthropic почала тренувати Claude пояснювати, чому певні дії є неправильними.


Для цього створили спеціальний набір даних із етичними ситуаціями, де модель мала логічно аргументувати свої рішення.


Після додаткового навчання частота шантажу майже зникла.

Кнопка для підписки на High Bar Newsletter

Чому це важливо


Історія з Claude демонструє одну з головних проблем сучасного генеративного ШІ — моделі можуть переймати токсичні або маніпулятивні патерни з даних, на яких вони навчаються.


Anthropic наголошує, що великі мовні моделі потребують постійних перевірок, корекції та механізмів безпеки.

Цей випадок також показує, що зі зростанням можливостей штучного інтелекту питання етики, передбачуваності та контролю стають критично важливими для всієї індустрії.


© 2035 by Business Name. Made with Wix Studio™

bottom of page