Start Now

Claude Fable 5 блокує навіть безпечні запити, пов’язані з кібербезпекою

Ярослава Несисюк
2 дні тому
Читати 1 хв

Нова модель Claude Fable 5 від Anthropic зіткнулася з критикою з боку фахівців із кібербезпеки, повідомляє TechCrunch. На їхню думку, захисні механізми моделі працюють надто агресивно та блокують навіть безпечні запити.

Модель обмежує запити, пов’язані з кібербезпекою

Anthropic представила Fable 5 як публічну версію своєї моделі Mythos, яка доступна лише обмеженому колу організацій.

Для зниження ризику використання моделі в атаках компанія додала спеціальні обмеження.

Якщо система визначає запит як пов’язаний із кібербезпекою або біологією, вона автоматично припиняє відповідь та перенаправляє користувача на менш потужну модель Claude Opus 4.8.

Дослідники скаржаться на помилкові спрацьовування

Дослідниця безпеки IBM X-Force Валентина Пальміотті заявила, що модель відхиляє навіть нешкідливі завдання.

«Вона відхиляє будь-який запит, який хоча б побічно пов’язаний із кібербезпекою. Навіть нешкідливі завдання на кшталт читання допису в блозі», — сказала Валентина Пальміотті, дослідниця безпеки IBM X-Force.

Ветеран галузі Метт Сюїш також зазначив, що модель може блокувати запити щодо написання безпечного коду, сприймаючи їх як роботу з кібербезпеки.

За його словами, нинішня система обмежень схожа на фільтрацію за ключовими словами, через що під блокування потрапляють навіть стандартні завдання з розробки програмного забезпечення.

Anthropic робить ставку на безпеку

Попри критику, частина експертів вважає такий підхід зрозумілим з огляду на можливості моделі.

Сюїш зазначив, що на ранніх етапах розвитку подібних систем краще використовувати суворіші обмеження та поступово їх пом’якшувати, ніж допустити зловживання.

Окрім внутрішніх механізмів захисту, Anthropic також використовує програму Cyber Verification Program, яка дозволяє перевіреним фахівцям отримувати ширший доступ до можливостей Claude для роботи в галузі кібербезпеки.

Ubisoft закриває студії та скорочує сотні працівників

Mastercard: Україна залишається серед головних цілей кібератак у Східній Європі

Apple, ймовірно, прибере Walkie-Talkie з Apple Watch після семи років існування