Захисні механізми ШІ-моделей Meta та Google навчилися вимикати за лічені хвилини
- Ярослава Несисюк

- 52 хвилини тому
- Читати 2 хв

Інструменти для видалення захисних механізмів із ШІ-моделей Meta, Google та інших компаній дозволяють швидко створювати модифіковані системи без обмежень. Про це повідомляє Financial Times із посиланням на власні тести та дослідження ШІ-групи Alice.
Зняття захисту з моделей Meta і Google
Модифіковані ШІ-моделі почали відповідати на запити про біологічну зброю, malware та експлуатацію дітей.
Журналісти протестували змінену версію open-source моделі Gemma 3 від Google. Вона пояснювала, як розпилювати хлорний газ у закритому приміщенні і генерувала код для крадіжки банківських даних.
FT також змогла прибрати захисні механізми із моделі Llama 3.3 від Meta менш ніж за 10 хвилин за допомогою інструмента Heretic, доступного на GitHub. Після модифікації модель відповідала раніше заблоковані запити, зокрема смертельні дози рицину.
Open-source ШІ ускладнює контроль над безпекою моделей
Дослідники заявили, що проблема посилюється через швидкий розвиток open-source ШІ.
«Якщо раніше для видалення функцій безпеки були потрібні більш підготовлені люди, то тепер це доступно для звичайного користувача», — сказав професор Школи бізнесу Бута Кавін Етайярадж.
Компанії витрачають мільйони доларів на створення систем обмежень для запобігання шкідливому використанню ШІ. Однак відключення цензури дозволяє швидко прибирати ці обмеження з open-source моделей.
Такі методи не працюють із закритими системами на кшталт ChatGPT або Claude, оскільки їхній код недоступний публічно.
Створення тисяч «розцензурених» моделей
Автор Heretic Філіп Емануель Вайдман повідомив FT, що за допомогою його інструмента створено понад 3,5 тис. «розцензурених» ШІ-моделей, які користувачі завантажили 13 млн разів.
За словами Вайдмана, він зміг прибрати захисні механізми із Gemma 4 від Google за 90 хвилин після релізу моделі.
«Джин уже випущений із пляшки. Те, що раніше виглядало як наукова фантастика, більше нею не є», — сказав CEO та співзасновник Alice Ноам Шварц.
Цензура — відома проблема open-source ШІ
Google заявила, що захист цензури є «відомим технічним викликом для всіх open-source моделей». У компанії додали, що їхній штучний інтелект проходить внутрішні перевірки безпеки перед запуском.
GitHub повідомив, що забороняє контент, який прямо підтримує malware-атаки, але не блокує код, який потенційно можна використати для створення експлойтів через його «освітню цінність».
Meta офіційно не прокоментувала ситуацію.





