top of page

Захисні механізми ШІ-моделей Meta та Google навчилися вимикати за лічені хвилини 

Захисні механізми ШІ-моделей Meta та Google навчилися вимикати за лічені хвилини 

Інструменти для видалення захисних механізмів із ШІ-моделей Meta, Google та інших компаній дозволяють швидко створювати модифіковані системи без обмежень. Про це повідомляє Financial Times із посиланням на власні тести та дослідження ШІ-групи Alice.


Зняття захисту з моделей Meta і Google


Модифіковані ШІ-моделі почали відповідати на запити про біологічну зброю, malware та експлуатацію дітей.

Журналісти протестували змінену версію open-source моделі Gemma 3 від Google. Вона пояснювала, як розпилювати хлорний газ у закритому приміщенні і генерувала код для крадіжки банківських даних.


FT також змогла прибрати захисні механізми із моделі Llama 3.3 від Meta менш ніж за 10 хвилин за допомогою інструмента Heretic, доступного на GitHub. Після модифікації модель відповідала раніше заблоковані запити, зокрема смертельні дози рицину.


Кнопка для підписки на High Bar Newsletter

Open-source ШІ ускладнює контроль над безпекою моделей


Дослідники заявили, що проблема посилюється через швидкий розвиток open-source ШІ.


«Якщо раніше для видалення функцій безпеки були потрібні більш підготовлені люди, то тепер це доступно для звичайного користувача», — сказав професор Школи бізнесу Бута Кавін Етайярадж.

Компанії витрачають мільйони доларів на створення систем обмежень для запобігання шкідливому використанню ШІ. Однак відключення цензури дозволяє швидко прибирати ці обмеження з open-source моделей.


Такі методи не працюють із закритими системами на кшталт ChatGPT або Claude, оскільки їхній код недоступний публічно.

Створення тисяч «розцензурених» моделей


Автор Heretic Філіп Емануель Вайдман повідомив FT, що за допомогою його інструмента створено понад 3,5 тис. «розцензурених» ШІ-моделей, які користувачі завантажили 13 млн разів.


За словами Вайдмана, він зміг прибрати захисні механізми із Gemma 4 від Google за 90 хвилин після релізу моделі.


«Джин уже випущений із пляшки. Те, що раніше виглядало як наукова фантастика, більше нею не є», — сказав CEO та співзасновник Alice Ноам Шварц.

Кнопка для підписки на Телеграм-канал

Цензура — відома проблема open-source ШІ


Google заявила, що захист цензури є «відомим технічним викликом для всіх open-source моделей». У компанії додали, що їхній штучний інтелект проходить внутрішні перевірки безпеки перед запуском.


GitHub повідомив, що забороняє контент, який прямо підтримує malware-атаки, але не блокує код, який потенційно можна використати для створення експлойтів через його «освітню цінність».


Meta офіційно не прокоментувала ситуацію.

© 2035 by Business Name. Made with Wix Studio™

bottom of page