Ґaйд із ШІ-термінів для розробників

Таїсія Красноштан
5 бер.
Читати 4 хв

Книга «Гайд із термінології» в жовтій обкладинці

Сучасні досягнення в штучному інтелекті відбуваються настільки швидко, що, здається, єдине, що рухається швидше — це безліч нових термінів та сленгових слів, які потрібно розшифровувати. Якщо ви досі не розрізняєте терміни «відкриті ваги» та «відкритий код», або не можете розібратися з таким поняттям як ШІ-дистиляція, не переживайте — цей глосарій допоможе. Редакція High Bar Journal склала основні терміни зі словника ШІ-термінів, який підготувало видання The Information.

Дистиляція (Distillation): процес перенесення можливостей великої моделі в меншу.

Дистиляція — це коли велика модель (так званий «вчитель») навчає більш компактну модель — «учня». Цей процес вимагає значних обчислювальних потужностей, оскільки потрібно одразу запускати обидві моделі. Водночас цей процес дозволяє зберегти потужність великої моделі в той час, як та працює з більш компактною. Таким чином, значно зменшується розмір моделі та витрати ресурсів.

Існує припущення, що DeepSeek використовував дистиляцію для створення моделі R1, «запозичивши» роботу OpenAI, що порушує їхні умови використання.

Плашка зі словосполученням Jevons Paradox

Парадокс Джевонса (Jevons Paradox): технології, що роблять використання ресурсів ефективнішим, можуть призвести до підвищення попиту на них.

Термін був уведений британським економістом Вільямом Стенлі Джевонсом у 19-му столітті, коли він помітив, що при більш ефективному використанні певних ресурсів (наприклад, вугілля на той час) попит на них може навіть зростати.

В сучасному контексті, наприклад, компанія DeepSeek використала більш ефективні чипи ШІ для тренування своєї моделі, при цьому їй вдалося використати менше чипів, ніж компаніям типу OpenAI. Однак, як зазначив CEO Microsoft Сатья Наделла, це не означає, що попит на чипи знизиться, навпаки, він може зрости, оскільки нові технології стимулюють ще більше інвестицій у чипи та інфраструктуру.

Відкриті ваги (Open weights): параметри моделі, які можна безкоштовно використовувати.

Коли компанія випускає відкриті ваги, це означає, що будь-хто може скористатися її моделлю. Відкриті ваги — це як «розпаковані» параметри, які дозволяють працювати з моделлю, але не охоплюють саму модель або дані для її тренування. Це не зовсім те ж саме, що й «відкритий код», коли доступні всі елементи: і код, і дані для тренування моделі.

Наприклад, компанії Meta, Mistral AI та DeepSeek вже випускали відкриті ваги для своїх моделей.

Плашка зі словосполученням Mixture of experts

Мікс експертів (Mixture of Experts): модель, яка активує лише деякі частини моделі залежно від задачі, що дозволяє економити ресурси.

Цей підхід дозволяє зменшити витрати на обчислювальні потужності, оскільки не всі параметри моделі працюють одночасно. Тільки деякі спеціалізовані частини (експерти) активуються в процесі роботи моделі, а решта залишаються пасивними. В результаті, з однією такою моделлю можна працювати дешевше. Альтернатива — це «щільні моделі», де всі параметри моделі працюють одночасно, і це часто призводить до значно вищих витрат обчислювальних ресурсів.

Параметри (Parameters): більшість моделей ШІ складається з мільярдів параметрів, що визначають її поведінку.

Кожна модель ШІ має свої параметри, які визначають, як вона буде реагувати на різні запити. Параметри «налаштовуються» під час навчання моделі знову і знову, допоки модель не виконає успішно певне завдання. Зазвичай, модель оцінюється за кількістю параметрів. Наприклад, Meta має модель Llama 405b з 405 мільярдами параметрів. Вважають що великі моделі працюють краще, але вони не завжди є оптимальними, оскільки займають більше пам’яті та потребують більше обчислювальних потужностей.

Міркування (Reasoning): коли модель може «думати» більше, щоби сформулювати більш точні відповіді.

Міркування — це можливість моделі не просто давати миттєві відповіді, а обробляти дані поетапно, формуючи «послідовність роздумів». OpenAI розпочала тренування моделей, щоби вони могли «міркувати» поетапно, і у своїх моделях серії o1 навіть приховує ці процеси мислення, щоб уникнути їх дистиляції.

Навчання з підкріпленням на основі зворотного зв’язку від людини (Reinforcement learning from human feedback — RLHF): люди вчать моделі бути більш корисними та адекватними.

Навчання з підкріпленням (Reinforcement Learning, RL) — це коли людина оцінює відповіді моделі та вказує їй, що саме потрібно змінити. Наприклад, якщо є два варіанти відповіді — один ввічливий, а інший — грубий, то людина вибирає той, що їй подобається, і ця інформація допомагає моделі підлаштовуватись під уподобання користувача.

Закони масштабування (Scaling laws): чим більше параметрів і даних, тим краще працює модель.

Чим більша модель, тим більше можливостей вона має. Наприклад, в мовних моделях перехід від GPT-3 до GPT-4 призвів до відкриття нових можливостей, як-от створення поезії чи розгадування загадок. Однак, існує припущення, що подальше додавання нових даних чи параметрів не дає таких значних покращень, як раніше.

Плашка зі словосполученням Test-time compute

Обчислення під час тестування (Test-time compute): обчислювальні потужності використовуються для вдосконалення моделі під час взаємодії з користувачем.

Тестування — це коли модель після навчання тестується ще більше, щоб покращити свої результати. У випадку з новими моделями OpenAI o1 цей процес використовує спеціальні обчислювальні потужності для того, щоб модель могла довше «думати», перш ніж дати кінцеву відповідь.

Плашка зі словосполученням Training data

Дані для навчання (Training data): тексти, зображення, відео тощо, що використовуються для тренування моделей ШІ.

Навчання моделей на даних — це основа для того, щоби вони могли вирішувати складні завдання. Спочатку моделі вчаться передбачати текст на основі величезної кількості даних, а потім їх «шліфують» на більш конкретних наборах даних, включаючи посилене навчання з людським зворотним зв'язком, щоби зробити їх ще точнішими та кориснішими.

Трансформер (Transformer): архітектура, що використовується в сучасних LLM.

Метод був представлений у статті Google Attention Is All You Need (2017). Трансформери здатні ефективно враховувати контекст, що зробило їх основою для LLM. Окрім тексту, вони використовуються і для генерації зображень, а також керування роботами.

Технології ШІ розвиваються шалено швидко, і ці нові терміни просто неможливо обійти. Відкриті ваги, дистиляція, розуміння та інші — ці концепти стають дедалі важливішими для розробників, і розуміння їх допоможе вам краще розбиратися в сучасних тенденціях ШІ та їхніх можливостях.

Плашка з лінком на підписку на телеграм-канал High Bar Journal