Національна LLM в Україні вийде в бета-тестування навесні 2026 року
- Катерина Мещерякова

- 1 день тому
- Читати 2 хв

В Україні триває розробка національної великої мовної моделі, бета-тестування якої планують запустити навесні 2026 року за підтримки приватного технічного партнера. Про це повідомив колишній керівник Мінцифри Михайло Федоров у своєму Telegram-каналі.
Хто і за якою моделлю розробляє національну LLM
Місія проєкту — входження України до трійки світових лідерів у розвитку штучного інтелекту. Один із ключових кроків — створення власної великої мовної моделі, навченої на унікальних українських даних. Подібна розробка потребує значних ресурсів, які в умовах війни не можуть фінансуватися з державного бюджету. Тому технічним партнером проєкту стала компанія Київстар. Вона буде фінансувати створення моделі, а далі її передадуть державі.
Для навчання обрали сімейство моделей Gemma від Google, компанія визначена стратегічним партнером. Технології адаптують до української мови та національного контексту. Якість і безпечність моделі перевірятиме група незалежних експертів із різних галузей, які оцінюватимуть технічні характеристики, етичність, рівень володіння українською мовою та розуміння національного контексту.
Збір даних, юридичний фреймворк і створення бенчмарків
Нині триває ключовий етап розробки — збір даних для навчання великої мовної моделі. Інформації з відкритого інтернету недостатньо для забезпечення високої якості, тому команда співпрацює з державними органами, медіа, університетами та іншими інституціями. Йдеться про терабайти унікальних даних, які мають забезпечити релевантність і точність відповідей моделі.
Паралельно формується юридичний трек, що має гарантувати відповідальну роботу з даними, переданими для тренування LLM. Експертна група вже працює над створенням власних бенчмарків, які слугуватимуть тестами для оцінки та подальшого покращення якості мовної моделі. Подібні кроки необхідні для постійного контролю ефективності та безпеки майбутнього інструменту.
Терміни запуску та вибір назви української LLM
У повідомленні Михайла Федорова йдеться, що у січні 2026-го вже будуть готові:
перша база текстів для тренування LLM;
покращений токенізатор — інструмент, який розділяє слова на елементи, щоб LLM обробляла мову швидше та продуктивніше;
власні бенчмарки для оцінки якості.
Назву для LLM обиратимуть самі українці шляхом голосування в застосунку Дія, старт якого заплановано на січень. Реалізація проєкту має сприяти переходу України до формату AI-first держави.



