Мінцифри: Будуємо фундамент для українського Gemini — коли запрацює національна LLM

07.01 16:49    
У2025 році Міністерство цифрової трансформації України поставило амбітну ціль — створити українську велику мовну модель (LLM). Це технологія, яка запустить бум ШІ-чатів та асистентів для держсервісів і бізнесів. Вони працюватимуть як Gemini та ChatGPT, тільки на базі українських даних.

Мінцифри вже пройшло шлях від концепції до реальних технічних рішень та розповідає, що відбувається «під капотом» проекту просто зараз.

Хто будує та на якій технології

Технічним партнером став Київстар. Компанія фінансує та веде розробку, а після фінішу — передасть мовну модель державі.

Фундаментом для нашої великої мовної моделі обрали сімейство моделей Gemma від Google. Це передові технології, які ми «українізуємо» — адаптуємо під нашу мову та контекст.
Читайте також: Майже 3600 родин Житомирщини скористалися “Пакунком малюка” - https://ruporzt.com.ua/oblasni_novini/234288-mayzhe-3600-rodin-zhitomirschini-skoristalisya-pakunkom-malyuka.html


Що відбувається зараз

Зараз триває «невидима», але найважливіша частина роботи — підготовка даних. Це головний виклик, адже якісна українська модель потребує не лише інформації з інтернету, а й глибоких знань з історичних архівів та інших письмових джерел.

Інформацію для навчання збираємо у державних інституціях, медіа, університетах та наукових закладах. Але значна частина важливих текстів досі існує лише на папері, що вчергове нагадує про потребу загальної цифровізації в країні.

Для незалежного контролю розробки моделі Мінцифри зібрало комітет експертів, які працюють за чотирма напрямами: науково-технічним, правовим, культурно-історичним та мовним. Їхнє поточне завдання — розробити професійні бенчмарки (систему тестування). Це дозволить переконатися, що модель навчена якісно.

Вже в січні 2026 року матимемо:

Першу базу текстів для тренування мовної моделі

Покращений токенізатор — інструмент, який ефективно розбиває слова на елементи. Це дозволить моделі обробляти українську мову швидше та продуктивніше

Власні бенчмарки для оцінки якості — стандарти, за якими ми перевірятимемо ефективність та безпеку LLM

Паралельно створюється юридичні правила, щоб робота з даними для моделі була прозорою, безпечною та відповідала вимогам у сфері інтелектуальної власності.

Коли реліз

Першу версію моделі планується запустити в бета-тестування вже навесні 2026 року. Вона буде навчена на унікальних даних і зможе конкурувати з іншими моделями у відкритих рейтингах.

А поки готуємося обрати ім'я для української LLM. У січні запускаємо голосування в Дії — назву оберете саме ви.

RuporZT


Коментарів: 0 Додати коментар Роздрукувати
Україна Цікавинка Скандали
09 січня 16:43
Прикордонники викрили схему незаконного переправлення ч ...
09 січня 16:42
Алла Басалаєва провела підсумкову робочу нараду з аудит ...
09 січня 16:41
8 500 доларів США за тилову службу в ЗСУ та фіктивне пр ...
09 січня 16:41
У Львові судитимуть зловмисницю, яка розпилила газовий ...
09 січня 16:40
Поліцейські Харківщини викрили депутата місцевої ради, ...
09 січня 16:16
монтаж відеоспостереження
06 січня 18:30
Чим самокрутки привабливіші звичайних цигарок?
05 січня 17:49
Нові колісні екскаватори: майбутнє будівельної галузі з ...
02 січня 23:31
Футбол в Україні та причини його популярності
29 грудня 17:51
Як товщина металу впливає на точність лазерної різки
07 квітня 15:37
ДБР затримало депутата Житомирської облради, який за 10 ...
04 березня 22:30
У Житомирі викрили організовану групу медиків, які за г ...
28 лютого 23:18
Затримано завербованого ворогом агента, який готував ви ...
24 лютого 12:59
СБУ викрила настоятеля храму Житомирської єпархії УПЦ ( ...
14 лютого 15:41
Судді районного суду Житомирщини, яка «злила» фігуранта ...
Опитування
Чи задоволені Ви центральним опаленням у квартирі?
Так, повністю
Так, але хотілось би і краще
Ні
В мене інший вид опалення