Головні тези
- Укрдержархів передав 10 ТБ даних для навчання ШІ «Сяйво».
- Дані включають документи, рукописи, закони, судові рішення та медіаматеріали.
- Мета – створення української мовної моделі та розвиток ШІ-суверенітету.
- Проєкт реалізують Мінцифри та ДП «Дія».
- Це перший випадок використання архівних даних для цифрових сервісів.
Державна архівна служба України передала 10 терабайтів даних для навчання національної мовної моделі «Сяйво». Це великий масив історичних матеріалів, документів і наукових текстів, обсяг яких можна порівняти приблизно з 70 тисячами книжок.
До переданих даних увійшли:
- рукописи;
- архівні документи;
- законодавчі акти;
- судові рішення;
- медіаматеріали;
- словники.
Вони допоможуть створити український ШІ, який краще розумітиме національний контекст і працюватиме з україномовним контентом без втрати змісту.
Більшість глобальних АІ-помічників генерують відповіді англійською і перекладають ці тексти українською, часто втрачаючи контекст. Щоб Сяйво стало надійним джерелом інформації для людей і бізнесу, ми тренуємо його на українських даних.
– Міністерство цифрової трансформації України.
Голова Державної архівної служби України Анатолій Хромов зазначив, що це перший випадок, коли архівні матеріали передають для створення цифрових сервісів.
За його словами, до 2026 року кількість цифрових копій у державних архівах має зрости з 150 до понад 200 мільйонів.
Це один з найвищих у світі темпів оцифрування архівної спадщини.
– Анатолій Хромов.
До ініціативи вже долучилися понад 50 партнерів, серед яких медіа, університети та бібліотеки.
Проєкт реалізується за участі Міністерства цифрової трансформації України та державного підприємства «Дія».
Читайте також:
Українці назвали перший національний ШІ «Сяйво»

