| Regionas | Apskritis | Savivaldybė |
|---|---|---|
| Netaikoma | Vilniaus apskritis, Alytaus apskritis, Kauno apskritis, Klaipėdos apskritis, Marijampolės apskritis, Panevėžio apskritis, Šiaulių apskritis, Tauragės apskritis, Telšių apskritis, Utenos apskritis | Vilniaus m. sav., Jonavos r. sav., Telšių r. sav., Elektrėnų sav., Molėtų r. sav., Palangos m. sav., Kauno m. sav., Prienų r. sav., Klaipėdos m. sav., Kauno r. sav., Vilkaviškio r. sav., Tauragės r. sav., Klaipėdos r. sav., Alytaus m. sav., Ignalinos r. sav., Kretingos r. sav., Anykščių r. sav., Šiaulių r. sav., Panevėžio m. sav., Šiaulių m. sav., Lazdijų r. sav., Druskininkų sav., Utenos r. sav., Panevėžio r. sav., Biržų r. sav., Varėnos r. sav., Joniškio r. sav., Marijampolės sav., Rokiškio r. sav., Šalčininkų r. sav., Akmenės r. sav., Šakių r. sav., Alytaus r. sav., Kazlų Rūdos sav., Vilniaus r. sav., Rietavo sav., Kaišiadorių r. sav., Pakruojo r. sav., Kelmės r. sav., Ukmergės r. sav., Plungės r. sav., Šilutės r. sav., Mažeikių r. sav., Šilalės r. sav., Švenčionių r. sav., Pagėgių sav., Radviliškio r. sav., Kėdainių r. sav., Jurbarko r. sav., Raseinių r. sav., Trakų r. sav., Neringos sav., Kupiškio r. sav., Kalvarijos sav., Zarasų r. sav., Širvintų r. sav., Pasvalio r. sav., Birštono sav., Visagino sav., Skuodo r. sav. |
Bendrojo lietuvių kalbos tekstyno ir vektorizuotų modelių sukūrimas Įgyvendinama
Kvietimo numeris
02-103-P
Projekto numeris
02-103-P-0001
Sutarties įsigaliojimo data
2024-09-18 00:00
Projekto vykdytojas
Valstybės skaitmeninių sprendimų agentūra
Vykdytojo kodas
188772433
Veiklų vykdymo pabaigos data
2026-04-30 00:00
Administruojanti institucija
Centrinė projektų valdymo agentūra
Bendra projekto tinkamų finansuoti išlaidų suma
5 859 998,63 €
Projektu sprendžiamos problemos
Pastaraisiais metais žinių visuomenė pereina į kokybiškai naują etapą, kurį žymi sparti pažangių informacinių technologijų (IT) plėtra, pirmiausia - didžiųjų duomenų kaupimas ir apdorojimas bei dirbtiniu intelektu (toliau DI) grįstų technologijų kūrimas. Lietuvoje šiuo metu yra neišnaudojamos turimos valstybės skaitmeninimo galimybės, nesudaromos sąlygos kurti naujomis technologijomis pagrįstus sprendimus, juos diegti kuriant pažangias skaitmenines paslaugas ir teikti šias paslaugas visuomenei. Tai yra akcentuojama ir pagrįsta nacionaliniuose teisės aktuose.
2021–2030 metų Nacionaliniame pažangos plane, patvirtintame Lietuvos Respublikos Vyriausybės 2020 m. rugsėjo 9 d. nutarimu Nr. 998 (Lietuvos Respublikos Vyriausybės 2021 m. rugsėjo 29 d. nutarimo Nr. 797 redakcija), teigiama, kad vienas esminių šalies konkurencingumo ir produktyvumo didinimo veiksnių bei aukštos pridėtinės vertės produktų kūrimo pagrindas yra visos valstybės skaitmeninimas ir technologinis atsinaujinimas.
2021–2030 metų valstybės skaitmeninimo plėtros programos, patvirtintos Lietuvos Respublikos Vyriausybės 2021 m. lapkričio 17 d. nutarimu Nr. 971, pagrindime teigiama, kad Lietuvoje neišnaudojamos turimos valstybės skaitmeninimo galimybės, nesudaromos sąlygos kurti naujomis technologijomis pagrįstus sprendimus, juos diegti kuriant pažangias skaitmenines paslaugas ir teikti šias paslaugas visuomenei.
Viena iš sąlygų siekiant priartinti DI sprendimus prie visuomenės ir verslo - yra gebėjimas susikalbėti su DI sprendimais, todėl šiam tikslui pasiekti būtina plėsti lietuvių kalbos išteklių apimtis ir spektrą. Visuomenei prieinami sukurti DI sprendimai lietuvių kalba paspartins skaitmeninę visos visuomenės transformaciją: naudojimasis šiomis paslaugomis taps patrauklesnis, jo neribos užsienio kalbų nemokėjimas, o dažnesnis naudojimasis padės visuomenei tobulinti skaitmeninius įgūdžius kasdienybėje.
Šiuo projektu pradedama spręsti pagrindines problemas, kurios stabdo skaitmeninę plėtrą Lietuvoje. Kuriami nauji, unikalūs lietuvių kalbos ištekliai, kurie leis viešiems ir privatiems juridiniams asmenims bei visuomenei kurti kultūriniu turiniu grįstas inovatyvias technologijas, paslaugas ir produktus.
Problemos, kurios bus išspręstos įgyvendinus projektą:
1. Bus sukurtas išsamus, didelės apimties lietuvių kalbos technologijų išteklius (Bendrasis lietuvių kalbos tekstynas), reikalingas DI technologijų lietuvių kalba vystymui. Tekstynas yra vienas pamatinių kalbos technologijų išteklių, reikalingas tenkinti DI technologijų poreikius, kuriant lietuvių kalbos įterptinių žodžių (angl. word embedding) modelius, neuroninius kalbos modelius, didžiuosius kalbos modelius, kitų sprendimų poreikius tenkinančius modelius. Nuo tekstyno išsamumo, kokybės, leksinės įvairovės, priklauso kuriamų intelektualių technologijų sprendimų kokybė ir panaudojamumo imtis. Tik išsamus ir didelės apimties tekstynas mašininio mokymo modeliams suteikia pakankamas žinias apie kalbą ir žodyną. Šiuo metu atviroje prieigoje egzistuojantys lietuvių kalbos tekstynai yra arba nepakankamos apimties, todėl netinkami kokybiškų neuroninių kalbos modelių rengimui, arba suformuoti tik žiniasklaidos tekstų pagrindu, arba senesnio laikotarpio, todėl jų pilnavertiškai neįmanoma taikyti specializuotose srityse (tokiose kaip medicina, teisė ir t.t.);
2. Bus sukurtas lietuvių kalbos išteklius – vektorizuotas kalbos modelis (didysis ir mažasis), reikalingas DI lietuvių kalba technologijų vystymui. Vektorizuotas kalbos modelis yra vienas pagrindinių neuroninių kalbos technologijų išteklių, reikalingas tenkinti DI technologijų poreikius. Iš anksto apmokyti (angl. pre-trained) modeliai kalbą užkoduoja skaitmeninei mašinai suprantamu būdu. Du skirtingos apimties vektorizuoti modeliai leis apdoroti sudėtingos struktūros duomenis, analizuoti natūralios kalbos tekstus, esančius skaitmeniniu formatu. Sukurti vektorizuoti modeliai leis kurti išmanius, duomenų analize grįstus algoritmus ir plėtoti DI sprendimus lietuvių kalba;
3. Sudarytos sąlygos kurti naujomis technologijomis pagrįstus sprendimus, juos diegti kuriant pažangias skaitmenines paslaugas ir teikti šias paslaugas visuomenei;
4. Lietuvių kalbos išsaugojimą ir gyvybingumą palaikančių skaitmeninių išteklių plėtra.
Projekto rezultatai taip pat prisidės prie kitų problemų sprendimo, tokių kaip lietuvių kalbos išsaugojimą ir gyvybingumą palaikančių skaitmeninių išteklių plėtra, leis kurti naujomis technologijomis pagrįstus sprendimus, juos diegti kuriant pažangias skaitmenines paslaugas ir teikti šias paslaugas visuomenei.
Projektas prisidės prie 2021–2030 metų Nacionalinio pažangos plano, patvirtinto Lietuvos Respublikos Vyriausybės 2020 m. rugsėjo 16 d. nutarimu Nr. 2020-19293 „Dėl 2021–2030 metų Nacionalinio pažangos plano patvirtinimo“, 1.7 uždavinio „Skatinti valstybės skaitmeninimą“ įgyvendinimo.
Daugiau
Mažiau
Projekto tikslas
Surinkti reikiamus lingvistinius resursus, juos tinkamai sutvarkyti ir parengti išsamų Bendrąjį lietuvių kalbos tekstyną, tenkinantį dirbtinio intelekto technologijų vystymo ir skaitmeninių bei statistinių kalbos tyrimų poreikius, ir jų pagrindu sukurti iš anksto apmokytus (angl. pre-trained) neuroninius lietuvių kalbos modelius, turinčius išsamias faktines žinias apie lietuvių kalbą bei tenkinančius dirbtinio intelekto technologijų vystymo ir skaitmeninių bei statistinių kalbos tyrimų poreikius.
Programos tipas
Naujos kartos Lietuva
Komponentas
Skaitmeninė transformacija ekonomikos augimuiTeritorija, kuriai tenka didžioji dalis projekto lėšų
ES fondas
| Veiklos pavadinimas | Fondas |
|---|---|
| Kalbinių išteklių dirbtinio intelekto technologijų sprendimų poreikiams plėtra | Ekonomikos gaivinimo ir atsparumo didinimo priemonė |
Finansavimo šaltiniai
| Finansavimo šaltinio kodas | Finansavimo šaltinio forma | Finansavimo šaltinio suma |
|---|---|---|
| 1. | Projektams skiriamos finansavimo lėšos | 5 859 998,63 € |
| 1.2. | EGADP subsidijos lėšos | 4 842 974,08 € |
| 1.6. | Valstybės biudžeto lėšos, skirtos ES fondų lėšomis netinkamam finansuoti PVM apmokėti | 1 017 024,55 € |
| 2. | Nuosavas įnašas | 0,00 € |
Projekto veiklos
| Sutarties projekto veiklos numeris ir pavadinimas | Sutarties poveiklės numeris ir pavadinimas |
|---|---|
| 05-002-01-07-08-02 Kalbinių išteklių dirbtinio intelekto technologijų sprendimų poreikiams plėtra | 05-002-01-07-08-02-02 Kalbinių išteklių dirbtinio intelekto technologijų sprendimų poreikiams plėtra (planavimo būdu) |
Sutarties intervencinių priemonių srities duomenys
- 021a - Parama skaitmeninio turinio kūrimui ir platinimui