Pagal Aprašą remiama veikla – kalbinių išteklių dirbtinio intelekto technologijų sprendimų poreikiams plėtra.
Projektui „Bendrasis lietuvių kalbos tekstynas ir vektorizuoti modeliai“ įgyvendinti skiriama iki 4 843 000 Eur (keturi milijonai aštuoni šimtai keturiasdešimt trys tūkstančiai eurų) Ekonomikos gaivinimo ir atsparumo didinimo priemonės lėšų ir iki 1 017 030 Eur (vienas milijonas septyniolika tūkstančių trisdešimt eurų) Lietuvos Respublikos valstybės biudžeto lėšų, skirtų netinkamam pridėtinės vertės mokesčiui (toliau – PVM) apmokėti. PVM gali būti finansuojamas tik Projektų administravimo ir finansavimo taisyklių VII skyriaus 4 skirsnyje nustatyta tvarka.
Galimas pareiškėjas: Informacinės visuomenės plėtros komitetas.
Bendri reikalavimai dėl projekto apimties:
1. Bendrasis lietuvių kalbos tekstynas turi būti lietuviškas, tinkamos apimties, tinkamų struktūros ir segmentavimo, naudojami tekstai turi būti tinkamai parengti, tinkamų formatų, tinkamai validuotas. Bendra tekstyno apimtis – ne mažesnė kaip 3,5 milijardo žodžių, taip pat negali būti pasikartojančių tekstų. Tekstynas turi būti naujas lingvistinis išteklius, bet jam kurti gali būti panaudoti jau egzistuojantys kokybiški lietuviški tekstynai, jei jų kokybę galima įrodyti (recenzuoti ir pan.), bet jų apimtis negali sudaryti daugiau kaip 1 milijardo žodžių bendros Tekstyno apimties.
2. Lietuvių kalbos vektorizuotas modelis turi būti parengtas, panaudojant tinkamus tekstus, būti tinkamos apimties, neuroniniam kalbos modeliavimui turi būti naudojamos tinkamos technologijos, tinkamai validuotas. Didžiajam lietuvių kalbos vektorizuotam modeliui (toliau – DLKVM) parengti turi būti panaudotas bendras lietuvių kalbos tekstynas (toliau – BLKT) visa jo apimtimi (3,5 mlrd. žodžių). Mažajam lietuvių kalbos vektorizuotam modeliui (toliau – MLKVM) parengti turi būti panaudota ne mažiau nei 50 proc. (1,75 mlrd. žodžių) kuriamo BLKT. Jei DLKVM ir/arba MLKVM kūrimui papildomai naudojami kiti tekstynai, jie gali būti panaudoti tik laikantis BLKT keliamų reikalavimų ir BLKT rengimo metodikos reikalavimų (metodiką parengia BLKT projekto vykdytojas).
Kiti privalomi parengtumo, technologiniai, validavimo ir dokumentavimo reikalavimai projektui nurodyti Aprašo 2 priedo I skyriuje.
Teisiniai reikalavimai projektui:
Kuriant visus produktus (rezultatus) privalu laikytis:
• autorių ir gretutines teises reguliuojančių Lietuvos ir ES teisės aktų;
• duomenų apsaugą reguliuojančių Lietuvos ir ES teisės aktų;
• dirbtinio intelekto sistemoms rengiamų mokymo duomenų kokybę reguliuojančių Lietuvos ir Europos teisės aktų;
• Lietuvos ir Europos Sąjungos teisės aktų, reguliuojančių atvirų duomenų formavimo ir skelbimo principus. (ES direktyva dėl atvirųjų duomenų ir viešojo sektoriaus informacijos pakartotinio naudojimo BDAR (EUR-Lex - 32016R0679 - EN - EUR-Lex (europa.eu))
https://eur-lex.europa.eu/legal content/EN/TXT/?qid=1561563110433&uri=CELEX:32019L1024).
Kuriant visus produktus (rezultatus) rekomenduojama atsižvelgti į naujai ruošiamą dirbtinio intelekto aktą (EUR-Lex - 52021PC0206 - EN - EUR-Lex (europa.eu)).
Turi būti parengta ištekliaus naudojimo licencija, kuri užtikrina atvirą ir nemokamą prieigą prie ištekliaus.
Visi surinkti tekstyno įrašai turi turėti atitinkamas licencijas. Tekstynas privalo būti pasiekiamas Lietuvos atvirų duomenų portale (data.gov.lt) ir ne mažiau nei per vieną atviros prieigos platformą (pvz., „Hugging Face“, CLARIN ar kt.) bei prieinamas nemokamai.
Projektas turi atitikti bendruosius projektų atrankos kriterijus, nustatytus Projektų administravimo ir finansavimo taisyklių 2 priede.
Projekto komunikacijos ir informavimo veiksmai atliekami vadovaujantis Projektų administravimo ir finansavimo taisyklių VIII skyriaus „Kiti projektų reikalavimai“ pirmojo skirsnio „Informavimas apie projektą ir komunikaciją“ nuostatomis.
Projektų atranka atliekama valstybės planavimo būdu.
Pagal Aprašą partneriai – nėra galimi.