Pagal Aprašą remiama veikla – kalbinių išteklių dirbtinio intelekto technologijų sprendimų poreikiams plėtra. Projektui „Daugiakalbių ir vienkalbių tekstynų sukūrimas“ įgyvendinti skiriama iki 1 110 000 Eur ( vieno milijono vieno šimto dešimt tūkstančių eurų) Ekonomikos gaivinimo ir atsparumo didinimo priemonės lėšų ir iki 233 100 Eur (dviejų šimtų trisdešimt trijų tūkstančių šimto eurų) Lietuvos Respublikos valstybės biudžeto lėšų, skirtų netinkamam pridėtinės vertės mokesčiui (toliau – PVM) apmokėti. PVM gali būti finansuojamas tik Projektų administravimo ir finansavimo taisyklių VII skyriaus 4 skirsnyje nustatyta tvarka.
Galimas pareiškėjas: Informacinės visuomenės plėtros komitetas.
Privalomi techniniai reikalavimai tekstynui:
Privalo būti sukurti:
1.Ispanų paralelinis ir vienkalbis tekstynas:
1.1. ne mažiau nei 8 mln. sakinių vienakalbis tekstynas (bendroji ir kt. sritys);
1.2. ispanų-lietuvių kalba lygiagretusis tekstynas (bendroji ir kt. sritys) – ne mažiau nei 2 mln. sakinių.
2. Ukrainiečių, norvegų, švedų, danų lygiagretieji ir vienkalbiai tekstynai:
2.1. 4 vnt. vienakalbių tekstynų (bendroji kt. sritys) – ne mažiau nei 8 mln. sakinių kiekvienas.
2.2. 4 vnt. [kalba x (kiekvienos iš nurodytų)] - lietuvių -[kalba x kiekvienos iš nurodytų] lygiagretieji tekstynai (bendroji ir kt. sritys). – ne mažiau nei 1 mln. sakinių kiekvienas.
Projekto metu bus nustatyti lygiagrečiųjų tekstų šaltiniai, identifikuoti, surinkti duomenys, jie konvertuojami ir paruošiami tinkamu formatu panaudojimui mašininio vertimo sprendimų kūrimui. Taip pat labai svarbu sukurti įvairioms sritims pritaikytas mašininio vertimo sistemas, todėl tiek duomenų rinkimo, tiek filtrų kūrimo veikla bus sutelkta į skirtingų sričių mašininio vertimo duomenų rinkinių kūrimą.
Reikalavimai lygiagretiesiems tekstynams:
• Ne mažiau nei 5 kalbos.
• Ispanų-lietuvių lygiagretusis tekstynas ne mažiau 4 mln. sakinių.
• Ispanų vienkalbis tekstynas: ne mažiau 8 mln. sakinių 1 kalbai.
• [Ukrainiečių, norvegų, švedų, danų] – lietuvių lygiagretieji tekstynai ne mažiau 1 mln. sakinių 1 kalbų porai.
• Ukrainiečių, norvegų, švedų, danų vienkalbiai tekstynai: ne mažiau 8 mln. sakinių 1 kalbai.
• Ne didesnis nei 0,5% rašybos klaidų lygis kiekvienam vienakalbiam tekstynui.
• Ne didesnis nei 2,5% lygiavimo klaidų kiekis kiekvienam paraleliniam tekstynui.
• Turėtų būti pateikta dokumentacija, apibūdinanti tekstynų formatus ir metaduomenis.
• Turi būti naudojami UTF-8 kodavimo standartiniai TMX (angl. Translation Memory eXchange) duomenų formatas lygiagretiesiems duomenims ir TXT (angl. Text Document File) vienakalbiams duomenims.
Dokumentavimo reikalavimai:
• turi detaliai apibūdinti Tekstyno struktūra, jo sudarymo ir anotavimo metodikos;
• aprašytos anotacijos ir jų reikšmė;
• pateikta detali statistika įvairiais pjūviais;
• sukurtam produktui turi būti taikomas detaliai dokumentuotas tarptautinis metaduomenų standartas. (pvz., Data Catalog Vocabulary (DCAT)
https://www.w3.org/TR/vocab-dcat-3/, Dublin Core Metadata Element Set (DCMES)
https://www.dublincore.org/specifications/dublin-core/dces/, The Component Metadata Initiative (CMDI)
https://media.dwds.de/clarin/userguide/text/metadata_CMDI.xhtml arba analogiški).
Teisiniai reikalavimai projektui:
Kuriant visus produktus (rezultatus) privalu laikytis:
• autorių ir gretutines teises reguliuojančių Lietuvos ir ES teisės aktų;
• duomenų apsaugą reguliuojančių Lietuvos ir ES teisės aktų;
• dirbtinio intelekto sistemoms rengiamų mokymo duomenų kokybę reguliuojančių Lietuvos ir Europos teisės aktų;
• Lietuvos ir Europos Sąjungos teisės aktų, reguliuojančių atvirų duomenų formavimo ir skelbimo principus. (ES direktyva dėl atvirųjų duomenų ir viešojo sektoriaus informacijos pakartotinio naudojimo BDAR (EUR-Lex - 32016R0679 - EN - EUR-Lex (europa.eu))
https://eur-lex.europa.eu/legal-content/EN/TXT/?qid=1561563110433&uri=CELEX:32019L1024).
Kuriant visus produktus (rezultatus) rekomenduojama atsižvelgti į naujai ruošiamą dirbtinio intelekto aktą (EUR-Lex - 52021PC0206 - EN - EUR-Lex (europa.eu)).
Turi būti parengta ištekliaus naudojimo licencija, kuri užtikrina atvirą ir nemokamą prieigą prie ištekliaus.
Visi surinkti tekstyno įrašai turi turėti atitinkamas licencijas. Tekstynas privalo būti pasiekiamas Lietuvos atvirų duomenų portale (data.gov.lt) ir ne mažiau nei per vieną atviros prieigos platformą (pvz., „Hugging Face“, CLARIN ar kt.) bei prieinamas nemokamai.
Projektas turi atitikti bendruosius projektų atrankos kriterijus, nustatytus Projektų administravimo ir finansavimo taisyklių 2 priede.
Projekto komunikacijos ir informavimo veiksmai atliekami vadovaujantis Projektų administravimo ir finansavimo taisyklių VIII skyriaus „Kiti projektų reikalavimai“ pirmojo skirsnio „Informavimas apie projektą ir komunikaciją“ nuostatomis.
Projektų atranka atliekama valstybės planavimo būdu.
Pagal Aprašą partneriai – nėra galimi.