Pagal Aprašą remiama veikla – kalbinių išteklių dirbtinio intelekto technologijų sprendimų poreikiams plėtra. Projektui „Sintetinių lygiagrečių tekstynų sukūrimas“ įgyvendinti skiriama iki 660 000 Eur ( šešių šimtų šešiasdešimt tūkstančių eurų) Ekonomikos gaivinimo ir atsparumo didinimo priemonės lėšų ir iki 138 600 Eur ( šimto trisdešimt aštuonių tūkstančių šešių šimtų eurų) Lietuvos Respublikos valstybės biudžeto lėšų, skirtų netinkamam pridėtinės vertės mokesčiui (toliau – PVM) apmokėti. PVM gali būti finansuojamas tik Projektų administravimo ir finansavimo taisyklių VII skyriaus 4 skirsnyje nustatyta tvarka.
Galimas pareiškėjas: Informacinės visuomenės plėtros komitetas.
Privalomi techniniai reikalavimai tekstynui:
1. Sintetinio tekstyno kūrimas prasideda nuo neuroninio mašininio vertimo sistemos (toliau - NMVS) treniravimo lygiagretaus tekstyno analizės. Pasirenkama kalbų pora. Situacijos analizei pasirenkama fleksinė kalba, šiuo atveju lietuvių. Iš lietuviškosios tekstyno dalies ekstrahuojamas įvardintųjų esybių (toliau - ĮE) sąrašas. Išrenkami gerai tekstyne reprezentuojamų ĮE kontekstai sakinių lygyje. ĮE sąrašas kategorizuojamas. Iš šių išsirinktų kontekstinių sakinių konstruojami atskiri kontekstiniai šablonai, individualūs kiekvienai ĮE kategorijai, pvz. miestų, upių pavadinimų ar pavardžių kontekstiniai šablonai. Vienas šablonas – tai du lygiagretūs sakiniai su pakeitimams numatytomis vietomis. Kontekstiniai šablonai turi apimti visas ĮE gramatines formas (linksnius), o taip pat visų į šabloną parinktų lietuviškų sakinių vertimus į kitą kalbą. Visi šie šablonai lingvistiškai anotuojami.
2. Antrajame etape konstruojamas norimų įterpti į NMVS ĮE sąrašas, atsižvelgiant į iš treniravimo tekstyno ekstrahuotą sąrašą. Įterpimo sąrašas išplečiamas visomis galimomis ĮE gramatinėmis formomis. Šis sąrašas dvikalbis, jis taip pat analogiškai lingvistiškai anotuojamas ir suskirstomas į kategorijas, atitinkančias paruoštų kontekstinių šablonų kategorijas.
3. Trečiajame etape užpildomi kontekstiniai šablonai. Jie automatiškai pildomi pagal kategorijas, keičiant šablonų esančią ĮE kita įvardijama esybe iš įterpimo sąrašo su atitinkama anotavimo žyma. Iš treniravimo tekstyno kuriami šablonai po įterpimo į vertimo sistemą minimaliai paveikia vektorinę vertimo sistemos struktūrą, todėl sistemą tokiu metodu galima papildyti dideliu kiekiu įvardintųjų esybių (ar įvairių sričių terminų). Užpildytų šablonų visuma sudaro sintetinį lygiagretųjį tekstyną, kuris naudojamas NMVS treniravimui.
4. Analogiški veiksmai atliekami sintezuojant medicinos terminų tekstynus. Kategorizuojant medicinos terminus naudojama SNOMED CT medicininė ontologija. Kategorizuojant sukuriami vienodo hierarchinio lygio terminų klasteriai. Reprezentatyviausių treniravimo tekstyne esančių klasterio terminų konteksto pagrindu kuriami atitinkami kontekstiniai šablonai. Trūkstant informacijos, šablonai gali būti kuriami pagal analogiško, tačiau klasteriui nepriklausančio termino kontekstą, esantį treniravimo tekstyne.
5. Tokie sintetiniai tekstynai visų pirma turėtų būti kuriami anglų ir lietuvių kalboms. Kitoms poroms aktualumas yra mažesnis, o medicininių terminų pridėjimas yra gana keblus.
6. Reikalavimai tekstyno apimčiai:
6.1. Turi apimti tris kalbų poras (LT-EN, LT-FR, LT-DE), kiekvienai kalbai sintezuojant ne mažiau kaip 1 mln. lygiagrečių sakinių.
6.2. Kiekvienai kalbų porai turi būti paruošiamos ne mažiau kaip 20 000 įvardintų esybių naudojant ne mažiau 50 kontekstinių šablonų, skirtingų kiekvienai įvardintų esybių kategorijai (ne mažiau 10 kategorijų).
6.3. Sintetinės lygiagrečių sakinių poros su įterptais medicininiais terminai sudaromos tik LT-EN kalbų porai, įterptų terminų skaičius – ne mažiau 1 000 vnt.
6.4. Ne didesnis nei 0,5% rašybos klaidų lygis.
Dokumentavimo reikalavimai:
• turi detaliai apibūdinti Tekstyno struktūra, jo sudarymo ir anotavimo metodikos;
• aprašytos anotacijos ir jų reikšmė;
• pateikta detali statistika įvairiais pjūviais;
• sukurtam produktui turi būti taikomas detaliai dokumentuotas tarptautinis metaduomenų standartas. (pvz., Data Catalog Vocabulary (DCAT)
https://www.w3.org/TR/vocab-dcat-3/, Dublin Core Metadata Element Set (DCMES)
https://www.dublincore.org/specifications/dublin-core/dces/, The Component Metadata Initiative (CMDI)
https://media.dwds.de/clarin/userguide/text/metadata_CMDI.xhtml arba analogiški).
Teisiniai reikalavimai projektui:
Kuriant visus produktus (rezultatus) privalu laikytis:
• autorių ir gretutines teises reguliuojančių Lietuvos ir ES teisės aktų;
• duomenų apsaugą reguliuojančių Lietuvos ir ES teisės aktų;
• dirbtinio intelekto sistemoms rengiamų mokymo duomenų kokybę reguliuojančių Lietuvos ir Europos teisės aktų;
• Lietuvos ir Europos Sąjungos teisės aktų, reguliuojančių atvirų duomenų formavimo ir skelbimo principus. (ES direktyva dėl atvirųjų duomenų ir viešojo sektoriaus informacijos pakartotinio naudojimo BDAR (EUR-Lex - 32016R0679 - EN - EUR-Lex (europa.eu))
https://eur-lex.europa.eu/legal-content/EN/TXT/?qid=1561563110433&uri=CELEX:32019L1024).
Kuriant visus produktus (rezultatus) rekomenduojama atsižvelgti į naujai ruošiamą dirbtinio intelekto aktą (EUR-Lex - 52021PC0206 - EN - EUR-Lex (europa.eu)).
Turi būti parengta ištekliaus naudojimo licencija, kuri užtikrina atvirą ir nemokamą prieigą prie ištekliaus.
Visi surinkti tekstyno įrašai turi turėti atitinkamas licencijas. Tekstynas privalo būti pasiekiamas Lietuvos atvirų duomenų portale (data.gov.lt) ir ne mažiau nei per vieną atviros prieigos platformą (pvz., „Hugging Face“, CLARIN ar kt.) bei prieinamas nemokamai.
Projektas turi atitikti bendruosius projektų atrankos kriterijus, nustatytus Projektų administravimo ir finansavimo taisyklių 2 priede.
Projekto komunikacijos ir informavimo veiksmai atliekami vadovaujantis Projektų administravimo ir finansavimo taisyklių VIII skyriaus „Kiti projektų reikalavimai“ pirmojo skirsnio „Informavimas apie projektą ir komunikaciją“ nuostatomis.
Projektų atranka atliekama valstybės planavimo būdu.
Pagal Aprašą partneriai – nėra galimi.