Prenumeratoriai žino daugiau. Prenumerata vos nuo 1,00 Eur!
Išbandyti

Lietuvos mokslininkai sukūrė įrankį, galintį apsaugoti net nuo terorizmo

Prieš dešimt metų Davidas Brooksas yra pasakęs: „Kalba, kuri neįsitvirtins elektroninėje erdvėje, pasmerkta pražūčiai.“ Lietuvių kalba šokti į technologijų traukinį neskubėjo, tačiau ES pareigūnų sugėdyta spurtavo. Todėl per pastaruosius ketverius metus sukaupėme milijardinį žodžių tekstyną ir sukūrėme automatinę rašytinės kalbos analizės sistemą. O kas iš to?

– Kodėl Lietuvai reikėjo kurti savo kalbos kompiuterizavimo metodą?

– Esame maža, komerciškai nepatraukli rinka, todėl naivu tikėtis, kad „Google“ šiuo klausimu nuveiks ką nors reikšmingo. Akivaizdu, kad lietuvių kalbos lygis smarkiai atsilieka nuo to, kas padaryta su anglų kalba.

– Tačiau į „Google“ vertėją įmetęs kelias frazes užsienio kalba lietuviškai visada kažką gausi.

– Būtent – kažką. Yra du vertimo metodai – taisyklinis ir statistinis. „Google“ vertėjas operacijas atlieka statistiniais metodais – greitais ir pigiais. Tai reiškia, kad sistema apdoroja galybę informacijos ir pateikia rezultatą. Jei vartoji standartines, rutinines frazes – kažką pataikys išversti. Bet pabandykite paimti sudėtingesnį tekstą – ir sistema užlūžta.

Luko Balandžio/15min.lt nuotr./Darius Amilevičius
Luko Balandžio/15min.lt nuotr./Darius Amilevičius

Lietuvių kalba yra problemiška, nes tai – viena sudėtingiausių kalbų pasaulyje, labai turtinga morfologiškai. Norint plėtoti kalbos technologijas, pirmiausia reikia užtikrinti gerą bendrąją bazę, o tai – brangus ir laikui imlus dalykas.  

Todėl kai kurios verslo įmonės pasitelkia atviro kodo angliškai sukurtus sprendimus ir adaptuoja juos lietuvių kalbai. Tai – klaida, nes anglų kalbos sprendimai lietuvių kalbai tinka tik labai retais atvejais.

– Ką nuveikėte jūs?

– Norėdami atlikti kokią nors analizę, prognozę ar išvadą, pirmiausia turime perskaityti tekstą ir jį suprasti. Tas pats galioja ir mašinai – visos žodžių formos, junginiai, net keiksmažodžiai turi būti suvesti į sistemą, jiems analizuoti turi būti sukurti ištekliai ir įrankiai. Kitaip tariant, norint, kad žmogaus kalba taptų suprantama kompiuteriui, pirmiausia turi būti atliktas bazinis etapas. Tai – didžiausias iššūkis.

Sukaupėme daugiau nei milijardo žodžių internetinės žiniasklaidos ir 300 mln. žodžių norminės kalbos tekstyną. Tai jau ne gėda ir pasauliui parodyti.

Mes sukūrėme priemones, reikalingas baziniam lietuvių kalbos rašytinio teksto apdorojimui, viską sujungėme į sistemą ir sukūrėme standartą, kad tie baziniai įrankiai tarpusavyje sąveikautų.  

Iš 25 internetinių šaltinių, tarp jų ir didžiausių naujienų portalų, mūsų sistema jau dvejus metus kasdien siurbia tekstus ir juos analizuoja.  

Taip sukaupėme daugiau nei milijardo žodžių internetinės žiniasklaidos ir 300 mln. žodžių norminės kalbos tekstyną. Tai jau ne gėda ir pasauliui parodyti.

– Tačiau jūsų pagrindinis tikslas – kad sukurta sistema visiškai apdorotų ir suprastų tekstą. Pavyko?   

– Pasiekimas, kuriuo labai norėčiau pasigirti, tai – pirmą kartą istorijoje padaryta visiškai automatizuota lietuvių kalbos tekstų sintaksinė analizė. Su morfologine analize buvo jau pakankamai pasistūmėta: kompiuteris, paėmęs žodį, galėjo jį lengvai išanalizuoti – kokia forma, linksnis ir t.t.

Bet tai – tik vienas žodis, o mes kalbame frazėmis, sakiniais. Žodžiai turi ryšius, kontekste pavartoti žodžiai įgauna ir prasmę, ir funkciją. Tačiau kol neatliekama automatinė sintaksinė analizė, apie semantiką kalbėti neįmanoma.

Pranešti klaidą

Sėkmingai išsiųsta

Dėkojame už praneštą klaidą
Reklama
Netikėtai didelis gyventojų susidomėjimas naujomis, efektyviomis šildymo priemonėmis ir dotacijomis
Reklama
85 proc. gėdijasi nešioti klausos aparatus: sprendimai, kaip įveikti šią stigmą
Reklama
Trys „Spiečiai“ – trys regioninių verslų sėkmės istorijos: verslo plėtrą paskatino bendradarbystės centro programos
Reklama
Beveik trečdalis kauniečių planuoja įsigyti būstą: kas svarbiausia renkantis namus?