– Kodėl Lietuvai reikėjo kurti savo kalbos kompiuterizavimo metodą?
– Esame maža, komerciškai nepatraukli rinka, todėl naivu tikėtis, kad „Google“ šiuo klausimu nuveiks ką nors reikšmingo. Akivaizdu, kad lietuvių kalbos lygis smarkiai atsilieka nuo to, kas padaryta su anglų kalba.
– Tačiau į „Google“ vertėją įmetęs kelias frazes užsienio kalba lietuviškai visada kažką gausi.
– Būtent – kažką. Yra du vertimo metodai – taisyklinis ir statistinis. „Google“ vertėjas operacijas atlieka statistiniais metodais – greitais ir pigiais. Tai reiškia, kad sistema apdoroja galybę informacijos ir pateikia rezultatą. Jei vartoji standartines, rutinines frazes – kažką pataikys išversti. Bet pabandykite paimti sudėtingesnį tekstą – ir sistema užlūžta.
Lietuvių kalba yra problemiška, nes tai – viena sudėtingiausių kalbų pasaulyje, labai turtinga morfologiškai. Norint plėtoti kalbos technologijas, pirmiausia reikia užtikrinti gerą bendrąją bazę, o tai – brangus ir laikui imlus dalykas.
Todėl kai kurios verslo įmonės pasitelkia atviro kodo angliškai sukurtus sprendimus ir adaptuoja juos lietuvių kalbai. Tai – klaida, nes anglų kalbos sprendimai lietuvių kalbai tinka tik labai retais atvejais.
– Ką nuveikėte jūs?
– Norėdami atlikti kokią nors analizę, prognozę ar išvadą, pirmiausia turime perskaityti tekstą ir jį suprasti. Tas pats galioja ir mašinai – visos žodžių formos, junginiai, net keiksmažodžiai turi būti suvesti į sistemą, jiems analizuoti turi būti sukurti ištekliai ir įrankiai. Kitaip tariant, norint, kad žmogaus kalba taptų suprantama kompiuteriui, pirmiausia turi būti atliktas bazinis etapas. Tai – didžiausias iššūkis.
Sukaupėme daugiau nei milijardo žodžių internetinės žiniasklaidos ir 300 mln. žodžių norminės kalbos tekstyną. Tai jau ne gėda ir pasauliui parodyti.
Mes sukūrėme priemones, reikalingas baziniam lietuvių kalbos rašytinio teksto apdorojimui, viską sujungėme į sistemą ir sukūrėme standartą, kad tie baziniai įrankiai tarpusavyje sąveikautų.
Iš 25 internetinių šaltinių, tarp jų ir didžiausių naujienų portalų, mūsų sistema jau dvejus metus kasdien siurbia tekstus ir juos analizuoja.
Taip sukaupėme daugiau nei milijardo žodžių internetinės žiniasklaidos ir 300 mln. žodžių norminės kalbos tekstyną. Tai jau ne gėda ir pasauliui parodyti.
– Tačiau jūsų pagrindinis tikslas – kad sukurta sistema visiškai apdorotų ir suprastų tekstą. Pavyko?
– Pasiekimas, kuriuo labai norėčiau pasigirti, tai – pirmą kartą istorijoje padaryta visiškai automatizuota lietuvių kalbos tekstų sintaksinė analizė. Su morfologine analize buvo jau pakankamai pasistūmėta: kompiuteris, paėmęs žodį, galėjo jį lengvai išanalizuoti – kokia forma, linksnis ir t.t.
Bet tai – tik vienas žodis, o mes kalbame frazėmis, sakiniais. Žodžiai turi ryšius, kontekste pavartoti žodžiai įgauna ir prasmę, ir funkciją. Tačiau kol neatliekama automatinė sintaksinė analizė, apie semantiką kalbėti neįmanoma.