– Paaiškinkite plačiau, kuo jūsų sistema skiriasi nuo „Google“, kuo ji pranašesnė?
– Tuo, kad mūsų sistema ne tik suranda tekstus pagal jūsų pateiktus žodžius, bet ir pateikia susijusius raktažodžius: kokios pavardės, organizacijos ar vietovės tame tekste yra minimos. Tarkime, į paieškos lauką įvesite žodį tuberkuliozė. Sistema pateiks apie šią ligą straipsniuose kalbėjusių gydytojų pavardes, ligoninių, kuriose liga gydoma, pavadinimus, vietoves.
Be to, mūsų sistema vykdo tekstų atranką pagal tam tikrus atsakymus į iš anksto parengtus klausimus. Sistemoje pasirenkate paieškos sritį – ekonomika ir verslas, politika arba viešasis administravimas. Tada pasirenkate asmenį, kurį norite analizuoti. Po to nustatote jus dominantį paieškos laikotarpį. Tada pasirenkate vieną iš siūlomų klausimų arba įvedate savo.
Mūsų sistema tobulesnė už „Word'o“ korektorių.
Tarkime, jūs norite analizuoti straipsnius, kuriuose prezidentė Dalia Grybauskaitė ką nors pasakė, pavyzdžiui, apie referendumą Graikijoje. Tokiu atveju kaip raktažodį pasirenkate asmenį ir vietovę, nustatote klausimą „asmuo pasakė“ ir jums paieška siaurėja nuo 100 iki 10 puslapių rezultatų.
– Sistemoje galima atlikti ir vadinamąją sentimentų analizę – kas tai?
– Tai – nuomonių ištraukimas. Tarkime, jums rūpi teigiami ir neigiami atsiliepimai apie prezidentę, bei tai, kaip nuomonės apie ją kito laike. Pagal tam tikrus parametrus, analizuodama sąryšius tarp žodžių, sistema jums pateiks sentimentų kreivę.
Svetainėje semantika.lt vartotojas gali naudotis šešiomis paslaugomis, tarp jų ir patikrinti savo sukurto teksto gramatiką ir rašybos klaidas. Mūsų sistema tobulesnė už „Word'o“ korektorių.
– Sukūrėte įrankį, gebantį analizuoti bendrinę – labai sterilią – lietuvių kalbą: tai, kas rašoma knygose ir žiniasklaidoje. O kaip su socialinių tinklų, interneto komentarų kalba?
– Literatūros kūrinio ar žiniasklaidos tekstą sistema analizuoja 95 proc. tikslumu. Jei įmetu komentarą ar socialinio tinklo tekstą, tikslumas nukrenta iki 40 proc.
Mašina tokius tekstus atmeta kaip nelietuviškus arba įspėja, kad juose per daug gramatinių klaidų, nes socialiniuose tinkluose ar komentaruose rašoma be skyrybos ženklų, be diakritinių ženklų, vartojama daug naujadarų.
Juokais sakau, kad komentatorių kalba – tai dialektas. Tačiau iš tikrųjų – tai lietuvių kalbos dalis, milžiniškas išteklius kalbos tyrinėjimui. Ir įrodymas, kad kalba yra gyva, kintanti, atsinaujinanti, nors kalbininkai nori, kad ji būtų sustabarėjusi.
Kalba yra gyva, kintanti, atsinaujinanti, nors kalbininkai nori, kad ji būtų sustabarėjusi.
Yra šalių, kuriose, jei žodis internete pavartojamas 10 tūkst. kartų, jį siūloma įtraukti į bendrinę kalbą. Todėl į savo sistemą įdiegėme naujovių paieškos paslaugą. Analizatorius, atsakantis už morfologinę analizę, sutikęs nepažįstamą žodį, kurio nėra bendrinėje kalboje, deda specialią žymę. Toks žodis keliauja į kandidatų į naujoves sąrašą.