Pirmuosius bandymus sukurti automatinio vertimo sistemą Lietuvoje atliko Vytauto Didžiojo universitetas dar 2004 metais. 2012–2015 metais Vilniaus universitetas, pasinaudodamas Europos Sąjungos (ES) fondų lėšomis, sukūrė automatinio mašininio vertimo sistemą, atliekančią vertimus iš lietuvių kalbos į anglų bei prancūzų ir atvirkščiai kokybiškiau nei tuo metu tai darė "Google Vertėjas". Ir tai pavyko.
Ši sistema veikia iki šiol. Tiesa, nors projekto vykdytojai mato daug prisijungimų per taikomųjų programų sąsają, tačiau, kadangi nerenka nei asmens, nei prisijungimo duomenų, todėl negali pasakyti, kas yra pagrindiniai jos vartotojai.
Tačiau kaip ir kiekvienoje technologijoje, mašininio vertimo srityje progresas vyksta labai greitai. Tai, kas prieš kelerius metus atrodė labai gerai, dabar jau – vidutiniškai ar prastai.
Galimybę tęsti pradėtus darbus ir tobulinti sukurtą sistemą vėl suteikė ES fondų investicijos. Šiuo metu Vilniaus universitetas vykdo naują projektą „Mašininio vertimo sistemų ir lokalizavimo paslaugų tobulinimas ir plėtra“ ir vertimo sistemą papildo dar trimis kalbomis: lenkų, rusų ir vokiečių. Šiam projektui iš Europos regioninės plėtros fondo skirta beveik 3,3 mln. eurų, o darbus planuojama atlikti iki 2021 metų.
Apie šį projektą kalbamės su jo vadovu dr. Arūnu Samuiliu, ekspertu Virginijumi Dadurkevičiumi ir Vilniaus universiteto profesore Valentina Dagiene.
Mes gyvename labai įdomiu laiku, tai, kas anksčiau vyko fantastiniuose romanuose, dabar yra mūsų realybė.
„Anksčiau mašininis vertimas buvo paremtas statistiniais metodais, dabar atsirado naujos technologijos, kurių pagrindas – dirbtinis intelektas. Jos leidžia mašininį vertimą padaryti daug kokybiškesnį, nes dirbtinio intelekto veiklos principas paremtas neuroninių tinklų veikimo principais – žmogaus smegenų veiklos modeliavimu, todėl programos gali mokytis, – sako V. Dadurkevičius.
Būtent taip yra valdomi "Tesla" automobiliai, veikia veidų atpažinimo programos. Pašnekovas neabejoja, kad dirbtinis intelektas ateis ir į verslą, valstybės valdymą, karybą: „Mes gyvename labai įdomiu laiku, tai, kas anksčiau vyko fantastiniuose romanuose, dabar yra mūsų realybė. Šie pokyčiai ateina ir į mašininį vertimą.“
Yra „Google“, bet valstybinę mašininio vertimo sistemą turėti būtina
Projekto vykdytojai tikina, kad kuriama valstybės informacinė sistema veiks laikantis visų Lietuvos įstatymų, ypač duomenų apsaugos įstatymų. Tai reiškia, kad už informacijos saugojimą ir saugumą bus atsakinga valstybė.
„Ne tik „Google“, bet ir kitur galima gauti mašininį vertimą nemokamai. Tačiau šiandien tos paslaugos yra, rytoj jų gali nebūti. Tai privačių bendrovių privatūs reikalai, šiandien jos leidžia tomis paslaugomis naudotis nemokamai“, – aiškina V. Dadurkevičius.
Pašnekovas atkreipia dėmesį, kad naudodamasis tokių bendrovių paslaugomis niekada nežinai, kur verčiamas tekstas nukeliauja, kur jis yra saugomas, kokios jo analizės yra atliekamos, ar tekste esantys duomenys nėra panaudojami be autorių sutikimo ir pan.
Projekto vykdytojai tikina pastebėję, kad šių paslaugų teikėjai keičia savo paslaugų kokybę nebūtinai ją gerindami – kartais ji prastėja. Gali būti daug priežasčių, kodėl jie nenori pateikti vartotojams paties geriausio sprendimo nemokamai. Be to, daugiausia dėmesio privačios kompanijos visų pirma skiria didžiųjų kalbų vertimams tobulinti.
„Mums svarbu, kad vertimai būtų kiek įmanoma kokybiškesni iš ir į lietuvių kalbą“, – pastebi V. Dadurkevičius. Jis primena, kad, jei atidžiai paskaitytume "Google" sutartis su vartotojais, tai pamatytume, jog ten nurodyta, kad negalima nemokamai naudotis "Google Vertėjo" taikomųjų programų sąsaja.
Lietuvos tautinės mažumos galės gauti informaciją savo gimtąja kalba be jokių tarpininkų.
Dabar kuriamos valstybės informacinės sistemos naudojimas ribojamas nebus. Ja bus galima nemokamai naudotis ir akademiniams, ir administraciniams, ir verslo, ir asmeniniams tikslams. Ji bus prieinama ne tik per interneto svetainę, bet ir per taikomųjų programų sąsają. Tai reiškia, kad kiti vartotojai galės kurti savo svetaines ir jose panaudoti mašininį vertimą.
Pavyzdžiui, savivaldybė ar verslo įmonė galės pasinaudoti paspaudimu, kuriuo visas svetainės turinys bus verčiamas į vieną, kelias iš penkių kalbų ar visas jas. Svetainę atnaujinus ar papildžius, visa informacija galės būti iškart pasiekiama ir pasirinktomis užsienio kalbomis.
Informaciniai burbulai bus lengviau sprogdinami
Projekte įdiegtos rusų ir lenkų kalbos bus labai naudingos mūsų tautinėms mažumoms. Jos galės laisvai gauti ar pateikti informaciją savo gimtąja kalba be jokių tarpininkų. Tai turėtų būti labai naudinga lietuvių kalbos nemokantiems žmonėms – jiems bus prieinama ir ta informacija, kuri paprastai pateikiama tik lietuviškai.
„Šis projektas svarbus ir puoselėjant lietuvių kalbą, ir kuriant valstybines sistemas, kurios nepriklausytų nuo privačių struktūrų, ypač užsienio valstybių.
Kadangi mašininio vertimo sistema kuriama atviru kodu, ją galės gerinti visi norintys. Žinoma, sistemoje bus įdiegti sudėtingi sprendimai, kurie garantuos jos saugumą, kad niekas į ją neįsilaužtų, neperimtų kontrolės, bus užtikrinta, kad nebūtų pradėta rinkti ir kaupti informacija, draudžiama Lietuvos įstatymais. Tai garantuos VU specialistai“, – sako projekto vadovas dr. A. Samuilis.
Lietuvių kalbos nepakeis
Ar noriai žmonės naudojasi lokalizuotomis programomis? Juk daugelis, ypač jaunų žmonių, yra puikiai įvaldę anglų kalbą.
Prof. V. Dagienė mano, jog klausimą kelti reikėtų kitaip. „Klausimas yra ne apie tai, ar mokame anglų kalbą, bet, ar norime atsisakyti savo kalbos kasdieniame bendravime, mobiliuosiuose įrenginiuose, virtualiame pasaulyje. Žinoma, mažos valstybės turi mokėti bent keletą kalbų, bet gimtoji kalba yra kiekvienos šalies turtas. Olandijoje, Suomijoje, Švedijoje žmonės laisvai kalba angliškai, tačiau savo šalies įstaigose naudojasi programomis gimtąja kalba.“
Profesorė pastebi, kad dabar beveik visi intelektualūs darbai atliekami kompiuteriu, reikia nuolatos rašyti, bendrauti virtualiose erdvėse, todėl kalba taip pat keliasi į virtualią erdvę, kompiuterines programas, mobiliuosius įrenginius. Todėl natūralu, kad dirbdami virtualioje erdvėje turėtume tas pačias kalbos galimybes, kaip ir fiziškai bendraudami.
„Kad ir kaip gerai mokėtum užsienio kalbą, juk vis tik maloniau, patogiau, kai gauni pranešimus, nurodymus ir kitą medžiagą gimtąja kalba. O ir ne visi gyventojai gali gerai išmanyti technologijas ir anglų kalbos niuansus. Pavyzdžiui, smulkios įmonės, ypač teikiančios įvairias paslaugas, noriau naudojasi lietuviška programine įranga – juk ir bendraujama lietuviškai. Lokalizuojamos programos nemokamos, jomis naudojasi ūkininkai, buhalteriai, asmenys, pradedantys nedidelį verslą.“
Dirbtinis intelektas žmonių nepakeis
Kad ir koks geras būtų mašininis vertimas, jis gyvo žmonių bendravimo nepakeis. Dirbtinis intelektas bent kol kas nepajėgia įvertinti ir suprasti konteksto, reaguoti į veido išraiškas, skaityti tarp eilučių. Jam nesuprantamos anaforos. Dabartiniuose automatizuotuose vertimuose daug klaidų, reikalinga priežiūra ir kruopštus redagavimas. Tačiau dirbtinis intelektas geba mokytis!
„Nebūtinai visi žodžiai bus patekę į mokymo procesą. Lietuvių kalboje teoriškai teisingų žodžių formų yra virš 1,5 milijardo. Realiai šiuolaikinėje lietuvių kalbos informacinėje apyvartoje esančių žodžių formų yra tik iki 1 milijono. Todėl visada yra tikimybė, kad bus panaudotas koks nors retas žodis ar jo forma, kuri nebuvo įtraukta į dirbtinio intelekto mokymą. Tokiu atveju vertime bus klaidų“, – pastebi V. Dadurkevičius.
Profesorė V. Dagienė papildo: „Programų lokalizavimas nėra tik jų išvertimas ar sulietuvinimas. Iš tiesų tai yra kompiuterinės programos pritaikymas Lietuvos vartotojams. Būtina atsižvelgti į šalies specifiką, programos kontekstą, kurių amžiaus grupių ji bus daugiausiai naudojama ir pan. Svarbiausia, kad programos teikiami pranešimai ne tik nepriekaištingai skambėtų lietuviškai, bet ir būti tikslūs ir prasmingi.“ Patys neretai susiduriame su mobiliųjų telefonų pranešimais lietuvių kalba, kurie išversti taip, kad neįmanoma suprasti, kas norima pasakyti.
Didžiausias iššūkis – tęstinumas
Projekto vykdytojai pasakoja, kad tai kelerių metų intensyvus darbas. Čia labai svarbu gerai suderintas kolektyvas. „Neužtenka, kad dirbtų protingi žmonės, jie turi būti dar ir protingai vadovaujami ir atlikti tai, ką reikia. Reikia apdoroti milžiniškus informacijos kiekius. Iškyla ir juridinių problemų, kaip nepažeidžiant autorių teisių panaudoti tekstus sistemos mokymui. Mes turime surinkti daugybę jau išverstų tekstų, reikia šimtų milijonų jau išverstų sakinių, kad galėtume kuo geriau vertimas būtų kuo kokybiškesnis. Šiuo metu projekte dirba 20 žmonių“, – pasakoja V. Dadurkevičius.
Prof. V. Dagienės teigimu, viena didžiausių problemų kalbant apie programų vertimą yra tai, kad programinės įrangos lokalizavimas yra vykdomas kaip eilinis projektas, priešokiais, o ne kaip sisteminga nenutrūkstanti valstybės politika: „Trūksta sisteminio požiūrio ir tęstinumo. Nėra kalbos reglamentavimo virtualioje erdvėje, nėra susitarimų, kas atsakingas už programinės įrangos vertimą, kiek, ką, kokiu mastu verčiame ir pan. Programos nuolatos atnaujinamos, ir dažnai būna taip, kad vartotojas dalį programos gauna lietuvių, o kitą dalį – anglų kalba. Kol projektas vyksta, visa tai sužiūrima, jam pasibaigus lieka neaišku, kas tai atliks. Gerai, kad esama entuziastų, kurie dirba savanoriškai. Net ir dirbdami komercinėse įstaigose dalį savo laisvo laiko skiria programinės įrangos lietuvinimo priežiūrai. Tačiau bent pagrindinių programų, kuriomis naudojasi dauguma, priežiūra turėtų būti koordinuojama, turėtų būti kurios nors valstybės institucijos reikalas.“
Dar vienas iššūkis, profesorės teigimu, yra terminai. „Buvo įsteigta informatikos terminų komisija, žinoma, savanoriškais pagrindais, tačiau jungiant mokslo institutus, jos tiesiog nebeliko. Gerai, kad dar kažkiek gyva savanorių grupelė, kuriems rūpi informatikos terminai. Kartais kreipiamės į Valstybinę lietuvių kalbos komisiją. Tačiau terminais iš esmės rūpinasi entuziastų būrelis“, – apgailestauja profesorė. O juk nauji technologiniai terminai nuolatos atsiranda ir juos reikia versti.
Būtent todėl įgyvendinant naują projektą numatyta ne tik lokalizuoti keletą visuomenei aktualių programų (svetainių kūrimo programą „Joomla!“, mobiliųjų įrenginių programėlių kūrimo priemonę „App Inventor“, duomenų statistinio apdorojimo paketą „R“, raštinės paketo LibreOffice“ atnaujinimus ir žinynus), bet ir parengti, patobulinti vertimo atmintį – tai savotiškas žodynas, skirtas programinės įrangos lokalizavimui, kuriuo gali naudotis ir automatiniai vertėjai.
Numatoma parengti ekspertinės lietuvinimo kokybės vertinimo priemonę, kuri būtų integruota į portalą versti.eu ir raštija.lt bei leistų įvertinti programų sąsajos lietuvinimo kokybę, automatiškai aptiktų klaidų rinkinį programų lokalizuojamuose ištekliuose.