„Kalbos, kurios dabar tvirtai neapsigyvena skaitmeninėje erdvėje, pasmerktos išnykti“, – yra įsitikinęs Vilniaus universiteto Filologijos fakulteto projektų vadovas dr. Audrius Valotka ir sako, kad atsirado net tokia sąvoka – skaitmeninė kalbų lygybė.
Dr. A. Valotka primena, kad vienos kalbos tapo rašto kalbomis, kitos – ne. Ir akcentuoja, kad kalba yra sistema, o šneka – tai, ką mes ištariame. „Šnekos fiksavimas vyko trimis etapais: pirmuosius įrašus žmonės darė ranka molio lentelėse, papiruse, pergamente. Paskui vienos kalbos „įšoko“ į J. Gutenbergo spaudos presą, o kitos – ne. Kalbos, kurios nevirsta rašto kalbomis, lieka istorijos paraštėse, jos nunyksta. Tos, kuriomis buvo pradėta rašyti – ilgiau išlikdavo centrinėje istorijos ašyje“, – aiškina pašnekovas.
Jis pastebi, kad dabar vyksta trečiasis kalbų fiksavimo etapas – persikėlimas į skaitmeninę erdvę: „Kertu lažybų, kad apie kalbas, kurios šiandien į skaitmeninę erdvę nepateks, ateityje istorijos vadovėliuose, kažkur paraštėse, rašys mažytėmis raidėmis: „buvo“.
Prakalbinti daiktus – būtina
Todėl, dr. A. Valotkos įsitikinimu, lietuvių kalbos įsitvirtinimas skaitmeninėje erdvėje turėtų būti valstybės prioritetas.
„Ačiū Dievui, kažkada lietuviškus žodynus, gramatikas pasirašėme patys. Kai atėjo kompiuterių era, o juose lietuviško šrifto nebuvo – teko susikurti patiems. Čia labai daug padėjo Amerikos lietuviai. Lygiai taip pat lietuvių šnekos sintezatoriaus, kalbos atpažintuvo niekas už mus nesukurs. Kaip ir mašininio vertimo. Negalima kliautis Google ar kitomis kompanijomis. Norint turėti kokybišką ir savo produktą, būtina jį sukurti patiems“, – sako pašnekovas ir pasakoja apie dabar vykdomą lietuvių šneka valdomų paslaugų plėtros projektą „Lietuvių šneka valdomų paslaugų plėtra – LIEPA 2“, kuriam ir vadovauja.
„Dar 2013–2015 metais įgyvendinome projektą „Lietuvių šneka valdomos paslaugos (LIEPA)“. Paskui truko niekaip nepateisinama dvejų metų pauzė, kai vėlavo ES struktūrinių fondų finansavimas, o dabar vykdomas projekto tęsinys – LIEPA 2. Šių projektų pagrindinė idėja – sukurti technologijas, kad mes galėtume kalbėti taip, kad mus suprastų daiktai: ne tik kompiuteris, bet ir dulkių siurblys, automobilis, humanoidinis robotas ir kt. Ir atvirkščiai – kad daiktai mums kalbėtų, o mes suprastume. Ir tai būtų ne mechaninis roboto, bet natūralus žmogaus balsas“, – pasakoja dr. A. Valotka.
Abu projektus sudaro du stambūs darbų blokai: šnekos sintezatorius ir šnekos atpažintuvas.
Sintezatoriaus kūrimo eiga tokia: lingvistai sukuria tekstą su visais įmanomais lietuvių kalbos garsų deriniais, galimais kirčių, priegaidžių ir pan. variantais. Tada diktoriai įkalba šį teksto garso įrašą, kuris sukarpomas fragmentais ir specialiai apdorojamas.
Tai labai imlus procesas – vienai įrašo valandai tenka skirti iki 100 valandų apdorojimo.
„LIEPOS projekte sukurtą sintezatorių galima suprasti 100 procentų. Šia programa galite naudotis jau keletą metų, pavyzdžiui, važiuodami į darbą pasiklausyti kai kurių portalų tekstų – programa skaito straipsnius. Taip portalai sutaupo pinigų, nereikia samdyti įgarsintojų, o žmogus, gaišdamas laiką kamštyje, išklauso jam įdomią informaciją. Sintezatoriumi naudojasi ir sostinės savivaldybė. Jis nemokamas, juo galima naudotis be jokių apribojimų, jį tobulinti“, – pasakoja dr. A. Valotka.
Jau dabar važiuodami galite klausyti, kaip programa lietuviški skaito straipsnius.
Programos skaito tekstus tiek vyrišku, tiek moterišku balsu. „Sintezatorių kūrėme keturių balsų – tai vyresnis vyriškas, vyresnis moteriškas bei jaunesnis vyriškas ir jaunesnis moteriškas (Vlado Bagdono, Reginos Jokubauskaitės, Edvardo Kubiliaus ir Aistės Diržiūtės). Manau, kad vyrai labiau mėgsta moteriškus balsus, moterys – vyriškus, – svarsto projekto vadovas, – yra pastebėta, kad žemas balso tembras mažiau vargina, spigus, aukštas ima greitai erzinti“.
Ir nors yra žmonių labai mėgstami balsai, pavyzdžiui, aktoriaus V. Bagdono, tačiau yra dar ir techninių apribojimų, kodėl vienų žmonių balsai tinka, kitų – ne. „Balsas turi būti gana lygus, tai atsispindi vadinamojoje balso kreivėje. Patyrę diktoriai, aktoriai geba taip kalbėti. Tų balso niuansų – labai svarbių ir reikšmingų – yra daugybė“, – darbo užkulisius praskleidžia dr. A. Valotka.
Nesusikalba ne tik žmonės
Tačiau viena yra sukurti technologinius pagrindus, kad sintezatorius gerai veiktų, o kita – pritaikyti jį komfortiškai naudotis. Pavyzdžiui, skaitydamas tekstą ir jame aptikęs JAV prezidento D. Trumpo pavardę, sintezatorius ją taip ir perskaitys, kaip užrašyta. Todėl turi būti sukurtas taisyklių rinkinys, žodynas, kad ir kiti teksto elementai būtų skaitomi taisyklingai, pavyzdžiui, santrumpos, romėniški skaitmenys, metai. Visa tai tobulinama.
Projekto kūrėjai nepamiršo ir pažeidžiamų visuomenės grupių – LIEPA 2 bus sukurtas mobilusis sintezatorius akliesiems, garsiai skaitantis žiniasklaidos naujienas iš interneto.
„Kita LIEPOS projekto užduotis daug sudėtingesnė – tai šnekos atpažinimas. Visai kaip gyvenime tarp žmonių. Būna, kad žmogus viena galvoja, kita pasako ir dar kitaip būna suprantamas. Taip ir technologijose. Šnekos atpažinimo problema šiandienos technologijų pasaulyje tik iš dalies išspręsta. Ypač sudėtinga su tokiomis kalbomis kaip mūsų – fleksinėms, t. y. tomis, kurių žodžių galūnės yra kaitomos. O kur dar balso tembras, kirčiai, pašaliniai garsai, kurie mums atrodo paprasti dalykai, o kompiuterinei balso atpažinimo programai – labai sudėtingi“, – apie iššūkius kalba projekto vadovas.
Apie kalbas, kurios nepateks į skaitmeninę erdvę, ateityje istorijos vadovėliuose rašys: „buvo“.
Šiame darbe labai svarbu, kad kuriant programas bendradarbiautų lingvistai ir programuotojai. Ir tai nėra lengva, visi kalba kitaip, turi skirtingą požiūrį. Daugiausia darbo ir išteklių tenka programavimui. Filologinis darbas – kurti garsyną ir žodyną – irgi nelengvas.
„Pasirenkami labai įvairūs garso įrašai ir apdorojami specialia programa – karpomi, anotuojami. Kompiuteris turi atpažinti ir šnekos ar aplinkos triukšmą, kosėjimą, čiaudėjimą, pokalbį, kur vienas kitą pertraukia, įsiterpia kiti garsai, kurie nėra šneka. Projekte sukursime 1000 valandų garsyną. Būtent dabar ties šiais darbais daugiausia vargsta mūsų lingvistai. Tai įtemptas trejų metų darbas dešimčiai žmonių“, – pasakoja dr. A. Valotka.
Pasak jo, darbus numatoma baigti 2020 m. pabaigoje. Norintys naudotis nemokamais projekto rezultatais juos ras portale raštija.lt.
Klaviatūrą pakeis balsas
Šis projektas vykdomas žvelgiant į pasaulines tendencijas. „Prietaisai, su kuriais bendrausime, taps vis paklausesni, tai akivaizdu: nuo klaviatūros ir mygtukų bus pereinama prie vokalo, garsinio bendravimo.
Yra daugybė situacijų, kai įrenginius, technologijas būtų patogiau valdyti balsu. Ypač tai būtų naudinga neįgaliesiems, medikams. Pavyzdžiui, balso komandomis pakelti, nuleisti lovą. Kai chirurgas operuoja, jam irgi pasitaiko situacijų, kuriose prietaisus būtų geriau valdyti balsu. Ateityje gali trūkti tam tikrų profesijų žmonių, ir balsu valdomos įrangos poreikis tik didės. Kita vertus, kur yra pasiūla, ten atsiranda ir paklausa. Pavyzdžiui, patogu įlipus į liftą su pirkinių krepšiais jį valdyti balsu. Komfortas – vienas iš svarbiausių progreso šaltinių“, – yra įsitikinęs dr. A. Valotka.
Jis pastebi, kad nors kiek ir atsilikdami, bet žengiame pirmyn: „Pernelyg atsilikti nuo pasaulio negalime. Didžiosios komercinės kalbos – anglų, vokiečių, portugalų, ispanų gerokai pažengę į priekį.
Kol kas, pavyzdžiui, automobilių gamintojų dar nedomina nei lietuvių, nei netgi didesnių, pavyzdžiui, lenkų kalbos įdiegimas į valdymo sistemą – kol kas tokio poreikio nėra. Tačiau, kai jis bus – sistema bus jau sukurta, beliks ją pritaikyti konkrečiai kompiuterinei programai.“