Lietuvių kalbos inovacijos: nuo lietuviškai prabilusio roboto humanoido iki sistemos „E. kalba“

Lietuvių kalbos skaitmenizavimas – vienas iš svarbiausių būdų ją išsaugoti, vienbalsiai teigia su šiais metais apdovanojimą gavusiu projektu „LIEPA-2“ dirbę mokslininkai. Prašnekinę robotą humanoidą lietuviškai mokslininkai plačiau papasakoja apie projekto užkulisius, jo eigą dirbant su beveik 2 tūkst. žmonių balsų ir naudą visuomenei.
Gediminas Navickas ir pirmasis pasaulyje lietuviškai kalbantis robotas-humanoidas Ąžuolas
Gediminas Navickas ir pirmasis pasaulyje lietuviškai kalbantis robotas-humanoidas Ąžuolas / Edgaro Kurausko nuotr.

Dar šį rudenį VU mokslininkų vystomas projektas „LIEPA-2“ Susisiekimo ministerijos geriausių projektų konkurse „Progreso kelias 2023“ pelnė pilietiškiausio projekto titulą. Projekto veidais tapo ir publiką sužavėjo du pirmieji lietuviškai prabilę robotai humanoidai – Liepa ir Ąžuolas. Visgi už jų – beveik dešimtmetį trukęs Vilniaus universiteto (VU) mokslininkų iš Matematikos ir informatikos bei Filologijos fakultetų įdirbis.

Kaip robotai pradėjo kalbėti lietuviškai ir ko iš lietuvių kalbos technologijų galima tikėtis toliau?

Duomenyne – daugiau nei 2,5 tūkst. piliečių balsų

„Šnekos tyrimai Lietuvoje prasidėjo prieš maždaug 50 metų. Jau tada buvo iškelta, atrodytų, futuristinė idėja: ar kalbėsimės su kompiuteriais? Šiandien prie šio klausimo pridedame ir kitą dalį: ar kalbėsime su kompiuteriais ir robotais lietuviškai? Anksčiau tokie svarstymai buvo daugiau teoriniai, o dabar, įvykus technologiniam progresui, juos galime realizuoti praktiškai“, – projekto ištakas piešia MIF lektorius Gediminas Navickas.

Prieš maždaug 50 metų buvo iškelta, atrodytų, futuristinė idėja: ar kalbėsimės su kompiuteriais?

Kaip atskleidžia pašnekovas, projektas „LIEPA-2“ – tai projekto „LIEPA“ tąsa. Abiejų projektų idėjinis vadovas – prieš metus anapilin iškeliavęs ir prie šios srities ištakų prieš 50 metų stovėjęs profesorius Laimutis Telksnys. Antrosios projekto dalies metu daugiau nei 30-ies mokslininkų komanda sukūrė informacinių technologijų sprendimus, skirtus nemokamai naudoti juridiniams ir fiziniams asmenims, taip pat – infrastruktūrinius sprendinius, kurie apima lietuvių kalbos garsyną, mobilųjį kalbos sintezatorių ir mobilųjį šnekos atpažintuvą.

„Kad šie darbai būtų padaryti, reikėjo labai daug šnekos pavyzdžių, garsynų. Taigi, kai įrašinėjome garsyną, kvietėme žmones ateiti ir atiduoti savo balsą lietuvių kalbai. Balsų mums reikėjo kuo daugiau ir skirtingesnių, nes kompiuteris turi mokytis iš kuo įvairesnių duomenų. Į mūsų kvietimą atsiliepė daugiau nei 2,5 tūkst. žmonių ir taip buvo sukurtas anotuotas 1000 valandų lietuvių šnekos garsynas. Ką šiuo atveju reiškia žodis „anotuotas“? Tai, kad prie kiekvieno įrašo reikėjo parašyti, kada ir kas tiksliai buvo pasakyta tekstu, buvo nurodomi net triukšmo, kosulio garsai“, – šypsosi lektorius.

G. Navickas neabejoja, kad projekto apdovanojimas yra susijęs su nemažu visuomenės įsitraukimu, taip pat – vertybine ir technologine jo dalimi. Kaip sako jis, kadaise svarbus etapas lietuvių kalbai buvo kompiuterių klaviatūrų pritaikymas jai. Tačiau nūdienos realybė verčia žvalgytis į aukštesnius standartus tam, kad kalba būtų išlaikyta:

„Su lietuvių kalba yra taip – jei patys jos neskaitmenizuosime, niekas to už mus nepadarys. Šiandien kyla klausimas, ar su kompiuteriais šnekėsime angliškai, ar lietuviškai. Žmonės turi turėti, iš ko rinktis. Juk jei galime rinktis tik anglų kalbą, čia nėra pasirinkimas.“

Bendrą kalbą mokslininkai rado ne iš karto

„LIEPA-2“ grožis – ir tai, kad dėl šio projekto turėjo susivienyti skirtingų sričių mokslininkai. Kaip sekėsi bendrauti humanitarams ir tiksliųjų mokslų atstovams?

Moksle apstu ginčų, diskusijų, grįžimo prie to, kas buvo, persvarstymo. Tai – linksmoji, įdomioji mokslinio darbo pusė.

„Iš pat pradžių mums tikrai nebuvo lengva susikalbėti. Mūsų mokslinės kalbos, kontekstai yra labai skirtingi, todėl prireikė laiko, kad susiderintumėme. Buvau tarpininkas tarp šių mokslininkų grupių ir kartais joms teko net vertėjauti, – juokiasi MIF lektorius. – Visgi reikėtų nepamiršti, kad moksle apstu ginčų, diskusijų, grįžimo prie to, kas buvo, persvarstymo. Tai – linksmoji, įdomioji mokslinio darbo pusė.“

Jam pritaria ir su projektu dirbęs Filologijos fakulteto profesorius Vytautas Kardelis. „Kaip sakė poetas Aidas Marčėnas, „mes kalbėjome skirtingom kalbom ir nėra sentimentų“. Iš pradžių tikrai taip buvo – ir linksma, ir liūdna, – juokiasi jis. – Po to labai susitelkėme ir susidraugavome, bet čia ir yra tikrasis tarpdalykiškumas.

Šiais laikais, jei lingvistika nelinksta į tarpdalykiškumą, jos laukia liūdnoki reikalai. Manau, kad ir man, ir kolegoms buvo svarbu išlipti iš savo burbulo. Tai buvo labai sveika, labai naudinga ir reikalinga – ne tik projektui, bet ir apskritai. Kai užsidarome narvelyje, nematome pasaulio gražumo.“

Žygimanto Savicko nuotr./Profesorius Vytautas Kardelis
Žygimanto Savicko nuotr./Profesorius Vytautas Kardelis

Anot prof. Vytauto Kardelio, filologijos lauke bendras mokslininkų projektas turi didelę reikšmę: „Visa ši medžiaga turi reikšmės ne tik kalbos sintezei ir atpažinimui, bet ir lingvistikai, nes taip kaupiame korpusą (garsyną). Kartais taip pajuokauju: kokie trys dalykai sudaro nekilnojamojo turto vertę? Tai vieta, vieta ir vieta. Lingvistikos atžvilgiu tie dalykai yra duomenys, duomenys, duomenys.“

Profesorius teigia dažnai sulaukiantis klausimo, kokia lietuvių kalbos padėtis yra šiandien. Kaip tikina filologas, nors rašytinių tekstų turime gausiai, garsynas yra tik šis, o tai neleidžia išsamiai atsakyti į klausimą, kokia šių dienų šnekamosios kalbos padėtis.

„Atrodo, kad 1000 valandų garsyno yra labai daug, bet iš tiesų tai yra labai mažai, palyginus su tuo, ką renka kitos šalys. Kitose kalbose įrašyti ir keli šimtai tūkstančių valandų informacijos. Surinkę daugiau duomenų galime ne tik naudotis technologijomis, bet ir matyti mūsų šnekamosios kalbos padėtį.“

Teoriškai žmogus turėtų skaityti taip, kaip parašyta, bet praktiškai jis skaito pagal tai, kokią sistemą yra susidėliojęs galvoje.

Puikus pavyzdys, anot dėstytojo, yra ir tas pats „LIEPA-2“ projektas, kurio metu asmenų buvo prašoma ne tik paskaityti paduotą tekstą, bet ir kalbėti laisvai.

„Tada ir išryškėjo, kas dedasi su tartimi, kirčiavimu, gramatika plačiąja prasme. Teoriškai žmogus turėtų skaityti taip, kaip parašyta, bet praktiškai jis skaito pagal tai, kokią sistemą yra susidėliojęs galvoje. Tada ilgieji, nekirčiuoti balsiai trumpėja, atsiranda kirčio atitraukimas ten, kur jo nereikia. Ir tokios formos, kaip „Japonijoje“, „istorijoje“, virsta ne tik „Japonijoj“, bet ir „Japoni“ ar „Japonioe“. Klausydami šių įrašų, galime matyti, kas darosi su mūsų kalbos struktūra. Be jokios abejonės, tai yra medžiaga lingvistiniams tyrimams.“

Žvilgsnis į ateitį

Tiek G. Navickas, tiek prof. V. Kardelis tikina, kad tolimesnis mokslininkų darbas ir projekto tęsinys „LIEPA-3“ priklausys nuo to, ar jam bus suteiktas finansavimas. Prof. V. Kardelis pasakoja matęs ir girdėjęs įvairių pasakymų šia tema, bet kritikams norėtų akcentuoti porą dalykų:

„Taip, šis projektas nekūrė jokių galutinių produktų, bet buvo kuriami informacinių technologijų ir infrastruktūros sprendiniai, vadinamieji varikliai, garsynas, kuriais visi gali naudotis nemokamai – verslas, privatūs asmenys – ir kurtis sau tinkamus ir reikalingus produktus. Tiems, kurie burbuliuoja, kad čia nieko nepadaryta, turiu patarimą pašnekėti su regos negalią turinčiais asmenimis. Tegu jie papasakoja, ar reikia jiems tokių lietuviškų šnekos technologijų, ar ne.“

Tiems, kurie burbuliuoja, kad čia nieko nepadaryta, turiu patarimą pašnekėti su regos negalią turinčiais asmenimis.

Kad būtų verta pratęsti projektą, antrina ir G. Navickas: „Šiandien mums reikia specializuotų garsynų tam tikroms sritims, pavyzdžiui robotikai, kur būtų įrašytos atskiros pokalbių su robotais temos, jų valdymo komandos ir t. t. Garsynai, šnekos sintezė, šnekos atpažinimas ir robotika – tai kryptys, su kuriomis ir toliau dirbame, bet kol kas tik mokslinių tyrimų srityje. Tikimės, kad tam bus paskirta finansavimo programa, tuomet savo mokslinių tyrimų rezultatus ir toliau galėsime naudoti lietuvių šnekos sprendimams kurti.“

Tarp konkurso nominacijų – ir „E. kalba“

Konkurso „Progreso kelias 2023“ kategorijoje „Pilietiškiausias projektas“ šiemet nominuotas ir kitas projektas – Lietuvių kalbos išteklių informacinė sistema „E. kalba“.

Lietuvių kalbos instituto Bendrinės kalbos tyrimų centro vadovė dr. Anželika Gaidienė pasakoja, kad nuo 2021 m. Lietuvių kalbos išteklių informacinė sistema „E. kalba“ prieinama plačiajai visuomenei adresu https://ekalba.lt:

„Šiuo metu „E. kalbos“ sistemoje galima rasti ir patogiai naršyti net 38 kalbos ištekliuose, kurie suskirstyti į tris grupes: elektroninius žodynus (vienakalbius ir dvikalbius), elektronines kartotekas ir duomenų bazes (žodynų kartotekas, tautosakos paveldo kartotekas, duomenų bazes) ir elektronines paslaugas (žodžių tinklus, elektroninę rinkodarą, elektroninius patarimus, kalbos žaidimus).

Asmeninio arch. nuotr./Dr. Anželika Gaidienė
Asmeninio arch. nuotr./Dr. Anželika Gaidienė

Taigi šioje sistemoje kiekvienas ras sau naudingų dalykų – verslininkas, kuriantis įmonės pavadinimą; žurnalistas, analizuojantis komentarus po savo paskelbtu straipsniu (teigiami / neigiami / neutralūs komentarai); vertėjas ar redaktorius, ieškantis tiksliausio žodžio ar raiškiausio pasakymo; mokytojas, kuriantis užduotis lietuvių kalbos pamokai; mokinys, norintis pasitikrinti tam tikro žodžio reikšmę, rašybą, kirčiavimą ir kt.; mokslininkas, ieškantis medžiagos savo tyrimams ir t. t.“

Paklausta apie sistemos progresyvumą, dr. A. Gaidienė sumini pagrindinius, naudotojams aktualius sistemos kriterijus: išsamumas – daugybė įvairių šaltinių ir kalbos duomenų vienoje vietoje; atnaujinimas – kai kurie ištekliai nuolat pildomi, taisomi; patikimumas – sistema kurta mokslininkų ir kalbos technologijų specialistų; patogumas – paieška veikia vieno langelio principu, be to, galima detalioji paieška pagal papildomus kriterijus; naujoviškumas – pažangios kalbos paslaugos, pavyzdžiui, „Nuomonių analizatorius“ naudoja giliojo neuroninio tinklo BiLSTM (angl. Bidirectional Long Short-Term Memory) architektūrą su BERT (angl. Bidirectional Encoder Representations from Transformer) žodžių vektorizacija ir kt.

Prie kai kurių išteklių kūrimo gali prisidėti patys „E. kalbos“ naudotojai.

„Beje, dėl informacijos apie kalbą patikimumo reikia pažymėti ir tai, kad žmonės, ieškodami tokios informacijos internete, būtų akylūs ir pasitikrintų, kokie šaltiniai jiems siūlomi kaip paieškos rezultatas. Ne paslaptis, kad internete esama piratinių žodynų, kurie kompiliuoja kartais pasenusią ar specialistų nepatikrintą informaciją. Pasitaiko, kad tokiais nelegaliais šaltiniais remiamasi net teismų nutartyse, pavyzdžiui, kai reikia cituoti kokio žodžio apibrėžtį“, – teigia Lietuvių kalbos instituto Bendrinės kalbos tyrimų centro vadovė.

Dr. A. Gaidienės įsitikinimu, į pilietiškumo kategoriją „E. kalba“ pateko ne veltui – joje pateikiami ištekliai itin aktualūs ir pravartūs visiems lietuvių kalbą vartojantiems ar norintiems jos išmokti žmonėms, taip pat mokslui ir švietimui, valstybės institucijoms ir verslui.

„Prie kai kurių išteklių kūrimo gali prisidėti patys „E. kalbos“ naudotojai. Pavyzdžiui, kasdien atnaujinamas Lietuvių kalbos naujažodžių duomenynas nebūtų toks spalvingas ir taip greitai negausėtų, jeigu negautų daugybės pasiūlymų iš savo lankytojų. Tereikia, aptikus vartosenoje naują žodį, patikrinti, ar jo dar nėra „E. kalbos“ sistemoje, ir užpildyti siūlymo formą“, – teigia pašnekovė.

Straipsnis parengtas iš VLKK vykdomos Lietuvių kalbos prestižo stiprinimo programos lėšų.

Pranešti klaidą

Sėkmingai išsiųsta

Dėkojame už praneštą klaidą
Reklama
Išmanesnis apšvietimas namuose su JUNG DALI-2
Reklama
„Assorti“ asortimento vadovė G.Azguridienė: ieškantiems, kuo nustebinti Kalėdoms, turime ir dovanų, ir idėjų
Reklama
Išskirtinės „Lidl“ ir „Maisto banko“ kalėdinės akcijos metu buvo paaukota produktų už daugiau nei 75 tūkst. eurų
Akiratyje – žiniasklaida: tradicinės žiniasklaidos ateitis