Kalbų gyvybė ir mirtis skaitmeniniame amžiuje

Spartūs pokyčiai pražūtingi ne tik dinozaurams. Dauguma iš šiuo metu pasaulyje egzistuojančių 6 tūkst. kalbų globalioje skaitmeninėje visuomenėje neišgyvens. Jau per artimiausius porą dešimtmečių gali išnykti beveik 2 tūkst. kalbų, teigia studijos „Lietuvių kalba skaitmeniniame amžiuje“ autorės Daiva Vaišnienė ir Jolanta Zabarskaitė.
Laiškai
Laiškai / Fotolia nuotr.

Kokios lietuvių kalbos galimybės išlikti ir kokios priemonės leistų ją pritaikyti naujajai erai? Kalbos gyvybingumas priklauso ne tik nuo ja kalbančių žmonių ar parašytų knygų skaičiaus, bet ir nuo kalbos vartojimo augančioje išmaniųjų įrenginių erdvėje.

Naujadarų – tūkstančiai

VU Filologijos fakulteto projektų vadovas dr. Audrius Valotka sako, kad kalboje daugėjant naujadarų, kai kam darosi baisu, jog kalba bus „atskiesta“.

Kalboje daugėjant naujadarų, kai kam darosi baisu, jog kalba bus „atskiesta“.

„Tai, ką įsivaizduojame, tėra mito dalis, jog mūsų kalbą pakeis skoliniai. Bet tai nutinka visada, kai prasideda didesni socialiniai ar technologiniai virsmai. Kalba atspindi pasaulį. Kaip jis keičiasi, taip keičiasi ir kalba“, – teigia A. Valotka.

Poveikis iš tiesų stiprus. Nuo 1993 iki 1997 metų Lietuvos spaudoje užfiksuota daugiau nei 700 naujų svetimų žodžių šaknų. Dažniausiai tai skoliniai iš anglų kalbos arba žodžiai, į lietuvių kalbą patekę per šią kalbą. Tai lėmė sparti informacinių technologijų plėtra bei naujos kultūrinės, socialinės ir ekonominės galimybės. Dabartinio lietuvių kalbos tekstyno duomenimis, nuo 1991 iki 1996 metų lietuvių kalbos žodyną papildė per 10 tūkst. naujažodžių.

„Pamenu, prieš 20 metų vienas lietuvis Pietų Amerikoje man sakė, kad sugadinome lietuvių kalbą, sudarkėme. Jeigu norime žinoti objektyvią tiesą, renkamės vieną iš dviejų: arba kaip nors pamatuojame, arba surenkame daug ekspertų ir iš jų gauname vieną objektyvią nuomonę. Pasaulyje yra kelios pripažintos kalbų vertinimo metodikos“, – aiškina VU Filologijos fakulteto projektų vadovas.

Lietuvių kalbos būklė vertinama gerai

Vieną tokią metodiką kalbos būklei vertinti taiko UNESCO. Kita pateikiama tinklalapyje ethnologue.com. Tai – pati populiariausia metodika, įvertinanti kalbos paplitimą ir jos būklę, vadinama EGIDS. Pagal tuos parametrus lietuvių kalbos būklė vertinama labai gerai. Tiesa, geriausiai laikosi vadinamosios komercinės kalbos – ispanų arba anglų.

„Pagal ethnologue.com skalę trylikos pakopų sistemoje mes esame antroje eilutėje. Kaip nekomercinė kalba lietuvių kalba laikosi labai gerai. O jeigu lyginsime standartinę vokiečių kalbą ir standartinę lietuvių kalbą, tai pagal teisinį pripažinimą mes esame trimis pakopomis aukščiau negu vokiečių kalba“, – tikina A. Valotka.

Pagal ethnologue.com skalę trylikos pakopų sistemoje mes esame antroje eilutėje. Kaip nekomercinė kalba lietuvių kalba laikosi labai gerai.

Garsiausi pasaulio ekspertai, tokie kaip Davidas Crystallas, irgi pritaria šiai nuomonei. Nors pagal socialinės Europos kalbų raidos istoriją, kalbas skirstant į dominuojančiąsias ir dominuojamąsias, lietuvių kalba priskirtina prie antrųjų. Dominuojančiosios kalbos – anglų, italų ar prancūzų vieną tarmę bendrinėms kalboms formuoti buvo pasirinkusios ne vėliau kaip Renesanso laikotarpiu, o dominuojamosios susiformavo XIX amžiuje. Bendrinė lietuvių kalba susiformavo XIX ir XX amžių sandūroje.

„Kada pas mus XIX amžiuje atėjo technologijos, atėjo ir nauji žodžiai. Kada mokslo proveržis įvyko XVIII – XIX a., nors ir vėluodami, terminai irgi pas mus atkeliavo. Leksika visada kinta ir kalbininkai dėl to mažiausiai jaudinasi. Labiausiai paveikiama leksika, po to prasideda morfologijos kaita, fonetika laikosi tvirčiausiai“, – pasakoja specialistas.

Su naujais žodžiais atkeliauja ir naujos raiškos galimybės. Lingvistai teigia, kad, norėdami kalbėti apie abstrakcijas, skolinamės žodžius ir tai nėra blogai. Juolab kad nauji terminai sėkmingai natūralizuojami ir, praturtindami kalbą, tampa visateisiai.

„Svarbiausias kalbos gyvybingumo parametras – kiek jos mes perduodame vaikams, ar anūkai susikalba su seneliais. Svarbu kokiose srityse, kokiuose domenuose kalba vartojama. Lietuvių kalba – teisės kalba, finansų apskaitos kalba, valstybės valdymo kalba, ji vartojama visose sferose. Užleidžia pozicijas tik mokslo srityje, kur ją išstumia anglų kalba, ypač nehumanitariniuose moksluose“, – pasakoja A. Valotka.

Kalbos skaitmeniniams – tik vienas iššūkis

Informacinių technologijų sukeltas perversmas – ne pirmas išbandymas tautoms, kalboms ar kultūroms. Ne tik informacinėje visuomenėje, bet ir senovėje kalbos gyvybingumą ar patrauklumą lėmė galimybės greitai ir patogiai keistis informacija, ją saugoti, gauti įvairias paslaugas. Kalbos skaitmeninimas yra trečioji kalbos fiksavimo banga žmonijos istorijoje.

Pirmasis fiksavimas buvo užrašymas molyje, pergamente. Daug kas sakė, kad užrašydami mes daug ką prarandame. Antroji banga buvo Gutenbergo spaudos preso sukūrimas, kada tekstai imti tiražuoti.

„Pirmasis fiksavimas buvo užrašymas molyje, pergamente. Daug kas sakė, kad užrašydami mes daug ką prarandame. Antroji banga buvo Gutenbergo spaudos preso sukūrimas, kada tekstai imti tiražuoti. Tada spauda pradėjo veikti kalbą. Gal kažkas irgi jaudinosi, kad vyksta negeri dalykai, kad kalba turi prisitaikyti prie spaustuvininkų poreikių ir pan. Bet apie daugumą tų kalbų, kurios nepateko į šią tiražavimo technologiją, mes dabar ne ką galime pasakyti“, – sako A. Valotka.

Dabar vis daugiau pasaulio informacijos patenka į skaitmeninę erdvę, serverius, debesiją. Norint kuo efektyviau ją valdyti ir naudoti, taip pat siekiant išplėsti vartotojų ratą ir paslaugų asortimentą, aktyviai kuriamos balsu valdomos sistemos.

Kompiuteriai jau beveik be klaidų atpažįsta balsu, anglų kalba sakomą tekstą, o mobiliuosiuose prietaisuose apsigyveno tokios virtualios sekretorės kaip „Siri“. Naudodamas balso atpažinimo programą, telefono savininkas gali paprašyti šios dirbtinio intelekto programos rezervuoti staliuką restorane, nupirkti bilietus į kiną ir pan. Taigi režisieriaus Spike`o Jonze`o fantastinė melodrama „Ji“ – jau nebe fantastika.

„Kompiuterių eroje stengiamasi, kad kalba gyventų visur“

Dar vienas būdas iš esmės pagerinti kalbos atpažinimą – naudoti giliojo mokymo (angl. deep learning) programinę įrangą, imituojančią smegenų žievės neuronų veiklą. Tokius darbus atlieka kompanija „Google“. Tuo tarpu „Microsoft“ naudoja dirbtinius neuronų tinklus „Bing“ balso paieškos sistemoje.

„Pastaraisiais metais kalbų technologijos labai sparčiai tobulinamos. Jeigu prieš keliasdešimt metų automatinis vertimas pasauliui rūpėjo tik tiek, kiek tai buvo susiję su šaltojo karo priešprieša, kompiuterių eroje stengiamasi, kad kalba gyventų visur“, – pasakoja VU Filologijos fakulteto projektų vadovas.

Dar vienas būdas iš esmės pagerinti kalbos atpažinimą – naudoti giliojo mokymo (angl. deep learning) programinę įrangą, imituojančią smegenų žievės neuronų veiklą.

Įvairių sričių specialistai Lietuvoje, suvieniję jėgas, taip pat stengiasi išplėsti mūsų kalbos gyvybinę erdvę. Vienas iš pirmųjų, paprasčiausių, bet labai svarbių etapų – fiksuoti kalbą, jos įvairovę ir įamžinti skaitmeniniuose archyvuose. Tokiuose, kokį galite rasti interneto svetainėje e.paveldas.lt. Šioje erdvėje saugomi Lietuvos istorijai svarbūs archyvai, senos knygos, periodinė spauda ir pan. Norint kurti kitas – šnekos atpažinimo, automatinio vertimo sistemas, reikia turėti didžiulę duomenų bazę.

„Mūsų fakultete skaitmeniniame aštuonis ar devynis žodynus. Ir patogiau, nes galima naudotis mobiliame prietaise, ir tokie duomenų masyvai suteikia didesnes galimybes mokslininkams. Lengviau atlikti analizę, nes turint skaitmeninius išteklius galima padaryti daug daugiau“, – teigia A. Valotka.

Nuo lyderių atsiliekame gerokai

Skaitmeninimas – vienas paprasčiausių būdų patekti į skaitmeninę erdvę. Tačiau tai – tik pradžia. Kurdami automatinio vertimo į lietuvių ir iš lietuvių kalbos į kitas kalbas sistemą, jau ne vienerius metus dirba kompanija „Tildė“, VU ir VDU mokslininkai.

VU Taikomųjų mokslų institutas yra sukūręs anglų-lietuvių-anglų ir prancūzų-lietuvių-prancūzų vertimo programas. Projektas greit bus prieinamas visuomenei.

Jeigu įvertinsime Lietuvių kalbos morfologines, darybos galimybes, iš viso mūsų kalba pajėgi sugeneruoti apie pusantro milijardo vienetų. Tai labai daug. Dirbti su ta medžiaga sudėtinga.

„Jeigu įvertinsime Lietuvių kalbos morfologines, darybos galimybes, iš viso mūsų kalba pajėgi sugeneruoti apie pusantro milijardo vienetų. Tai labai daug. Dirbti su ta medžiaga sudėtinga. Todėl iš pradžių labiau tobulinami sektoriai, kurie aktualesni visuomenei: teisės kalba, technologiniai sektoriai. Kol kas akivaizdus tik vienas dalykas, kam netinka automatinis vertimas, versti grožinei literatūrai“, – LRT televizijos laidai „Mokslo ekspresas“ sako A. Valotka.

Reikia pabrėžti, kad šnekos atpažinimas ir automatinis vertimas – du skirtingi procesai. Šnekos atpažinimas ir sintezavimas skaitmenina vienos ir tos pačios kalbos išteklius. Pavyzdžiui, lietuvių kalbos sintezatorius lietuvišką tekstą paverčia lietuviška šneka.

Vertimo technologija kuria sąsają tarp dviejų kalbų. Bet šios abi technologijos gali susitikti taikomosiose programose, kai balsu ištartas tekstas atpažįstamas ir paverčiamas tekstu, arba išverčiamas į kitą kalbą, arba sintezuojamas kita kalba.

„Mes dirbame su programuotojais, su VU matematikos ir informatikos institutu, su VU taikomųjų mokslų institutu. Visi dabar įgyvendinami projektai stovi ant dviejų kojų – vienoj pusėj yra humanitarai, o kitoj – matematikai“, – aiškina A. Valotka.

Nors, kaip minėta, lietuvių kalbos būklė apskritai vertinama gerai, informacinių technologijų srityje mes gerokai atsiliekame nuo lyderių. Antai vis dar neturime kokybiškų šnekos atpažinimo programų. Tačiau lietuvių šnekos sintezatorius jau prakalbo konkretaus žmogaus balsu.

Informacinių technologijų srityje mes gerokai atsiliekame nuo lyderių. Antai vis dar neturime kokybiškų šnekos atpažinimo programų. Tačiau lietuvių šnekos sintezatorius jau prakalbo konkretaus žmogaus balsu.

„Mes pateikiame tekstą ir kompiuteris ima šnekėti. Mūsų technologija maždaug tokia. Įrašomas tekstas, daug teksto, kad būtų visi įmanomi tarties variantai: visi skardieji, duslieji, balsiai priebalsiai, įmanomi deriniai. Tada mūsų kalbininkai apdoroja tą medžiagą, sukarpo tekstą elementais. Darbas labai didelis – valandai įrašo – tenka iki šimto valandų apdorojimo. Ir tada kompiuteris randa teksto elementus iš sąrašo išrenka ir juos klijuoja vieną po kito ir generuoja“, – apie procesą pasakoja A. Valotka.

Nauda – akivaizdi

Tai gali būti naudojama įvairiose srityse. Neregys gali perskaityti kompiuterio įgarsinamą knygą. Arba išklausyti elektroninį laišką. Bet kuris iš mūsų, paskambinęs į banką ir norėdamas atlikti kokią nors operaciją, tiesiog ištars pageidavimą, o kompiuteris atpažins, kas yra sakoma ir atsakys į klausimą ar užklausimą.

„Jau dabar yra sukurtos anglų-rusų šnekėjimosi poros. Jei į telefoną pasakote angliškai, automatiškai išverčiama rusiškai. Mums šioje srityje dar reiktų gerokai padirbėti. Tiesa, doc. P. Kasparaičio ir jo grupės kūrinys neblogai veikia, nes sintezuojamo teksto atpažinimas yra beveik 100 proc.“, – džiaugiasi VU Filologijos fakulteto projektų vadovas.

Vieno tokio projekto, kurio koordinatorius yra LMA tikrasis narys Laimutis Telksnys, autoriai siekia, kad išmanūs įrenginiai suprastų lietuviškai ištartas komandas. Šiuo metu kuriamas „Naršytuvas“ – interneto naršymo programa, valdoma balso komandomis, ir „Valdytuvas“ – kompiuterio valdymo natūralia šneka programa.

Projekto metu bus sukurtos 4 kompiuterinės viešosios elektroninės paslaugos: „Tartuvas“ – interaktyvios elektroninės lietuvių sakytinės kalbos naujovių vartosenos paslauga (kompiuteris padės jums ištarti naujadarą). „Pažintuvas“ – gamtos pažinimo įgūdžių ugdymo moksleiviams paslauga, balsu valdant kompiuterį. „Ieškotuvas“ – paslauga, leidžianti ugdyti moksleivių gebėjimus šneka ieškoti išteklių apie UNESCO kultūros paveldą pasaulyje. Ir „Pagalbininkas“ – paslauga, padedanti neįgaliesiems, šnekantis su kompiuteriu, plėtoti socialinius gebėjimus ir informacinių technologijų naudojimo įgūdžius.

„2015 metų viduryje šis projektas, kurio santrumpa yra LIEPA, bus baigtas ir tinklalapyje raštija.lt, visi norintys galės tuo naudotis. Po to penkerius metus dar tobulinsime šį projektą“, – teigia A. Valotka.

Lietuvai vis glaudžiau integruojantis į Europos Sąjungą, svarbu suprasti, jog Europos ekonomikos, kultūros ir visuomenės ateitis priklauso nuo įvairių veiksnių. Vienas iš jų – gebėjimas susikalbėti.

Europos Sąjungos institucijos per metus išleidžia apie milijardą eurų daugiakalbystės politikai įgyvendinti – rašytiniams tekstams versti ir žodinei komunikacijai. Štai kodėl svarbu sukurti kalbos technologijas, automatinio vertimo sistemas, kurias būtų galima įdiegti išmaniuosiuose prietaisuose.

„Mes turime pasakyti sau, jog lietuvių kalba mums yra svarbiausia ir neturime leisti jos išstumti jokiose vietose. Ar tai būtų trumposios žinutės, ar iškabos, ar mokslo kalba, ar renginių kalba. Jeigu mes turėsime poreikį, kad mus visur suptų lietuvių kalba, technologijos prisitaikys. Iš pradžių žmogus taikosi prie technologijų, bet kai technologijos tobulėja, jos lieka antrame plane“, – sako A. Valotka.

Pranešti klaidą

Sėkmingai išsiųsta

Dėkojame už praneštą klaidą
Reklama
Išmanesnis apšvietimas namuose su JUNG DALI-2
Reklama
„Assorti“ asortimento vadovė G.Azguridienė: ieškantiems, kuo nustebinti Kalėdoms, turime ir dovanų, ir idėjų
Reklama
Išskirtinės „Lidl“ ir „Maisto banko“ kalėdinės akcijos metu buvo paaukota produktų už daugiau nei 75 tūkst. eurų
Akiratyje – žiniasklaida: tradicinės žiniasklaidos ateitis