Dirbtinis intelektas ir lietuvių kalba: ar jis supranta lietuvišką sąmojį?

Vienas DI tekstus identifikuojančios ir plagiatą atpažinti padedančios kompanijos „Identific“ (buv. „Oxsico“) įkūrėjų Chorstas Klausas sako, kad DI kuriami lietuviški tekstai šiandien yra gana nesunkiai identifikuojami.

„Yra keli signalai, padedantys atpažinti, kad tekstas yra generuotas DI. Vienas jų – anglų kalbos sakinio struktūra, kitaip rašomi išplėstiniai sakiniai ar nenatūraliai vartojami kai kurie žodžiai. Pavyzdžiui, žodį, kurį mes natūraliai sakytume sakinio pradžioje, DI gali nukelti į sakinio galą, nes taip yra įprasta anglų kalboje“, – pasakoja Ch. Klausas.

Nuotr. iš asmeninio archyvo/Chorstas Klausas

Anot specialisto, skaitydami DI sugeneruotus lietuviškus tekstus galime aiškiai pastebėti ir kai kuriuos supainiotus linksnius ar gimines: „Anglų kalba šiais klausimais yra žymiai paprastesnė, o kadangi dauguma DI įrankių remiasi būtent ja, DI sugeneruotuose tekstuose greitai pastebėsime klaidingų kalbos interpretacijų.“

Koją kiša ne tik duomenų trūkumas

Kaip užsimena pašnekovas, tam, kad turėtume „žmogiškiau“ ar tiksliau tekstą lietuvių kalba generuojančius DI įrankius, šiandien visų pirma trūksta lietuviškų tekstynų ir duomenų. Kaip visa tai veikia?

„Didžiųjų kalbos modelių (angl. Large Language Models) pagrindas yra duomenys – tekstinė informacija. Turėdami šiuos duomenis tam tikri algoritmai iš turimo teksto daro statistines išvadas ir pagal tai pateikia matematinį-statistinį atsakymą. Mums puikiai žinomas „ChatGPT“ taip pat yra statistinė seka, kurią algoritmas parenka pagal didžiausią matematinę tikimybę. Tačiau kai kalbame apie matematinį-statistinį rezultatą, svarbus yra tikslumas, o tam, kad jį gautume, reikia turėti kaip įmanoma daugiau įvesties, duomenų“, – paaiškina Ch. Klausas.

Būtent dėl to skaitydami DI sugeneruotą anglišką tekstą jo galbūt taip paprastai neatskirsime nuo to, kurį rašė žmogus: „DI turi gerokai daugiau duomenų anglų kalba, nes ja kalba daugiau žmonių, ji turi daugiau vartotojų. Dėl to atsakymai, tekstai yra tikslesni.“

Kaip sako Ch.Klausas, su vertimu iš anglų kalbos į lietuvių kalbą situacija yra sudėtinga, nes toks vertimas yra mašininis, netikslus: „Jeigu tokį tekstą naudosime DI mokymui, rezultatuose klaidų tikrai pasitaikys.“

Išryškėja vienas iš DI modelių trūkumų – tekstas išeina pernelyg taisyklingas, nenatūralus.

Priežastis, kodėl DI kol kas nėra sklandžiai kalbantis lietuvis, yra ir ištekliai – anot Ch.Klauso, dėl mažo lietuvių kalbos vartotojų skaičiaus verslo investicijas pritraukti gana sudėtinga.

„DI pagrindas yra duomenys. Žinoma, yra ir papildomų niuansų, nes už duomenų slypi algoritmas, todėl ir jis turi būti tikslesnis, nuolatos tobulinamas. Kad DI lietuvišką sąmojį suprastų geriau, pasistengti gali ir visuomenė – galime rašyti, kurti daugiau tekstų internete. Šiandien „ChatGPT“ duomenis ima ir iš žmonių bendravimo platformų, o tai yra svarbu gyvesnei, žmogiškesnei kalbai sukurti. Dabar DI kuriama kalba yra tiksli, struktūruota, paimta iš žiniasklaidos, enciklopedijų. Dėl to išryškėja vienas iš DI modelių trūkumų – tekstas išeina pernelyg taisyklingas, nenatūralus“, – mano pašnekovas.

Kūrybininkų darbo artimiausiu metu neatims

Paklaustas, ko iš DI galime tikėtis ateityje, Ch. Klausas atsako tikintis, kad iki šiol regėtas spartus progresas ateityje, tikėtina, sulėtins savo tempus.

„Prognozuoti sunku, nes tai yra be galo greitai besikeičiančios technologijos, tačiau pokyčiai įvyksta, o vėliau aprimsta, nusistovi. Taip, kaip kadaise progresas vyko su kompiuteriais – prieš trejus metus pasirodžiusių kompiuterių charakteristikos šiandien nebekinta ar kinta labai mažai. Tačiau gali būti, kad su didesniu DI atėjimu išaugs dirbtinio intelekto kalbos inžinierių karta, rasis naujų darbo vietų“, – sako specialistas.

Gali būti, kad su didesniu DI atėjimu išaugs dirbtinio intelekto kalbos inžinierių karta.

Ar DI gebės pateikti unikalų, originalų turinį, ar gebės būti žurnalistu, tekstų autoriumi, Ch. Klausas sako abejojantis: „Kai atsirado e. knygos, buvo prognozuojama, kad išnyks fizinės knygos, tačiau taip neatsitiko, nes žmonėms vis tiek malonu jausti knygų viršelius ir puslapius. Panašiai gali nutikti ir su DI. Dirbtinai sukurto turinio perteklius ir neribota jo pasiūla jį greičiausiai padarys mažai vertingą.“

O štai turinio kūrėjas ir technologijų apžvalgininkas Lukas Keraitis tvirtina, kad artimoje ateityje DI negalėtų atimti darbo nei iš žurnalistų, nei iš kitokio turinio kūrėjų.

„Dalį užduočių jis perėmė jau dabar, pavyzdžiui, gali parašyti žurnalistinį straipsnį apie sporto varžybas, SEO straipsnį ar patiekalo receptą. Bet tai labai aiškius algoritmus turinčios užduotys, joms nereikia itin daug kūrybiškumo.

Asmeninio arch. nuotr./Lukas Keraitis

Tikiu, kad vyksta panašūs pokyčiai, kaip ir „Google“ paieškos atsiradimo metu – kelios profesijos išnyks, kelios atsiras, bet daugiausia profesinių dalykų tiesiog palengva transformuosis“, – sako L. Keraitis.

Jis priduria manantis, kad klausimas, ar DI atims darbus, šiandien yra kiek perdėtas, dažniau juo išreiškiama nuostaba naujovėmis. L. Keraitis siūlo rimtai pasverti, ar į daug darbų DI kėsinasi? Ar jis gali priimti sprendimus, nuspręsti, kas svarbu ir ne?

„Kūrybinių industrijų srityje per pastaruosius kelerius metus DI išties perėmė nemažai grafikos dizainerių darbų – su DI įrankiais kai kuriais atvejais galima darbus pasidaryti pačiam neišmanant dizaino taisyklių. Bet kitais atvejais pokyčiai dar tik įsibėgėja.

Atsiranda vis daugiau DI įrankių turinio kūrėjams, tai leidžia atlikti nuobodžius darbus greičiau. Juk anksčiau reikėjo pačiam anotuoti į „YouTube“ ar kitur keliamus vaizdo įrašus, išrašyti tekstą, dabar tai padaro DI. Kažin ar daug kas dėl to liūdi“, – teigia pašnekovas.

Lietuviški eksperimentai su DI nustebino

O kaip DI sekasi su humoru? DI mokymus vedantis L. Keraitis pastebi, kad daliai auditorijos gali pasirodyti netikėta, jog pokalbių robotai geba gana sėkmingai susitvarkyti su humoru – jį suprasti ar patys generuoti.

Asmeninio arch. nuotr./Lukas Keraitis

„Nors dažnai ir prašauna pro šalį, kartais DI mane tikrai labai prajuokina. Bet tai atitinka generatyvaus DI apibrėžimą – programa, gebanti atlikti žmogiškais laikytus darbus. Tai, kad DI sugeba suvokti ir sujungti humorui reikalingus kontekstus, yra didžiulis mokslinis pasiekimas. Neabejoju, kad su DI yra rašomi scenarijai, užbaigiami anekdotai ir pan. Prieš metus konsultavau JAV rinkai vaizdo įrašus kuriančios įmonės kūrybinę komandą – ten dažnu atveju prašydavome „ChatGPT“ užbaigti scenarijų viską apibendrinančiu juokeliu anglų kalba. Vienas iš penkių ar dešimties variantų puikiai tikdavo“, – sėkmės atvejų statistiką atskleidžia skaitmeninio turinio kūrėjas.

L. Keraitis pripažįsta dažnai eksperimentuojantis su „ChatGPT“, kartkartėmis šių eksperimentų padariniai nugula socialiniuose tinkluose. Vienas tokių eksperimentų nustebino ne tik patį skaitmeninio turinio kūrėją, bet ir jo sekėjus. Dirbtinio intelekto paprašęs rasti paraleles tarp prekybos centro šūkio „Ką tik nuskinta“ ir automobilio avarijos, L. Keraitis sunkiai patikėjo, kad DI su šiuo frazeologizmu gana neblogai susitvarkė.

„Buvo netikėta, kad DI sugebėjo suprasti frazės „ką tik nuskinta“ komišką reikšmę nuotraukos kontekste. Čia reikia ir perskaityti tekstą paveikslėlyje, ir suprasti, kad įvyko avarija, tad rezultatas tikrai įspūdingas. Taip pat ir tai, kad DI viską suprato lietuvių kalba.

Buvo netikėta, kad DI sugebėjo suprasti frazės „ką tik nuskinta“ komišką reikšmę nuotraukos kontekste.

Deja, lietuvių kalba technologijų pasaulyje yra apleista, visi įrankiai su ja veikia gerokai prasčiau nei su anglų ar kitomis populiariomis kalbomis. Technologijų kompanijos nededa tam didelių pastangų suprasdamos lietuviškai kalbančios rinkos siaurumą, o mes patys neturime prioriteto padėti toms kompanijoms tinkamu formatu priimti mūsų kalbą (kaip tai stengiasi daryti Šiaurės Europos šalys). Tad vis atsiliekame, bet smagu, kad ir su mūsų kalba šis tas veikia“, – užbaigia pašnekovas.

Straipsnis parengtas iš VLKK vykdomos Lietuvių kalbos prestižo stiprinimo programos lėšų.

Dirbtinis intelektas ir lietuvių kalba: ar jis supranta lietuvišką sąmojį?

Koją kiša ne tik duomenų trūkumas

Kūrybininkų darbo artimiausiu metu neatims

Lietuviški eksperimentai su DI nustebino

Pranešti klaidą

Sėkmingai išsiųsta