„Elektroninės gerklos – dėžutė, priglaudžiama prie gerklų – nepatogu, o jų sugeneruotas garsas dažnai nėra tinkamai perduodamas telefonu (atmetamas kaip triukšmas). Kitoms kalbos pritaikyti algoritmai lietuvių kalbos pagerinti nemoka, tad turime užduotį sugeneruoti pagerintą kalbą nuo pagrindų, kas leistų pacientams atgauti panašų į normalų balsą“, – sako Kauno technologijos universiteto Informatikos fakulteto (KTU IF) profesorius ir vienas iš šio projekto vadovų Rytis Maskeliūnas.
Projektą LARYNGOSPEECH S-MIP-23-46 vykdo Kauno technologijos universiteto (KTU) ir Lietuvos sveikatos mokslų universiteto (LSMU) mokslininkų komanda. KTU tyrėjams vadovauja profesorius Rytis Maskeliūnas, o LSMU – profesorius Virgilijus Ulozas.
Nenatūralus balso skambesys
KTU mokslininkas pasakoja, kad projekto idėja kilo bendradarbiaujant su vienais geriausių specialistų Lietuvoje – LSMU profesoriumi V.Ulozu ir jo komanda – bei analizuojant, kaip būtų galima palengvinti dėl gerklų vėžio (gana paplitusio piktybinio naviko) pacientams kylančias problemas.
Išplitusio naviko atveju dažnai atliekama operacija, kurios metu pašalinamos gerklos, todėl prarandamos natūralaus balso formavimo galimybės. Šis praradimas ne tik turi įtakos bendravimui, bet ir sudaro psichologinių ir socialinių kliūčių paciento gerovei bei integracijai į visuomenę.
„Tradiciniai balso sintezės metodai ir aparatinė įranga skamba nenatūraliai (kiek primena robotuką) ir iš esmės nesprendžia šių problemų. Pavyzdžiui, kalbant telefonu, nesunkiai supranti, kad su asmeniu kažkas ne taip. Kai kurie telefonai išvis pašalina „sugadintą“ balsą – net nesupranti, kas kalbama“, – sako R.Maskeliūnas.
Juo labiau nėra galimybių atstatyti arba tiksliai atkurti unikalias asmens balso savybes, bent kiek panašias į buvusias prieš operaciją.
„Kokybiškai generuojamas balsas (pacientas pats kalbėti nebegali – išoperuotas kalbos formavimo organas) ne tik padeda atkurti bendravimo įgūdžius, bet ir atlieka svarbų vaidmenį psichologinio atsigavimo ir socialinės reintegracijos procese“, – pabrėžia KTU profesorius.
Lietuvių kalbai pritaikytas modelis
KTU mokslininkas teigia, kad šio projekto tikslas – sukurti lietuvių kalbos fonetikai pritaikytą alaringinės kalbos pagerinimo modelį, kas iki šiol nebuvo padaryta. Šiame modelyje įdiegtos specifinės adaptacijos, pritaikytos lietuvių kalbos niuansams ir ypatybėms.
„Lietuvių kalba paveldėjo senąją indoeuropiečių žodžių darybą ir fonologinę sistemą, kuri labai skiriasi nuo kitų indoeuropiečių kalbų, tokių kaip anglų, vokiečių, olandų ir prancūzų, tad „ChatGPT“ pagalbos čia nepaprašysime“, – sako jis.
Pavyzdžiui, anglų, vokiečių ir olandų kalbos laikomos akcentinėmis kalbomis, kuriose akcentai paprastai atsiranda reguliariais laiko intervalais. Prancūzų kalboje vyrauja skiemenų laiko intervalo kalba, kurioje kiekvieno skiemens trukmė yra beveik vienoda.
R.Maskeliūnas aiškina, kad lietuvių kalba, priešingai, pasižymi mišriu ritmu, bet yra gerokai artimesnė akcentų laiko nustatymui. Nors visose šiose kalbose vartojamas nefiksuotas akcentas (t. y. akcento padėtis žodyje nenuspėjama), lietuvių kalbos kirčiavimas yra sudėtingesnis dėl aukštuminio akcento. Be to, palatalizuoti ir nepalatalizuoti sąskambiai lietuvių kalboje yra kaip atskiros fonemos.
„Siekiant integruoti unikalias lietuvių kalbos ypatybes, tokias kaip fonetinis inventorius, prozodija, intonaciniai modeliai ir fonotaktika, kurios labai skiriasi nuo kitų kalbų, turinčių alaringinės kalbos sintezės metodus, būtina atlikti kalbai būdingus pritaikymus. Todėl neįmanoma, kad lietuvių kalba skambėtų suprantamai, pavyzdžiui, permokant anglų ar prancūzų kalbai sukurtą kalbos generavimo modelį“, – pastebi jis.
Pasak KTU profesoriaus, šiame kalbos pagerinimo modelyje sprendžiami specifiniai lingvistiniai, būtent lietuvių alaringinės kalbos, iššūkiai, tokie kaip savitų foneminių kontrastų išsaugojimas ir sudėtingų fonologinių procesų valdymas.
Elektroninės gerklos – su trūkumais
LSMU profesorius V.Ulozas teigia, kad dėl gerklų vėžio pašalinus gerklas, asmuo susiduria su unikaliais iššūkiais, viršijančiais įprastų balso generavimo technologijų galimybes. Pasak jo, pagrindinė priemonė – elektroninės gerklos. Tai dėžutė, kuri priglaudžiama prie kaklo (gerklų zonoje) ir kalbant generuoja „robotuko“ balsą.
„Gerklų patologijos gali ženkliai pakeisti akustines balso savybes, tokias kaip aukštis, tembras ir ritmas, todėl atsiranda įvairių balso sutrikimų – nuo lengvų disfonijų iki sunkių sutrikimų, kurie daro didelę įtaką kalbos suprantamumui“, – dalijasi jis.
V.Ulozas pasakoja, kad vienas pagrindinių balso patologijos sintezės iššūkių yra balso sutrikimų kintamumas ir specifiškumas. Šių pakitimų sudėtingumas daro įtaką žmonių, turinčių balso sutrikimus, gebėjimui natūraliai bendrauti su kitais, ypač per atstumą. Pavyzdžiui, neretai net negalėtume pasakyti, kas mums skambina – robotizuotas dėžutės balsas dažnai skamba gana panašiai.
„Dirbtinio intelekto (DI) pagalba atstatyta kalba, atspindinti paciento balso tapatybę, pagerintų jo gyvenimo kokybę ir socialinę sąveiką. Kiekviena patologija daro skirtingą poveikį kalbai, todėl reikia individualaus požiūrio į kalbos generavimą, galinčio prisitaikyti prie unikalių asmens balso savybių – kuo ir gali padėti DI“, – pastebi jis.
Išradimas – prieinamas visiems
Šį išradimą validuoja LSMU profesoriaus V.Ulozo vadovaujama gydytojų ekspertų komanda, atlikusi klinikinį tyrimą su pacientais ir naudodamasi medicinos praktikoje surinktu balsų rinkiniu.
Kalbos įrašai buvo daromi reguliarių ambulatorinių apsilankymų metu, praėjus ne mažiau kaip 6 mėnesiams po chirurginio gydymo. Šis laikotarpis buvo skirtas užtikrinti pakankamą gijimą ir reabilitaciją. Įrašams buvo naudojamas fonetiškai subalansuotas lietuvių kalbos sakinys „Turėjo senelė žilą oželį“.
„Projektas jau įpusėjęs, šiuo metu sprendimas yra kliniškai validuojamas LSMU vykdomame tyrime. Kolegos iš LSMU dirba prie būtinų metrikų, o mes – KTU – siekiame dar efektyvesnių kokybinių DI algoritmų patobulinimų“, – dalijasi R.Maskeliūnas.
Pasak jo, ateityje siekiama atlikti pilną klinikinį validavimą, gerinti kalbos natūralumą ir sukurti programėlę paprastiems vartotojams.
„Manome, kad šiuo išradimu galės naudotis visi norintys, nes tai bus programinis sprendimas – programėlė arba įskiepis, švarinantis balsą“, – sako KTU profesorius.