Liepos 3 dieną prestižinis mokslo žurnalas „Nature“ publikavo Lawrence'o Berkeley Nacionalinės laboratorijos (JAV) mokslininkų straipsnį. Jo autoriai skelbia, kad panaudoję algoritmą, pavadintą „Word2Vec“, jie išanalizavo mokslinius darbus, ieškodami tokių sąsajų, kurių žmonės nepastebėjo. Po tekstų analizės algoritmas pateikė termoelektrinių medžiagų, gebančių konvertuoti šilumą į energiją, prognozes. Tokios medžiagos yra neretai naudojamos šildymo ar aušinimo tikslais.
Tiesa, algoritmas net nenutuokė, koks yra termoelektrinės medžiagos apibrėžimas. Jis apskritai nebuvo programuojamas medžiagotyros srityje. Vien pagal žodžių asociacijas šis programinis robotas gebėjo atrinkti kandidatus tolesniems termoelektrinių medžiagų tyrimams – ir visai gali būti, kad kai kurios iš šių medžiagų bus pranašesnės už tas, kurios šiuo metu naudojamos pramonėje.
„Jis geba skaityti bet kokį mokslinį tekstą iš medžiagotyros srities ir atrasti ryšius, kurių nepastebėjo nė vienas mokslininkas. Kartais jis padaro tai, ką jau padarė ir mokslininkas. Kartais – atranda tarpdisciplininių sąsajų“, – sakė pagrindinis tyrimo autorius Anubhavas Jainas.
Algoritmo apmokymui mokslininkai pasitelkė kalbą, surašytą 3,3 mln. medžiagotyros srities mokslinių straipsnių santraukose. Taip buvo sudarytas maždaug pusės milijono žodžių apimties tekstynas. Visos šios santraukos buvo pateiktos „Word2vec“ mašininio mokymosi algoritmui, kuris išanalizavo sąsajas tarp žodžių.
„Šis „Word2vec“ algoritmas veikia taip: neuroninio tinklo modelis yra išmokomas pašalinti kiekvieną žodį ir tuomet prognozuoti, kokie bus prie jo esantys žodžiai. Apmokydami neuroninį tinklą pagal žodžius gauname tokias žodžių išraiškas, kurios iš tiesų gali suteikti žinių“, – sakė A.Jainas.
Naudodamas vien mokslo darbų santraukose esančius žodžius algoritmas sugebėjo suprasti tokias sąvokas kaip periodinė elementų lentelė, molekulių cheminė struktūra. Algoritmas susiejo žodžius, kurie dažnai būdavo rašomi šalia, taip sukurdamas susijusių žodžių vektorius, padėjusius apibrėžti sąvokas. Kai kuriais atvejais žodžius siejo termoelektrinės sąvokos, tačiau jokioje santraukoje jie nebuvo minimi termoelektrinių savybių kontekste. Tokios žinių spragos žmogaus akiai yra sunkiai pastebimos, tačiau algoritmas jas „pagauna“ labai greitai.
Mokslininkai, įrodę algoritmo gebėjimą prognozuoti ateities termoelektrines medžiagas, atsigręžė į istoriją. Jie naujausius duomenis ištrynė ir išbandė algoritmą su senesniais moksliniais darbais, norėdami patikrinti, ar jis iš tiesų geba prognozuoti mokslo atradimus dar iki jiems įvykstant. Paaiškėjo, kad geba.
Vieno eksperimento metu mokslininkai analizavo tik tyrimus, publikuotus iki 2009 metų ir pagal jų analizę gebėjo prognozuoti vienas iš geriausių šiuolaikinių termoelektrinių medžiagų net ketveriais metais anksčiau, nei įvyko tikrasis jų atradimas 2012 metais.
Toks naujas mašininio mokymosi taikymas gali aprėpti ir plačiau, ne vien medžiagotyrą. Jis nėra pritaikytas konkrečiai mokslo sričiai, todėl jį galima taikyti bet kuriai disciplinai, paruošti bet kokių atradimų paieškai. Kitas tyrimo autorius, Vahe Tshitoyanas, sakė, kad su juo jau susisiekė kiti mokslininkai, norėdami apie jo tyrimą sužinoti daugiau.
„Šis algoritmas veikia be priežiūros ir pats sudaro savo sąsajas. Jį galima naudoti ir tokiems dalykams, kaip medicinos tyrimai ar vaistų atradimas. Visa informacija jau yra. Tiesiog mes nesudarėme sąsajų, nes nesugebame perskaityti kiekvieno straipsnio“, – sakė tyrėjas.