Kuria algoritmą, galintį sugeneruoti vadovėlius iš „Vikipedijos“

Interneto enciklopedija „Vikipedija“ – tai vertingas žinių šaltinis, kuriuo naudojantis galima būtų savarankiškai mokytis įvairių disciplinų, tačiau ilgainiui dėl savo chaotiško informacijos pertekliaus dauguma tiesiog nuleidžia rankas ir siekia klasikinių vadovėlių. Tačiau galbūt išeitimi galėtų būti „viki-vadovėliai“?

Štai internete esanti gigantiška daugiau nei 6000 puslapių knyga „Machine Learning – The Complete Guide“ – tai iš „Vikipedijos“ įrašų sugeneruotas dirbtinio intelekto kūrimo vadovėlis. Jame galima rasti viską apie dirbtinio intelekto kūrimą – pradedant pagrindais ir baigiant naujausiais skyreliais apie dirbtinius neuroninius tinklus, genetinius algoritmus ar vaizdų atpažinimą.

Didžiausia tokio „viki-vadovėlio“ stiprybė – jis yra nuolatos atnaujinamas bei jame taisomos klaidos. Tačiau ryškiausias jo trūkumas – medžiagos parinkimas, nes „Vikipedijoje“ apstu informacijos, todėl yra sudėtinga tinkamai suformuoti turinį.

Šis aspektas sudomino Shaharą Admati ir jo kolegas iš Ben-Guriono universiteto Izraelyje – mokslininkai išsikėlė sau klausimą, ar galima būtų sukurti tokį dirbtinio intelekto algoritmą, kuris galėtų be žmogaus įsikišimo kurti tokius „viki-vadovėlius“, kuriuose informacija būtų susisteminta ir pateikta nuosekliai.

Spręsdami šią užduotį tyrėjai sukūrė tokį algoritmą, kurį pavadino „Wikibook-bot“. Iš pradžių jie surado „viki-knygų“ rinkinį, kurias jie panaudojo algoritmui apmokyti – iš viso apie 6700 tokių virtualių knygų. Tam, kad algoritmas mokytųsi iš geriausių pavyzdžių, Izraelio mokslininkai atrinko tik tas „viki-knygas“, kurios buvo peržiūrėtos bent tūkstantį kartų. Šį filtrą praėjo tik 490 vadovėlių, kurių skaičių sumažino reikalavimas, kad juos sudarytų bent dešimt skyrių – tad algoritmo mokymuisi galiausiai liko 407 „viki-knygos“.

Vadovėlio sudarymas nėra trivialus darbas, todėl tyrėjai šį darbą padalino į keletą etapų – kiekvienam jų algoritmas turėjo panaudoti skirtingas mašininio mokymosi „gebėjimus“. Pirmiausiai žmogus sukurdavo pavadinimą, apibrėžiantį, apie ką bus knyga. Tada jau algoritmas turėdavo imtis pirmosios savo užduoties – atrinkti vadovėliui tinkamus „Vikipedijos“ įrašus.

Tam, kad algoritmas mokytųsi iš geriausių pavyzdžių, Izraelio mokslininkai atrinko tik tas „viki-knygas“, kurios buvo peržiūrėtos bent tūkstantį kartų.

„Tai labai rimtas iššūkis vien dėl didžiulio kiekio „Vikipedijos“ straipsnių – algoritmas iš milijonų įrašų turėjo atrinkti labiausiai susijusius su tema“, – sako Sh.Admati. Šiam darbui tyrėjai pasinaudojo tinkline interneto enciklopedijos struktūra – dauguma įrašų yra susieti su kitais, o tie su dar kitais ir taip toliau. Pradėjęs nuo nedidelio branduolio tiesiogiai su apsibrėžta tema susijusių straipsnių, algoritmas toliau atrinko su jais susijusius įrašus – iš viso per tris „šuoliukus“ nuo pradinio rinkinio.

Tada iškilo klausimas, kiek iš šios susietų straipsnių aibės verta atrinkti į „viki-knygą“? Norėdami rasti atsakymą, naudodami tą patį trijų „šuoliukų“ principą, mokslininkai išanalizavo aukščiau minėtas 407 žmonių sudarytas „viki-knygas“. Padarę tai, jie suprato, kad žmonių sukurtuose virtualiuose vadovėliuose apart šiuo principu atrinktos medžiagos buvo ir kitos medžiagos.

Pasirodo, kad kiekviena žmonių sukurta „viki-knyga“ turi savo tinklinę struktūrą, paremtą nuorodomis iš ir į joje atrinktus „Vikipedijos“ straipsnius, kiekvieno jų populiarumo reitingu bei kitais kriterijais. Todėl mokslininkai algoritmui nurodė kiekvieną naujajam vadovėliui atrinktą „Vikipedijos“ įrašą įvertinti pagal tai, ar jo įterpimas „viki-knygoje“ atitiktų tinklinę struktūrą, matytą žmonių sukurtose „viki-knygose“.

Kitame etape algoritmas turėjo sugrupuoti straipsnius į naujojo virtualaus vadovėlio skyrius – analizuodamas sąryšių tarp straipsnių struktūrą, programa automatiškai pasirinko, kaip nuosekliai sujungti įrašus į grupes. Galiausiai ne mažiau svarbi užduotis – nuspręsti, kokia eilės tvarka turėtų sekti suformuoti skyreliai. Tam algoritmas suskirstė įrašus į poras ir tada kiekvienoje poroje šie straipsniai buvo „išskaičiuoti pirmais-antrais“ – kartojant šį veiksmą su visais įmanomais straipsnių porų deriniais, buvo sukurta straipsnių ir iš jų sudarytų skyrių eilės tvarka vadovėlyje.

123rf nuotr./„Wikipedia“

Tokiu būdu naujasis algoritmas savarankiškai sukūrė atitikmenis žmonių sukurtoms „viki-knygoms“. Deja, kol kas mokslininkams sudėtinga palyginti vienu ir kitu būdu sukurtas virtualias knygas – vilties teikia tai, kad algoritmo sukurti vadovėliai apima beveik tą pačią medžiagą ir ji išdėstyta panašia tvarka.

Tačiau galutinis algoritmo gebėjimų įvertinimas laukia ateityje. Dabar Sh.Adamti su kolegomis sukurta programa turės sugeneruoti visiškai naujas „viki-knygas“, neturinčias žmonių sukurtų analogų. Tada jie stebės, kaip šiems dirbtinio intelekto parašytiems vadovėliams sekasi – kiek jie surenka peržiūrų bei kiek jie yra taisomi, lyginant su žmonių sugeneruotomis „viki-knygomis“. Jei mokslininkams pavyktų sukurti kokybiškai veikiantį vadovėlių sudarymo algoritmą, tai atvertų naujas galimybes švietimo bei mokslo srityse.

Kuria algoritmą, galintį sugeneruoti vadovėlius iš „Vikipedijos“

Pranešti klaidą

Sėkmingai išsiųsta