Kompiuteris išmoko laimėti prieš pokerio profesionalus

Kompiuterinė programa „DeepStack“ įveikė 11 pokerio profesionalų, 2016 metų gruodį užverbuotų Tarptautinės pokerio federacijos.

Žurnale „Science“ paskelbtame straipsnyje aprašoma, kaip mašina įveikė beveik tuziną profesionalių lošėjų, kurių buvo paprašyta dalyvauti keturias savaites trukusiame turnyre. Per šį laiką buvo sužaista 3 000 partijų.

„DeepStack“ įveikė kiekvieną iš 11 žaidėjų, iki galo dalyvavusių turnyre, ir tik vienas jų nepateko į statistinio patikimumo intervalą. Taigi, tai yra pirmoji kompiuterinė programa, įveikusi profesionalius lošėjus žaidžiant pokerį „Texas hold'em“ tarp dviejų žaidėjų, neribojant statymų“, – sakoma studijoje.

Žaidžiant nepilnos informacijos žaidimus reikia ypatingų protinių pastangų, nes žaidėjui nežinomi bent kai kurie kitų žaidėjų veiksmai.

„DeepStack“ laimėjo peržengdama „atotrūkį tarp metodų, naudojamų tobulo žinojimo žaidimuose, tokius kaip šaškėse, šachmatuose ir go, bei metodų, naudojamų nepilnos informacijos žaidimuose“, nurodė mokslininkai.

„DeepStack“ programoje buvo modeliuojama „intuicija“, didėjanti augant lošimų patirčiai ir pasitelkiama iš naujo parinkti strategijai, priimant kiekvieną sprendimą, pažymėjo studijos autoriai.

Žaidžiant nepilnos informacijos žaidimus reikia ypatingų protinių pastangų, nes žaidėjui nežinomi bent kai kurie kitų žaidėjų veiksmai.

„Pokeris jau seniai buvo didelis iššūkis dirbtiniam intelektui“, – sakė pagrindinis studijos autorius Michaelas Bowlingas, Alberto universiteto Tiksliųjų mokslų fakulteto profesorius.

„Tai yra būdingiausias nepilnos informacijos žaidimas, nes lošėjai turi ne tokią pačią informaciją ir skirtingą perspektyvą“, – aiškino jis.

„DeepStack“ sukūrė mokslininkai, dirbantys Kanadoje įsikūrusiame Albertos universitete, Prahos Karolio universitete ir Čekijos technikos universitete.

Šioje programoje buvo panaudotas vadinamasis nuolatinio persprendimo metodas. Jis leidžia programai atrinkti tinkamą strategiją esant konkrečiai pokerio kortų kombinacijai, bet neverčia jos „mąstyti“ apie visą žaidimą.

„Apmokome savo sistemą įžvelgti kiekvienos padėties vertę, – sakė M.Bowlingas. – Kiekviena situacija iš esmės yra mažas pokerio žaidimas. Užuot lošusi viena didelį pokerio žaidimą, ji sprendžia milijonus šių mažyčių pokerių lošimų, ir kiekvienas jų padeda sistemai pagerinti nuovoką, kaip veikia pokerio žaidimas.“

Nors šis žaidimas itin sudėtingas, kiekvienam sprendimui priimti „DeepStack“ vidutiniškai sugaišta tik tris sekundes.

M.Bowlingas nuo 2006 metų vadovauja Albertos universiteto Kompiuterinio pokerio tyrimų grupei.

2008-aisiais jis kartu su bendradarbiais sukūrė programą „Polaris“, įveikusią geriausius pokerio lošėjus žaidžiant „Texas hold'em“ tarp dviejų žaidėjų, bet su ribotais statymais.

Vėliau buvo sukurta pagal tas pačias taisykles žaidžianti programa „Cepheus“, aprašyta 2015 metais „Science“ paskelbtame straipsnyje.

Šio kolektyvo varžovų – JAV Carnegie Mellono universiteto mokslininkų grupės – sukurta programa „Libratus“ sausį sugebėjo įveikti keturis geriausius pasaulyje pokerio lošėjus, žaidžiant „Texas hold'em“ tarp dviejų žaidėjų ir neribojant statymų.

„Geriausi DI (dirbtinio intelekto) gebėjimai priimti strateginius sprendimus, turint nepilną informaciją, dabar pranoko pajėgiausių žmonių gebėjimus“, – tąsyk sakė Carnegie Mellono universiteto kompiuterijos profesorius Tuomas Sandholmas.

Kompiuteris išmoko laimėti prieš pokerio profesionalus

Pranešti klaidą

Sėkmingai išsiųsta