Per 12 dienų trukusį eksperimentą ir daugiau kaip 10 000 atskirų partijų, DI sistema „Pluribus“ buvo išbandyta dviejuose scenarijuose ir žaidė prieš 12 geriausių pasaulio „online“ pokerio žaidėjų.
Vienu atveju DI sistema žaidė prieš 5 skirtingus žaidėjus, o kitu atveju – 5 skirtingos „Pluribus“ versijos žaidė prieš vieną žaidėją.
Teigiama, kad „Pluribus“ vidutiniškai per vieną partiją laimėdavo 5 dolerius, o per valandą pasiekdavo 1000 dolerių laimėjimą. „Įtikinama pergalės riba“, – teigia mokslininkai.
Norėdami pasiekti šį ypatingą „Pluribus“ sudėtingumo ir kompetencijos lygį, pirmiausiai DI sistema išmoko žaisti prieš save – tiksliau, kelias savo versijas – ir nugalėti. Vietoj to, kad „Pluribus“ bandytų nuspėti visus tolesnius priešininko žingsnius ir kaip baigsis žaidimas, DI sutelkė dėmesį tik į du ar tris tolesnius ėjimus.
„DI blefavimo nevertina kaip klaidingo sprendimo. Jis tik mato sprendimą, kuris konkrečioje situacijoje atneš daugiausiai pelno. Mes sugebėjome parodyti, kad DI geba blefuoti. Ir jis „Pluribus“ gali blefuoti geriau nei bet kuris žmogus“, – teigia vienas „Pluribus“ kūrėjų Noamas Brownas.
Toks pasiekimas, neabejotinai, yra įspūdingas DI šuolis į priekį. Tačiau kyla klausimas: o ką tai reiškia internetinio pokerio pasauliui?
Nepaisant to, kad mokslininkai 2017-aisiais atskleidė „Libratus“ – DI sistemos, kuri taip pat nugalėjo profesionalius pokerio žaidėjus – algoritmus, šįkart „Pluribus“ algoritmai liks paslaptyje ir nebus neviešinami.
Kalbėdamas su „MIT Technology Review“, N.Brownas teigė, kad „Pluribus“ sistema internetinėje pokerio aplinkoje galėtų veiksmingai laimėti didelius pinigų kiekius. „Tai galėtų būti labai pavojinga pokerio bendruomenei“, – įspėjo N.Brownas.
Plačiau su tyrimo rezultatais galite susipažinti žurnale „Science“.