A Google DeepMind kiképzi a „mesterséges ötletbörzét” a Chess AI-ban | Quanta Magazin

A Google DeepMind kiképzi a „mesterséges ötletbörzét” a Chess AI-ban | Quanta Magazin

Google DeepMind Trains ‘Artificial Brainstorming’ in Chess AI | Quanta Magazine PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Bevezetés

Amikor 19 elején a Covid-2020 hazaküldte az embereket, az informatikus Tom Zahavy újra felfedezte a sakkot. Gyerekként játszott, és nemrég olvasta Garri Kaszparov könyvét mély gondolkodás, a nagymester 1997-es, az IBM sakkozó számítógépe, a Deep Blue elleni mérkőzéseinek emlékirata. Sakkvideókat nézett a YouTube-on és A királynő gambitja a Netflix-en.

Megújuló érdeklődése ellenére Zahavy nem kereste a módját, hogy javítson játékán. „Nem vagyok egy nagy játékos” – mondta. „Jobb vagyok a sakkrejtvényekben” – olyan figurák elrendezései, amelyek gyakran kitaláltak, és nem valószínű, hogy egy igazi játék során előfordulnak, és amelyek arra késztetik a játékost, hogy kreatív módokat találjon az előny megszerzésére.

A feladványok segíthetnek a játékosoknak készségeik fejlesztésében, de újabban segítettek felfedni a sakkprogramok rejtett korlátait. Az egyik leghírhedtebb feladvány, amelyet Sir Roger Penrose matematikus dolgozott ki 2017-ben, erősebb fekete darabokat (például a királynőt és a bástyakat) helyezi a táblára, de kényelmetlen helyzetbe. Egy tapasztalt emberjátékos, aki fehéren játszik, könnyen döntetlenre tudta irányítani a játékot, de a hatékony számítógépes sakkprogramok szerint a feketének egyértelmű előnye van. Zahavy szerint ez a különbség azt sugallja, hogy bár a számítógépek le tudják győzni a világ legjobb emberi játékosait, még nem tudnak mindenféle nehéz problémát felismerni és megoldani. Azóta Penrose és mások olyan rejtvénygyűjteményeket dolgoztak ki, amelyeket a számítógépek nehezen tudnak megoldani.

A sakk régóta az új ötletek kipróbálásának próbaköve mesterséges intelligencia, és Penrose rejtvényei felkeltették Zahavy érdeklődését. „Megpróbáltam megérteni, mi teszi ezeket a pozíciókat olyan nehézzé a számítógépek számára, amikor legalább néhányat emberként is meg tudunk oldani” – mondta. – Teljesen lenyűgözött. Hamarosan szakmai érdeklődéssé vált: a Google DeepMind kutatójaként Zahavy kreatív problémamegoldó megközelítéseket kutat. A cél olyan mesterséges intelligencia rendszerek kidolgozása, amelyek egyetlen feladat elvégzésén túl a lehetséges viselkedések spektrumával rendelkeznek.

Egy hagyományos, nyerésre kiképzett mesterséges intelligencia sakkprogramnak talán nincs értelme egy Penrose-rejtvénynek, de Zahavy gyanította, hogy a sokféle rendszerből álló program, amely csoportként működik együtt, előrelépést hozhat. Így kollégáival kidolgoztak egy módszert több (legfeljebb 10) döntéshozó AI-rendszer összefonására, amelyek mindegyikét különböző stratégiákra optimalizálták és képezték ki, kezdve az AlphaZero-val, a DeepMind erőteljes sakkprogramjával. Az új rendszer, ők augusztusban számoltak be, jobban játszott, mint az AlphaZero egyedül, és több ügyességet – és több kreativitást – mutatott Penrose rejtvényeinek kezelésében. Ezek a képességek bizonyos értelemben az önálló együttműködésből fakadtak: Ha az egyik megközelítés falba ütközött, a program egyszerűen egy másik felé fordult.

Ennek a megközelítésnek alapvetően van értelme, mondta Allison Liemhetcharat, a DoorDash informatikusa, aki több ügynököt alkalmazó megközelítésekkel dolgozott a robotika problémamegoldásában. "Az ügynökök sokaságával nagyobb a valószínűsége annak, hogy a rejtvények azon a területen vannak, amelyre legalább az egyik ügynök képzett."

A munka azt sugallja, hogy a különféle AI-rendszerekből álló csapatok hatékonyan képesek megbirkózni a játéktáblán túlmutató, nehéz problémákkal is. "Ez egy nagyszerű példa arra, hogy egy probléma megoldásának egynél több módja – például egy sakkjátszma megnyerése - számos előnnyel jár" – mondta. Antoine Cully, az Imperial College London AI-kutatója, aki nem vett részt a DeepMind projektben. Összehasonlította az emberi ötletbörze mesterséges változatával. "Ez a gondolkodási folyamat kreatív és hatékony megoldásokhoz vezet, amelyek hiányoznának e gyakorlat nélkül."

Kudarcok üldözése

Mielőtt csatlakozott volna a DeepMindhez, Zahavyt a mélyen megerősített tanulás érdekelte, a mesterséges intelligencia egy olyan területe, ahol a rendszer neurális hálózatokat használ, hogy próba-hibán keresztül megtanuljon valamilyen feladatot. Ez a legerősebb sakkprogramok alapja (és más mesterséges intelligencia-alkalmazásokban, például önvezető autókban is használják). A rendszer a környezetével kezdődik. A sakkban például a környezet magában foglalja a játéktáblát és a lehetséges lépéseket. Ha a feladat egy autó vezetése, a környezet magában foglal mindent, ami a jármű körül van. A rendszer ezután döntéseket hoz, lépéseket tesz, és értékeli, hogy milyen közel került a célhoz. Ahogy közeledik a célhoz, jutalmakat halmoz fel, és ahogy a rendszer jutalmakat halmoz fel, javítja a teljesítményét. Ennek a megközelítésnek a „mély” része a viselkedés elemzésére és értékelésére használt neurális hálózatokat írja le.

A megerősítő tanulás így tanult meg az AlphaZero sakkmesterré. DeepMind jelentett hogy a program első kilenc órájában, 2017 decemberében 44 millió meccset játszott maga ellen. Eleinte véletlenszerűen határozták meg a mozdulatait, de idővel megtanulta, hogy olyan mozdulatokat válasszon, amelyek nagyobb valószínűséggel a sakkmatt felé vezetnek. Csupán órákig tartó edzés után az AlphaZero kifejlesztette azt a képességet, hogy legyőzzen bármely emberi sakkozót.

De bármennyire is sikeres a megerősítő tanulás, ez nem mindig vezet olyan stratégiákhoz, amelyek a játék általános megértését tükrözik. Az elmúlt fél évtizedben Zahavy és mások észrevették a sajátos hibák növekedését, amelyek a próba-hibával edzett rendszereken fordulhatnak elő. Egy videojátékokat játszó rendszer például találhat egy kiskaput, és kitalálhatja, hogyan lehet csalni vagy átugrani egy szintet, vagy ugyanolyan könnyen elakadhat egy ismétlődő ciklusban. A Penrose-stílusú rejtvények hasonlóképpen egyfajta vakfoltot vagy hibára utaltak az AlphaZeroban – nem tudta kitalálni, hogyan közelítsen meg egy olyan problémát, amelyet korábban soha nem látott.

De talán nem minden hiba csak hiba. Zahavy gyanította, hogy az AlphaZero vakfoltjai valójában valami más álcázott dolog – a rendszer belső jutalmaihoz kötődő döntések és viselkedések. Azt mondta, hogy a mélyen megerősített tanulási rendszerek nem tudják, hogyan kell kudarcot vallani – vagy még azt sem, hogyan ismerjék fel a kudarcot. A kudarc képességét régóta a kreatív problémamegoldáshoz kötik. „A kreativitásnak emberi tulajdonsága van” – írta Kaszparov mély gondolkodás. "Elfogadja a kudarc fogalmát."

Az AI-rendszerek általában nem. És ha egy rendszer nem ismeri fel, hogy nem tudta végrehajtani a feladatát, akkor lehet, hogy nem próbálkozik mással. Ehelyett tovább próbálkozik azzal, amit már megtett. Valószínűleg ez vezetett a videojátékok zsákutcáihoz – vagy ahhoz, hogy elakadt néhány Penrose-kihívás – mondta Zahavy. A rendszer „furcsa belső jutalmakat” kergetett, mondta, hogy a képzés során fejlődött ki. A kívülről hibának tűnő dolgok valószínűleg konkrét, de végül sikertelen stratégiák kidolgozásának a következményei.

A rendszer ezeket a furcsa jutalmakat a nagyobb cél felé tett lépéseknek tekintette, amit valójában nem tudott elérni, és nem tudott valami újat kipróbálni. „Próbáltam megérteni őket” – mondta Zahavy.

Egy jobb játék

Az ok, amiért ezek a hibák olyan következményesnek és hasznosnak bizonyulhatnak, részben abból fakad, amit a kutatók az általánosítás problémájának tekintenek. Míg a megerősítő tanulási rendszerek kidolgozhatnak egy hatékony stratégiát egy adott helyzet és egy konkrét cselekvés összekapcsolására – amit a kutatók „politikának” neveznek –, nem tudják alkalmazni különböző problémákra. "A megerősített tanulással általában a módszertől függetlenül megtörténik az, hogy megkapja azt a szabályzatot, amely megoldja a probléma adott esetét, amelyre gyakorolt, de nem általánosít" - mondta. Julian Togelius, a New York-i Egyetem informatikusa és a modl.ai kutatási igazgatója.

Zahavy úgy látta, hogy a Penrose-rejtvények éppen ilyen általánosítást igényelnek. Talán az AlphaZero nem tudta megoldani a legtöbb rejtvényt, mert annyira az egész játék megnyerésére összpontosított, az elejétől a végéig. Ez a megközelítés azonban vakfoltokat vezetett be a Penrose-rejtvények darabjainak valószínűtlen elrendezése miatt. Lehetséges, érvelt, a program megtanulhatja legyőzni a rejtvényt, ha elegendő kreatív teret biztosít az ötleteléshez és a különböző képzési módszerek eléréséhez.

Így hát ő és kollégái először összegyűjtöttek egy 53 Penrose-rejtvényt és 15 további kihívás-rejtvényt. Egyedül az AlphaZero a Penrose-rejtvények kevesebb 4%-át, a többinek pedig 12%-át oldotta meg. Zahavy nem lepődött meg: sok ilyen rejtvényt sakkmesterek terveztek, hogy szándékosan összezavarják a számítógépeket.

Tesztként a kutatók megpróbálták megtanítani az AlphaZero-t, hogy önmaga ellen játsszon a Penrose-kirakós elrendezést használva kiindulási pozícióként, a szokásos játékok teljes táblája helyett. Teljesítménye drámaian javult: a Penrose-rejtvények 96%-át és a kihívások 76%-át megoldotta. Általánosságban elmondható, hogy amikor az AlphaZero egy adott rejtvényen edzett, meg tudta oldani azt a rejtvényt, éppúgy, mint nyerhetett, amikor egy teljes játékon edzett. Talán – gondolta Zahavy –, ha egy sakkprogram valahogy hozzáférhetne az AlphaZero mindazon változataihoz, amelyek azokra a különböző pozíciókra lettek kiképezve, akkor ez a sokféleség felkeltheti az új problémák produktív megközelítésének képességét. Talán általánosíthatná, más szóval nemcsak a Penrose-rejtvényeket, hanem bármely tágabb sakkproblémát is megoldana.

Csoportja úgy döntött, hogy megtudja. Megépítették az AlphaZero új, sokrétű változatát, amely több mesterséges intelligencia rendszert tartalmaz, amelyek egymástól függetlenül és különféle helyzetekben edzettek. Zahavy szerint az egész rendszert irányító algoritmus egyfajta virtuális párkeresőként működik: az a célja, hogy azonosítsa, melyik ügynöknek van a legnagyobb esélye a sikerre, amikor eljött a lépés ideje. Kollégáival egy „sokszínűségi bónuszt” is kódoltak – jutalmat a rendszernek, ha az a választási lehetőségek széles választékából húzott stratégiát.

Amikor az új rendszert felszabadították, hogy saját játékokat játsszon, a csapat sokféle változatosságot tapasztalt. A szerteágazó AI-játékos új, hatékony nyitásokkal és újszerű – de megalapozott – döntésekkel kísérletezett konkrét stratégiákkal kapcsolatban, például mikor és hol kell várat vetni. A legtöbb meccsen legyőzte az eredeti AlphaZero-t. A csapat azt is megállapította, hogy a változatos változat kétszer annyi kihívást tud megoldani, mint az eredeti, és a Penrose-rejtvények teljes katalógusának több mint felét meg tudja oldani.

„Az ötlet az, hogy ahelyett, hogy egyetlen megoldást vagy egyetlen politikát találnának, amely minden játékost legyőzne, itt a kreatív sokszínűség gondolatát használja” – mondta Cully.

Zahavy elmondta, hogy a több és különböző játékhoz való hozzáféréssel a változatos AlphaZero több lehetőséget kínált a ragadós helyzetekre, amikor azok felmerültek. "Ha irányítani tudod, hogy milyen játékokat lát, akkor alapvetően te irányítod, hogyan általánosítson" - mondta. Ezek a furcsa belső jutalmak (és a hozzájuk kapcsolódó lépések) a különféle viselkedésmódok erősségévé válhatnak. Ezután a rendszer megtanulhatja felmérni és értékelni az eltérő megközelítéseket, és látni fogja, hogy mikor voltak a legsikeresebbek. „Úgy találtuk, hogy az ügynökök ezen csoportja ténylegesen megegyezésre tud jutni ezekben a pozíciókban.”

És ami döntő, a következmények túlmutatnak a sakkon.

Valós élet kreativitás

Cully szerint a diverzifikált megközelítés minden mesterséges intelligencia rendszeren segíthet, nem csak a megerősített tanuláson alapuló rendszereken. Régóta használja a diverzitást fizikai rendszerek képzésére, beleértve a hatlábú robot lehetővé tették, hogy különféle mozgásfajtákat tárjon fel, mielőtt szándékosan „megsebesítette”, lehetővé téve, hogy a korábban kifejlesztett technikák segítségével tovább mozogjon. „Csak olyan megoldásokat próbáltunk találni, amelyek eltérnek az összes eddigi megoldástól.” A közelmúltban kutatókkal is együttműködik, hogy a sokszínűséget felhasználva azonosítsa az ígéretes új gyógyszerjelölteket, és hatékony tőzsdei kereskedési stratégiákat dolgozzon ki.

„A cél az, hogy potenciálisan több ezer különböző megoldásból álló nagy gyűjteményt generáljunk, ahol minden megoldás nagyon különbözik a következőtől” – mondta Cully. Így – ahogyan a sokrétű sakkozó megtanulta – minden típusú probléma esetén a teljes rendszer kiválaszthatta a lehető legjobb megoldást. A Zahavy mesterséges intelligencia-rendszere világosan megmutatja, hogy „a különféle stratégiák keresése hogyan segít a kereteken kívüli gondolkodásban és megoldások megtalálásában”.

Zahavy azt gyanítja, hogy ahhoz, hogy az AI-rendszerek kreatívan gondolkodjanak, a kutatóknak egyszerűen rá kell venniük őket, hogy több lehetőséget is mérlegeljenek. Ez a hipotézis különös kapcsolatot sugall az emberek és a gépek között: Lehet, hogy az intelligencia csak a számítási teljesítmény kérdése. Egy mesterséges intelligencia rendszer esetében a kreativitás talán azon a képességen múlik, hogy megfontoljuk és válasszunk a lehetőségek elég széles kínálatából. Ahogy a rendszer jutalmat kap az optimális stratégia kiválasztásáért, ez a fajta kreatív problémamegoldás megerősödik és megerősödik. Végső soron elméletileg bármilyen olyan problémamegoldó stratégiát utánozhat, amelyet kreatívnak ismernek el az emberekben. A kreativitás számítási problémává válna.

Liemhetcharat megjegyezte, hogy egy diverzifikált mesterséges intelligencia rendszer valószínűleg nem fogja teljesen megoldani a gépi tanulás általánosítási problémáját. De ez egy lépés a helyes irányba. "Ez enyhíti az egyik hiányosságot" - mondta.

Gyakorlatiasabban a Zahavy eredményei összecsengenek a közelmúltbeli erőfeszítésekkel, amelyek azt mutatják, hogy az együttműködés hogyan vezethet jobb teljesítményhez az emberek közötti nehéz feladatokban. A Billboard 100-as listáján szereplő slágerek többségét például dalszerzői csapatok írták, nem egyének. És még van hova fejlődni. A sokrétű megközelítés jelenleg számításigényes, hiszen sokkal több lehetőséget kell figyelembe vennie, mint egy tipikus rendszernek. Zahavy arról sincs meggyőződve, hogy még a diverzifikált AlphaZero is megragadja a lehetőségek teljes spektrumát.

"Még mindig úgy gondolom, hogy van lehetőség különböző megoldások megtalálására" - mondta. "Számomra nem világos, hogy a világ összes adatát figyelembe véve [csak] minden kérdésre egy válasz van."

Quanta felméréssorozatot végez közönségünk jobb kiszolgálása érdekében. Vidd a miénket számítástechnikai olvasói felmérés és ingyenesen nyerhetsz Quanta áru.

Időbélyeg:

Még több Quantamagazine