Google DeepMind trener «kunstig idédugnad» i Chess AI | Quanta Magazine

Google DeepMind trener «kunstig idédugnad» i Chess AI | Quanta Magazine

Google DeepMind trener «kunstig idédugnad» i Chess AI | Quanta Magazine PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Introduksjon

Da Covid-19 sendte folk hjem tidlig i 2020, sa informatikeren Tom Zahavy gjenoppdaget sjakk. Han hadde spilt som barn og hadde nylig lest Garry Kasparovs Dyp tenking, et memoar av stormesterens kamper fra 1997 mot IBMs sjakkspillende datamaskin, Deep Blue. Han så sjakkvideoer på YouTube og Dronningens Gambit på Netflix.

Til tross for sin fornyede interesse, var ikke Zahavy ute etter måter å forbedre spillet sitt på. "Jeg er ingen stor spiller," sa han. "Jeg er bedre på sjakkoppgaver" - arrangementer av brikker, ofte konstruerte og usannsynlige å finne i løpet av et ekte spill, som utfordrer en spiller til å finne kreative måter å oppnå fordelen på.

Gåtene kan hjelpe spillere med å skjerpe ferdighetene sine, men i senere tid har de bidratt til å avsløre de skjulte begrensningene til sjakkprogrammer. En av de mest beryktede gåtene, laget av matematikeren Sir Roger Penrose i 2017, setter sterkere svarte brikker (som dronningen og tårnene) på brettet, men i vanskelige posisjoner. En erfaren menneskelig spiller, som spiller hvit, kunne lett styre spillet til remis, men kraftige datasjakkprogrammer ville si at svart hadde en klar fordel. Denne forskjellen, sa Zahavy, antydet at selv om datamaskiner kunne beseire verdens beste menneskelige spillere, kunne de ennå ikke gjenkjenne og jobbe gjennom alle slags vanskelige problemer. Siden den gang har Penrose og andre utviklet store samlinger av gåter som datamaskiner sliter med å løse.

Sjakk har lenge vært en prøvestein for å teste nye ideer i kunstig intelligens, og Penroses gåter vekket Zahavys interesse. "Jeg prøvde å forstå hva som gjør disse posisjonene så vanskelige for datamaskiner når i det minste noen av dem vi kan løse som mennesker," sa han. "Jeg ble helt fascinert." Det utviklet seg snart til en profesjonell interesse: Som forsker ved Google DeepMind utforsker Zahavy kreative problemløsningsmetoder. Målet er å utvikle AI-systemer med et spekter av mulig atferd utover å utføre en enkelt oppgave.

Et tradisjonelt AI-sjakkprogram, trent til å vinne, gir kanskje ikke mening som et Penrose-puslespill, men Zahavy mistenkte at et program som består av mange forskjellige systemer, som jobber sammen som en gruppe, kunne gjøre fremskritt. Så han og kollegene hans utviklet en måte å veve sammen flere (opptil 10) beslutningstakende AI-systemer, hver optimalisert og trent for forskjellige strategier, og starter med AlphaZero, DeepMinds kraftige sjakkprogram. Det nye systemet, de rapporterte i august, spilte bedre enn AlphaZero alene, og det viste mer dyktighet – og mer kreativitet – i å håndtere Penroses gåter. Disse evnene kom på en måte fra selvsamarbeid: Hvis en tilnærming traff en vegg, snudde programmet ganske enkelt til en annen.

Den tilnærmingen er grunnleggende fornuftig, sa Allison Liemhetcharat, en informatiker ved DoorDash som har jobbet med multiagent-tilnærminger til problemløsning i robotikk. "Med en populasjon av agenter er det større sannsynlighet for at gåtene er i domenet som minst en av agentene ble opplært i."

Arbeidet antyder at team med forskjellige AI-systemer effektivt kan takle vanskelige problemer langt utenfor spillebrettet. "Dette er et godt eksempel på at det å lete etter mer enn én måte å løse et problem - som å vinne et sjakkspill - gir mange fordeler," sa Antoine Cully, en AI-forsker ved Imperial College London som ikke var involvert i DeepMind-prosjektet. Han sammenlignet det med en kunstig versjon av menneskelig idédugnad. "Denne tankeprosessen fører til kreative og effektive løsninger som man ville savnet uten å gjøre denne øvelsen."

Jager feil

Før Zahavy begynte i DeepMind, var Zahavy interessert i dyp forsterkningslæring, et område med kunstig intelligens der et system bruker nevrale nettverk for å lære en oppgave gjennom prøving og feiling. Det er grunnlaget for de kraftigste sjakkprogrammene (og brukes i andre AI-applikasjoner som selvkjørende biler). Systemet starter med omgivelsene. I sjakk inkluderer miljøet for eksempel spillebrettet og mulige trekk. Hvis oppgaven er å kjøre bil, inkluderer miljøet alt rundt kjøretøyet. Systemet tar deretter beslutninger, iverksetter handlinger og evaluerer hvor nær det kom målet. Når det kommer nærmere målet, samler det opp belønninger, og etter hvert som systemet samler opp belønninger, forbedrer det ytelsen. Den "dype" delen av denne tilnærmingen beskriver de nevrale nettverkene som brukes til å analysere og vurdere atferd.

Forsterkende læring er hvordan AlphaZero lærte å bli en sjakkmester. DeepMind rapportert at det i løpet av programmets ni første timer med trening, i desember 2017, spilte 44 millioner kamper mot seg selv. Til å begynne med ble trekkene tilfeldig bestemt, men over tid lærte den å velge trekk som var mer sannsynlig å føre mot sjakkmatt. Etter bare timer med trening utviklet AlphaZero evnen til å beseire enhver menneskelig sjakkspiller.

Men så vellykket som forsterkende læring kan være, fører det ikke alltid til strategier som gjenspeiler en generell forståelse av spillet. I løpet av det siste halve tiåret eller så la Zahavy og andre merke til en økning i de særegne feilene som kunne skje på systemer som er trent med prøving og feiling. Et system som spiller videospill, for eksempel, kan finne et smutthull og finne ut hvordan man kan jukse eller hoppe over et nivå, eller det kan like gjerne sette seg fast i en repeterende loop. Puslespill i Penrose-stil antydet på samme måte en slags blindsone, eller feil, i AlphaZero - den kunne ikke finne ut hvordan den skulle nærme seg et problem den aldri hadde sett før.

Men kanskje ikke alle feil er bare feil. Zahavy mistenkte at AlphaZeros blindsoner faktisk kan være noe annet i forkledning - beslutninger og atferd knyttet til systemets interne belønninger. Dypforsterkende læringssystemer, sa han, vet ikke hvordan man feiler - eller til og med hvordan man gjenkjenner feil. Evnen til å mislykkes har lenge vært knyttet til kreativ problemløsning. "Kreativitet har en menneskelig kvalitet," skrev Kasparov i Dyp tenking. "Den aksepterer forestillingen om fiasko."

AI-systemer gjør det vanligvis ikke. Og hvis et system ikke gjenkjenner at det ikke klarte å fullføre oppgaven, kan det hende det ikke prøver noe annet. I stedet vil den bare fortsette å prøve å gjøre det den allerede har gjort. Det er sannsynligvis det som førte til disse blindveiene i videospill - eller til å bli sittende fast på noen Penrose-utfordringer, sa Zahavy. Systemet jaget etter "rare typer iboende belønninger," sa han, som det hadde utviklet seg under treningen. Ting som så ut som feil fra utsiden var sannsynligvis konsekvensen av å utvikle spesifikke, men til slutt mislykkede strategier.

Systemet så på disse rare belønningene som skritt mot det større målet, som det faktisk ikke kunne oppnå, og det visste ikke å prøve noe nytt. "Jeg prøvde å forstå dem," sa Zahavy.

Et bedre spill

Noe av grunnen til at disse feilene kan vise seg å være så konsekvens - og så nyttige - kommer fra det forskere anerkjenner som et problem med generalisering. Mens forsterkende læringssystemer kan utvikle en effektiv strategi for å koble en gitt situasjon til en spesifikk handling - som forskere kaller en "policy" - kan de ikke bruke den på forskjellige problemer. "Det som vanligvis har en tendens til å skje med forsterkende læring, nesten uavhengig av metoden, er at du får policyen som løser den spesielle forekomsten av problemet du har trent på, men den generaliserer ikke," sa Julian Togelius, informatiker ved New York University og forskningsdirektør ved modl.ai.

Zahavy så at Penrose-oppgavene bare krever denne typen generalisering. Kanskje AlphaZero ikke kunne løse de fleste gåtene fordi den var så fokusert på å vinne hele spill, fra start til slutt. Men den tilnærmingen introduserte blinde flekker avslørt av de usannsynlige arrangementene av brikker i Penrose-puslespill. Kanskje, resonnerte han, programmet kunne lære å slå puslespillet hvis det hadde nok kreativt rom til å brainstorme og få tilgang til forskjellige treningsmetoder.

Så han og kollegene hans samlet først et sett med 53 Penrose-oppgaver og 15 ekstra utfordringsoppgaver. På egen hånd løste AlphaZero mindre 4 % av Penrose-oppgavene og under 12 % av resten. Zahavy var ikke overrasket: Mange av disse gåtene ble designet av sjakkmestere for å med vilje forvirre datamaskiner.

Som en test prøvde forskerne å trene AlphaZero til å spille mot seg selv ved å bruke Penrose-puslespillet som startposisjon, i stedet for hele brettet med typiske spill. Ytelsen forbedret seg dramatisk: Den løste 96 % av Penrose-oppgavene og 76 % av utfordringssettet. Generelt, når AlphaZero trente på et spesifikt puslespill, kunne det løse det puslespillet, akkurat som det kunne vinne når det trente på et helt spill. Kanskje, tenkte Zahavy, hvis et sjakkprogram på en eller annen måte kunne ha tilgang til alle de forskjellige versjonene av AlphaZero, trent på de forskjellige stillingene, så kunne det mangfoldet utløse evnen til å nærme seg nye problemer produktivt. Kanskje det kan generalisere, med andre ord, å løse ikke bare Penrose-oppgavene, men ethvert bredere sjakkproblem.

Gruppen hans bestemte seg for å finne ut av det. De bygde den nye, diversifiserte versjonen av AlphaZero, som inkluderer flere AI-systemer som trente uavhengig og i en rekke situasjoner. Algoritmen som styrer det overordnede systemet fungerer som en slags virtuell matchmaker, sa Zahavy: en designet for å identifisere hvilken agent som har best sjanse til å lykkes når det er på tide å gjøre et trekk. Han og kollegene hans kodet også inn en "mangfoldsbonus" - en belønning for systemet hver gang det hentet strategier fra et stort utvalg av valg.

Da det nye systemet ble satt løs for å spille sine egne kamper, observerte laget mye variasjon. Den diversifiserte AI-spilleren eksperimenterte med nye, effektive åpninger og nye – men gode – beslutninger om spesifikke strategier, for eksempel når og hvor de skal kastes. I de fleste kampene beseiret den den originale AlphaZero. Teamet fant også ut at den diversifiserte versjonen kunne løse dobbelt så mange utfordringsoppgaver som originalen og kunne løse mer enn halvparten av den totale katalogen med Penrose-oppgaver.

"Ideen er at i stedet for å finne én løsning, eller én enkelt policy, som ville slå enhver spiller, her [bruker den] ideen om kreativt mangfold," sa Cully.

Med tilgang til flere og forskjellige spilte spill, sa Zahavy, hadde den diversifiserte AlphaZero flere muligheter for vanskelige situasjoner når de dukket opp. "Hvis du kan kontrollere hva slags spill den ser, kontrollerer du i utgangspunktet hvordan den vil generalisere," sa han. Disse rare iboende belønningene (og deres tilknyttede bevegelser) kan bli styrker for mangfoldig atferd. Da kunne systemet lære å vurdere og verdsette de ulike tilnærmingene og se når de var mest vellykkede. "Vi fant ut at denne gruppen av agenter faktisk kan komme til enighet om disse stillingene."

Og, avgjørende, implikasjonene strekker seg utover sjakk.

Kreativitet i det virkelige liv

Cully sa at en diversifisert tilnærming kan hjelpe ethvert AI-system, ikke bare de som er basert på forsterkende læring. Han har lenge brukt mangfold for å trene fysiske systemer, inkludert en seksbeint robot som fikk utforske ulike typer bevegelser, før han med vilje "skadet" den, slik at den kunne fortsette å bevege seg ved hjelp av noen av teknikkene den hadde utviklet før. "Vi prøvde bare å finne løsninger som var forskjellige fra alle tidligere løsninger vi har funnet så langt." Nylig har han også samarbeidet med forskere for å bruke mangfold til å identifisere lovende nye medikamentkandidater og utvikle effektive aksjehandelsstrategier.

"Målet er å generere en stor samling av potensielt tusenvis av forskjellige løsninger, der hver løsning er veldig forskjellig fra den neste," sa Cully. Så – akkurat som den diversifiserte sjakkspilleren lærte å gjøre – for alle typer problemer, kunne det overordnede systemet velge den best mulige løsningen. Zahavys AI-system, sa han, viser tydelig hvordan "å lete etter ulike strategier hjelper til å tenke utenfor boksen og finne løsninger."

Zahavy mistenker at for at AI-systemer skal tenke kreativt, må forskere rett og slett få dem til å vurdere flere alternativer. Den hypotesen antyder en merkelig sammenheng mellom mennesker og maskiner: Kanskje er intelligens bare et spørsmål om beregningskraft. For et AI-system koker kanskje kreativitet ned til muligheten til å vurdere og velge fra en stor nok buffé med alternativer. Ettersom systemet får belønning for å velge en rekke optimale strategier, blir denne typen kreativ problemløsning forsterket og styrket. Til syvende og sist, i teorien, kan det etterligne enhver form for problemløsningsstrategi som er anerkjent som en kreativ strategi hos mennesker. Kreativitet ville blitt et beregningsproblem.

Liemhetcharat bemerket at et diversifisert AI-system neppe helt vil løse det bredere generaliseringsproblemet innen maskinlæring. Men det er et skritt i riktig retning. "Det avbøter en av manglene," sa hun.

Mer praktisk resonerer Zahavys resultater med nyere innsats som viser hvordan samarbeid kan føre til bedre ytelse på vanskelige oppgaver blant mennesker. De fleste av hitene på Billboard 100-listen ble skrevet av lag med låtskrivere, for eksempel ikke enkeltpersoner. Og det er fortsatt rom for forbedring. Den mangfoldige tilnærmingen er for tiden beregningsmessig dyr, siden den må vurdere så mange flere muligheter enn et typisk system. Zahavy er heller ikke overbevist om at selv den diversifiserte AlphaZero fanger opp hele spekteret av muligheter.

"Jeg tror fortsatt det er rom for å finne forskjellige løsninger," sa han. "Det er ikke klart for meg at gitt all data i verden, er det [bare] ett svar på hvert spørsmål."

Quanta gjennomfører en serie undersøkelser for å tjene publikum bedre. Ta vår informatikk leserundersøkelse og du vil bli registrert for å vinne gratis Quanta handelsvarer.

Tidstempel:

Mer fra Quantamagazin