Denne DeepMind AI lærer raskt nye ferdigheter bare ved å se på mennesker

Denne DeepMind AI lærer raskt nye ferdigheter bare ved å se på mennesker

Denne DeepMind AI lærer raskt nye ferdigheter bare ved å se menneskers PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Å lære algoritmer for å etterligne mennesker krever vanligvis hundrevis eller tusenvis av eksempler. Men en ny AI fra Google DeepMind kan plukke opp nye ferdigheter fra menneskelige demonstranter i farten.

Et av menneskehetens største triks er vår evne til å tilegne seg kunnskap raskt og effektivt fra hverandre. Denne typen sosial læring, ofte referert til som kulturell overføring, er det som lar oss vise en kollega hvordan man bruker et nytt verktøy eller lærer barna våre barnerim.

Det er ingen overraskelse at forskere har prøvd å gjenskape prosessen i maskiner. Imitasjonslæring, der AI ser på et menneske fullføre en oppgave og deretter prøver å etterligne deres oppførsel, har lenge vært en populær tilnærming for å trene roboter. Men selv dagens mest avanserte dyplæringsalgoritmer trenger vanligvis å se mange eksempler før de kan kopiere trenerne sine.

Når mennesker lærer gjennom imitasjon, kan de ofte ta opp nye oppgaver etter bare en håndfull demonstrasjoner. Nå har Google DeepMind-forskere tatt et skritt mot rask sosial læring i AI med agenter som lærer å navigere i en virtuell verden fra mennesker i sanntid.

"Våre agenter lykkes med sanntidsimitasjon av et menneske i nye sammenhenger uten å bruke noen forhåndsinnsamlede menneskelige data," skriver forskerne i en papir inn Nature Communications. "Vi identifiserer et overraskende enkelt sett med ingredienser som er tilstrekkelig for å generere kulturell overføring.»

Forskerne trente agentene sine i en spesialdesignet simulator kalt GoalCycle3D. Simulatoren bruker en algoritme for å generere et nesten uendelig antall forskjellige miljøer basert på regler om hvordan simuleringen skal fungere og hvilke aspekter ved den som skal variere.

I hvert miljø, liten blob-lignende AI-agenter må navigere i ujevnt terreng og ulike hindringer for å passere gjennom en rekke fargede kuler i en bestemt rekkefølge. Ujevnheten i terrenget, tettheten av hindringer og konfigurasjonen av kulene varierer mellom miljøene.

Agentene er opplært til å navigere ved hjelp av forsterkning læring. De tjener en belønning for å passere gjennom kulene i riktig rekkefølge og bruker dette signalet til å forbedre ytelsen over mange forsøk. Men i tillegg har miljøene også en ekspertagent – ​​som enten er hardkodet eller kontrollert av et menneske – som allerede kjenner den riktige ruten gjennom banen.

I løpet av mange treningsøkter lærer AI-agentene ikke bare det grunnleggende om hvordan miljøene fungerer, men også at den raskeste måten å løse hvert problem på er å etterligne eksperten. For å sikre at agentene lærte å imitere i stedet for bare å huske kursene, trente teamet dem i ett sett med miljøer og testet dem deretter i et annet. Avgjørende, etter trening, viste teamet at deres agenter kunne imitere en ekspert og fortsette å følge ruten selv uten eksperten.

Dette krevde noen justeringer av standard tilnærminger for forsterkende læring.

Forskerne fikk algoritmen til å fokusere på eksperten ved å la den forutsi plasseringen til den andre agenten. De ga den også en minnemodul. Under trening ville eksperten slippe inn og ut av miljøer, og tvang agenten til å huske handlingene sine for når den ikke lenger var til stede. AI trente også på et bredt sett av miljøer, noe som sikret at den så et bredt spekter av mulige oppgaver.

Det kan imidlertid være vanskelig å oversette tilnærmingen til mer praktiske domener. En sentral begrensning er at når forskerne testet om AI kunne lære av menneskelige demonstrasjoner, ble ekspertagenten kontrollert av én person under alle treningsløpene. Det gjør det vanskelig å vite om agentene kan lære av en rekke mennesker.

Mer presserende, muligheten til å endre treningsmiljøet tilfeldig ville være vanskelig å gjenskape i den virkelige verden. Og den underliggende oppgaven var enkel, krevde ingen finmotorisk kontroll og skjedde i svært kontrollerte virtuelle miljøer.

Likevel er sosial læringsfremgang i AI velkommen. Hvis vi skal leve i en verden med intelligente maskiner, vil det være avgjørende å finne effektive og intuitive måter å dele vår erfaring og ekspertise med dem på.

Bilde Credit: Juliana og Mariana Amorim / Unsplash

Tidstempel:

Mer fra Singularity Hub