Denne DeepMind AI lærer raskt nye ferdigheter bare ved å se på mennesker

Denne DeepMind AI lærer raskt nye ferdigheter bare ved å se på mennesker

This DeepMind AI Rapidly Learns New Skills Just by Watching Humans PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Å lære algoritmer for å etterligne mennesker krever vanligvis hundrevis eller tusenvis av eksempler. Men en ny AI fra Google DeepMind kan plukke opp nye ferdigheter fra menneskelige demonstranter i farten.

Et av menneskehetens største triks er vår evne til å tilegne seg kunnskap raskt og effektivt fra hverandre. Denne typen sosial læring, ofte referert til som kulturell overføring, er det som lar oss vise en kollega hvordan man bruker et nytt verktøy eller lærer barna våre barnerim.

Det er ingen overraskelse at forskere har prøvd å gjenskape prosessen i maskiner. Imitasjonslæring, der AI ser på et menneske fullføre en oppgave og deretter prøver å etterligne deres oppførsel, har lenge vært en populær tilnærming for å trene roboter. Men selv dagens mest avanserte dyplæringsalgoritmer trenger vanligvis å se mange eksempler før de kan kopiere trenerne sine.

Når mennesker lærer gjennom imitasjon, kan de ofte ta opp nye oppgaver etter bare en håndfull demonstrasjoner. Nå har Google DeepMind-forskere tatt et skritt mot rask sosial læring i AI med agenter som lærer å navigere i en virtuell verden fra mennesker i sanntid.

"Våre agenter lykkes med sanntidsimitasjon av et menneske i nye sammenhenger uten å bruke noen forhåndsinnsamlede menneskelige data," skriver forskerne i en papir inn Nature Communications. "Vi identifiserer et overraskende enkelt sett med ingredienser som er tilstrekkelig for å generere kulturell overføring.»

Forskerne trente agentene sine i en spesialdesignet simulator kalt GoalCycle3D. Simulatoren bruker en algoritme for å generere et nesten uendelig antall forskjellige miljøer basert på regler om hvordan simuleringen skal fungere og hvilke aspekter ved den som skal variere.

I hvert miljø, liten blob-lignende AI-agenter må navigere i ujevnt terreng og ulike hindringer for å passere gjennom en rekke fargede kuler i en bestemt rekkefølge. Ujevnheten i terrenget, tettheten av hindringer og konfigurasjonen av kulene varierer mellom miljøene.

Agentene er opplært til å navigere ved hjelp av forsterkning læring. De tjener en belønning for å passere gjennom kulene i riktig rekkefølge og bruker dette signalet til å forbedre ytelsen over mange forsøk. Men i tillegg har miljøene også en ekspertagent – ​​som enten er hardkodet eller kontrollert av et menneske – som allerede kjenner den riktige ruten gjennom banen.

I løpet av mange treningsøkter lærer AI-agentene ikke bare det grunnleggende om hvordan miljøene fungerer, men også at den raskeste måten å løse hvert problem på er å etterligne eksperten. For å sikre at agentene lærte å imitere i stedet for bare å huske kursene, trente teamet dem i ett sett med miljøer og testet dem deretter i et annet. Avgjørende, etter trening, viste teamet at deres agenter kunne imitere en ekspert og fortsette å følge ruten selv uten eksperten.

Dette krevde noen justeringer av standard tilnærminger for forsterkende læring.

Forskerne fikk algoritmen til å fokusere på eksperten ved å la den forutsi plasseringen til den andre agenten. De ga den også en minnemodul. Under trening ville eksperten slippe inn og ut av miljøer, og tvang agenten til å huske handlingene sine for når den ikke lenger var til stede. AI trente også på et bredt sett av miljøer, noe som sikret at den så et bredt spekter av mulige oppgaver.

It might be difficult to translate the approach to more practical domains though. A key limitation is that when the researchers tested if the AI could learn from human demonstrations, the expert agent was controlled by one person during all training runs. That makes it hard to know whether the agents could learn from a variety of people.

Mer presserende, muligheten til å endre treningsmiljøet tilfeldig ville være vanskelig å gjenskape i den virkelige verden. Og den underliggende oppgaven var enkel, krevde ingen finmotorisk kontroll og skjedde i svært kontrollerte virtuelle miljøer.

Likevel er sosial læringsfremgang i AI velkommen. Hvis vi skal leve i en verden med intelligente maskiner, vil det være avgjørende å finne effektive og intuitive måter å dele vår erfaring og ekspertise med dem på.

Bilde Credit: Juliana og Mariana Amorim / Unsplash

Tidstempel:

Mer fra Singularity Hub