Denna DeepMind AI lär sig snabbt nya färdigheter bara genom att titta på människor

Denna DeepMind AI lär sig snabbt nya färdigheter bara genom att titta på människor

Denna DeepMind AI lär sig snabbt nya färdigheter bara genom att titta på människors PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Att lära ut algoritmer för att efterlikna människor kräver vanligtvis hundratals eller tusentals exempel. Men en ny AI från Google DeepMind kan plocka upp nya färdigheter från mänskliga demonstranter i farten.

Ett av mänsklighetens största knep är vår förmåga att snabbt och effektivt skaffa kunskap från varandra. Denna typ av socialt lärande, ofta kallad kulturell överföring, är det som gör att vi kan visa en kollega hur man använder ett nytt verktyg eller lär våra barn barnvisor.

Det är ingen överraskning att forskare har försökt replikera processen i maskiner. Imitationsinlärning, där AI ser en människa utföra en uppgift och sedan försöker efterlikna deras beteende, har länge varit ett populärt tillvägagångssätt för att träna robotar. Men även dagens mest avancerade djupinlärningsalgoritmer behöver vanligtvis se många exempel innan de framgångsrikt kan kopiera sina tränare.

När människor lär sig genom imitation kan de ofta ta upp nya uppgifter efter bara en handfull demonstrationer. Nu har Google DeepMind-forskare tagit ett steg mot ett snabbt socialt lärande inom AI med agenter som lär sig att navigera i en virtuell värld från människor i realtid.

"Våra agenter lyckas med att imitera en människa i realtid i nya sammanhang utan att använda någon förinsamlad mänsklig data", skriver forskarna i en papper i Nature Communications. "Vi identifierar en förvånansvärt enkel uppsättning ingredienser som är tillräckliga för att generera kulturell överföring."

Forskarna tränade sina agenter i en specialdesignad simulator som heter GoalCycle3D. Simulatorn använder en algoritm för att generera ett nästan oändligt antal olika miljöer baserat på regler om hur simuleringen ska fungera och vilka aspekter av den som ska variera.

I varje miljö, liten blob-liknande AI-medel måste navigera i ojämn terräng och olika hinder för att passera genom en serie färgade sfärer i en specifik ordning. Terrängens ojämnhet, tätheten av hinder och sfärernas konfiguration varierar mellan miljöerna.

Agenterna är utbildade i att navigera med hjälp av förstärkning lärande. De får en belöning för att de passerar genom sfärerna i rätt ordning och använder denna signal för att förbättra sin prestation under många försök. Men dessutom har miljöerna också en expertagent – ​​som antingen är hårdkodad eller kontrollerad av en människa – som redan känner till den korrekta vägen genom banan.

Under många träningsomgångar lär sig AI-agenterna inte bara grunderna för hur miljöerna fungerar, utan också att det snabbaste sättet att lösa varje problem är att imitera experten. För att säkerställa att agenterna lärde sig att imitera istället för att bara memorera kurserna, tränade teamet dem i en uppsättning miljöer och testade dem sedan i en annan. Avgörande, efter träning, visade teamet att deras agenter kunde imitera en expert och fortsätta att följa rutten även utan experten.

Detta krävde några justeringar av standardmetoder för förstärkningsinlärning.

Forskarna fick algoritmen att fokusera på experten genom att låta den förutsäga platsen för den andra agenten. De gav den också en minnesmodul. Under utbildningen skulle experten hoppa in och ut ur miljöer, vilket tvingade agenten att memorera sina handlingar när den inte längre var närvarande. AI:n tränade också i en bred uppsättning miljöer, vilket säkerställde att den såg ett brett utbud av möjliga uppgifter.

Det kan dock vara svårt att översätta tillvägagångssättet till mer praktiska domäner. En viktig begränsning är att när forskarna testade om AI kunde lära sig av mänskliga demonstrationer, kontrollerades expertagenten av en person under alla träningskörningar. Det gör det svårt att veta om agenterna kan lära sig av en mängd olika människor.

Mer pressande är att möjligheten att slumpmässigt ändra träningsmiljön skulle vara svår att återskapa i den verkliga världen. Och den underliggande uppgiften var enkel, krävde ingen finmotorisk kontroll och skedde i mycket kontrollerade virtuella miljöer.

Fortfarande är framsteg inom socialt lärande inom AI välkomna. Om vi ​​ska leva i en värld med intelligenta maskiner kommer det att vara avgörande att hitta effektiva och intuitiva sätt att dela vår erfarenhet och expertis med dem.

Image Credit: Juliana och Mariana Amorim / Unsplash

Tidsstämpel:

Mer från Singularity Hub