Denne DeepMind AI lærer hurtigt nye færdigheder bare ved at se mennesker

Denne DeepMind AI lærer hurtigt nye færdigheder bare ved at se mennesker

This DeepMind AI Rapidly Learns New Skills Just by Watching Humans PlatoBlockchain Data Intelligence. Vertical Search. Ai.

At lære algoritmer til at efterligne mennesker kræver typisk hundredvis eller tusindvis af eksempler. Men en ny AI fra Google DeepMind kan hente nye færdigheder fra menneskelige demonstranter i farten.

Et af menneskehedens største tricks er vores evne til at tilegne sig viden hurtigt og effektivt fra hinanden. Denne form for social læring, ofte omtalt som kulturel overførsel, er det, der giver os mulighed for at vise en kollega, hvordan man bruger et nyt værktøj eller lærer vores børn børnerim.

Det er ingen overraskelse, at forskere har forsøgt at kopiere processen i maskiner. Imitationslæring, hvor AI ser et menneske udføre en opgave og derefter forsøger at efterligne deres adfærd, har længe været en populær tilgang til træning af robotter. Men selv nutidens mest avancerede deep learning-algoritmer skal typisk se mange eksempler, før de med succes kan kopiere deres undervisere.

Når mennesker lærer gennem efterligning, kan de ofte hente nye opgaver efter blot en håndfuld demonstrationer. Nu har Google DeepMind-forskere taget et skridt mod hurtig social læring i AI med agenter, der lærer at navigere i en virtuel verden fra mennesker i realtid.

"Vores agenter lykkes med at efterligne et menneske i realtid i nye sammenhænge uden at bruge nogen forudindsamlede menneskelige data," skriver forskerne i en papir ind Nature Communications. "Vi identificerer et overraskende simpelt sæt ingredienser, der er tilstrækkelige til at skabe kulturel transmission."

Forskerne trænede deres agenter i en specialdesignet simulator kaldet GoalCycle3D. Simulatoren bruger en algoritme til at generere et næsten uendeligt antal forskellige miljøer baseret på regler om, hvordan simuleringen skal fungere, og hvilke aspekter af den skal variere.

I hvert miljø små klat-lignende AI agenter skal navigere i ujævnt terræn og forskellige forhindringer for at passere gennem en række farvede kugler i en bestemt rækkefølge. Terrænets ujævnhed, tætheden af ​​forhindringer og sfærernes konfiguration varierer mellem miljøerne.

Agenterne er trænet i at navigere vha forstærkning læring. De tjener en belønning for at passere gennem sfærerne i den rigtige rækkefølge og bruger dette signal til at forbedre deres præstationer over mange forsøg. Men derudover byder miljøerne også på en ekspertagent – ​​som enten er hårdkodet eller styret af et menneske – som allerede kender den rigtige rute gennem banen.

I løbet af mange træningsforløb lærer AI-agenterne ikke kun det grundlæggende i, hvordan miljøerne fungerer, men også, at den hurtigste måde at løse hvert problem på er at efterligne eksperten. For at sikre, at agenterne lærte at efterligne i stedet for blot at huske kurserne, trænede holdet dem i et sæt miljøer og testede dem derefter i et andet. Efter træning viste holdet, at deres agenter kunne efterligne en ekspert og fortsætte med at følge ruten, selv uden eksperten.

Dette krævede et par justeringer af standardforstærkningslæringsmetoder.

Forskerne fik algoritmen til at fokusere på eksperten ved at lade den forudsige placeringen af ​​den anden agent. De gav den også et hukommelsesmodul. Under træningen faldt eksperten ind og ud af miljøer, hvilket tvang agenten til at huske sine handlinger, når den ikke længere var til stede. AI trænede også i et bredt sæt af miljøer, hvilket sikrede, at det så en bred vifte af mulige opgaver.

It might be difficult to translate the approach to more practical domains though. A key limitation is that when the researchers tested if the AI could learn from human demonstrations, the expert agent was controlled by one person during all training runs. That makes it hard to know whether the agents could learn from a variety of people.

Mere presserende ville evnen til tilfældigt at ændre træningsmiljøet være svær at genskabe i den virkelige verden. Og den underliggende opgave var enkel, krævede ingen finmotorisk kontrol og fandt sted i stærkt kontrollerede virtuelle miljøer.

Alligevel er sociale læringsfremskridt i AI velkommen. Hvis vi skal leve i en verden med intelligente maskiner, vil det være afgørende at finde effektive og intuitive måder at dele vores erfaring og ekspertise med dem på.

Billede Credit: Juliana og Mariana Amorim / Unsplash

Tidsstempel:

Mere fra Singularitet Hub