Ta umetna inteligenca DeepMind se hitro nauči novih veščin samo z opazovanjem ljudi

Ta umetna inteligenca DeepMind se hitro nauči novih veščin samo z opazovanjem ljudi

This DeepMind AI Rapidly Learns New Skills Just by Watching Humans PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Učenje algoritmov za posnemanje ljudi običajno zahteva na stotine ali tisoče primerov. Toda nova umetna inteligenca podjetja Google DeepMind lahko sproti pridobiva nove veščine človeških demonstratorjev.

Eden največjih zvijač človeštva je naša sposobnost, da drug od drugega hitro in učinkovito pridobivamo znanje. Tovrstno socialno učenje, ki se pogosto imenuje kulturni prenos, je tisto, kar nam omogoča, da kolegu pokažemo, kako uporabljati novo orodje, ali učimo svoje otroke otroške pesmice.

Ni presenetljivo, da so raziskovalci poskušali ponoviti postopek v strojih. Imitacijsko učenje, pri katerem umetna inteligenca opazuje človeka, ko opravi nalogo, nato pa poskuša posnemati njegovo vedenje, je že dolgo priljubljen pristop za usposabljanje robotov. Toda tudi današnji najnaprednejši algoritmi globokega učenja morajo običajno videti veliko primerov, preden lahko uspešno kopirajo svoje trenerje.

Ko se ljudje učijo s posnemanjem, lahko pogosto izberejo nove naloge že po peščici demonstracij. Zdaj so raziskovalci Google DeepMind naredili korak k hitremu socialnemu učenju v AI z agenti, ki se od ljudi v realnem času naučijo krmariti po virtualnem svetu.

"Naši agenti uspejo posnemati človeka v realnem času v novih kontekstih brez uporabe predhodno zbranih podatkov o človeku," pišejo raziskovalci v papir v Nature Communications. "Identificiramo presenetljivo preprost niz sestavin, ki zadostuje za ustvarjanje kulturnega prenosa.

Raziskovalci so usposobili svoje agente v posebej zasnovanem simulatorju, imenovanem GoalCycle3D. Simulator uporablja algoritem za ustvarjanje skoraj neskončnega števila različnih okolij, ki temeljijo na pravilih o tem, kako naj simulacija deluje in kateri vidiki naj se razlikujejo.

V vsakem okolju, majhne madeže AI agenti mora krmariti po neravnem terenu in različnih ovirah, da gre skozi vrsto barvnih krogel v določenem vrstnem redu. Razgibanost terena, gostota ovir in konfiguracija krogel se razlikujejo med okolji.

Agenti so usposobljeni za krmarjenje z uporabo okrepljeno učenje. Prislužijo si nagrado za prehod skozi sfere v pravilnem vrstnem redu in uporabijo ta signal za izboljšanje svoje uspešnosti v številnih preizkušnjah. Toda poleg tega imajo okolja tudi strokovnega agenta – ki je bodisi trdo kodiran ali ga nadzira človek – ki že pozna pravilno pot skozi tečaj.

Med številnimi treningi se agenti umetne inteligence ne naučijo le osnov delovanja okolij, ampak tudi, da je najhitrejši način za rešitev vsake težave posnemanje strokovnjaka. Da bi zagotovili, da so se agenti učili posnemati in ne samo zapomniti tečajev, jih je ekipa učila v enem nizu okolij in jih nato preizkusila v drugem. Ključno je, da je ekipa po treningu pokazala, da lahko njihovi agenti posnemajo strokovnjaka in nadaljujejo s potjo tudi brez strokovnjaka.

To je zahtevalo nekaj prilagoditev standardnih pristopov učenja s krepitvijo.

Raziskovalci so naredili, da se algoritem osredotoči na strokovnjaka, tako da predvideva lokacijo drugega agenta. Dali so mu tudi pomnilniški modul. Med usposabljanjem je strokovnjak vstopal in izstopal iz okolij, kar je agenta prisililo, da si zapomni svoja dejanja za čas, ko ni več prisoten. Umetna inteligenca se je usposabljala tudi v širokem naboru okolij, kar je zagotovilo, da je videla široko paleto možnih nalog.

It might be difficult to translate the approach to more practical domains though. A key limitation is that when the researchers tested if the AI could learn from human demonstrations, the expert agent was controlled by one person during all training runs. That makes it hard to know whether the agents could learn from a variety of people.

Še bolj pereče je, da bi bilo zmožnost naključnega spreminjanja vadbenega okolja težko poustvariti v resničnem svetu. In osnovna naloga je bila preprosta, ni zahtevala finega motoričnega nadzora in se je dogajala v visoko nadzorovanih virtualnih okoljih.

Kljub temu je napredek socialnega učenja v AI dobrodošel. Če želimo živeti v svetu z inteligentnimi stroji, bo iskanje učinkovitih in intuitivnih načinov, kako z njimi deliti svoje izkušnje in strokovno znanje, ključnega pomena.

Kreditno slike: Juliana in Mariana Amorim / Unsplash

Časovni žig:

Več od Središče singularnosti