DeepMindovi možgani, podobni ChatGPT, za robote jim omogočajo učenje iz interneta

DeepMindovi možgani, podobni ChatGPT, za robote jim omogočajo učenje iz interneta

Odkar je ChatGPT eksplodiral na tehnološkem prizorišču novembra lani, ljudem pomaga pri pisanju najrazličnejših materialov, ustvarjanju kode in iskanju informacij. Ta in drugi veliki jezikovni modeli (LLM) so olajšali naloge od posredovanja klicev za pomoč strankam do sprejemanja naročil hitre hrane. Glede na to, kako koristni so bili LLM-ji za ljudi v kratkem času, odkar obstajajo, kako bi lahko ChatGPT za robote vplival na njihovo sposobnost učenja in delanja novih stvari? Raziskovalci pri Google DeepMind so se odločili ugotoviti in svoje ugotovitve objavili v blog post in dokument, izdan prejšnji teden.

Svoj sistem imenujejo RT-2. To je okrajšava za robotski transformator 2 in je njegov naslednik robotski transformator 1, ki ga je podjetje izdalo konec lanskega leta. RT-1 je temeljil na majhnem programu za jezik in vid ter je bil posebej usposobljen za opravljanje številnih nalog. Programska oprema je bila uporabljena v Alphabet X's Vsakodnevni roboti, kar jim omogoča, da opravijo več kot 700 različnih nalog s 97-odstotno stopnjo uspešnosti. Toda ko so bili pozvani k opravljanju novih nalog, za katere niso bili usposobljeni, so bili roboti, ki uporabljajo RT-1, uspešni le v 32 odstotkih primerov.

RT-2 skoraj podvoji to stopnjo in uspešno opravi nove naloge v 62 odstotkih zahtevanega časa. Raziskovalci imenujejo RT-2 model vision-language-action (VLA). Za učenje novih veščin uporablja besedilo in slike, ki jih vidi na spletu. To ni tako preprosto, kot se sliši; zahteva, da programska oprema najprej »razume« koncept, nato to razumevanje uporabi za ukaz ali nabor navodil, nato pa izvede dejanja, ki izpolnjujejo ta navodila.

Eden od primerov, ki ga navajajo avtorji prispevka, je odlaganje smeti. V prejšnjih modelih je bilo treba programsko opremo robota najprej usposobiti za prepoznavanje smeti. Na primer, če je na mizi olupljena banana z lupino poleg nje, bo botu prikazano, da je lupina smeti, medtem ko banana ni. Nato bi ga naučili, kako pobrati lupino, jo premakniti v smetnjak in tam odložiti.

RT-2 deluje nekoliko drugače. Ker se je model uril na kopici informacij in podatkov iz interneta, ima splošno razumevanje, kaj so smeti, in čeprav ni usposobljen za odmetavanje smeti, lahko sestavi korake za dokončanje te naloge.

LLM-ji, ki so jih raziskovalci uporabili za usposabljanje RT-2, so PaLI-X (vizijski in jezikovni model s 55 milijardami parametrov) in PaLM-E (kar Google imenuje utelešen multimodalni jezikovni model, razvit posebej za robote, z 12 milijardami parametrov). »Parameter« se nanaša na atribut, ki ga model strojnega učenja definira na podlagi svojih podatkov o usposabljanju. V primeru LLM modelirajo razmerja med besedami v stavku in tehtajo, kako verjetno je, da bo dani besedi pred ali za njo druga beseda.

Z iskanjem razmerij in vzorcev med besedami v ogromnem naboru podatkov se modeli učijo iz lastnih sklepov. Sčasoma lahko ugotovijo, kako so različni pojmi povezani drug z drugim, in razločijo kontekst. V primeru RT-2 to znanje prevede v splošna navodila za robotska dejanja.

Ta dejanja so za robota predstavljena kot žetoni, ki se običajno uporabljajo za predstavitev besedila naravnega jezika v obliki besednih fragmentov. V tem primeru so žetoni deli dejanja in programska oprema poveže več žetonov skupaj, da izvede dejanje. Ta struktura omogoča programski opremi tudi sklepanje v verigi misli, kar pomeni, da se lahko odzove na vprašanja ali pozive, ki zahtevajo določeno stopnjo sklepanja.

Primeri, ki jih navaja ekipa, vključujejo izbiro predmeta za uporabo kot kladivo, ko ni na voljo kladiva (robot izbere kamen) in izbiro najboljše pijače za utrujeno osebo (robot izbere energijsko pijačo).

DeepMind's ChatGPT-Like Brain for Robots Lets Them Learn From the Internet PlatoBlockchain Data Intelligence. Vertical Search. Ai.
Avtorstvo slike: Google DeepMind

"RT-2 kaže izboljšane zmožnosti posploševanja ter semantično in vizualno razumevanje onkraj robotskih podatkov, ki jim je bil izpostavljen," so zapisali raziskovalci v Googlu blog post. "To vključuje razlago novih ukazov in odzivanje na uporabniške ukaze z izvajanjem osnovnega sklepanja, kot je sklepanje o kategorijah predmetov ali opisih na visoki ravni."

Sanje o roboti za splošno uporabo ki lahko pomaga ljudem pri vsem, kar se lahko pojavi – bodisi v domu, komercialnem ali industrijskem okolju – ne bo mogoče doseči, dokler se roboti ne bodo učili na poti. Kar se nam zdi najbolj osnovni instinkt, je za robote zapletena kombinacija razumevanja konteksta, zmožnosti razmišljanja skozi njega in ukrepanja za reševanje težav, za katere ni bilo pričakovano, da se bodo pojavile. Programirati jih, da se ustrezno odzovejo na različne nenačrtovane scenarije, je nemogoče, zato morajo biti sposobni posploševati in se učiti iz izkušenj, tako kot ljudje.

RT-2 je korak v to smer. Raziskovalci sicer priznavajo, da čeprav lahko RT-2 posploši semantične in vizualne koncepte, se novih dejanj še ne more naučiti sam. Namesto tega uporablja dejanja, ki jih že pozna, v novih scenarijih. Morda bosta RT-3 ali 4 te spretnosti lahko dvignila na višjo raven. Vmes, kot zaključuje ekipa v svoji blog post, "Čeprav je treba opraviti še ogromno dela, da bi omogočili uporabne robote v okoljih, osredotočenih na človeka, nam RT-2 kaže vznemirljivo prihodnost robotike, ki je na dosegu roke."

Kreditno slike: Google DeepMind

Časovni žig:

Več od Središče singularnosti