DeepMind's ChatGPT-Like Brain for Robots le permite să învețe de pe internet

DeepMind's ChatGPT-Like Brain for Robots le permite să învețe de pe internet

Ever since ChatGPT exploded onto the tech scene in November of last year, it’s been helping people write all kinds of material, generate code, and find information. It and other large language models (LLMs) have facilitated tasks from fielding customer service calls to taking fast food orders. Given how useful LLMs have been for humans in the short time they’ve been around, how might a ChatGPT for robots impact their ability to learn and do new things? Researchers at Google DeepMind decided to find out and published their findings in a blog și hârtie lansată săptămâna trecută.

Ei își numesc sistemul RT-2. Este prescurtarea pentru robotics transformer 2 și este succesorul lui transformator robotic 1, pe care compania l-a lansat la sfârșitul anului trecut. RT-1 s-a bazat pe un program mic de limbaj și viziune și a fost instruit special pentru a face multe sarcini. Software-ul a fost folosit în Alphabet X's Roboti de zi cu zi, permițându-le să facă peste 700 de sarcini diferite cu o rată de succes de 97%. Dar când li s-a cerut să facă noi sarcini pentru care nu erau antrenați, roboții care foloseau RT-1 au avut succes doar în 32% din timp.

RT-2 aproape dublează această rată, realizând cu succes noi sarcini în 62% din timp ce i se cere. Cercetătorii numesc RT-2 un model viziune-limbaj-acțiune (VLA). Folosește textul și imaginile pe care le vede online pentru a învăța noi abilități. Nu este atât de simplu pe cât pare; necesită ca software-ul să „înțeleagă” mai întâi un concept, apoi să aplice această înțelegere unei comenzi sau unui set de instrucțiuni, apoi să efectueze acțiuni care satisfac acele instrucțiuni.

Un exemplu dat de autorii lucrării este aruncarea gunoiului. În modelele anterioare, software-ul robotului ar trebui mai întâi antrenat pentru a identifica gunoiul. De exemplu, dacă pe o masă există o banană decojită cu coaja lângă ea, bot-ului i se va arăta că coaja este gunoi, în timp ce banana nu. Apoi ar fi învățat cum să ridice coaja, să o mute într-un coș de gunoi și să o depună acolo.

RT-2 works a little differently, though. Since the model has trained on loads of information and data from the internet, it has a general understanding of what trash is, and though it’s not trained to throw trash away, it can piece together the steps to complete this task.

LLM-urile pe care cercetătorii le-au folosit pentru a antrena RT-2 sunt PaLI-X (un model de viziune și limbaj cu 55 de miliarde de parametri) și PaLM-E (ceea ce Google numește un model de limbaj multimodal încorporat, dezvoltat special pentru roboți, cu 12 miliarde de parametri). „Parametru” se referă la un atribut pe care un model de învățare automată îl definește pe baza datelor sale de antrenament. În cazul LLM-urilor, aceștia modelează relațiile dintre cuvintele dintr-o propoziție și cântăresc cât de probabil este ca un anumit cuvânt să fie precedat sau urmat de un alt cuvânt.

Through finding the relationships and patterns between words in a giant dataset, the models learn from their own inferences. They can eventually figure out how different concepts relate to each other and discern context. In RT-2’s case, it translates that knowledge into generalized instructions for robotic actions.

Aceste acțiuni sunt reprezentate pentru robot ca jetoane, care sunt de obicei folosite pentru a reprezenta textul în limbaj natural sub formă de fragmente de cuvinte. În acest caz, jetoanele sunt părți ale unei acțiuni, iar software-ul leagă mai multe jetoane împreună pentru a efectua o acțiune. Această structură permite, de asemenea, software-ului să efectueze raționament în lanț de gândire, ceea ce înseamnă că poate răspunde la întrebări sau solicitări care necesită un anumit grad de raționament.

Exemplele oferite de echipa includ alegerea unui obiect pe care să-l folosească ca ciocan atunci când nu există un ciocan disponibil (robotul alege o piatră) și alegerea celei mai bune băuturi pentru o persoană obosită (robotul alege o băutură energizantă).

DeepMind's ChatGPT-Like Brain for Robots Lets Them Learn From the Internet PlatoBlockchain Data Intelligence. Vertical Search. Ai.
Credit imagine: Google DeepMind

„RT-2 arată capacități de generalizare îmbunătățite și înțelegere semantică și vizuală dincolo de datele robotice la care a fost expus”, au scris cercetătorii într-un articol Google. blog. „Aceasta include interpretarea noilor comenzi și răspunsul la comenzile utilizatorului prin efectuarea de raționamente rudimentare, cum ar fi raționamentul despre categorii de obiecte sau descrieri de nivel înalt.”

Visul roboți de uz general that can help humans with whatever may come up—whether in a home, a commercial setting, or an industrial setting—won’t be achievable until robots can learn on the go. What seems like the most basic instinct to us is, for robots, a complex combination of understanding context, being able to reason through it, and taking actions to solve problems that weren’t anticipated to pop up. Programming them to react appropriately to a variety of unplanned scenarios is impossible, so they need to be able to generalize and learn from experience, just like humans do.

RT-2 este un pas în această direcție. Cercetătorii recunosc, totuși, că, deși RT-2 poate generaliza concepte semantice și vizuale, nu este încă capabil să învețe noi acțiuni pe cont propriu. Mai degrabă, aplică acțiunile pe care le cunoaște deja unor scenarii noi. Poate că RT-3 sau 4 vor putea duce aceste abilități la nivelul următor. Între timp, după cum conchide echipa în lor blog, „Deși există încă o cantitate imensă de muncă de făcut pentru a permite roboți utili în medii centrate pe om, RT-2 ne arată un viitor interesant pentru robotică la îndemână.”

Credit imagine: Google DeepMind

Timestamp-ul:

Mai mult de la Singularity Hub