Google Teaches Robots To Serve Humans – With Large Language Models The Key

Újra kiadta Platón

Követő: 0

videó A webóriás legfrissebb kutatása szerint a Google legnagyobb mesterségesintelligencia-nyelvi modellje segít a robotoknak rugalmasabban megérteni és értelmezni az emberi parancsokat.

A gépek általában nagyon specifikus igényekre reagálnak a legjobban – a nyílt végű kérések néha kidobhatják őket, és olyan eredményekhez vezethetnek, amelyekre a felhasználók nem is gondoltak. Az emberek megtanulnak merev módon kommunikálni a robotokkal, például bizonyos módon kérdéseket tesznek fel, hogy megkapják a kívánt választ.

A Google legújabb rendszere, a PaLM-SayCan azonban okosabbnak ígérkezik. Az Everyday Robots fizikai eszközének – a Google X-ből kifejlesztett startupnak – a fejében kamerák vannak a szemek számára, és a karja egy harapófogóval a hosszú, egyenes test mögé bújva, amely egy kerék tetején ül.

A robot működését az alábbi videóban nézheti meg:

Youtube Video

Ha megkérdezzük a robotot, valami ilyesmi: „Most edzettem, tudna hozni nekem egy egészséges nassolnivalót?” rábírja, hogy hozzon egy almát. „A PaLM-SayCan egy értelmezhető és általános megközelítés a nyelvi modellekből származó tudás kiaknázására, amely lehetővé teszi a robot számára, hogy magas szintű szöveges utasításokat kövessen fizikailag megalapozott feladatok elvégzéséhez” – a Google Brain csapatának kutatói. magyarázható.

A Google bemutatta legnagyobb nyelvi modelljét Tenyér idén áprilisban. A PaLM-et kioktatták az internetről lekapart adatokra, de a nyílt végű szöveges válaszok kidobása helyett a rendszert úgy alakították ki, hogy létrehozzon egy listát a robotnak követendő utasításokról.

Ha azt mondja: „Kiöntöttem a kólámat az asztalra, hogyan dobnád ki, és hoznál valamit, amivel megtisztíthatok?” – arra készteti a PaLM-et, hogy megértse a kérdést, és összeállítson egy listát azokról a lépésekről, amelyeket a robot követhet a feladat elvégzéséhez, például átmegy. felvenni a konzervet, bedobni egy kukába, és szivacsot venni.

A nagy nyelvi modellek (LLM-ek), mint például a PaLM, azonban nem értik annak, amit mondanak. Emiatt a kutatók egy külön modellt képeztek ki megerősítő tanulás segítségével, hogy az absztrakt nyelvet vizuális megjelenítésekké és cselekvésekké alapozzák. Így a robot megtanulja, hogy a „kóla” szót egy szénsavas italos doboz képével társítsa.

A PaLM-SayCan megtanulja az úgynevezett „affordance függvényeket” is – egy olyan módszert, amely rangsorolja egy adott művelet végrehajtásának lehetőségét adott objektumok környezetében. A robot nagyobb valószínűséggel veszi fel a szivacsot, mint egy porszívót, például ha észlel egy szivacsot, de nincs porszívó a közelében.

„Módszerünk, a SayCan az LLM-ek tudását kinyeri és hasznosítja fizikailag megalapozott feladatokban” – magyarázta a csapat. kutatási papír. „Az LLM (Say) feladat-alapozást biztosít egy magas szintű cél érdekében hasznos cselekvések meghatározásához, a tanult affordance függvények (Can) pedig világalapot adnak annak meghatározásához, hogy mit lehet végrehajtani a terv alapján. Az erősítő tanulást (RL) használjuk a nyelvi feltételekhez kötött értékfüggvények elsajátítására, amelyek a világban elérhető lehetőségeket biztosítanak.”

Annak elkerülése érdekében, hogy a robot eltérjen a feladattól, csak 101 különböző utasításból választhat műveleteket. A Google megtanította arra, hogy alkalmazkodjon a konyhához – a PaLM-SayCan rágcsálnivalókat, italokat és egyszerű takarítási feladatokat végezhet. A kutatók úgy vélik, hogy az LLM-ek jelentik az első lépést abban, hogy a robotok összetettebb feladatokat is biztonságosan, elvont utasítások alapján hajtsanak végre.

„Számos, valós robotikai feladattal végzett kísérleteink azt mutatják, hogy képesek vagyunk hosszú távú, elvont, természetes nyelvi utasítások tervezésére és végrehajtására magas sikerességi arány mellett. Hiszünk abban, hogy a PaLM-SayCan értelmezhetősége lehetővé teszi a biztonságos valós felhasználói interakciót a robotokkal” – összegezték. ®

Időbélyeg: 18. augusztus 2022.18. augusztus 2022.