A DeepMind ChatGPT-szerű agya robotok számára lehetővé teszi számukra, hogy tanuljanak az internetről

A DeepMind ChatGPT-szerű agya robotok számára lehetővé teszi számukra, hogy tanuljanak az internetről

Amióta a ChatGPT tavaly novemberben berobbant a technológiai szcénába, segít az embereknek mindenféle anyag megírásában, kód generálásában és információkeresésben. Ez és más nagy nyelvi modellek (LLM) megkönnyítették a feladatokat az ügyfélszolgálati hívásoktól a gyorséttermi rendelések felvételéig. Tekintettel arra, hogy az LLM-ek mennyire hasznosak voltak az emberek számára a létezésük rövid ideje alatt, hogyan befolyásolhatja a ChatGPT robotoknak a tanulási és új dolgok megtételére való képességüket? A Google DeepMind kutatói úgy döntöttek, hogy kiderítik, és eredményeiket a blogbejegyzés és a múlt héten megjelent papír.

Rendszerüket RT-2-nek hívják. A robotics Transformer 2 rövidítése, és ez az utódja robot transzformátor 1, amelyet a cég tavaly év végén adott ki. Az RT-1 egy kis nyelvi és látási programon alapult, és kifejezetten sok feladat elvégzésére lett kiképezve. A szoftvert az Alphabet X-ben használták Mindennapi robotoktöbb mint 700 különböző feladat elvégzését teszi lehetővé 97 százalékos sikeraránnyal. Amikor azonban olyan új feladatok elvégzésére kérték őket, amelyekre nem képezték ki őket, az RT-1-et használó robotok csak az esetek 32 százalékában voltak sikeresek.

Az RT-2 csaknem megduplázza ezt az arányt, és a kért idő 62 százalékában sikeresen hajt végre új feladatokat. A kutatók az RT-2-t vision-language-action (VLA) modellnek nevezik. Az interneten látott szövegeket és képeket használ új készségek elsajátításához. Ez nem olyan egyszerű, mint amilyennek hangzik; megköveteli, hogy a szoftver először „megértsen” egy fogalmat, majd alkalmazza azt egy parancsra vagy utasításkészletre, majd hajtson végre olyan műveleteket, amelyek megfelelnek az utasításoknak.

A cikk szerzői példaként említik a szemétszállítást. A korábbi modellekben a robot szoftverét először meg kellett tanítani a szemét azonosítására. Például, ha van egy hámozott banán az asztalon, és a héja mellette van, akkor a robot azt mutatja, hogy a héja szemetes, míg a banán nem. Ezután megtanítják neki, hogyan vegye fel a héjat, vigye egy szemetesbe, és helyezze el ott.

Az RT-2 azonban kicsit másképp működik. Mivel a modell rengeteg információra és adatra oktat az internetről, általánosan érti, hogy mi a szemét, és bár nincs megtanítva arra, hogy kidobja a szemetet, össze tudja állítani a lépéseket a feladat végrehajtásához.

A kutatók az RT-2 képzéséhez használt LLM-eket PaLI-X (55 milliárd paraméterű látás- és nyelvi modell), ill PaLM-E (amit a Google testesített multimodális nyelvi modellnek nevez, kifejezetten robotok számára fejlesztették ki, 12 milliárd paraméterrel). A „paraméter” egy olyan attribútumra utal, amelyet a gépi tanulási modell a betanítási adatai alapján határoz meg. Az LLM-ek esetében modellezik a mondatban lévő szavak közötti kapcsolatokat, és mérlegelik, hogy mekkora valószínűséggel kerül egy adott szó elé vagy után egy másik szó.

Azáltal, hogy egy óriási adathalmazban megtalálják a szavak közötti kapcsolatokat és mintákat, a modellek tanulnak saját következtetéseikből. Végül rájönnek, hogy a különböző fogalmak hogyan kapcsolódnak egymáshoz, és meg tudják különböztetni a kontextust. Az RT-2 esetében ezt a tudást általánosított utasításokká alakítja át robotműveletek számára.

Ezeket a műveleteket a robot tokenekként ábrázolja, amelyeket általában a természetes nyelvű szöveg szótöredékek formájában történő megjelenítésére használnak. Ebben az esetben a tokenek egy művelet részei, és a szoftver több tokent összefűzi egy művelet végrehajtásához. Ez a struktúra azt is lehetővé teszi a szoftver számára, hogy gondolatláncon alapuló érvelést hajtson végre, ami azt jelenti, hogy válaszolhat olyan kérdésekre vagy felszólításokra, amelyek bizonyos fokú érvelést igényelnek.

A csapat példái közé tartozik egy tárgy kiválasztása kalapácsnak, amikor nincs kalapács (a robot választ egy sziklát), és a legjobb ital kiválasztása egy fáradt ember számára (a robot választ egy energiaitalt).

DeepMind's ChatGPT-Like Brain for Robots Lets Them Learn From the Internet PlatoBlockchain Data Intelligence. Vertical Search. Ai.
Kép jóváírása: Google DeepMind

"Az RT-2 javított általánosítási képességeket, valamint szemantikai és vizuális megértést mutat a robotadatokon túl, amelyeknek ki volt téve" - ​​írták a kutatók a Google-ban. blogbejegyzés. "Ebbe beletartozik az új parancsok értelmezése és a felhasználói parancsokra való válaszadás kezdetleges érvelés végrehajtásával, például az objektumkategóriák vagy a magas szintű leírások érvelése."

Az álom általános célú robotok ami segíthet az embereknek bármiben, ami felmerül – akár otthon, akár kereskedelmi környezetben, akár ipari környezetben – addig nem lesz elérhető, amíg a robotok nem tudnak tanulni útközben. Ami számunkra a legalapvetőbb ösztönnek tűnik, az a robotok számára a kontextus megértésének, az azon keresztüli érvelésnek, valamint a nem várt problémák megoldására irányuló cselekvések összetett kombinációja. Lehetetlen programozni őket arra, hogy megfelelően reagáljanak különféle nem tervezett forgatókönyvekre, ezért képesnek kell lenniük általánosítani és tanulni a tapasztalatokból, akárcsak az emberek.

Az RT-2 egy lépés ebbe az irányba. A kutatók azonban elismerik, hogy bár az RT-2 képes általánosítani a szemantikai és vizuális fogalmakat, még nem képes önállóan új cselekvéseket megtanulni. Inkább a már ismert műveleteket alkalmazza új forgatókönyvekre. Talán az RT-3 vagy 4 képes lesz ezeket a képességeket a következő szintre emelni. Addig is, ahogy a csapat arra a következtetésre jut blogbejegyzés, "Bár még mindig rengeteg munka vár a segítőkész robotok emberközpontú környezetbe való bejuttatására, az RT-2 a robotika izgalmas jövőjét mutatja meg nekünk."

Kép: Google DeepMind

Időbélyeg:

Még több Singularity Hub