DeepMindi ChatGPT-ga sarnane aju robotitele võimaldab neil Internetist õppida

DeepMindi ChatGPT-ga sarnane aju robotitele võimaldab neil Internetist õppida

Alates sellest, kui ChatGPT eelmise aasta novembris plahvatuslikult tehnoloogiaareenile jõudis, on see aidanud inimestel kirjutada igasugust materjali, genereerida koodi ja leida teavet. See ja teised suured keelemudelid (LLM) on hõlbustanud ülesandeid alates klienditeeninduskõnedest kuni kiirtoidu tellimuste võtmiseni. Arvestades, kui kasulikud on LLM-id inimestele lühikese tegutsemisaja jooksul olnud, kuidas võib ChatGPT robotitele mõjutada nende võimet õppida ja uusi asju teha? Google DeepMindi teadlased otsustasid välja selgitada ja avaldasid oma leiud a blogi postitus ja eelmisel nädalal välja antud paber.

Nad kutsuvad oma süsteemi RT-2-ks. See on lühend sõnadest robotics transformer 2 ja see on selle järglane robootika trafo 1, mille ettevõte avaldas eelmise aasta lõpus. RT-1 põhines väikesel keele- ja visiooniprogrammil ning oli spetsiaalselt koolitatud paljude ülesannete täitmiseks. Tarkvara kasutati Alphabet X-is Igapäevased robotid, mis võimaldab neil teha üle 700 erineva ülesande 97-protsendilise edukuse määraga. Kuid kui neil paluti teha uusi ülesandeid, milleks nad ei olnud koolitatud, olid RT-1 kasutavad robotid edukad vaid 32 protsenti ajast.

RT-2 peaaegu kahekordistab selle määra, täites uusi ülesandeid edukalt 62 protsenti sellest ajast, kui tal seda palutakse. Teadlased nimetavad RT-2 visiooni-keele-tegevuse (VLA) mudeliks. See kasutab uute oskuste õppimiseks veebis nähtud teksti ja pilte. See pole nii lihtne, kui see kõlab; see nõuab, et tarkvara esmalt mõistest "mõistaks", seejärel rakendaks seda arusaama käsule või juhiste kogumile ja seejärel teostaks toiminguid, mis vastavad neile juhistele.

Üks näide, mille autorid toovad, on prügi kõrvaldamine. Varasemates mudelites tuleks roboti tarkvara kõigepealt prügi tuvastamiseks välja õpetada. Näiteks kui laual on kooritud banaan, mille koor on selle kõrval, näidatakse robotile, et koor on prügikast, banaan aga mitte. Seejärel õpetatakse, kuidas koor üles korjata, prügikasti viia ja sinna panna.

RT-2 töötab siiski veidi teisiti. Kuna mudel on õppinud kasutama palju Internetist saadavat teavet ja andmeid, on sellel üldine arusaam sellest, mis on prügikast, ja kuigi seda pole koolitatud prügi ära viskama, saab see selle ülesande täitmiseks vajalikke samme kokku panna.

LLM-id, mida teadlased RT-2 koolitamiseks kasutasid, on PaLI-X (nägemus- ja keelemudel 55 miljardi parameetriga) ja PaLM-E (mida Google nimetab kehastatud multimodaalseks keelemudeliks, mis on välja töötatud spetsiaalselt robotite jaoks ja millel on 12 miljardit parameetrit). „Parameeter” viitab atribuudile, mille masinõppemudel määrab oma koolitusandmete põhjal. LLM-ide puhul modelleerivad nad lauses sõnade vahelisi seoseid ja kaaluvad, kui tõenäoline on, et antud sõnale eelneb või järgneb mõni muu sõna.

Otsides hiiglaslikust andmekogumist sõnadevahelisi seoseid ja mustreid, õpivad mudelid oma järeldustest. Lõpuks saavad nad aru, kuidas erinevad mõisted on üksteisega seotud, ja tajuvad konteksti. RT-2 puhul teisendab see need teadmised üldisteks juhisteks robootiliste toimingute jaoks.

Need toimingud on roboti jaoks esitatud märkidena, mida tavaliselt kasutatakse loomuliku keele teksti esitamiseks sõnafragmentide kujul. Sel juhul on märgid toimingu osad ja tarkvara ühendab toimingu sooritamiseks mitu märgi. See struktuur võimaldab tarkvaral teostada ka mõtteahelat, mis tähendab, et see suudab vastata küsimustele või viipadele, mis nõuavad teatud määral arutluskäiku.

Meeskonna näited hõlmavad haamrina kasutatava eseme valimist, kui haamrit pole saadaval (robot valib kivi) ja väsinud inimese jaoks parima joogi valimine (robot valib energiajoogi).

DeepMindi ChatGPT-sarnane aju robotitele võimaldab neil õppida Internetist PlatoBlockchain Data Intelligence'ist. Vertikaalne otsing. Ai.
Pildi krediit: Google DeepMind

"RT-2 näitab paremat üldistusvõimet ning semantilist ja visuaalset mõistmist lisaks robotandmetele, millega see kokku puutus," kirjutasid teadlased Google'is. blogi postitus. "See hõlmab uute käskude tõlgendamist ja kasutaja käskudele reageerimist algeliste arutluskäikudega, näiteks objektikategooriate või kõrgetasemeliste kirjelduste arutluskäik."

Unistus üldotstarbelised robotid mis võib aidata inimesi kõige ettetulevatel juhtudel – olgu see siis kodus, ärikeskkonnas või tööstuslikus keskkonnas –, ei ole saavutatav enne, kui robotid saavad liikvel olles õppida. See, mis meile tundub kõige elementaarsem instinkt, on robotite jaoks keeruline kombinatsioon konteksti mõistmisest, suutmisest selle kaudu arutleda ja tegutseda probleemide lahendamiseks, mille esilekerkimist poleks oodatud. Nende programmeerimine erinevatele planeerimata stsenaariumidele sobivalt reageerima on võimatu, seega peavad nad suutma üldistada ja kogemustest õppida, nagu inimestelgi.

RT-2 on samm selles suunas. Teadlased tunnistavad siiski, et kuigi RT-2 suudab semantilisi ja visuaalseid kontseptsioone üldistada, ei suuda see veel iseseisvalt uusi toiminguid õppida. Pigem rakendab see juba teadaolevaid toiminguid uutele stsenaariumidele. Võib-olla suudavad RT-3 või 4 need oskused järgmisele tasemele viia. Vahepeal, nagu meeskond oma blogi postitus, "Kuigi abistavate robotite võimaldamiseks inimkesksetes keskkondades on veel palju tööd teha, näitab RT-2 meile põnevat robootika tulevikku, mis on kohe käeulatuses."

Image Credit: Google DeepMind

Ajatempel:

Veel alates Singulaarsuse keskus