DeepMinds ChatGPT-lignende hjerne for roboter lar dem lære av Internett

DeepMinds ChatGPT-lignende hjerne for roboter lar dem lære av Internett

Helt siden ChatGPT eksploderte på teknologiscenen i november i fjor, har det hjulpet folk med å skrive all slags materiale, generere kode og finne informasjon. Det og andre store språkmodeller (LLMs) har tilrettelagt oppgaver fra å sende kundeservice til å ta hurtigmatbestillinger. Gitt hvor nyttige LLM-er har vært for mennesker i løpet av den korte tiden de har eksistert, hvordan kan en ChatGPT for roboter påvirke deres evne til å lære og gjøre nye ting? Forskere ved Google DeepMind bestemte seg for å finne ut og publiserte funnene sine i en blogginnlegg og papir utgitt forrige uke.

De kaller systemet sitt RT-2. Det er en forkortelse for robottransformator 2, og det er etterfølgeren til robottransformator 1, som selskapet ga ut på slutten av fjoråret. RT-1 var basert på et lite språk- og visjonsprogram og spesifikt opplært til å utføre mange oppgaver. Programvaren ble brukt i Alphabet X's Hverdagsroboter, slik at de kan utføre over 700 forskjellige oppgaver med en suksessrate på 97 prosent. Men når de ble bedt om å gjøre nye oppgaver de ikke var opplært til, var roboter som brukte RT-1 bare vellykket 32 ​​prosent av tiden.

RT-2 dobler nesten denne hastigheten, og utfører nye oppgaver 62 prosent av tiden den blir bedt om. Forskerne kaller RT-2 en vision-language-action (VLA) modell. Den bruker tekst og bilder den ser på nettet for å lære nye ferdigheter. Det er ikke så enkelt som det høres ut; det krever at programvaren først "forstår" et konsept, deretter anvender denne forståelsen på en kommando eller et sett med instruksjoner, og deretter utfører handlinger som tilfredsstiller disse instruksjonene.

Et eksempel avisens forfattere gir er å kaste søppel. I tidligere modeller måtte robotens programvare først trenes opp til å identifisere søppel. For eksempel, hvis det er en skrelt banan på et bord med skallet ved siden av, vil boten bli vist at skallet er søppel mens bananen ikke er det. Det ville da bli lært hvordan man plukker opp skallet, flytter det til en søppelbøtte og legger det der.

RT-2 fungerer imidlertid litt annerledes. Siden modellen har trent på masse informasjon og data fra internett, har den en generell forståelse av hva søppel er, og selv om den ikke er opplært til å kaste søppel, kan den sette sammen trinnene for å fullføre denne oppgaven.

LLM-ene forskerne brukte til å trene RT-2 er PaLI-X (en visjons- og språkmodell med 55 milliarder parametere), og PALM-E (det Google kaller en legemliggjort multimodal språkmodell, utviklet spesielt for roboter, med 12 milliarder parametere). "Parameter" refererer til et attributt en maskinlæringsmodell definerer basert på treningsdataene. Når det gjelder LLM-er, modellerer de forholdet mellom ord i en setning og veier hvor sannsynlig det er at et gitt ord blir foran eller etterfulgt av et annet ord.

Gjennom å finne relasjonene og mønstrene mellom ord i et gigantisk datasett, lærer modellene av sine egne slutninger. De kan etter hvert finne ut hvordan ulike konsepter forholder seg til hverandre og skjelne kontekst. I RT-2s tilfelle oversetter den denne kunnskapen til generaliserte instruksjoner for robothandlinger.

Disse handlingene er representert for roboten som tokens, som vanligvis brukes til å representere naturlig språktekst i form av ordfragmenter. I dette tilfellet er tokens deler av en handling, og programvaren setter sammen flere tokens for å utføre en handling. Denne strukturen gjør det også mulig for programvaren å utføre tankekjede-resonnering, noe som betyr at den kan svare på spørsmål eller spørsmål som krever en viss grad av resonnement.

Eksempler teamet gir inkluderer å velge en gjenstand som skal brukes som hammer når det ikke er noen hammer tilgjengelig (roboten velger en stein) og å velge den beste drinken for en sliten person (roboten velger en energidrikk).

DeepMinds ChatGPT-lignende hjerne for roboter lar dem lære av Internett PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.
Bildekreditt: Google DeepMind

"RT-2 viser forbedrede generaliseringsevner og semantisk og visuell forståelse utover robotdataene den ble utsatt for," skrev forskerne i en Google blogginnlegg. "Dette inkluderer å tolke nye kommandoer og svare på brukerkommandoer ved å utføre rudimentære resonnementer, for eksempel resonnement om objektkategorier eller beskrivelser på høyt nivå."

Drømmen om roboter til generell bruk som kan hjelpe mennesker med det som måtte dukke opp – enten i et hjem, en kommersiell setting eller en industriell setting – vil ikke være oppnåelig før roboter kan lære mens de er på farten. Det som virker som det mest grunnleggende instinktet for oss er, for roboter, en kompleks kombinasjon av å forstå kontekst, å kunne resonnere gjennom den, og å iverksette tiltak for å løse problemer som ikke var forventet å dukke opp. Å programmere dem til å reagere riktig på en rekke uplanlagte scenarier er umulig, så de må kunne generalisere og lære av erfaring, akkurat som mennesker gjør.

RT-2 er et skritt i denne retningen. Forskerne erkjenner imidlertid at selv om RT-2 kan generalisere semantiske og visuelle konsepter, er den ennå ikke i stand til å lære nye handlinger på egen hånd. I stedet bruker den handlingene den allerede kjenner til nye scenarier. Kanskje RT-3 eller 4 vil kunne ta disse ferdighetene til neste nivå. I mellomtiden, som laget konkluderer i sin blogginnlegg, "Selv om det fortsatt er en enorm mengde arbeid som må gjøres for å muliggjøre nyttige roboter i menneskesentrerte miljøer, viser RT-2 oss en spennende fremtid for robotikk innen rekkevidde."

Bilde Credit: Google DeepMind

Tidstempel:

Mer fra Singularity Hub