Maskiner lærer bedre, hvis vi lærer dem det grundlæggende

Maskiner lærer bedre, hvis vi lærer dem det grundlæggende

Machines Learn Better if We Teach Them the Basics PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Introduktion

Forestil dig, at din nabo ringer for at bede om en tjeneste: Kan du give deres kæledyrskanin nogle gulerodsskiver? Nemt nok, skulle man tro. Du kan forestille dig deres køkken, selvom du aldrig har været der - gulerødder i et køleskab, en skuffe med forskellige knive. Det er abstrakt viden: Du ved ikke præcis, hvordan din nabos gulerødder og knive ser ud, men du tager ikke en ske til en agurk.

Kunstig intelligens-programmer kan ikke konkurrere. Det, der forekommer dig som en nem opgave, er et stort arbejde for de nuværende algoritmer.

En AI-trænet robot kan finde en bestemt kniv og gulerod, der gemmer sig i et velkendt køkken, men i et andet køkken vil den mangle de abstrakte færdigheder til at lykkes. "De generaliserer ikke til nye miljøer," sagde victor zhong, en kandidatstuderende i datalogi ved University of Washington. Maskinen fejler, fordi der simpelthen er for meget at lære og for stort et rum at udforske.

Problemet er, at disse robotter – og AI-agenter generelt – ikke har et grundlag af koncepter at bygge på. De ved ikke, hvad en kniv eller en gulerod egentlig er, meget mindre, hvordan man åbner en skuffe, vælger en og skærer skiver. Denne begrænsning skyldes til dels det faktum, at mange avancerede AI-systemer bliver trænet med en metode kaldet forstærkende læring, der i det væsentlige er selvuddannelse gennem forsøg og fejl. AI-agenter, der er trænet med forstærkningslæring, kan udføre det job, de er blevet trænet til at udføre meget godt, i det miljø, de er uddannet til at gøre det i. Men skift jobbet eller miljøet, og disse systemer vil ofte fejle.

For at komme uden om denne begrænsning er dataloger begyndt at lære maskiner vigtige begreber, før de løsnes. Det er som at læse en manual, før du bruger ny software: Du kan prøve at udforske uden den, men du lærer langt hurtigere med den. "Mennesker lærer gennem en kombination af både at gøre og læse," sagde Karthik Narasimhan, en datalog ved Princeton University. "Vi vil have maskiner til at gøre det samme."

Nyt arbejde fra Zhong og andre viser, at priming af en læringsmodel på denne måde kan superlade læring i simulerede miljøer, både online og i den virkelige verden med robotter. Og det får ikke bare algoritmer til at lære hurtigere – det guider dem mod færdigheder, de ellers aldrig ville lære. Forskere ønsker, at disse midler skal blive generalister, der er i stand til at lære alt fra skak til indkøb til rengøring. Og efterhånden som demonstrationer bliver mere praktiske, tror forskerne, at denne tilgang endda kan ændre, hvordan mennesker kan interagere med robotter.

"Det har været et ret stort gennembrud," sagde Brian Ichter, en forsker i robotteknologi hos Google. "Det er ret ufatteligt, hvor langt det er nået på halvandet år."

Sparsomme belønninger

Ved første øjekast har maskinlæring allerede været bemærkelsesværdig succesfuld. De fleste modeller bruger typisk forstærkning læring, hvor algoritmer lærer ved at få belønninger. De begynder totalt uvidende, men forsøg og fejl bliver til sidst prøvelse og triumf. Forstærkende læringsagenter kan nemt mestre simple spil.

Overvej videospillet Snake, hvor spillerne styrer en slange, der bliver længere, når den spiser digitale æbler. Du vil have din slange til at spise flest æbler, holde sig inden for grænserne og undgå at løbe ind i dens stadig mere omfangsrige krop. Sådanne klare rigtige og forkerte resultater giver en velbelønnet maskinagent positiv feedback, så nok forsøg kan tage det fra "noob" til High Score.

Men antag, at reglerne ændres. Måske skal den samme agent spille på et større gitter og i tre dimensioner. Mens en menneskelig spiller kunne tilpasse sig hurtigt, kan maskinen ikke på grund af to kritiske svagheder. For det første betyder den større plads, at det tager længere tid for slangen at snuble over æbler, og indlæringen bliver eksponentielt langsommere, når belønningen bliver sparsom. For det andet giver den nye dimension en helt ny oplevelse, og forstærkende læring kæmper for at generalisere til nye udfordringer.

Zhong siger, at vi ikke behøver at acceptere disse forhindringer. "Hvorfor er det, at når vi vil spille skak" - et andet spil, som forstærkningslæring har mestret - "træner vi en forstærkningslæringsagent fra bunden?" Sådanne tilgange er ineffektive. Agenten vandrer rundt uden formål, indtil den falder over en god situation, såsom en skakmat, og Zhong siger, at det kræver et omhyggeligt menneskeligt design at få agenten til at vide, hvad det betyder, at en situation er god. "Hvorfor skal vi gøre dette, når vi allerede har så mange bøger om, hvordan man spiller skak?"

Dels skyldes det, at maskiner har kæmpet for at forstå menneskeligt sprog og dechifrere billeder i første omgang. For at en robot kan udføre visionsbaserede opgaver som at finde og skære gulerødder, for eksempel, skal den vide, hvad en gulerod er - billedet af en ting skal være "jordet" i en mere grundlæggende forståelse af, hvad den ting er. Indtil for nylig var der ingen god måde at gøre det på, men et boom i hastigheden og omfanget af sprog og billedbehandling har gjort de nye succeser mulige.

Ny naturlig sprogbehandling modeller tillader maskiner i det væsentlige at lære betydningen bag ord og sætninger - at jorde dem i ting i verden - i stedet for blot at gemme en simpel (og begrænset) betydning som en digital ordbog.

Computervision har set en lignende digital eksplosion. Omkring 2009 debuterede ImageNet som en database med kommenterede billeder til computersynsforskning. I dag er den vært for over 14 millioner billeder af objekter og steder. Og programmer som OpenAI's DALL·E generere nye billeder på kommando, der ser menneskeskabte ud, på trods af at de ikke har nogen nøjagtig sammenligning at trække fra.

Det viser, hvordan maskiner først nu har adgang til nok online data til virkelig at lære om verden, ifølge Anima Anandkumar, en datalog ved California Institute of Technology og Nvidia. Og det er et tegn på, at de kan lære af begreber, som vi gør, og bruge dem i generation. "Vi er i sådan et fantastisk øjeblik nu," sagde hun. "Fordi når vi først kan få generation, er der så meget mere, vi kan gøre."

Gaming systemet

Forskere som Zhong besluttede, at maskiner ikke længere behøvede at gå i gang med deres udforskninger helt uinformerede. Bevæbnet med sofistikerede sprogmodeller kunne forskerne tilføje et før-træningstrin, hvor et program lærte af online-information før dets forsøg og fejl.

For at teste ideen sammenlignede han og hans kolleger fortræningen med traditionel forstærkningslæring i fem forskellige spillignende indstillinger hvor maskinagenter fortolkede sprogkommandoer for at løse problemer. Hvert simuleret miljø udfordrede maskinagenten unikt. En bad agenten om at manipulere med genstande i et 3D-køkken; en anden krævet læsetekst for at lære en præcis rækkefølge af handlinger for at bekæmpe monstre. Men den mest komplicerede indstilling var et rigtigt spil, det 35-årige NetHack, hvor målet er at navigere i et sofistikeret fangehul for at hente en amulet.

For de simple indstillinger betød automatiseret fortræning blot at sætte de vigtige begreber på jorden: Dette er en gulerod, det er et monster. For NetHack trænede agenten ved at se mennesker spille ved at bruge gennemspilninger, der blev uploadet til internettet af menneskelige spillere. Disse gennemspilninger behøvede ikke engang at være så gode - agenten behøvede kun at opbygge intuition for, hvordan mennesker opfører sig. Det var ikke meningen, at agenten skulle blive en ekspert, bare en almindelig spiller. Det ville bygge intuition ved at se - hvad ville et menneske gøre i et givet scenarie? Agenten ville beslutte, hvilke træk der var succesfulde, og formulerede sin egen gulerod og stok.

"Gennem fortræning danner vi gode forudsætninger for, hvordan man forbinder sprogbeskrivelser med ting, der sker i verden," sagde Zhong. Agenten ville spille bedre fra starten og lære hurtigere under efterfølgende forstærkningslæring.

Som følge heraf klarede den foruddannede agent sig bedre end den traditionelt trænede. "Vi får gevinster over hele linjen i alle fem af disse miljøer," sagde Zhong. Enklere indstillinger viste kun en lille kant, men i NetHacks komplicerede fangehuller lærte agenten mange gange hurtigere og nåede et færdighedsniveau, som den klassiske tilgang ikke kunne. "Du får måske en 10x ydeevne, fordi hvis du ikke gør dette, så lærer du bare ikke en god politik," sagde han.

"Disse generalistagenter er et stort spring fra, hvad standardforstærkningslæring gør," sagde Anandkumar.

Hendes team fortræner også agenter for at få dem til at lære hurtigere, hvilket opnår betydelige fremskridt med verdens bedst sælgende videospil, Minecraft. Det er kendt som et "sandkasse"-spil, hvilket betyder, at det giver spillerne en praktisk talt uendelig plads til at interagere og skabe nye verdener. Det er nytteløst at programmere en belønningsfunktion til tusindvis af opgaver individuelt, så i stedet for holdets model (“MineDojo”) opbyggede sin forståelse af spillet ved at se undertekstede playthrough-videoer. Ingen grund til at kodificere god opførsel.

"Vi får automatiserede belønningsfunktioner," sagde Anandkumar. "Dette er det første benchmark med tusindvis af opgaver og evnen til at lave forstærkende læring med åbne opgaver specificeret gennem tekstprompter."

Ud over spil

Spil var en fantastisk måde at vise, at præ-træningsmodeller kunne fungere, men de er stadig forenklede verdener. At træne robotter til at håndtere den virkelige verden, hvor mulighederne er praktisk talt uendelige, er meget sværere. "Vi stillede spørgsmålet: Er der noget imellem?" sagde Narasimhan. Så han besluttede at handle på nettet.

Hans team skabte WebShop. "Det er dybest set ligesom en shopping butler," sagde Narasimhan. Brugere kan sige noget som "Giv mig en Nike-sko, der er hvid og under $100, og jeg vil gerne have, at anmeldelserne siger, at de er meget behagelige for småbørn," og programmet finder og køber skoen.

Som med Zhongs og Anandkumars spil udviklede WebShop en intuition ved at træne med billeder og tekst, denne gang fra Amazon-sider. "Med tiden lærer det at forstå sproget og kortlægge det til handlinger, det skal udføre på hjemmesiden."

Ved første øjekast virker en shoppingbutler måske ikke så futuristisk. Men mens en banebrydende chatbot kan linke dig til en ønsket sneaker, kræver interaktioner som at placere ordren et helt andet færdighedssæt. Og selvom dine Alexa- eller Google Home-højttalere kan afgive ordrer, er de afhængige af proprietær software, der udfører forudbestemte opgaver. WebShop navigerer på nettet, som folk gør: ved at læse, skrive og klikke.

"Det er et skridt nærmere i retning af generel intelligens," sagde Narasimhan.

Introduktion

Det har selvfølgelig sine egne udfordringer at få robotter til at interagere med den virkelige verden. Overvej for eksempel en flaske. Du kan genkende en på dens udseende, du ved, at den er beregnet til at opbevare væsker, og du forstår, hvordan du manipulerer den med dine hænder. Kan rigtige maskiner nogensinde forvandle ord og billeder til en kompleks bevægelsesintelligens?

Narasimhan samarbejdede med Anirudha Majumdar, en robotist hos Princeton, for at finde ud af det. De lærte en robotarm at manipulere værktøjer, den aldrig havde set før, og fortrænede den ved at bruge beskrivende sprog taget fra vellykkede sprogmodeller. Programmet lærte hurtigere og klarede sig bedre med næsten alle redskaber og handlinger sammenlignet med programmer, der læres ved traditionel udforskning, ifølge resultater sendt til preprint-serveren arxiv.org i juni sidste år.

Ingeniører har bygget et bibliotek med endnu mere komplekse kommandoer i Googles robotlaboratorier, også forankret i kontekstskabende fortræning. "Den verden af ​​muligheder, som du skal overveje, er enorm," sagde Karol Hausman, en forsker på Googles robotteam. "Så vi beder sprogmodellen om at nedbryde det for os."

Holdet arbejdede med en mobil hjælperrobot, med en syvleddet arm, som de trænede ved hjælp af sprogfærdigheder. For enhver given kommando - som "hjælp mig med at rense min spildte drik" - bruger programmet en sprogmodel til at foreslå handlinger fra et bibliotek med 700 trænede bevægelser, såsom "greb" et papirhåndklæde, "saml" dåsen eller " smid væk” dåsen. Og Hausman siger, at den anerkender sine begrænsninger med sætninger som "Jeg er faktisk ikke i stand til at tørre det ud. Men jeg kan give dig en svamp." Holdet rapporterede for nylig resultater fra dette projekt, kaldet SigKan.

En anden fordel ved at styrke robotter med sprogmodeller er, at det bliver trivielt at oversætte synonymer og ord på andre sprog. En person kan sige "drej", mens en anden siger "drej", og robotten forstår begge dele. "Det skøreste, vi har prøvet, er, at det også forstår emojis," sagde Fei Xia, en forsker hos Google.

Botterne lærer        

SayCan er måske den mest avancerede demonstration af sprogbaseret læring i robotteknologi til dato. Og sprog- og billedmodeller forbedres konstant og skaber bedre og mere komplekse fortræningsteknikker.

Men Xia er omhyggelig med at dæmpe begejstringen. "Nogen sagde halvt i spøg, at vi nåede 'robot GPT'-øjeblikket," sagde han med henvisning til de banebrydende sprogmodeller, der forstår en bred vifte af menneskelige kommandoer. "Vi er der ikke endnu, og der er meget mere, der skal udforskes."

For eksempel kan disse modeller give forkerte svar eller foretage fejlagtige handlinger, som forskere forsøger at forstå. Robotter har heller ikke endnu mestret "udførelsesform”: Mens mennesker har en fysisk intuition bygget på barndomstidens leg med legetøj, kræver robotter stadig interaktioner i den virkelige verden for at udvikle denne type intuition. "For nogle indstillinger er der en masse umærkede demonstrationer," sagde Zhong - tænk på databaser med videospilsinteraktioner som Minecraft og NetHack. Ingen database kan hurtigt lære robotter intelligent bevægelse.

Alligevel sker fremskridtene hurtigt. Og flere forskere mener, at smartere robotteknologi bliver slutresultatet. Narasimhan sporer denne menneske-robot-evolution fra hulkort til den næste teknologi. "Vi havde tastaturer og mus og så touchskærme," sagde han. Grundlagt sprog er den næste. Du taler til din computer for at få svar og ærinder. "Hele denne drøm om at assistenter er virkelig dygtige er ikke sket endnu," sagde han. "Men jeg tror, ​​det vil ske meget snart."

Tidsstempel:

Mere fra Quantamagazin