Koneet oppivat paremmin, jos opetamme niille perusasiat

Koneet oppivat paremmin, jos opetamme niille perusasiat

Koneet oppivat paremmin, jos opetamme niille PlatoBlockchain-tietoälyn perusteet. Pystysuuntainen haku. Ai.

esittely

Kuvittele, että naapurisi soittaa pyytääkseen palvelusta: Voisitteko ruokkia heidän lemmikkikaniinilleen porkkanaviipaleita? Riittävän helppoa, luulisi. Voit kuvitella heidän keittiönsä, vaikka et olisi koskaan käynyt siellä – porkkanat jääkaapissa, laatikko, jossa on erilaisia ​​veitsiä. Se on abstraktia tietoa: Et tiedä tarkalleen miltä naapurisi porkkanat ja veitset näyttävät, mutta kurkkuun et ota lusikkaa.

Tekoälyohjelmat eivät voi kilpailla. Se, mikä sinusta näyttää helpolta, on valtava hanke nykyisille algoritmeille.

Tekoälyn koulutettu robotti löytää tietyn veitsen ja porkkanan piilossa tutusta keittiöstä, mutta toisessa keittiössä siltä puuttuu abstraktit taidot menestyäkseen. "Ne eivät yleisty uusiin ympäristöihin", sanoi Victor Zhong, tietojenkäsittelytieteen jatko-opiskelija Washingtonin yliopistossa. Kone epäonnistuu, koska siinä on yksinkertaisesti liikaa opittavaa ja liian laajaa tilaa tutkittavaksi.

Ongelmana on, että näillä roboteilla - ja tekoälyagenteilla yleensä - ei ole konseptien perustaa, jolle rakentaa. He eivät tiedä, mitä veitsi tai porkkana todella on, saati kuinka avata laatikko, valita se ja leikata viipaleita. Tämä rajoitus johtuu osittain siitä tosiasiasta, että monia edistyneitä tekoälyjärjestelmiä koulutetaan vahvistusoppimismenetelmällä, joka on pohjimmiltaan itsekoulutusta yrityksen ja erehdyksen kautta. Vahvistusoppimiseen koulutetut tekoälyagentit voivat suorittaa työn, johon heidät on koulutettu tekemään, erittäin hyvin siinä ympäristössä, jossa heidät on koulutettu tekemään. Mutta vaihda työpaikkaa tai ympäristöä, ja nämä järjestelmät epäonnistuvat usein.

Tämän rajoituksen kiertämiseksi tietojenkäsittelytieteilijät ovat alkaneet opettaa koneille tärkeitä käsitteitä ennen niiden poistamista. Se on kuin käsikirjan lukeminen ennen uuden ohjelmiston käyttöä: Voit yrittää tutkia asiaa ilman sitä, mutta opit paljon nopeammin sen avulla. "Ihminen oppii tekemisen ja lukemisen yhdistelmän kautta", sanoi Karthik Narasimhan, tietojenkäsittelytieteilijä Princetonin yliopistosta. "Haluamme koneiden tekevän samoin."

Uusi työ Zhong ja muut osoittavat, että oppimismallin käyttöönotto tällä tavalla voi tehostaa oppimista simuloiduissa ympäristöissä sekä verkossa että todellisessa maailmassa robottien avulla. Eikä se vain saa algoritmeja oppimaan nopeammin – se ohjaa niitä kohti taitoja, joita he eivät muuten koskaan oppisi. Tutkijat haluavat, että näistä aineista tulee generalisteja, jotka pystyvät oppimaan mitä tahansa shakista ostoksille siivoamiseen. Ja kun mielenosoitukset muuttuvat käytännöllisemmiksi, tutkijat uskovat, että tämä lähestymistapa saattaa jopa muuttaa tapaa, jolla ihmiset voivat olla vuorovaikutuksessa robottien kanssa.

"Se on ollut melko suuri läpimurto", sanoi Brian Ichter, Googlen robotiikan tutkija. "On melko käsittämätöntä, kuinka pitkälle se on päässyt puolessatoista vuodessa."

Harvat palkinnot

Ensi silmäyksellä koneoppiminen on jo onnistunut erinomaisesti. Useimmat mallit yleensä käyttävät vahvistaminen oppiminen, jossa algoritmit oppivat saamalla palkintoja. He alkavat täysin tietämättöminä, mutta yrityksen ja erehdyksen jälkeen tulee lopulta yritys ja voitto. Vahvistusoppimisagentit voivat helposti hallita yksinkertaisia ​​pelejä.

Ajattele videopeliä Snake, jossa pelaajat hallitsevat käärmettä, joka kasvaa pidempään syödessään digitaalisia omenoita. Haluat käärmeen syövän eniten omenoita, pysyvän rajojen sisällä ja välttävän törmäystä sen kasvavaan tilaa vievään kehoonsa. Tällaiset selkeät oikeat ja väärät tulokset antavat hyvin palkitulle koneagentille positiivista palautetta, joten riittävä määrä yrityksiä voi viedä sen "noobista" korkeaan pisteeseen.

Mutta oletetaan, että säännöt muuttuvat. Ehkä saman agentin täytyy pelata suuremmalla ruudukolla ja kolmessa ulottuvuudessa. Vaikka ihmispelaaja sopeutuisi nopeasti, kone ei pysty kahden kriittisen heikkouden vuoksi. Ensinnäkin suurempi tila tarkoittaa, että käärmeellä kestää kauemmin törmätä omenoihin, ja oppiminen hidastuu eksponentiaalisesti, kun palkinnot vähenevät. Toiseksi uusi ulottuvuus tarjoaa täysin uuden kokemuksen, ja vahvistusoppiminen kamppailee yleistyessään uusiin haasteisiin.

Zhong sanoo, että meidän ei tarvitse hyväksyä näitä esteitä. "Miksi kun haluamme pelata shakkia" - toinen peli, jonka vahvistusoppiminen on hallinnut - "koulutamme vahvistusoppimisagentin tyhjästä?" Tällaiset lähestymistavat ovat tehottomia. Agentti vaeltelee päämäärättömästi, kunnes se törmää hyvään tilanteeseen, kuten matti, ja Zhong sanoo, että se vaatii huolellista ihmisen suunnittelua saadakseen agentin ymmärtämään, mitä hyvän tilanteen merkitseminen tarkoittaa. "Miksi meidän pitää tehdä tämä, kun meillä on jo niin paljon kirjoja shakin pelaamisesta?"

Osittain se johtuu siitä, että koneilla on ollut vaikeuksia ymmärtää ihmisten kieltä ja tulkita kuvia. Jotta robotti pystyy suorittamaan visioon perustuvia tehtäviä, kuten esimerkiksi porkkanoiden etsimistä ja viipalointia, sen on tiedettävä, mikä porkkana on – esineen kuvan on oltava "maadoitunut" perustavanlaatuisempaan ymmärrykseen siitä, mikä se on. Viime aikoihin asti ei ollut hyvää tapaa tehdä tämä, mutta kielen ja kuvankäsittelyn nopeuden ja mittakaavan nousukausi on mahdollistanut uudet menestykset.

Uusi luonnollinen kielenkäsittely mallien avulla koneet voivat olennaisesti oppia sanojen ja lauseiden takana olevat merkitykset – perustaa ne maailman asioihin – sen sijaan, että ne tallentavat yksinkertaisen (ja rajoitetun) merkityksen, kuten digitaalisen sanakirjan.

Tietokonenäkö on nähnyt samanlaisen digitaalisen räjähdyksen. Vuoden 2009 paikkeilla ImageNet debytoi tietokantana annotoituja kuvia varten tietokonenäkötutkimuksessa. Nykyään se isännöi yli 14 miljoonaa kuvaa esineistä ja paikoista. Ja OpenAI:n kaltaiset ohjelmat DALL·E luoda käskystä uusia kuvia, jotka näyttävät ihmisen tekemiltä, ​​vaikka niillä ei ole tarkkaa vertailua.

Se osoittaa, kuinka koneilla on vain nyt pääsy tarpeeksi verkkotietoihin, jotta he voivat todella oppia maailmasta Anima Anandkumar, tietojenkäsittelytieteilijä California Institute of Technologyssa ja Nvidiassa. Ja se on merkki siitä, että he voivat oppia käsitteistä kuten me ja käyttää niitä sukupolven ajan. "Olemme nyt niin hienossa hetkessä", hän sanoi. "Koska kun saamme sukupolven, voimme tehdä paljon enemmän."

Järjestelmän pelaaminen

Zhongin kaltaiset tutkijat päättivät, että koneiden ei enää tarvinnut aloittaa tutkimuksiaan täysin tietämättöminä. Kehittyneillä kielimalleilla varustettuna tutkijat voisivat lisätä esikoulutusvaiheen, jossa ohjelma oppii verkkotiedoista ennen kokeiluja ja virheitä.

Idean testaamiseksi hän ja hänen kollegansa vertasivat esikoulutusta perinteiseen vahvistusoppimiseen viisi erilaista pelimaista asetusta jossa koneagentit tulkitsivat kielikomentoja ongelmien ratkaisemiseksi. Jokainen simuloitu ympäristö haastaa koneagentin yksilöllisesti. Yksi pyysi agenttia käsittelemään esineitä 3D-keittiössä; toinen pakollinen lukuteksti, jonka avulla voit oppia tarkan toimintosarjan hirviöiden torjumiseksi. Mutta monimutkaisin asetus oli todellinen peli, 35-vuotias NetHack, jossa tavoitteena on navigoida hienostuneessa luolassa hakeakseen amuletin.

Yksinkertaisille asetuksille automatisoitu esikoulutus tarkoitti yksinkertaisesti tärkeiden käsitteiden maadoittamista: Tämä on porkkana, se on hirviö. NetHackille agentti, joka on koulutettu katsomalla ihmisten pelaamista, käyttämällä ihmispelaajien Internetiin lataamia leikkikierroksia. Näiden pelien ei edes tarvinnut olla niin hyviä – agentin tarvitsi vain rakentaa intuitiota ihmisten käyttäytymiseen. Agentista ei ollut tarkoitus tulla asiantuntija, vaan tavallinen pelaaja. Se rakentaisi intuitiota katsomalla – mitä ihminen tekisi tietyssä tilanteessa? Agentti päätti, mitkä liikkeet onnistuivat, ja muotoili oman porkkanan ja kepin.

"Esikoulutuksen avulla muodostamme hyviä ennakkokäsityksiä siitä, kuinka kielikuvaukset voidaan yhdistää asioihin, joita tapahtuu maailmassa", Zhong sanoi. Agentti pelasi paremmin alusta alkaen ja oppisi nopeammin myöhemmän vahvistusoppimisen aikana.

Tämän seurauksena esikoulutettu agentti suoriutui paremmin kuin perinteisesti koulutettu agentti. "Saamme voittoja kautta linjan kaikissa viidessä ympäristössä", Zhong sanoi. Yksinkertaisemmissa asetuksissa näkyi vain pieni reuna, mutta NetHackin monimutkaisissa vankityrmissä agentti oppi monta kertaa nopeammin ja saavutti taitotason, jota klassinen lähestymistapa ei kyennyt saavuttamaan. "Saatat saada 10-kertaisen suorituskyvyn, koska jos et tee tätä, et vain opi hyvää politiikkaa", hän sanoi.

"Nämä yleisagentit ovat suuri harppaus verrattuna siihen, mitä tavallinen vahvistusoppiminen tekee", Anandkumar sanoi.

Hänen tiiminsä myös esikouluttaa agentteja saadakseen heidät oppimaan nopeammin ja saavuttamaan merkittävää edistystä maailman myydyimmässä videopelissä, Minecraftissa. Se tunnetaan "hiekkalaatikkopelinä", mikä tarkoittaa, että se antaa pelaajille käytännössä rajattoman tilan vuorovaikutukseen ja uusien maailmojen luomiseen. Palkitsemistoimintoa on turha ohjelmoida tuhansiin tehtäviin erikseen, joten sen sijaan tiimin malli (“MineDojo”) lisäsi ymmärrystä pelistä katsomalla kuvatekstejä läpikäyviä videoita. Hyvää käytöstä ei tarvitse kodifioida.

"Saamme automaattisia palkitsemistoimintoja", Anandkumar sanoi. "Tämä on ensimmäinen benchmark, jossa on tuhansia tehtäviä ja kyky tehdä vahvistusoppimista avoimilla tehtävillä, jotka määritetään tekstikehotteilla."

Pelien ulkopuolella

Pelit olivat loistava tapa näyttää, että esikoulutusmallit voivat toimia, mutta ne ovat silti yksinkertaistettuja maailmoja. Robottien kouluttaminen käsittelemään todellista maailmaa, jossa mahdollisuudet ovat käytännössä rajattomat, on paljon vaikeampaa. "Me kysyimme: onko jotain siltä väliltä?" Narasimhan sanoi. Joten hän päätti tehdä verkko-ostoksia.

Hänen tiiminsä loi WebShopin. "Se on periaatteessa kuin ostohovimestari", Narasimhan sanoi. Käyttäjät voivat sanoa esimerkiksi "Anna minulle Nike-kenkä, joka on valkoinen ja alle 100 dollaria, ja haluan arvostelujen osoittavan, että ne ovat erittäin mukavia taaperoille", ja ohjelma löytää ja ostaa kengän.

Kuten Zhongin ja Anandkumarin peleissä, WebShop kehitti intuitiota harjoittelemalla kuvien ja tekstin kanssa, tällä kertaa Amazonin sivuilta. "Ajan myötä se oppii ymmärtämään kieltä ja yhdistämään sen toimiin, jotka sen on suoritettava verkkosivustolla."

Ensi silmäyksellä ostoshovimestari ei ehkä vaikuta kovin futuristiselta. Mutta vaikka huippuluokan chatbot voi linkittää sinut haluttuun tennariin, vuorovaikutus, kuten tilauksen tekeminen, vaatii täysin erilaisia ​​taitoja. Ja vaikka sängyn vieressä olevat Alexa- tai Google Home -kaiuttimet voivat tehdä tilauksia, ne luottavat omaan ohjelmistoon, joka suorittaa ennalta määrättyjä tehtäviä. WebShop navigoi verkossa ihmisten tapaan: lukemalla, kirjoittamalla ja napsauttamalla.

"Se on askel lähempänä yleistä älykkyyttä", Narasimhan sanoi.

esittely

Tietysti robottien saamisessa vuorovaikutukseen todellisen maailman kanssa on omat haasteensa. Harkitse esimerkiksi pulloa. Tunnistat sellaisen ulkonäöstä, tiedät, että se on tarkoitettu nesteiden varastointiin, ja ymmärrät kuinka käsitellä sitä käsilläsi. Voivatko todelliset koneet koskaan muuttaa sanoja ja kuvia monimutkaiseksi liikeälyksi?

Narasimhan teki yhteistyötä Anirudha Majumdar, Princetonin robotiikka selvittääkseen. He opettivat robottikäden manipuloimaan työkaluja, joita se ei ollut koskaan ennen nähnyt, ja esikoulutettiin sitä käyttämällä kuvailevaa kieltä, joka on otettu onnistuneista kielimalleista. Ohjelma oppi nopeammin ja suoriutui paremmin lähes kaikilla työkaluilla ja toiminnoilla verrattuna perinteisellä tutkimalla oppiviin ohjelmiin Tulokset Lähetetty preprint-palvelimelle arxiv.org viime kesäkuussa.

Insinöörit ovat rakentaneet Googlen robotiikkalaboratorioissa vieläkin monimutkaisempia komentoja sisältävän kirjaston, joka perustuu myös kontekstin rakentamiseen liittyvään esikoulutukseen. "Mahdollisuuksien maailma, jota sinun on harkittava, on valtava", sanoi Karol Hausman, tutkija Googlen robottitiimistä. "Joten pyydämme kielimallia hajottamaan sen meille."

Tiimi työskenteli liikkuvalla apurobotilla, jossa oli seitsemännivelinen käsivarsi, jota harjoitteltiin kielitaidon avulla. Jokaiselle komennolle - kuten "auta minua siivoamaan vuotanut juomani" - ohjelma ehdottaa kielimallin avulla toimintoja 700 harjoitetun liikkeen kirjastosta, kuten "tarraa" paperipyyhe, "nouta" tölkki tai " heitä pois" tölkki. Ja Hausman sanoo tunnustavansa rajoituksensa sellaisilla lauseilla kuin "En itse asiassa pysty pyyhkimään sitä pois. Mutta voin tuoda sinulle sienen." Ryhmä raportoi hiljattain tämän projektin tuloksista, ns SayCan.

Toinen etu robottien valtaamisessa kielimalleilla on se, että synonyymien ja sanojen kääntämisestä muille kielille tulee triviaalia. Yksi henkilö voi sanoa "kierrä", kun taas toinen sanoo "kierrä", ja robotti ymmärtää molemmat. "Hulluinta, mitä olemme yrittäneet, on, että se ymmärtää myös emojit", sanoi Fei Xia, Googlen tutkija.

Botit oppivat        

SayCan on kenties edistynein kielipohjaisen robotiikan osoitus tähän mennessä. Ja kieli- ja imagomallit kehittyvät jatkuvasti luoden parempia ja monimutkaisempia esikoulutustekniikoita.

Mutta Xia on varovainen hillitsemään jännitystä. "Joku puoli-vitsillä sanoi, että saavuimme "robotin GPT" -hetken", hän sanoi viitaten uraauurtaviin kielimalleihin, jotka ymmärtävät monenlaisia ​​​​ihmiskäskyjä. "Emme ole vielä siellä, ja paljon muuta on tutkittavaa."

Nämä mallit voivat esimerkiksi antaa vääriä vastauksia tai tehdä virheellisiä toimia, joita tutkijat yrittävät ymmärtää. Robotit eivät myöskään ole vielä oppineetruumiillistuma”: Vaikka ihmisillä on fyysinen intuitio, joka perustuu leluilla leikkimiseen vietettyyn lapsuuteen, robotit tarvitsevat edelleen todellista vuorovaikutusta kehittääkseen tämäntyyppistä intuitiota. "Joissakin asetuksissa on paljon nimeämättömiä esityksiä", Zhong sanoi. Ajattele tietokantoja videopelien vuorovaikutuksista, kuten Minecraft ja NetHack. Mikään tietokanta ei voi nopeasti opettaa roboteille älykästä liikettä.

Silti kehitys on nopeaa. Ja useammat tutkijat uskovat, että älykkäämpi robotiikka on lopputulos. Narasimhan seuraa tätä ihmisen ja robotin kehitystä reikäkorteista seuraavaan teknologiaan. "Meillä oli näppäimistöt ja hiiret ja sitten kosketusnäytöt", hän sanoi. Maadoitettu kieli on seuraava. Puhut tietokoneellesi saadaksesi vastauksia ja tehtäviä. "Tämä unelma avustajien todella kyvykkyydestä ei ole vielä toteutunut", hän sanoi. "Mutta uskon, että se tapahtuu hyvin pian."

Aikaleima:

Lisää aiheesta Kvantamagatsiini