A gépek jobban tanulnak, ha megtanítjuk nekik az alapokat

A gépek jobban tanulnak, ha megtanítjuk nekik az alapokat

A gépek jobban tanulnak, ha megtanítjuk nekik a PlatoBlockchain adatintelligencia alapjait. Függőleges keresés. Ai.

Bevezetés

Képzeld el, hogy a szomszéd felhív, hogy szívességet kérjen: Meg tudnád etetni a házi nyulukat sárgarépaszeletekkel? Elég könnyű, gondolod. Elképzelheti a konyhájukat, még akkor is, ha még soha nem járt ott – sárgarépa a hűtőben, egy fiók, ahol különféle kések vannak. Ez elvont tudás: Nem tudod pontosan, hogy néz ki a szomszédod sárgarépája és kései, de az uborkához egy kanalat sem viszel.

A mesterséges intelligencia programok nem versenyezhetnek. Ami neked könnyű feladatnak tűnik, az óriási vállalkozás a jelenlegi algoritmusok számára.

Egy mesterséges intelligencia által kiképzett robot megtalálhatja a meghatározott kést és sárgarépát egy ismerős konyhában, de egy másik konyhában hiányoznak az absztrakt készségek a sikerhez. „Nem általánosítanak új környezetekre” – mondta Viktor Zhong, a Washingtoni Egyetem informatikus végzős hallgatója. A gép meghibásodik, mert egyszerűen túl sok a tanulnivaló, és túl nagy teret kell felfedezni.

A probléma az, hogy ezeknek a robotoknak – és általában az AI-ügynököknek – nincs olyan koncepciója, amelyre építeni lehetne. Nem tudják, mi is valójában a kés vagy a sárgarépa, azt sem tudják, hogyan kell kinyitni a fiókot, kiválasztani és szeleteket vágni. Ez a korlátozás részben annak a ténynek köszönhető, hogy sok fejlett mesterséges intelligencia rendszert a megerősítő tanulásnak nevezett módszerrel képeznek ki, amely lényegében önképzés próba-hibán keresztül. A megerősítő tanulással kiképzett mesterséges intelligencia ügynökök nagyon jól tudják elvégezni azt a munkát, amelyre betanították őket, abban a környezetben, amelyben erre betanították őket. De változtassa meg a munkát vagy a környezetet, és ezek a rendszerek gyakran meghibásodnak.

Ennek a korlátnak a kikerülése érdekében az informatikusok elkezdték megtanítani a gépeket fontos fogalmakra, mielőtt feloldották volna őket. Ez olyan, mint egy kézikönyv elolvasása, mielőtt új szoftvert használna: Megpróbálhat felfedezni anélkül, de sokkal gyorsabban tanul vele. „Az emberek a cselekvés és az olvasás kombinációjából tanulnak” – mondta Karthik Narasimhan, a Princetoni Egyetem informatikusa. "Azt akarjuk, hogy a gépek is ezt tegyék."

Új Munka Zhong és mások azt mutatják, hogy egy tanulási modell ily módon történő elindítása fel tudja tölteni a tanulást szimulált környezetben, mind online, mind a valós világban robotokkal. És nem csak gyorsabban tanulnak meg az algoritmusok, hanem olyan készségek felé tereli őket, amelyeket egyébként soha nem tanulnának meg. A kutatók azt akarják, hogy ezek az ágensek általánossá váljanak, és bármit megtanuljanak a sakktól a vásárláson át a takarításig. És ahogy a demonstrációk gyakorlatiasabbakká válnak, a tudósok úgy vélik, hogy ez a megközelítés akár megváltoztathatja azt is, hogy az emberek hogyan tudnak kölcsönhatásba lépni a robotokkal.

„Elég nagy áttörés volt” – mondta Brian Ichter, a Google robotikával foglalkozó kutatója. "Elképzelhetetlen, milyen messzire jutott másfél év alatt."

Ritka jutalmak

Első pillantásra a gépi tanulás már rendkívül sikeres volt. A legtöbb modell általában használ megerősítő tanulás, ahol az algoritmusok jutalmak megszerzésével tanulnak. Teljesen tudatlanul kezdik, de a próbálkozásból végül próba és diadal lesz. A megerősítő tanulási ügynökök könnyen elsajátíthatják az egyszerű játékokat.

Vegyük fontolóra a Snake videojátékot, ahol a játékosok egy olyan kígyót irányítanak, amely hosszabbra nő, miközben digitális almát eszik. Azt akarja, hogy a kígyója a legtöbb almát egye meg, maradjon a határokon belül, és ne fusson bele az egyre terjedelmesebb testébe. Az ilyen egyértelmű jó és rossz eredmények pozitív visszajelzést adnak egy jól díjazott gépügynöknek, így elegendő próbálkozás elviheti a „noob”-tól a magas pontszámig.

De tegyük fel, hogy a szabályok megváltoznak. Talán ugyanannak az ügynöknek egy nagyobb rácson és három dimenzióban kell játszania. Míg egy emberi játékos gyorsan tud alkalmazkodni, a gép két kritikus gyengeség miatt nem. Először is, a nagyobb tér azt jelenti, hogy hosszabb ideig tart, amíg a kígyó almába botlik, és a tanulás exponenciálisan lelassul, amikor a jutalom ritkul. Másodszor, az új dimenzió teljesen új élményt nyújt, és a tanulás megerősítése küzd az új kihívásokra való általánosításért.

Zhong azt mondja, nem kell elfogadnunk ezeket az akadályokat. „Miért van az, hogy amikor sakkozni akarunk” – egy másik játék, amelyet az erősítő tanulás elsajátított –, „a semmiből képezünk ki egy erősítő tanulási ügynököt?” Az ilyen megközelítések nem hatékonyak. Az ügynök céltalanul vándorol, amíg bele nem botlik egy jó helyzetbe, például egy sakkmattba, és Zhong szerint gondos emberi tervezésre van szükség ahhoz, hogy az ügynök megértse, mit jelent az, hogy egy helyzet jó. „Miért kell ezt tennünk, amikor már annyi könyvünk van a sakkozásról?”

Részben azért, mert a gépek küzdöttek az emberi nyelv megértésével és a képek megfejtésével. Ahhoz, hogy egy robot látáson alapuló feladatokat hajtson végre, például sárgarépa keresése és szeletelése, tudnia kell, hogy mi a sárgarépa – egy dolog képének „meg kell alapoznia” az adott dolog alaposabb megértését. Egészen a közelmúltig nem volt erre jó módszer, de a nyelv- és képfeldolgozás sebességének és léptékének fellendülése lehetővé tette az új sikereket.

Új természetes nyelvfeldolgozás A modellek lehetővé teszik a gépek számára, hogy lényegében megtanulják a szavak és mondatok mögött rejlő jelentést – megalapozzák azokat a világ dolgaiban –, ahelyett, hogy egyszerűen (és korlátozott) jelentést tárolnának, például egy digitális szótárban.

A számítógépes látás hasonló digitális robbanást tapasztalt. Az ImageNet 2009 körül debütált a számítógépes látáskutatáshoz szükséges megjegyzésekkel ellátott képek adatbázisaként. Ma több mint 14 millió tárgyról és helyről készült képnek ad otthont. És olyan programok, mint az OpenAI DALL·E parancsra új képeket generálnak, amelyek emberi alkotásnak tűnnek, annak ellenére, hogy nincs pontos összehasonlításuk.

Azt mutatja be, hogy a gépek csak most férnek hozzá elegendő online adathoz, hogy valóban megismerjék a világot Anima Anandkumar, a California Institute of Technology és az Nvidia informatikusa. És ez annak a jele, hogy ők is tanulhatnak a fogalmakból, mint mi, és használhatják őket generációkon keresztül. „Olyan nagyszerű pillanatban vagyunk most” – mondta. "Mert ha egyszer nemzedéket tudunk szerezni, sokkal többet tehetünk."

A rendszer játék

Az olyan kutatók, mint Zhong, úgy döntöttek, hogy a gépeknek nem kell többé teljesen tájékozatlanul nekivágniuk a kutatásoknak. A kifinomult nyelvi modellekkel felvértezve a kutatók hozzáadhatnának egy előképzési lépést, amelyben a program az online információkból tanult, mielőtt megpróbálná és hibázott volna.

Az ötlet tesztelésére kollégáival összehasonlították az előképzést a hagyományos megerősítéses tanulással öt különböző játékszerű beállítás ahol a gépi ügynökök nyelvi parancsokat értelmeztek a problémák megoldására. Minden szimulált környezet egyedi kihívás elé állította a gépügynököt. Az egyik megkérte az ügynököt, hogy manipuláljon tárgyakat egy 3D-s konyhában; egy másik kötelező olvasmány a szörnyek elleni küzdelemhez szükséges műveletek pontos sorrendjének megtanulásához. De a legbonyolultabb beállítás egy igazi játék volt, a 35 éves NetHack, ahol a cél az, hogy egy kifinomult kazamatában navigáljanak egy amulettért.

Az egyszerű beállításoknál az automatizált előképzés a fontos fogalmak egyszerű megalapozását jelentette: Ez egy sárgarépa, ez egy szörnyeteg. A NetHack esetében az ügynök, aki az emberek játékát nézte, emberi játékosok által az internetre feltöltött átjátszások segítségével. Ezeknek az átjátszásoknak nem is kellett olyan jónak lenniük – az ügynöknek csak az emberek viselkedésére vonatkozó intuíciót kellett kialakítania. Az ügynöknek nem kellett szakértővé válnia, csak rendes játékosnak. Az intuíciót figyelve építené – mit tenne az ember egy adott forgatókönyvben? Az ügynök eldönti, hogy mely lépések voltak sikeresek, és megalkotta a saját répáját és botját.

"Az előképzésen keresztül jó előképeket alakítunk ki arra vonatkozóan, hogyan lehet a nyelvi leírásokat a világban zajló dolgokhoz társítani" - mondta Zhong. Az ügynök kezdettől fogva jobban játszana, és gyorsabban tanulna a későbbi megerősítő tanulás során.

Ennek eredményeként az előképzett ügynök teljesítménye felülmúlta a hagyományosan kiképzettet. „Mind az öt környezetben nyereséget érünk el” – mondta Zhong. Az egyszerűbb beállítások csak egy kis előnyt mutattak, de a NetHack bonyolult kazamataiban az ügynök sokszor gyorsabban tanult, és olyan tudásszintet ért el, amit a klasszikus megközelítés nem tudott. „Lehet, hogy tízszeres teljesítményt érhet el, mert ha ezt nem teszi meg, akkor egyszerűen nem tanul meg egy jó politikát” – mondta.

"Ezek az általános ügynökök nagy ugrást jelentenek ahhoz képest, amit a szokásos megerősítési tanulás tesz" - mondta Anandkumar.

Csapata előképzi az ügynököket is, hogy gyorsabban tanuljanak, jelentős előrelépést érve el a világ legkelendőbb videojátékán, a Minecrafton. „Sandbox” játékként ismert, ami azt jelenti, hogy gyakorlatilag végtelen teret ad a játékosoknak az interakcióhoz és új világok létrehozásához. Hiábavaló jutalmazó funkciót programozni több ezer feladatra külön-külön, ezért ehelyett a csapat modellje (“MineDojo”) feliratos átjátszási videók megtekintésével építette ki a játék megértését. Nem kell a jó viselkedést kodifikálni.

„Automatikus jutalmazási funkciókat kapunk” – mondta Anandkumar. „Ez az első benchmark több ezer feladattal, valamint a megerősítő tanulás lehetőségével a szöveges promptokon keresztül meghatározott nyílt végű feladatokkal.”

A játékokon túl

A játékok nagyszerű módja annak bemutatására, hogy az edzés előtti modellek működhetnek, de ezek még mindig leegyszerűsített világok. Sokkal nehezebb megtanítani a robotokat a való világ kezelésére, ahol a lehetőségek gyakorlatilag végtelenek. Feltettük a kérdést: van valami a kettő között? - mondta Narasimhan. Ezért úgy döntött, hogy online vásárol.

Csapata létrehozta a WebShopot. – Alapvetően olyan, mint egy bevásárló komornyik – mondta Narasimhan. A felhasználók valami ilyesmit mondhatnak: „Adj nekem egy Nike cipőt, ami fehér és 100 dollár alatt van, és azt szeretném, ha a vélemények azt mondanák, hogy nagyon kényelmesek a kisgyermekek számára”, és a program megkeresi és megvásárolja a cipőt.

A Zhong és Anandkumar játékaihoz hasonlóan a WebShop is képekkel és szövegekkel oktatta az intuíciót, ezúttal az Amazon oldalairól. „Idővel megtanulja megérteni a nyelvet, és leképezi a webhelyen végrehajtandó műveletekre.”

Első pillantásra egy bevásárló komornyik nem tűnik olyan futurisztikusnak. De míg egy élvonalbeli chatbot képes összekapcsolni a kívánt tornacipővel, az olyan interakciókhoz, mint a rendelés leadása, teljesen más készségkészletre van szükség. És annak ellenére, hogy az ágy melletti Alexa vagy Google Home hangszórók is leadhatnak rendeléseket, saját szoftverre támaszkodnak, amely előre meghatározott feladatokat hajt végre. A WebShop úgy navigál a weben, ahogy az emberek: olvasással, gépeléssel és kattintással.

"Ez egy lépéssel közelebb került az általános intelligencia felé" - mondta Narasimhan.

Bevezetés

Természetesen a robotok valós világgal való interakcióba vétele megvannak a maga kihívásai. Gondoljunk például egy palackra. Felismersz egyet a megjelenéséről, tudod, hogy folyadékok tárolására szolgál, és tudod, hogyan kell a kezével manipulálni. A valódi gépek képesek-e valaha szavakat és képeket a mozgás összetett intelligenciájává alakítani?

Narasimhan együttműködött Anirudha Majumdar, a Princeton robotmestere, hogy megtudja. Megtanítottak egy robotkart kezelni olyan eszközöket, amilyeneket korábban soha nem látott, és előképzettek a sikeres nyelvi modellekből vett leíró nyelvezet segítségével. A program gyorsabban tanult és szinte minden eszközzel és művelettel jobban teljesített, mint a hagyományos felfedezéssel tanuló programokkal eredmények tavaly júniusban az arxiv.org nyomtatás előtti szerverre került fel.

A mérnökök a Google robotikai laboratóriumaiban még összetettebb parancsok könyvtárát építették ki, amely szintén a kontextus-építő előképzésben gyökerezik. „A lehetőségek világa, amelyet mérlegelnie kell, hatalmas” – mondta Karol Hausman, a Google robotikai csapatának kutatója. "Tehát megkérjük a nyelvi modellt, hogy bontsa le nekünk."

A csapat egy mobil segítő robottal dolgozott, hétízületes karral, amit nyelvtudással edzettek. Bármely adott parancshoz – például „segíts megtisztítani a kiömlött italomat” – a program egy nyelvi modellt használ, hogy egy 700 betanított mozdulatot tartalmazó könyvtárból olyan műveleteket javasoljon, mint például „fogjon meg” egy papírtörlőt, „vegye fel” a dobozt vagy „ dobja el” a dobozt. Hausman pedig azt mondja, hogy elismeri korlátait olyan kifejezésekkel, mint: „Tulajdonképpen nem vagyok képes letörölni. De hozhatok neked egy szivacsot." A csapat a közelmúltban számolt be ennek a projektnek az eredményeiről, az ún SayCan.

A robotok nyelvi modellekkel való felruházása másik előnye, hogy a szinonimák és szavak más nyelveken való lefordítása triviálissá válik. Az egyik személy azt mondhatja, hogy „csavar”, míg a másik azt, hogy „forog”, és a robot mindkettőt megérti. „A legőrültebb dolog, amit kipróbáltunk, az az, hogy az emojikat is megérti” – mondta Fei Xia, a Google kutatója.

A Botok tanulnak        

A SayCan talán az eddigi legfejlettebb bemutatója a nyelvi alapon történő tanulásnak a robotikában. A nyelvi és képi modellek pedig folyamatosan javulnak, jobb és összetettebb előképzési technikákat hoznak létre.

De Xia óvatos, hogy mérsékelje az izgalmat. „Valaki félig tréfásan azt mondta, hogy elérkeztünk a „robot GPT” pillanatához” – mondta, utalva az úttörő nyelvi modellekre, amelyek az emberi parancsok széles skáláját értik. "Még nem tartunk ott, és még sok a felfedeznivaló."

Például ezek a modellek helytelen válaszokat adhatnak, vagy tévedésben lévő cselekvéseket hajthatnak végre, amelyeket a kutatók megpróbálnak megérteni. A robotok még nem sajátították elkiviteli alak”: Míg az emberek fizikai intuíciója a játékokkal eltöltött gyermekkoron alapul, a robotoknak még mindig valós interakciókra van szükségük az ilyen típusú intuíció fejlesztéséhez. „Bizonyos beállításokhoz sok címkézetlen bemutató létezik” – mondta Zhong – gondoljunk csak a videojáték-interakciók adatbázisaira, mint például a Minecraft és a NetHack. Egyetlen adatbázis sem képes gyorsan megtanítani a robotoknak intelligens mozgást.

Ennek ellenére gyors a fejlődés. És egyre több kutató gondolja úgy, hogy az intelligensebb robotika lesz a végeredmény. Narasimhan nyomon követi ezt az ember-robot evolúciót a lyukkártyáktól a következő technológiáig. „Volt billentyűzeteink és egereink, majd érintőképernyőink” – mondta. A megalapozott nyelv a következő. Beszélni fog a számítógépével a válaszokért és a feladatokért. „Ez az egész álom arról, hogy az asszisztensek valóban képesek legyenek, még nem valósult meg” – mondta. – De azt hiszem, ez hamarosan megtörténik.

Időbélyeg:

Még több Quantamagazine