A „több énnel” rendelkező AI-ügynökök megtanulnak gyorsan alkalmazkodni a változó világhoz

A „több énnel” rendelkező AI-ügynökök megtanulnak gyorsan alkalmazkodni a változó világhoz

AI Agents With 'Multiple Selves' Learn to Adapt Quickly in a Changing World PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Minden nap más igényekkel zsonglőrködünk. Éhes vagyok, de kimerültem; rogyok le a kanapéra vagy csináljak vacsorát? Veszélyes hőmérsékleten túlmelegszem, de rendkívül szomjas is vagyok; Felszívjam a langyos vizet, ami a napon melegedett, vagy bedugjam a fejem a fagyasztóba, amíg meg nem lesz szellemi képességem jeget készíteni?

Amikor dilemmákkal szembesülünk, gyakran gondolkodás nélkül követjük alapvető ösztöneinket. De a motorháztető alatt több neurális hálózat verseng egymással, hogy minden pillanatban meghozzák a „legjobb” döntést. Aludj az étel fölött. Fagyasztó langyos víz felett. Utólag visszagondolva szörnyű döntések lehetnek – de legközelebb tanulunk a múltbeli hibáinkból.

A folyamatosan változó világhoz való alkalmazkodóképességünk olyan szuperhatalom, amely jelenleg elkerüli a legtöbb AI-ügynököt. Még a legkifinomultabb AI-ügynökök is tönkremennek – vagy tarthatatlan mennyiségű számítási időt igényelnek –, miközben egymásnak ellentmondó célokkal zsonglőrködnek.

A Princeton Neuroscience Institute Dr. Jonathan Cohen által vezetett csapata szerint az ok egyszerű: a gépi tanulási rendszerek általában egyetlen egységként működnek, kénytelenek egyszerre egy célt értékelni, kiszámítani és végrehajtani. Bár képes tanulni a hibáiból, a mesterséges intelligencia küzd, hogy megtalálja a megfelelő egyensúlyt, ha egyszerre több ellentétes céllal szembesül.

Akkor miért nem bontja szét az AI-t?

In egy új tanulmány kiadva PNAS, a csapat átvett egy oldalt a kognitív idegtudományból, és felépített egy moduláris AI-ügynököt.

Az ötlet látszólag egyszerű. A monolitikus mesterséges intelligencia – egyetlen hálózat, amely a teljes „ént” felöleli – helyett a csapat egy moduláris ágenst épített fel, amelynek mindegyik részéhez megvan a maga „motivációja” és célja, de egyetlen „testet” irányít. A demokratikus társadalomhoz hasonlóan a mesterséges intelligencia rendszer is azon vitázik, hogy eldöntse a legjobb választ, ahol a legnagyobb valószínűséggel a legnagyobb nyerő eredményt hozó cselekvés irányítja a következő lépést.

A moduláris AI több szimulációban is felülmúlta klasszikus monolitikus társát. Alkalmazkodóképessége különösen akkor tűnt fel, amikor a kutatók mesterségesen növelték az egyidejűleg fenntartandó célok számát. A Lego-szerű mesterséges intelligencia gyorsan alkalmazkodott, míg a monolit megfelelője nehezen tudta felzárkózni.

„Az egyik legalapvetőbb kérdés az ügynökséggel kapcsolatban, hogy az egyén hogyan kezeli az egymásnak ellentmondó szükségleteket” – mondta a csapat. A mesterséges intelligencia ügynökeinek dekonstrukciójával a kutatás nem csak az intelligensebb gépi tanulási ügynökökbe nyújt betekintést. Ezenkívül „kikövezi az utat az emberi pszichében rejlő pszichológiai konfliktusok megértéséhez” írt Dr. Rober Boshra a Princeton Egyetemen, aki nem vett részt a munkában.

Az élet videojátéka

Hogyan tanulják meg az intelligens lények egyensúlyba hozni az egymásnak ellentmondó szükségleteket egy összetett, változó világban?

A filozófiai kérdés több olyan területet – idegtudományt, pszichológiát, közgazdaságtant – kísértett, amelyek az emberi természettel foglalkoznak. Még nincsenek egyértelmű válaszaink. De mivel a mesterséges intelligencia egyre gyakrabban néz szembe hasonló kihívásokkal, ahogy belép a való világba, itt az ideje, hogy szembeszálljunk az ősrégi problémával.

Az új tanulmány egy egyszerű RPG (szerepjáték) formájában vállalta a kihívást. Két karakter navigál egy rácsszerű világban, és mindegyik próbál erőforrásokat találni a túléléshez.

Az első versenyző: a monolitikus ágens – más néven „én” –, amelyet mély-Q-learning (DQL) segítségével képeztek ki. A DeepMind által népszerűsített algoritmus különösen hatékony a következő optimális lépés kitalálására az aktuális állapotától függően. Például, mint egy videojátékban, balra vagy jobbra menjek? Melyik sakk- vagy Go-bábu mozgatása, és hova? Itt az algoritmus felméri a teljes környezetet, miközben egyetlen jutalomjelet követ – vagyis a végső célt. Bizonyos értelemben a monolitikus ágens egy egységes agy, amely megpróbálja maximalizálni a legjobb eredményt, miután az összes erőforrást egyszerre feldolgozza.

Az ellenfél: moduláris AI. A félig autonóm végtagokkal rendelkező poliphoz hasonlóan az AI-ügynök is al-ügynökökre oszlik, amelyek mindegyikének megvan a maga célja és visszajelzése. A tisztességes küzdelem érdekében minden modult DQL-lel is képeznek. A különálló „agyak” figyelik környezetüket, és megtanulják kiválasztani a legjobb megoldást – de csak saját céljaikra szabva. A várható eredményeket ezután összegzik. Ezután kiválasztják a potenciálisan optimális kimenetelű megoldást, és az AI-ügynököt a következő választásra irányítják.

És a játéktér?

A játék egy túlélőjáték rendkívül lecsupaszított változata. Minden mesterséges intelligencia ügynök egy kétdimenziós rács körül bolyong, amely bizonyos régiókban különböző típusú erőforrásokat rejt magában. A cél az, hogy az ügynök négy statisztikáját a beállított szinten tartsák, és mindegyik fokozatosan csökken az idő múlásával. Ha több statisztika összeomlik, az AI-n múlik, hogy melyiket részesíti előnyben.

A videojátékosok úgy gondolják, hogy a teszt egy új játéktérképbe kerül, és megpróbál olyan erőforrásokat találni, amelyek például az egészséget, a varázslatot, az állóképességet és a támadóerőt javítják. Mindennapi életünkben egyensúlyba hozza az éhséget, a hőmérsékletet, az alvást és más alapvető élettani szükségleteket.

„Például, ha az ügynöknek alacsony az „éhség” statisztikája, összegyűjthette az „élelmiszer” erőforrást azáltal, hogy az erőforrás helyére költözik” – magyarázta a csapat.

Erdő a fáknak

Az első teszt egy viszonylag egyszerű környezettel kezdődött. Az egyes erőforrás-célok helyét a játékaréna sarkában rögzítették. A monolitikus ügynök 30,000 5,000 edzéslépés után könnyedén megtartotta négy statisztikáját, bár túl- és alullövéseken ment keresztül, amíg elérte a kitűzött célokat. Ezzel szemben a moduláris ügynök sokkal gyorsabban tanult. XNUMX tanulási lépéssel az ügynök már megértette a „világ állapotát”.

A szerzők szerint a moduláris AI képességeinek egy része a szabad felfedezés belső érzéséből fakad. Ellentétben a moduláris rendszerek korábbi módszereivel, amelyek megosztanak és hódítanak a végső cél elérése érdekében, itt az AI holisztikusabb társadalmi kapcsolatot képvisel – olyat, amelyben egyes modulok nyernek, mások pedig veszítenek az állandó belső verseny miatt.

Mivel az AI-ügynök „testét” csak a nyertes modul vezérli, a veszteseknek egy olyan döntéssel kell együtt járniuk, amellyel nem értenek egyet, és egy új valóságba kényszerülnek. Ezután gyorsan alkalmazkodniuk kell, és újra kell számítaniuk a legjobb megoldást a következő lépéshez. Más szóval, a modulok gyakran a komfortzónájukon kívül találják magukat. Kemény szerelem, de a váratlan eredmények új megoldások elgondolkoztatására kényszerítik őket – olykor jobb eredményeket hoznak, amelyekre nem gondoltak volna, ha egyedül kezelik a problémát.

Zack Dulberg, a tanulmány szerzője szerint a moduláris rendszer összességében „erényes ciklust alkot a felfedezéssel” az AI-műveletek továbbfejlesztése érdekében.

Ez az alkalmazkodóképesség tovább ragyogott, amikor a csapat mindkét AI-ügynököt kihívás elé állította a változó környezetben. Az egyik tesztben az erőforrás célpozíciói egy véletlenszerű rácshelyre kerültek szórványos időskálán. A moduláris AI gyorsan felfogta a változásokat és alkalmazkodott hozzájuk, míg a monolitikus szer sokkal rosszabbul teljesített.

Egy másik teszt során a csapat felforgatta a tárcsát, és megkövetelte, hogy az AI-ügynökök egyidejűleg nyolc tényezőt tartsanak fenn az eredeti négy helyett. A teszt azt a problémát oldotta meg, hogy a számítások egyre valószínűtlenebbé válnak az idő és az energiafogyasztás tekintetében, ahogy a változók száma nő – ezt a „dimenzionalitás átkának” nevezik.

A moduláris ügynök gyorsan alkalmazkodott az erőforrások levadászásához, hogy fenntartsa céljait. Ezzel szemben a monolitikus ágens ismét küszködött, és sokkal tovább tartott, hogy minden egyes statisztikájánál visszatérjen a kívánt szintre.

Egy a sok ellen

A moduláris megközelítés egy másik példa arra, hogy az MI fejlesztése érdekében az idegtudományt is kihasználjuk – miközben betekintést nyújt a nógaink működésébe.

A korábbi munkákhoz hasonlóan a moduláris modulok azt mutatják, hogy lehetséges, hogy egyetlen AI-ügynök párhuzamosan, az adatfeldolgozás szempontjából viszonylag decentralizált módon tanuljon meg különálló és könnyebb részproblémákat. A szerzők szerint egy hierarchikus vezérlőrendszerrel rendelkező modell hozzáadása megerősítheti az MI-t, mivel mindkét struktúra létezik a természetben.

Egyelőre minden modul a saját előnyére van programozva – az én többszörösére. De életcéljaink gyakran összefüggenek egymással; például a szomjúság csillapítása és a hőség elleni küzdelem nem zárják ki egymást. A csapat kiemeli, hogy integrálni kell ezeket a crossovereket – és meg kell tanulni, hogy öröklöttek vagy tanultak-e – a jövőbeli tesztek során.

Dulberghez, az ismeretlen az izgalom része. „Hogyan fejlődnek a modulok? A fejlesztői környezet mely jellemzői nyomást gyakorolnak a különböző megoldásokra?” kérdezte. "És a modularitás előnyei megmagyarázzák, hogy a belső pszichológiai konfliktus miért tűnik olyan központinak az emberi állapot szempontjából?"

Kép: Anesztiev/Pixabay

Időbélyeg:

Még több Singularity Hub