Agenti umetne inteligence z 'več jazi' se naučijo hitro prilagajati v spreminjajočem se svetu

Agenti umetne inteligence z 'več jazi' se naučijo hitro prilagajati v spreminjajočem se svetu

AI Agents With 'Multiple Selves' Learn to Adapt Quickly in a Changing World PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Vsak dan žongliramo z različnimi potrebami. Lačen sem, a izčrpan; naj se zgrudim na kavč ali pripravim večerjo? Pregrejem se pri nevarnih temperaturah, a sem tudi izjemno žejen; naj pijem mlačno vodo, ki se je segrela na soncu, ali potisnem glavo v zamrzovalnik, dokler ne bom imel mentalne sposobnosti za izdelavo ledu?

Ko se znajdemo pred dilemami, pogosto brez razmišljanja sledimo osnovnim instinktom. Toda pod pokrovom več nevronskih mrež tekmuje za "najboljšo" odločitev v vsakem trenutku. Prespi nad hrano. Zamrzovalnik nad mlačno vodo. Za nazaj so morda to strašne odločitve, toda naslednjič se bomo naučili iz preteklih napak.

Naša prilagodljivost svetu, ki se nenehno spreminja, je velesila, ki trenutno uide večini agentov AI. Tudi najbolj izpopolnjeni agenti AI se pokvarijo – ali zahtevajo nevzdržne količine računalniškega časa –, ko žonglirajo z nasprotujočimi si cilji.

Za ekipo, ki jo vodi dr. Jonathan Cohen na Inštitutu za nevroznanost Princeton, je razlog preprost: sistemi strojnega učenja na splošno delujejo kot ena sama entiteta, prisiljena ocenjevati, izračunavati in izvajati en cilj naenkrat. Čeprav se umetna inteligenca lahko uči na svojih napakah, se trudi najti pravo ravnovesje, ko jo izziva več nasprotujočih si ciljev hkrati.

Zakaj torej ne bi razbili AI?

In nova študija objavljeno v PNAS, je ekipa vzela stran iz kognitivne nevroznanosti in zgradila modularnega agenta AI.

Ideja je na videz preprosta. Namesto monolitnega umetne inteligence – enotnega omrežja, ki zajema celotnega »jaza« – je ekipa izdelala modularnega agenta, pri čemer ima vsak del svojo lastno »motivacijo« in cilje, vendar poveljuje enemu samemu »telesu«. Tako kot demokratična družba se sistem umetne inteligence v sebi prepira, da se odloči za najboljši odziv, pri čemer dejanje, ki bo najverjetneje prineslo največji zmagovalni rezultat, vodi njegov naslednji korak.

V več simulacijah je modularni AI presegel svojega klasičnega monolitnega vrstnika. Njegova prilagodljivost je še posebej zablestela, ko so raziskovalci umetno povečali število ciljev, ki jih je moral hkrati vzdrževati. Lego-esque AI se je hitro prilagodil, medtem ko je njegov monolitni dvojnik le s težavo dohiteval.

»Eno najbolj temeljnih vprašanj o posredništvu je, kako posameznik obvladuje nasprotujoče si potrebe,« je dejala ekipa. Z dekonstrukcijo agenta AI raziskava ne zagotavlja le vpogleda v pametnejše agente strojnega učenja. Prav tako »utira pot k razumevanju psiholoških konfliktov, ki so neločljivo povezani s človeško psiho,« Napisal Dr. Rober Boshra z univerze Princeton, ki ni bil vključen v delo.

Video igra življenja

Kako se inteligentna bitja naučijo uravnotežiti nasprotujoče si potrebe v zapletenem, spreminjajočem se svetu?

Filozofsko vprašanje je preganjalo številna področja – nevroznanost, psihologijo, ekonomijo –, ki se poglabljajo v človeško naravo. Nimamo še jasnih odgovorov. Ker pa se umetna inteligenca vse pogosteje sooča s podobnimi izzivi, ko vstopa v resnični svet, je čas, da se spopademo s prastarim problemom neposredno.

Nova študija je sprejela izziv v obliki preproste RPG (igre igranja vlog). Obstajata dva lika, ki krmarita po mrežastem svetu in vsak poskuša najti vire za preživetje.

Prvi tekmovalec: monolitni agent – ​​sicer znan kot »jaz« – usposobljen z uporabo globokega Q-učenja (DQL). Algoritem, ki ga je populariziral DeepMind, je še posebej močan pri ugotavljanju naslednjega optimalnega koraka glede na njegovo trenutno stanje. Na primer, kot v videoigri, naj grem levo ali desno? Premaknite katero šahovsko figuro ali figuro Go in kam? Tu algoritem pregleda celotno okolje, medtem ko sledi enemu samemu signalu za nagrado – to je svojemu končnemu cilju. V nekem smislu je monolitni agent enotni možgani, ki poskuša maksimizirati najboljši rezultat po hkratni obdelavi vseh virov v tandemu.

Nasprotnik: modularni AI. Kot hobotnica s polavtonomnimi okončinami je agent AI razdeljen na podagente, od katerih ima vsak svoje cilje in povratne informacije. Da bo boj pošten, je vsak modul tudi usposobljen z DQL. Ločeni »možgani« opazujejo svojo okolico in se učijo izbrati najboljšo možnost – vendar le prilagojeno njihovim lastnim ciljem. Predvideni rezultati se nato seštejejo. Nato se izbere rešitev s potencialno optimalnim izidom, agent AI pa se usmerja k naslednji izbiri.

In igrišče?

Igra je izjemno okrnjena različica igre preživetja. Vsak agent AI se sprehaja po dvodimenzionalni mreži, ki ima v nekaterih regijah skrite različne vrste virov. Cilj je ohraniti agentove štiri statistike na nastavljeni ravni, pri čemer se vsaka sčasoma postopoma zmanjšuje. Ko se več statistik pade, se AI odloči, kateri bo dal prednost.

Za igralce video iger si predstavljajte preizkus kot vrženje v nov zemljevid igre in iskanje virov za povečanje, na primer, zdravja, magije, vzdržljivosti in moči napada. Za naše vsakdanje življenje je uravnavanje lakote, temperature, spanja in drugih osnovnih fizioloških potreb.

»Če bi imel agent na primer nizko statistiko 'lakote', bi lahko zbral vir 'hrane' tako, da bi se premaknil na lokacijo tega vira,« je pojasnila ekipa.

Gozd za drevesa

Prvi test se je začel z razmeroma preprostim okoljem. Lokacija za vsak cilj vira je bila določena na vogalu igralne arene. Monolitni agent je zlahka ohranil svoje štiri statistike po 30,000 korakih usposabljanja, čeprav je šel skozi obdobje prekoračitve in premajhnosti, dokler ni dosegel ciljnih ciljev. Nasprotno pa se je modularni agent učil veliko hitreje. S 5,000 učnimi koraki je agent že ujel razumevanje »stanja sveta«.

Del moči modularne umetne inteligence izvira iz notranjega občutka svobodnega raziskovanja, so povedali avtorji. Za razliko od prejšnjih metod za modularne sisteme, ki delijo in osvajajo, da bi se pomaknili proti končnemu cilju, tukaj umetna inteligenca predstavlja bolj celostno družbeno razmerje – takšno, v katerem nekateri moduli pridobijo in nekateri izgubijo zaradi stalnega stanja notranje konkurence.

Ker »telo« agenta AI vodi samo zmagovalni modul, se morajo poraženi strinjati z odločitvijo, s katero se niso strinjali, in so prisiljeni v novo realnost. Nato se morajo hitro prilagoditi in preračunati najboljšo rešitev za naslednji korak. Z drugimi besedami, moduli se pogosto znajdejo zunaj svojega območja udobja. To je težka ljubezen, a nepričakovani rezultati jih prisilijo, da razmislijo o novih rešitvah – včasih prinesejo boljše rezultate, o katerih ne bi razmišljali, če bi se težave lotili sami.

Na splošno modularni sistem tvori "mogoč cikel z raziskovanjem" za nadaljnje izboljšanje dejanj umetne inteligence, je dejal avtor študije Zack Dulberg.

Ta prilagodljivost je še bolj zasijala, ko je ekipa izzvala oba agenta AI v spreminjajočih se okoljih. V enem preizkusu so se položaji ciljev virov premaknili na naključno lokacijo v mreži v občasnih časovnih lestvicah. Modularni AI je hitro zaznal spremembe in se jim prilagodil, medtem ko se je monolitni agent izkazal veliko slabše.

V drugem testu je ekipa dvignila številčnico in od agentov AI zahtevala, da hkrati vzdržujejo osem faktorjev namesto prvotnih štirih. Preizkus se je spopadel s problemom, da izračuni postajajo vse bolj neverjetni v smislu porabe časa in energije, ko se število spremenljivk povečuje - imenovano "prekletstvo dimenzionalnosti".

Modularni agent se je hitro prilagodil lovljenju virov za ohranjanje svojih ciljev. V nasprotju s tem se je monolitni agent spet boril, saj je potreboval veliko dlje, da se je vrnil na želene ravni za vsako svojo statistiko.

Eden proti mnogim

Modularni pristop je še en primer izkoriščanja nevroznanosti za razvoj umetne inteligence – hkrati pa zagotavlja vpogled v delovanje naših nogginov.

Podobno kot pri prejšnjem delu modularni moduli kažejo, da je možno imeti enega samega agenta AI vzporedno učenje ločenih in lažjih podproblemov na način, ki je relativno decentraliziran v smislu obdelave podatkov. Dodajanje modela s hierarhičnim nadzornim sistemom bi lahko okrepilo AI, so povedali avtorji, ker obe strukturi obstajata v naravnem svetu.

Zaenkrat je vsak modul programiran za lastne pridobitve – večkratnik sebe. Toda naši cilji v življenju so pogosto med seboj povezani; na primer, blaženje žeje in boj proti vročini se ne izključujeta. Ekipa poudarja potrebo po integraciji teh križancev – in spoznanju, ali so podedovani ali naučeni – v prihodnjih testih.

V Dulberg, neznano je del navdušenja. »Kako se razvijajo moduli? Katere značilnosti razvojnega okolja pritiskajo na različne rešitve?« je vprašal. "In ali prednosti modularnosti pojasnjujejo, zakaj se notranji psihološki konflikt zdi tako osrednjega pomena za človeško stanje?"

Kreditno slike: Anestijev/Pixabay

Časovni žig:

Več od Središče singularnosti