AI-agenter med "flere selv" Lær å tilpasse seg raskt i en verden i endring

AI-agenter med "flere selv" Lær å tilpasse seg raskt i en verden i endring

AI-agenter med "flere selv" Lær å tilpasse seg raskt i en verden i endring PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Hver dag sjonglerer vi forskjellige behov. Jeg er sulten, men utslitt; skal jeg falle sammen på sofaen eller lage middag? Jeg overopphetes i farlige temperaturer, men også ekstremt tørst; skal jeg tøffe det lunken vannet som har varmet opp under solen, eller stikke hodet i fryseren til jeg har mental kapasitet til å lage is?

Når vi står overfor dilemmaer, følger vi ofte våre grunnleggende instinkter uten en tanke. Men under panseret konkurrerer flere nevrale nettverk om å ta den "beste" avgjørelsen til enhver tid. Sov over mat. Frys over lunkent vann. De kan være forferdelige avgjørelser i ettertid – men neste gang lærer vi av våre tidligere feil.

Vår tilpasningsevne til en verden i stadig endring er en supermakt som for tiden slipper unna de fleste AI-agenter. Selv de mest sofistikerte AI-agentene bryter sammen – eller krever uholdbare mengder datatid – mens de sjonglerer mot motstridende mål.

For et team ledet av Dr. Jonathan Cohen ved Princeton Neuroscience Institute er grunnen enkel: maskinlæringssystemer fungerer vanligvis som en enkelt enhet, tvunget til å evaluere, beregne og utføre ett mål om gangen. Selv om den er i stand til å lære av sine feil, sliter AI med å finne den rette balansen når den utfordres med flere motstridende mål samtidig.

Så hvorfor ikke bryte AI fra hverandre?

In en ny studie publisert i PNAS, tok teamet en side fra kognitiv nevrovitenskap og bygde en modulær AI-agent.

Ideen er tilsynelatende enkel. I stedet for en monolitisk kunstig intelligens – et enkelt nettverk som omfatter hele «selvet» – konstruerte teamet en modulær agent, hver del med sin egen «motivasjon» og mål, men kommanderte en enkelt «kropp». I likhet med et demokratisk samfunn, argumenterer AI-systemet i seg selv for å bestemme den beste responsen, der handlingen som mest sannsynlig vil gi det største vinnerresultatet styrer det neste trinnet.

I flere simuleringer overgikk den modulære AI sin klassiske monolittiske peer. Dens tilpasningsevne skinnet spesielt da forskerne kunstig økte antall mål som den måtte opprettholde samtidig. Den Lego-aktige AI tilpasset seg raskt, mens dens monolittiske motstykke slet med å ta igjen.

"Et av de mest grunnleggende spørsmålene om byrå er hvordan en person håndterer motstridende behov," sa teamet. Ved å dekonstruere en AI-agent gir forskningen ikke bare innsikt i smartere maskinlæringsagenter. Det baner også vei for å forstå psykologiske konflikter som er iboende i den menneskelige psyken, skrev Dr. Rober Boshra ved Princeton University, som ikke var involvert i arbeidet.

Livets videospill

Hvordan lærer intelligente vesener å balansere motstridende behov i en kompleks, foranderlig verden?

Det filosofiske spørsmålet har hjemsøkt flere felt – nevrovitenskap, psykologi, økonomi – som fordyper seg i menneskets natur. Vi har ennå ikke klare svar. Men med AI som i økende grad møter lignende utfordringer når den kommer inn i den virkelige verden, er det på tide å takle det eldgamle problemet direkte.

Den nye studien tok utfordringen i form av et enkelt RPG (rollespill). Det er to karakterer som navigerer i en rutenettlignende verden, som hver prøver å finne ressurser for å overleve.

Den første deltakeren: den monolittiske agenten - ellers kjent som "selvet" - trent ved hjelp av dyp Q-læring (DQL). Popularisert av DeepMind, er algoritmen spesielt kraftig til å finne ut det neste optimale trinnet avhengig av dens nåværende tilstand. For eksempel, som i et videospill, bør jeg gå til venstre eller høyre? Flytte hvilken sjakk eller Go-brikke, og hvor? Her kartlegger algoritmen hele miljøet mens den følger et enkelt belønningssignal - det vil si det endelige målet. På en måte er det monolittiske middelet en enhetlig hjerne som prøver å maksimere det beste resultatet etter å ha behandlet alle ressursene samtidig.

Motstanderen: modulær AI. Som en blekksprut med semi-autonome lemmer, er AI-agenten brutt ned i underagenter, hver med sine egne mål og tilbakemeldinger. For å gjøre det til en rettferdig kamp, ​​trenes hver modul også med DQL. De separate "hjernene" observerer omgivelsene sine og lærer å velge det beste alternativet – men bare skreddersydd til deres egne mål. De forutsagte resultatene summeres deretter opp. Løsningen med det potensielle optimale resultatet velges deretter, og piloterer AI-agenten til neste valg.

Og spillefeltet?

Spillet er en ekstremt nedstrippet versjon av et overlevelsesspill. Hver AI-agent streifer rundt i et todimensjonalt rutenett som har forskjellige typer ressurser skjult i enkelte regioner. Målet er å holde agentens fire statistikker på det angitte nivået, med hver av dem gradvis avtagende over tid. Når flere statistikker faller, er det opp til AI å bestemme hvilken som skal prioriteres.

For videospillere, tenk på testen som å bli kastet inn i et nytt spillkart og prøve å finne ressurser for å øke for eksempel helse, magi, utholdenhet og angrepskraft. For hverdagen vår balanserer det sult, temperatur, søvn og andre grunnleggende fysiologiske behov.

"For eksempel, hvis agenten hadde en lav 'sult'-statistikk, kunne den samle inn 'mat'-ressursen ved å flytte til stedet for den ressursen," forklarte teamet.

Skog for trærne

Den første testen startet med et relativt enkelt miljø. Plasseringen for hvert ressursmål ble fastsatt på hjørnet av spillarenaen. Den monolittiske agenten opprettholdt lett sine fire statistikker etter 30,000 5,000 treningstrinn, selv om den gikk gjennom en periode med overskyting og underskyting til de nådde målene. Derimot lærte den modulære agenten mye raskere. Ved XNUMX læringstrinn hadde agenten allerede fanget en forståelse av «verdens tilstand».

En del av den modulære AIs dyktighet kom fra en iboende følelse av fri utforskning, sa forfatterne. I motsetning til tidligere metoder for modulære systemer som deler og erobrer for å bevege seg mot et endelig mål, representerer AI her en mer helhetlig sosial relasjon - en der noen moduler vinner og noen taper gjennom en konstant tilstand av intern konkurranse.

Fordi AI-agentens "kropp" kun styres av den vinnende modulen, må de tapende gå med på en avgjørelse de ikke var enige i og tvinges inn i en ny virkelighet. De må da raskt tilpasse og beregne den beste løsningen for neste trinn. Med andre ord, moduler befinner seg ofte utenfor komfortsonen. Det er tøff kjærlighet, men de uventede resultatene tvinger dem til å tenke på nye løsninger – noen ganger gir det bedre resultater de ikke ville ha vurdert hvis de skulle takle problemet alene.

Totalt sett danner det modulære systemet en "dydig syklus med utforskning" for å forbedre AI-handlinger ytterligere, sa studieforfatter Zack Dulberg.

Denne tilpasningsevnen skinte ytterligere da teamet utfordret begge AI-agentene i skiftende miljøer. I en test flyttet ressursmålposisjonene til et tilfeldig rutenettsted på sporadiske tidsskalaer. Den modulære AI fanget raskt opp endringene og tilpasset seg dem, mens det monolittiske middelet presterte langt dårligere.

I en annen test skrudde teamet opp skiven, og krevde at AI-agentene samtidig skulle opprettholde åtte faktorer i stedet for de opprinnelige fire. Testen taklet problemet med at beregninger blir stadig mer usannsynlige når det gjelder tid og energiforbruk etter hvert som antallet variabler øker - kalt "dimensjonalitetens forbannelse."

Den modulære agenten tilpasset seg raskt for å jakte på ressurser for å opprettholde sine mål. I motsetning til dette slet den monolittiske agenten igjen, og tok mye lengre tid å gå tilbake til de ønskede nivåene for hver av statistikkene.

En mot mange

Den modulære tilnærmingen er et annet eksempel på å utnytte nevrovitenskap for utvikling av AI – samtidig som den gir innsikt i hvordan nogginene våre fungerer.

I likhet med tidligere arbeid viser de modulære modulene at det er mulig å la en enkelt AI-agent lære separate og enklere delproblemer parallelt på en måte som er relativt desentralisert når det gjelder databehandling. Å legge til en modell med et hierarkisk kontrollsystem kan styrke AI, sa forfatterne, fordi begge strukturene eksisterer i den naturlige verden.

Foreløpig er hver modul programmert for sine egne gevinster – et multiplum av jeg. Men våre mål i livet henger ofte sammen; for eksempel å lindre tørste og kjempe mot hete utelukker ikke hverandre. Teamet fremhever behovet for å integrere disse crossoverene – og lære om de er arvet eller lært – i fremtidige tester.

Til Dulberg, det ukjente er en del av spenningen. «Hvordan utvikler moduler seg? Hvilke trekk ved utviklingsmiljøet legger press på ulike løsninger?» spurte han. "Og forklarer fordelene med modularitet hvorfor indre psykologiske konflikter virker så sentrale for den menneskelige tilstanden?"

Bilde Credit: Anestiev/Pixabay

Tidstempel:

Mer fra Singularity Hub