AI-agenter med 'Multiple Selves' Lær at tilpasse sig hurtigt i en foranderlig verden

AI-agenter med 'Multiple Selves' Lær at tilpasse sig hurtigt i en foranderlig verden

AI Agents With 'Multiple Selves' Learn to Adapt Quickly in a Changing World PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Hver dag jonglerer vi med forskellige behov. Jeg er sulten, men udmattet; skal jeg falde sammen på sofaen eller lave aftensmad? Jeg bliver overophedet i farlige temperaturer, men også ekstremt tørstig; skal jeg tøffe det lunkne vand, der har varmet op under solen, eller stikke hovedet i fryseren, indtil jeg har den mentale kapacitet til at lave is?

Når vi står over for dilemmaer, følger vi ofte vores grundlæggende instinkter uden en tanke. Men under motorhjelmen konkurrerer flere neurale netværk om at træffe den "bedste" beslutning til enhver tid. Sov over mad. Fryser over lunkent vand. Det kan være forfærdelige beslutninger set i bakspejlet - men næste gang lærer vi af vores tidligere fejl.

Vores tilpasningsevne til en verden i konstant forandring er en supermagt, der i øjeblikket undslipper de fleste AI-agenter. Selv de mest sofistikerede AI-agenter bryder sammen – eller kræver uholdbare mængder af computertid – mens de jonglerer med modstridende mål.

For et team ledet af Dr. Jonathan Cohen ved Princeton Neuroscience Institute er årsagen enkel: maskinlæringssystemer fungerer generelt som en enkelt enhed, tvunget til at evaluere, beregne og udføre ét mål ad gangen. Selvom den er i stand til at lære af sine fejl, kæmper AI for at finde den rigtige balance, når den udfordres med flere modsatrettede mål samtidigt.

Så hvorfor ikke bryde AI fra hinanden?

In en ny undersøgelse offentliggjort i PNAS, tog holdet en side fra kognitiv neurovidenskab og byggede en modulær AI-agent.

Ideen er tilsyneladende enkel. I stedet for en monolitisk AI - et enkelt netværk, der omfatter hele "selvet" - konstruerede teamet en modulær agent, hver del med sin egen "motivation" og mål, men kommanderede en enkelt "krop". Ligesom et demokratisk samfund argumenterer AI-systemet i sig selv for at beslutte det bedste svar, hvor den handling, der med størst sandsynlighed vil give det største vinderudfald, guider dets næste skridt.

I flere simuleringer overgik den modulære AI sin klassiske monolitiske peer. Dens tilpasningsevne skinnede især, da forskerne kunstigt øgede antallet af mål, som den skulle opretholde samtidigt. Den Lego-agtige AI tilpassede sig hurtigt, mens dens monolitiske modstykke kæmpede for at indhente det.

"Et af de mest grundlæggende spørgsmål om agentur er, hvordan en person håndterer modstridende behov," sagde teamet. Ved at dekonstruere en AI-agent giver forskningen ikke kun indsigt i smartere maskinlæringsagenter. Det baner også vejen til at forstå psykologiske konflikter, der er iboende i den menneskelige psyke, skrev Dr. Rober Boshra ved Princeton University, som ikke var involveret i arbejdet.

Livets videospil

Hvordan lærer intelligente væsener at balancere modstridende behov i en kompleks, foranderlig verden?

Det filosofiske spørgsmål har hjemsøgt flere felter - neurovidenskab, psykologi, økonomi - der dykker ned i den menneskelige natur. Vi har endnu ikke klare svar. Men da kunstig intelligens i stigende grad står over for lignende udfordringer, efterhånden som den kommer ind i den virkelige verden, er det tid til at tackle det ældgamle problem direkte.

Den nye undersøgelse tog udfordringen op i form af et simpelt RPG (rollespil). Der er to karakterer, der navigerer i en gitterlignende verden, der hver især forsøger at finde ressourcer til at overleve.

Den første deltager: den monolitiske agent - også kendt som "selvet" - trænet ved hjælp af deep-Q-learning (DQL). Populært af DeepMind, algoritmen er især effektiv til at finde ud af det næste optimale trin afhængigt af dens nuværende tilstand. For eksempel, som i et videospil, skal jeg gå til venstre eller højre? Flyt hvilken skak- eller Go-brik, og hvorhen? Her overvåger algoritmen hele miljøet, mens den følger et enkelt belønningssignal - det vil sige dets endelige mål. På en måde er det monolitiske middel en samlet hjerne, der forsøger at maksimere det bedste resultat efter samtidig at have behandlet alle ressourcer i tandem.

Modstanderen: modulær AI. Som en blæksprutte med semi-autonome lemmer er AI-agenten opdelt i sub-agenter, hver med sine egne mål og feedback. For at gøre det til en fair kamp, ​​trænes hvert modul også med DQL. De separate "hjerner" observerer deres omgivelser og lærer at vælge den bedste mulighed - men kun skræddersyet til deres egne mål. De forudsagte resultater opsummeres derefter. Løsningen med det potentielle optimale resultat vælges derefter, og AI-agenten styres videre til sit næste valg.

Og spillebanen?

Spillet er en ekstremt strippet version af et overlevelsesspil. Hver AI-agent strejfer rundt i et todimensionelt gitter, der har forskellige typer ressourcer skjult i nogle regioner. Målet er at holde agentens fire statistikker på deres indstillede niveau, hvor hver af dem gradvist falder over tid. Når flere statistikker vælter, er det op til AI'en at beslutte, hvilken der skal prioriteres.

For videospillere, tænk på testen som at blive kastet ind i et nyt spilkort og forsøge at finde ressourcer til at booste for eksempel sundhed, magi, udholdenhed og angrebskraft. I vores hverdag balancerer det sult, temperatur, søvn og andre basale fysiologiske behov.

"For eksempel, hvis agenten havde en lav 'sult'-statistik, kunne den indsamle 'mad'-ressourcen ved at flytte til placeringen af ​​den ressource," forklarede teamet.

Skov for træerne

Den første test startede med et relativt simpelt miljø. Placeringen for hvert ressourcemål blev fastsat i hjørnet af spillearenaen. Den monolitiske agent vedligeholdt let sine fire statistikker efter 30,000 træningstrin, selvom den gennemgik en periode med overskridelse og underskud, indtil de nåede de tilsigtede mål. I modsætning hertil lærte den modulære agent langt hurtigere. Ved 5,000 læringstrin havde agenten allerede fanget en forståelse af "verdens tilstand."

En del af den modulære AI's dygtighed kom fra en iboende følelse af fri udforskning, sagde forfatterne. I modsætning til tidligere metoder til modulære systemer, der deler og erobrer for at bevæge sig mod et endeligt mål, repræsenterer AI her et mere holistisk socialt forhold - et, hvor nogle moduler vinder og nogle taber gennem en konstant tilstand af intern konkurrence.

Fordi AI-agentens "krop" kun styres af det vindende modul, skal de tabende følge en beslutning, de ikke var enige i, og tvinges ind i en ny virkelighed. De skal derefter hurtigt tilpasse sig og genberegne den bedste løsning til næste trin. Med andre ord befinder moduler sig ofte uden for deres komfortzone. Det er hård kærlighed, men de uventede resultater tvinger dem til at overveje nye løsninger - nogle gange giver det bedre resultater, som de ikke ville have overvejet, hvis de tacklede problemet alene.

Samlet set danner det modulære system en "dydig cyklus med udforskning" for yderligere at forbedre AI-handlinger, sagde studieforfatter Zack Dulberg.

Denne tilpasningsevne skinnede yderligere, da holdet udfordrede begge AI-agenter i skiftende miljøer. I en test flyttede ressourcemålpositionerne til en tilfældig gitterplacering på sporadiske tidsskalaer. Den modulære AI opfangede hurtigt ændringerne og tilpassede sig dem, hvorimod det monolitiske middel klarede sig langt dårligere.

I en anden test skruede holdet op for urskiven og krævede, at AI-agenterne samtidig skulle opretholde otte faktorer i stedet for de oprindelige fire. Testen tacklede problemet med, at beregninger bliver mere og mere usandsynlige med hensyn til tid og energiforbrug, efterhånden som antallet af variabler stiger - kaldet "dimensionalitetens forbandelse."

Den modulære agent tilpassede sig hurtigt til at jage ressourcer for at opretholde sine mål. I modsætning hertil kæmpede den monolitiske agent igen og tog meget længere tid at vende tilbage til de ønskede niveauer for hver af dens statistik.

En mod mange

Den modulære tilgang er endnu et eksempel på at udnytte neurovidenskab til udvikling af AI – samtidig med at den giver indsigt i, hvordan vores noggins fungerer.

I lighed med tidligere arbejde viser de modulære moduler, at det er muligt at få en enkelt AI-agent til at lære separate og nemmere delproblemer parallelt på en måde, der er relativt decentral med hensyn til databehandling. Tilføjelse af en model med et hierarkisk kontrolsystem kunne styrke AI, sagde forfatterne, fordi begge strukturer eksisterer i den naturlige verden.

Indtil videre er hvert modul programmeret til sine egne gevinster – et multiplum af jeg. Men vores mål i livet hænger ofte sammen; for eksempel at lindre tørst og kæmpe mod varme udelukker ikke hinanden. Teamet fremhæver behovet for at integrere disse crossovers - og lære, om de er nedarvet eller lært - i fremtidige tests.

Til Dulberg, det ukendte er en del af spændingen. “Hvordan udvikler moduler sig? Hvilke træk ved udviklingsmiljøet lægger pres på forskellige løsninger?” spurgte han. "Og forklarer fordelene ved modularitet, hvorfor indre psykologiske konflikter virker så centrale for den menneskelige tilstand?"

Billede Credit: Anestiev/Pixabay

Tidsstempel:

Mere fra Singularitet Hub