Agenci AI z „wieloma jaźniami” uczą się szybko dostosowywać do zmieniającego się świata

Agenci AI z „wieloma jaźniami” uczą się szybko dostosowywać do zmieniającego się świata

AI Agents With 'Multiple Selves' Learn to Adapt Quickly in a Changing World PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Każdego dnia żonglujemy różnymi potrzebami. jestem głodny, ale wyczerpany; mam się położyć na kanapie czy zrobić obiad? Przegrzewam się w niebezpiecznych temperaturach, ale też jestem bardzo spragniony; czy powinienem wypić letnią wodę, która nagrzewała się w słońcu, czy wsadzić głowę do zamrażarki, dopóki nie będę w stanie zrobić lodu?

W obliczu dylematów często bez zastanowienia podążamy za naszymi podstawowymi instynktami. Ale pod maską wiele sieci neuronowych rywalizuje o podjęcie „najlepszej” decyzji w dowolnym momencie. Spać nad jedzeniem. Zamrażarka nad letnią wodą. Z perspektywy czasu mogą to być okropne decyzje — ale następnym razem uczymy się na błędach z przeszłości.

Nasza zdolność dostosowywania się do ciągle zmieniającego się świata to supermocarstwo, które obecnie wymyka się większości agentów AI. Nawet najbardziej wyrafinowani agenci sztucznej inteligencji psują się — lub wymagają niewyobrażalnej ilości czasu obliczeniowego — podczas żonglowania sprzecznymi celami.

Dla zespołu kierowanego przez dr Jonathana Cohena z Princeton Neuroscience Institute powód jest prosty: systemy uczenia maszynowego generalnie działają jak pojedyncza jednostka, zmuszona do oceny, kalkulacji i realizacji jednego celu na raz. Chociaż sztuczna inteligencja jest w stanie uczyć się na swoich błędach, ma trudności ze znalezieniem właściwej równowagi, gdy ma do czynienia z wieloma przeciwstawnymi celami jednocześnie.

Dlaczego więc nie rozbić AI na części?

In nowe badanie opublikowane w PNAS, zespół wziął stronę z neuronauki kognitywnej i zbudował modułowego agenta AI.

Pomysł z pozoru prosty. Zamiast monolitycznej sztucznej inteligencji — pojedynczej sieci obejmującej całe „ja” — zespół skonstruował modułowego agenta, z którego każda część ma własną „motywację” i cele, ale zarządza jednym „ciałem”. Podobnie jak w społeczeństwie demokratycznym, system sztucznej inteligencji przekonuje sam siebie, aby wybrać najlepszą reakcję, a działanie, które najprawdopodobniej przyniesie największy zwycięski wynik, kieruje jego następnym krokiem.

W kilku symulacjach modułowa sztuczna inteligencja przewyższyła swojego klasycznego monolitycznego rówieśnika. Jego zdolności adaptacyjne szczególnie zabłysły, gdy naukowcy sztucznie zwiększyli liczbę celów, które musiał jednocześnie utrzymać. Sztuczna inteligencja w stylu Lego szybko się dostosowała, podczas gdy jej monolityczny odpowiednik z trudem nadrabiał zaległości.

„Jednym z najbardziej fundamentalnych pytań dotyczących agencji jest to, w jaki sposób dana osoba radzi sobie ze sprzecznymi potrzebami” – powiedział zespół. Dzięki dekonstrukcji agenta AI badania nie tylko zapewniają wgląd w inteligentniejszych agentów uczenia maszynowego. To także „toruje drogę do zrozumienia konfliktów psychologicznych nieodłącznie związanych z ludzką psychiką” napisał Dr Rober Boshra z Princeton University, który nie był zaangażowany w te prace.

Gra wideo życia

W jaki sposób inteligentne istoty uczą się równoważyć sprzeczne potrzeby w złożonym, zmieniającym się świecie?

Filozoficzne pytanie nawiedza wiele dziedzin – neuronaukę, psychologię, ekonomię – które zagłębiają się w ludzką naturę. Nie mamy jeszcze jasnych odpowiedzi. Ale ponieważ sztuczna inteligencja coraz częściej staje w obliczu podobnych wyzwań, gdy wkracza do świata rzeczywistego, nadszedł czas, aby stawić czoła odwiecznemu problemowi.

Nowe studium podjęło wyzwanie w postaci prostej gry RPG (role-playing game). Istnieją dwie postacie, które poruszają się po świecie przypominającym siatkę, a każda z nich próbuje znaleźć zasoby, aby przetrwać.

Pierwszy uczestnik: monolityczny agent — inaczej zwany „ja” — wyszkolony przy użyciu głębokiego uczenia Q (DQL). Algorytm spopularyzowany przez DeepMind jest szczególnie skuteczny w określaniu następnego optymalnego kroku w zależności od jego aktualnego stanu. Na przykład, jak w grze wideo, powinienem iść w lewo czy w prawo? Przesuń które szachy lub pionek Go i gdzie? W tym przypadku algorytm bada całe środowisko, podążając za pojedynczym sygnałem nagrody — czyli swoim ostatecznym celem. W pewnym sensie agent monolityczny jest zunifikowanym mózgiem, który stara się zmaksymalizować najlepszy wynik po jednoczesnym przetwarzaniu wszystkich zasobów w tandemie.

Przeciwnik: modułowa sztuczna inteligencja. Podobnie jak ośmiornica z częściowo autonomicznymi kończynami, agent AI jest podzielony na podagentów, z których każdy ma własne cele i informacje zwrotne. Aby walka była uczciwa, każdy moduł jest również szkolony z DQL. Oddzielne „mózgi” obserwują swoje otoczenie i uczą się wybierać najlepszą opcję – ale tylko dostosowaną do własnych celów. Przewidywane wyniki są następnie sumowane. Następnie wybierane jest rozwiązanie z potencjalnie optymalnym wynikiem, pilotując agenta AI do następnego wyboru.

A boisko?

Gra jest niezwykle okrojoną wersją gry survivalowej. Każdy agent AI porusza się po dwuwymiarowej siatce, która ma różne rodzaje zasobów ukrytych w niektórych regionach. Celem jest utrzymanie czterech statystyk agenta na ustalonym poziomie, przy czym każda z nich stopniowo maleje w miarę upływu czasu. Kiedy spada wiele statystyk, sztuczna inteligencja decyduje, którą z nich nadać priorytet.

W przypadku graczy wideo pomyśl o teście jako o wrzuceniu do nowej mapy gry i próbie znalezienia zasobów do zwiększenia, na przykład zdrowia, magii, wytrzymałości i siły ataku. W naszym codziennym życiu równoważy głód, temperaturę, sen i inne podstawowe potrzeby fizjologiczne.

„Na przykład, jeśli agent miał niską statystykę „głodu”, mógł zebrać zasób „żywności”, przemieszczając się do lokalizacji tego zasobu” — wyjaśnił zespół.

Las dla drzew

Pierwszy test rozpoczął się od stosunkowo prostego środowiska. Lokalizacja każdego celu związanego z zasobami została ustalona w rogu areny gry. Monolityczny agent z łatwością utrzymywał swoje cztery statystyki po 30,000 5,000 kroków treningowych, chociaż przechodził przez okres przekroczenia i niedoszacowania, aż do osiągnięcia zamierzonych celów. Natomiast modułowy agent uczył się znacznie szybciej. Po XNUMX krokach uczenia agent zdążył już zrozumieć „stan świata”.

Część sprawności modułowej sztucznej inteligencji wynikała z nieodłącznego poczucia swobodnej eksploracji, powiedzieli autorzy. W przeciwieństwie do poprzednich metod systemów modułowych, które dzielą i podbijają, aby osiągnąć ostateczny cel, tutaj sztuczna inteligencja reprezentuje bardziej holistyczną relację społeczną — taką, w której niektóre moduły zyskują, a inne przegrywają w ciągłym stanie wewnętrznej rywalizacji.

Ponieważ „ciało” agenta AI kieruje się tylko zwycięskim modułem, przegrani muszą pogodzić się z decyzją, z którą się nie zgadzają i zostają zmuszeni do nowej rzeczywistości. Następnie muszą szybko dostosować i ponownie obliczyć najlepsze rozwiązanie dla następnego kroku. Innymi słowy, moduły często znajdują się poza swoją strefą komfortu. To trudna miłość, ale nieoczekiwane rezultaty zmuszają ich do zastanowienia się nad nowymi rozwiązaniami – czasami przynoszącymi lepsze rezultaty, których nie rozważyliby, gdyby rozwiązali problem w pojedynkę.

Ogólnie rzecz biorąc, system modułowy tworzy „cnotliwy cykl z eksploracją”, aby dalej ulepszać działania AI, powiedział autor badania Zack Dulberg.

Ta zdolność adaptacji ujawniła się jeszcze bardziej, gdy zespół rzucił wyzwanie obu agentom AI w zmieniających się środowiskach. W jednym teście pozycje celów zasobów przesunęły się do losowej lokalizacji siatki w sporadycznych skalach czasowych. Modułowa sztuczna inteligencja szybko wychwyciła zmiany i dostosowała się do nich, podczas gdy agent monolityczny działał znacznie gorzej.

W innym teście zespół podkręcił tarczę, wymagając od agentów AI jednoczesnego utrzymania ośmiu czynników zamiast oryginalnych czterech. Test rozwiązał problem polegający na tym, że obliczenia stają się coraz bardziej nieprawdopodobne pod względem czasu i zużycia energii wraz ze wzrostem liczby zmiennych – nazwano to „przekleństwem wymiarowości”.

Modułowy agent szybko przystosował się do polowania na zasoby, aby utrzymać swoje cele. W przeciwieństwie do tego, monolityczny agent ponownie miał problemy, znacznie dłużej potrzebował powrotu do pożądanych poziomów dla każdej ze swoich statystyk.

Jeden kontra wielu

Podejście modułowe to kolejny przykład wykorzystania neuronauki do rozwoju sztucznej inteligencji — przy jednoczesnym zapewnieniu wglądu w to, jak działają nasze mózgi.

Podobnie jak w przypadku poprzedniej pracy, moduły pokazują, że pojedynczy agent AI może uczyć się równolegle oddzielnych i łatwiejszych podproblemów w sposób stosunkowo zdecentralizowany pod względem przetwarzania danych. Dodanie modelu z hierarchicznym systemem kontroli może wzmocnić sztuczną inteligencję, twierdzą autorzy, ponieważ obie struktury istnieją w świecie przyrody.

Na razie każdy moduł jest zaprogramowany na własne korzyści – wielokrotność jaźni. Ale nasze cele życiowe są często ze sobą powiązane; na przykład łagodzenie pragnienia i walka z upałem nie wykluczają się wzajemnie. Zespół podkreśla potrzebę zintegrowania tych zwrotnic – i dowiedzenia się, czy są one dziedziczone, czy wyuczone – w przyszłych testach.

Do Dulberga, nieznane jest częścią ekscytacji. „Jak rozwijają się moduły? Jakie cechy środowiska deweloperskiego wywierają presję na różne rozwiązania?” on zapytał. „A czy korzyści płynące z modułowości wyjaśniają, dlaczego wewnętrzny konflikt psychologiczny wydaje się tak centralny dla kondycji człowieka?”

Kredytowych Image: Anestiew/Pixabay

Znak czasu:

Więcej z Centrum osobliwości