KI-Agenten mit „multiplen Selbsts“ lernen, sich schnell an eine sich verändernde Welt anzupassen

KI-Agenten mit „multiplen Selbsts“ lernen, sich schnell an eine sich verändernde Welt anzupassen

KI-Agenten mit „multiplen Selbsts“ lernen, sich schnell an eine sich verändernde Welt anzupassen PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Jeden Tag jonglieren wir mit unterschiedlichen Bedürfnissen. Ich bin hungrig, aber erschöpft; Soll ich mich auf die Couch legen oder Abendessen machen? Ich bin bei gefährlichen Temperaturen überhitzt, aber auch extrem durstig; Soll ich das lauwarme Wasser trinken, das in der Sonne erhitzt wurde, oder meinen Kopf in den Gefrierschrank stecken, bis ich geistig in der Lage bin, Eis zu machen?

Wenn wir mit Dilemmata konfrontiert werden, folgen wir oft gedankenlos unseren Grundinstinkten. Aber unter der Haube konkurrieren mehrere neuronale Netze darum, zu jedem Zeitpunkt die „beste“ Entscheidung zu treffen. Beim Essen schlafen. Über lauwarmem Wasser einfrieren. Im Nachhinein mögen es schreckliche Entscheidungen sein – aber beim nächsten Mal lernen wir aus unseren Fehlern der Vergangenheit.

Unsere Anpassungsfähigkeit an eine sich ständig verändernde Welt ist eine Supermacht, die den meisten KI-Agenten derzeit entgeht. Selbst die ausgefeiltesten KI-Agenten scheitern – oder benötigen unhaltbar viel Rechenzeit –, wenn sie mit widersprüchlichen Zielen jonglieren.

Für ein Team unter der Leitung von Dr. Jonathan Cohen am Princeton Neuroscience Institute ist der Grund einfach: Maschinelle Lernsysteme agieren im Allgemeinen als eine Einheit und sind gezwungen, jeweils ein Ziel zu bewerten, zu berechnen und auszuführen. Obwohl sie aus ihren Fehlern lernen kann, fällt es der KI schwer, die richtige Balance zu finden, wenn sie gleichzeitig mit mehreren gegensätzlichen Zielen konfrontiert wird.

Warum also nicht die KI auseinanderbrechen?

In eine neue Studie veröffentlicht PNASDas Team orientierte sich an der kognitiven Neurowissenschaft und baute einen modularen KI-Agenten.

Die Idee ist scheinbar einfach. Anstelle einer monolithischen KI – einem einzelnen Netzwerk, das das gesamte „Selbst“ umfasst – konstruierte das Team einen modularen Agenten, bei dem jeder Teil seine eigene „Motivation“ und Ziele hat, aber einen einzigen „Körper“ befehligt. Wie eine demokratische Gesellschaft argumentiert das KI-System in sich selbst, um über die beste Reaktion zu entscheiden, wobei die Aktion, die am wahrscheinlichsten zu dem größten Gewinn führt, den nächsten Schritt leitet.

In mehreren Simulationen übertraf die modulare KI ihren klassischen monolithischen Kollegen. Seine Anpassungsfähigkeit glänzte besonders, als die Forscher die Anzahl der gleichzeitig zu erfüllenden Ziele künstlich erhöhten. Die Lego-ähnliche KI passte sich schnell an, während ihr monolithisches Gegenstück Schwierigkeiten hatte, aufzuholen.

„Eine der grundlegendsten Fragen zur Entscheidungsfreiheit ist, wie ein Einzelner mit widersprüchlichen Bedürfnissen umgeht“, sagte das Team. Durch die Dekonstruktion eines KI-Agenten liefert die Forschung nicht nur Einblicke in intelligentere Agenten für maschinelles Lernen. Es „ebnet auch den Weg zum Verständnis psychologischer Konflikte, die der menschlichen Psyche innewohnen.“ schrieb Dr. Rober Boshra von der Princeton University, der nicht an der Arbeit beteiligt war.

Das Videospiel des Lebens

Wie lernen intelligente Wesen, widersprüchliche Bedürfnisse in einer komplexen, sich verändernden Welt in Einklang zu bringen?

Die philosophische Frage beschäftigt viele Bereiche – Neurowissenschaften, Psychologie, Wirtschaft –, die sich mit der menschlichen Natur befassen. Wir haben noch keine klaren Antworten. Doch da die KI bei ihrem Einzug in die reale Welt zunehmend vor ähnlichen Herausforderungen steht, ist es an der Zeit, das uralte Problem direkt anzugehen.

Die neue Studie nahm die Herausforderung in Form eines einfachen RPGs (Rollenspiels) an. Es gibt zwei Charaktere, die durch eine gitterartige Welt navigieren und jeweils versuchen, Ressourcen zum Überleben zu finden.

Der erste Teilnehmer: der monolithische Agent – ​​auch bekannt als das „Selbst“ – trainiert mithilfe von Deep-Q-Learning (DQL). Der von DeepMind populär gemachte Algorithmus ist besonders leistungsfähig, wenn es darum geht, abhängig von seinem aktuellen Zustand den nächsten optimalen Schritt herauszufinden. Soll ich beispielsweise wie in einem Videospiel nach links oder rechts gehen? Welche Schach- oder Go-Figur bewegen und wohin? Dabei überwacht der Algorithmus die gesamte Umgebung und folgt dabei einem einzigen Belohnungssignal – also seinem Endziel. In gewisser Weise ist der monolithische Agent ein einheitliches Gehirn, das versucht, das beste Ergebnis zu maximieren, nachdem alle Ressourcen gleichzeitig verarbeitet wurden.

Der Gegner: modulare KI. Wie ein Oktopus mit halbautonomen Gliedmaßen ist der KI-Agent in Unteragenten unterteilt, von denen jeder seine eigenen Ziele und Rückmeldungen hat. Um einen fairen Kampf zu gewährleisten, wird jedes Modul auch mit DQL trainiert. Die einzelnen „Gehirne“ beobachten ihre Umgebung und lernen, die beste Option auszuwählen – allerdings nur abgestimmt auf ihre eigenen Ziele. Anschließend werden die vorhergesagten Ergebnisse zusammengefasst. Anschließend wird die Lösung mit dem potenziell optimalen Ergebnis ausgewählt, wodurch der KI-Agent zu seiner nächsten Wahl geleitet wird.

Und das Spielfeld?

Das Spiel ist eine extrem abgespeckte Version eines Survival-Spiels. Jeder KI-Agent durchstreift ein zweidimensionales Gitter, in dem in einigen Regionen verschiedene Arten von Ressourcen verborgen sind. Das Ziel besteht darin, die vier Werte des Agenten auf ihrem festgelegten Niveau zu halten, wobei jeder Wert mit der Zeit allmählich abnimmt. Wenn mehrere Statistiken ins Wanken geraten, liegt es an der KI, zu entscheiden, welche Statistik priorisiert werden soll.

Für Videospieler stellen Sie sich den Test so vor, als würden Sie sich auf eine neue Spielkarte begeben und versuchen, Ressourcen zu finden, um beispielsweise Gesundheit, Magie, Ausdauer und Angriffskraft zu steigern. In unserem Alltag geht es darum, Hunger, Temperatur, Schlaf und andere grundlegende physiologische Bedürfnisse auszugleichen.

„Wenn der Agent beispielsweise einen niedrigen ‚Hunger‘-Wert hätte, könnte er die ‚Nahrung‘-Ressource sammeln, indem er sich an den Ort dieser Ressource bewegt“, erklärte das Team.

Wald vor lauter Bäumen

Der erste Test begann mit einer relativ einfachen Umgebung. Der Standort jedes Ressourcenziels wurde an der Ecke der Spielarena festgelegt. Der monolithische Agent behielt seine vier Statistiken nach 30,000 Trainingsschritten problemlos bei, durchlief jedoch eine Phase des Über- und Unterschießens, bis er die angestrebten Ziele erreichte. Im Gegensatz dazu lernte der modulare Agent viel schneller. Nach 5,000 Lernschritten hatte der Agent bereits ein Verständnis für den „Zustand der Welt“ erlangt.

Ein Teil der Leistungsfähigkeit der modularen KI beruhte auf einem intrinsischen Gefühl der freien Erkundung, sagten die Autoren. Im Gegensatz zu früheren Methoden für modulare Systeme, die sich teilen und erobern, um ein Endziel zu erreichen, stellt die KI hier eine ganzheitlichere soziale Beziehung dar – eine, in der einige Module durch einen ständigen internen Wettbewerb gewinnen und andere verlieren.

Da der „Körper“ des KI-Agenten nur vom Gewinnermodul geleitet wird, müssen die Verlierer eine Entscheidung treffen, mit der sie nicht einverstanden waren, und werden in eine neue Realität gezwungen. Anschließend müssen sie sich schnell anpassen und die beste Lösung für den nächsten Schritt neu berechnen. Mit anderen Worten: Module befinden sich oft außerhalb ihrer Komfortzone. Es ist harte Liebe, aber die unerwarteten Ergebnisse zwingen sie, über neue Lösungen nachzudenken – manchmal mit besseren Ergebnissen, an die sie nicht gedacht hätten, wenn sie das Problem alleine angegangen wären.

Insgesamt bilde das modulare System einen „positiven Kreislauf mit Erkundung“, um KI-Aktionen weiter zu verbessern, sagte Studienautor Zack Dulberg.

Diese Anpassungsfähigkeit wurde noch deutlicher, als das Team beide KI-Agenten in wechselnden Umgebungen herausforderte. In einem Test wurden die Ressourcenzielpositionen in sporadischen Zeitskalen an eine zufällige Rasterposition verschoben. Die modulare KI hat die Veränderungen schnell erkannt und sich an sie angepasst, wohingegen der monolithische Agent deutlich schlechter abgeschnitten hat.

In einem anderen Test drehte das Team den Regler auf und forderte die KI-Agenten auf, gleichzeitig acht statt der ursprünglichen vier Faktoren beizubehalten. Der Test befasste sich mit dem Problem, dass Berechnungen im Hinblick auf Zeit und Energieverbrauch mit zunehmender Anzahl von Variablen immer unwahrscheinlicher werden – der sogenannte „Fluch der Dimensionalität“.

Der modulare Agent passte sich schnell an die Suche nach Ressourcen an, um seine Ziele zu erreichen. Im Gegensatz dazu hatte der monolithische Agent erneut Probleme und brauchte viel länger, um für jeden seiner Werte wieder die gewünschten Werte zu erreichen.

Eins gegen viele

Der modulare Ansatz ist ein weiteres Beispiel für die Nutzung der Neurowissenschaften für die Entwicklung von KI – und bietet gleichzeitig Einblicke in die Funktionsweise unserer Noggins.

Ähnlich wie bei früheren Arbeiten zeigen die modularen Module, dass es möglich ist, dass ein einzelner KI-Agent parallel separate und einfachere Teilprobleme lernt, und zwar auf eine Art und Weise, die im Hinblick auf die Datenverarbeitung relativ dezentral ist. Das Hinzufügen eines Modells mit einem hierarchischen Kontrollsystem könnte die KI stärken, sagten die Autoren, da beide Strukturen in der natürlichen Welt existieren.

Im Moment ist jedes Modul auf seinen eigenen Vorteil programmiert – ein Vielfaches seines Selbst. Aber unsere Lebensziele sind oft miteinander verknüpft; Beispielsweise schließen sich die Linderung von Durst und die Bekämpfung von Hitze nicht gegenseitig aus. Das Team betont die Notwendigkeit, diese Überkreuzungen in zukünftige Tests zu integrieren und herauszufinden, ob sie vererbt oder erlernt sind.

Nach Dulberg, das Unbekannte ist Teil der Aufregung. „Wie entstehen Module? Welche Merkmale der Entwicklungsumgebung üben Druck auf unterschiedliche Lösungen aus?“ er hat gefragt. „Und erklären die Vorteile der Modularität, warum interne psychologische Konflikte so zentral für die menschliche Verfassung zu sein scheinen?“

Bild-Kredit: Anestiev/Pixabay

Zeitstempel:

Mehr von Singularity Hub