Diese DeepMind-KI lernt schnell neue Fähigkeiten, indem sie einfach Menschen beobachtet

Diese DeepMind-KI lernt schnell neue Fähigkeiten, indem sie einfach Menschen beobachtet

Diese DeepMind-KI lernt schnell neue Fähigkeiten, indem sie Menschen beobachtet. PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Um Algorithmen beizubringen, Menschen nachzuahmen, sind in der Regel Hunderte oder Tausende von Beispielen erforderlich. Aber eine neue KI von Google DeepMind kann im Handumdrehen neue Fähigkeiten von menschlichen Demonstratoren erlernen.

Einer der größten Tricks der Menschheit ist unsere Fähigkeit, schnell und effizient voneinander Wissen zu erwerben. Diese Art des sozialen Lernens, oft auch als kulturelle Weitergabe bezeichnet, ermöglicht es uns, einem Kollegen zu zeigen, wie man ein neues Werkzeug verwendet, oder unseren Kindern Kinderreime beizubringen.

Es ist keine Überraschung, dass Forscher versucht haben, den Prozess in Maschinen zu reproduzieren. Imitationslernen, bei dem die KI einem Menschen beim Erledigen einer Aufgabe zuschaut und dann versucht, sein Verhalten nachzuahmen, ist seit langem ein beliebter Ansatz für das Training von Robotern. Aber selbst die fortschrittlichsten Deep-Learning-Algorithmen von heute müssen in der Regel viele Beispiele sehen, bevor sie ihre Trainer erfolgreich kopieren können.

Wenn Menschen durch Nachahmung lernen, können sie oft schon nach wenigen Demonstrationen neue Aufgaben übernehmen. Jetzt haben Google DeepMind-Forscher einen Schritt in Richtung schnelles soziales Lernen in der KI gemacht, indem sie Agenten einsetzen, die von Menschen in Echtzeit lernen, sich in einer virtuellen Welt zurechtzufinden.

„Unseren Agenten gelingt es, einen Menschen in neuartigen Kontexten in Echtzeit nachzuahmen, ohne zuvor gesammelte menschliche Daten zu verwenden“, schreiben die Forscher in einem Papier in Nature Communications veröffentlicht . "Wir identifizieren eine überraschend einfache Reihe von Zutaten, die ausreichen, um eine kulturelle Übertragung zu erzeugen.“

Die Forscher trainierten ihre Agenten in einem speziell entwickelten Simulator namens GoalCycle3D. Der Simulator verwendet einen Algorithmus, um eine nahezu endlose Anzahl verschiedener Umgebungen zu generieren, basierend auf Regeln darüber, wie die Simulation funktionieren soll und welche Aspekte davon variieren sollten.

In jeder Umgebung kleine Kleckse AI-Agenten Sie müssen durch unebenes Gelände und verschiedene Hindernisse navigieren, um in einer bestimmten Reihenfolge durch eine Reihe farbiger Kugeln zu gelangen. Die Unebenheiten des Geländes, die Dichte der Hindernisse und die Konfiguration der Kugeln variieren je nach Umgebung.

Die Agenten sind in der Navigation geschult Verstärkung lernen. Sie erhalten eine Belohnung für das Durchqueren der Sphären in der richtigen Reihenfolge und nutzen dieses Signal, um ihre Leistung über viele Versuche hinweg zu verbessern. Darüber hinaus verfügen die Umgebungen aber auch über einen Expertenagenten – der entweder fest programmiert ist oder von einem Menschen gesteuert wird –, der bereits die korrekte Route durch den Kurs kennt.

In vielen Trainingsläufen lernen die KI-Agenten nicht nur die Grundlagen der Funktionsweise der Umgebungen, sondern auch, dass sich jedes Problem am schnellsten lösen lässt, wenn man den Experten nachahmt. Um sicherzustellen, dass die Agenten lernten, die Kurse nachzuahmen und nicht nur auswendig zu lernen, trainierte das Team sie in einer Reihe von Umgebungen und testete sie dann in einer anderen. Entscheidend war, dass das Team nach dem Training zeigte, dass seine Agenten einen Experten nachahmen und der Route auch ohne den Experten weiter folgen konnten.

Dies erforderte einige Anpassungen an den standardmäßigen Reinforcement-Learning-Ansätzen.

Die Forscher richteten den Fokus des Algorithmus auf den Experten, indem sie ihn den Standort des anderen Agenten vorhersagen ließen. Sie spendierten ihm auch ein Speichermodul. Während des Trainings tauchte der Experte in Umgebungen ein und aus und zwang den Agenten, sich seine Aktionen für den Fall zu merken, dass er nicht mehr anwesend war. Die KI trainierte außerdem in einer breiten Palette von Umgebungen, was sicherstellte, dass sie ein breites Spektrum möglicher Aufgaben erkannte.

Es könnte jedoch schwierig sein, den Ansatz auf praktischere Bereiche zu übertragen. Eine wesentliche Einschränkung besteht darin, dass der Expertenagent während aller Trainingsläufe von einer Person gesteuert wurde, als die Forscher testeten, ob die KI aus menschlichen Demonstrationen lernen konnte. Daher ist es schwierig zu sagen, ob die Agenten von einer Vielzahl von Menschen lernen können.

Noch dringlicher ist, dass die Fähigkeit, die Trainingsumgebung zufällig zu verändern, in der realen Welt nur schwer nachzubilden wäre. Und die zugrunde liegende Aufgabe war einfach, erforderte keine Feinmotorik und wurde in stark kontrollierten virtuellen Umgebungen durchgeführt.

Dennoch sind Fortschritte beim sozialen Lernen in der KI willkommen. Wenn wir in einer Welt mit intelligenten Maschinen leben wollen, wird es von entscheidender Bedeutung sein, effiziente und intuitive Wege zu finden, unsere Erfahrungen und unser Fachwissen mit ihnen zu teilen.

Bild-Kredit: Juliana und Mariana Amorim / Unsplash

Zeitstempel:

Mehr von Singularity Hub