DeepMind bringt Roboter-Fußballspielern bei, schlecht zu punkten

DeepMind bringt Roboter-Fußballspielern bei, schlecht zu punkten

DeepMind trainiert Roboter-Fußballspieler, um zu punkten, schlecht PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Video Eggheads von Googles DeepMind haben einen Deep-Learning-Lehrplan entwickelt, der Robotern beibringen kann, wie man schlecht Fußball spielt – und es ist wunderbar anzusehen.

Im Gegensatz zu ausgefeilte Akrobatik des Atlas-Roboters von Boston Dynamics, das Paar Robotis OP3-Roboter unter der Anleitung von DeepMind, stolpern und flattern wie erschöpfte Kleinkinder über ein nicht den Vorschriften entsprechendes 5 mal 4 Meter großes Fußballfeld oder Fußballfeld. Überzeugen Sie sich selbst im Video unten.

Youtube Video

Sie tun dies mit offensichtlicher Absicht und schaffen es trotz wiederholter Stürze, sich wieder aufzurichten und gelegentlich Tore zu schießen. Im kindlichen Stolpern dieser humanoiden Maschinen lässt sich leicht etwas erkennen, das der Entschlossenheit ähnelt, die wir gegenseitig wertschätzen und fördern, auch wenn das nur ein fehlgeleiteter Anthropomorphismus ist. Es ist schwierig, sie nicht anzufeuern, obwohl sie andere Emotionen hervorrufen würden, wenn sie größer und bewaffneter wären.

Die 28 an diesem Projekt beteiligten Forscher beschreiben ihre Arbeit in ein Papier [PDF] mit dem Titel „Agile Fußballfähigkeiten für einen zweibeinigen Roboter mit Deep Reinforcement Learning erlernen.“

„Wir haben Deep [Reinforcement Learning] verwendet, um einem humanoiden Roboter mit 20 betätigten Gelenken beizubringen, ein vereinfachtes Eins-gegen-Eins-Fußballspiel (1 gegen 1) zu spielen“, erklären die Autoren. „Wir haben zunächst einzelne Fertigkeiten isoliert trainiert und diese Fertigkeiten dann in einem Selbstspiel-Setting Ende-zu-Ende zusammengestellt.

„Die daraus resultierende Strategie weist robuste und dynamische Bewegungsfähigkeiten auf, wie z. B. schnelle Erholung nach einem Sturz, Gehen, Drehen, Treten und mehr; und Übergänge zwischen ihnen auf reibungslose, stabile und effiziente Weise – weit über das hinaus, was man intuitiv vom Roboter erwarten würde.“

Das DeepMind-Projekt ist weniger ehrgeizig als die seit Jahren laufenden Bemühungen, Maschinen auf den RoboCup-Advanced-Tech-Wettbewerb vorzubereiten. Die neueste Version des RoboCup ist jedoch Es macht definitiv weniger Spaß, es anzuschauen aufgrund des zurückhaltenden Verhaltens der Teilnehmer. Wo RoboCup-Bots die Starrheit haben Riverdance Darsteller mit seitlich fixierten Armen, die DeepMind-Spieler fuchteln wie Verrückte mit den Armen – zugegebenermaßen nicht ideal, um einem Handball-Anruf aus dem Weg zu gehen, aber eine bessere Werbung für Mitgefühl.

Deep Reinforcement Learning ist eine Möglichkeit, ein neuronales Netzwerk zu trainieren, bei dem Agenten (software- oder hardwarebasierte Einheiten) durch Versuch und Irrtum lernen, wie man Dinge (simuliert oder in der realen Welt) ausführt. Und es ist zu einer gängigen Technik geworden, um Robotern beizubringen, sich in verschiedenen Umgebungen zu bewegen, wie aus dem hervorgeht Laufsinn von Cassie, eine Art Mecha-Strauß-Torso, von dem Sie hoffen würden, dass er Sie nie verfolgt.

Das Ziel des DeepMind-Teams bestand darin, einem Agenten das Fußballspielen beizubringen, das eine Vielzahl von Fähigkeiten erfordert, darunter Gehen, Treten, Aufstehen, Tor schießen und Verteidigen, die alle koordiniert werden müssen, um Tore zu schießen und das Spiel zu gewinnen.

Um den Agenten zu trainieren – in diesem Fall die Software, die den Roboter steuert – reichte es nicht aus, das System für das Erzielen von Toren zu belohnen, was nicht alle erforderlichen Fähigkeiten hervorbringen würde. Stattdessen gingen die Forscher die Kompetenzen separat an und konzentrierten sich auf die Entwicklung dessen, was sie als Lehrerrichtlinien bezeichnen. Diese Richtlinien regeln Dinge wie das Aufstehen vom Boden und das Erzielen von Toren gegen einen ungeübten Gegner – jemanden, der sofort zu Boden fällt, ein Verhalten, das dem echten Fußballspringen nicht unähnlich ist.

Die Forscher mussten darauf achten, das Torschießtraining zu stoppen, wenn Agenten zu Boden fielen, um unerwünschtes, aber offensichtlich funktionelles Verhalten zu verhindern: „Ohne diesen Abbruch finden Agenten ein lokales Minimum und lernen, auf dem Boden auf den Ball zu rollen, um ihn zu schlagen.“ ins Tor, anstatt zu laufen und zu treten“, erklären sie in ihrem Artikel.

Die Aufstandspolitik und die Zielerreichungspolitik wurden schließlich kombiniert. Und durch einen Prozess intensiven Lernens und Belohnungen für das Erreichen bestimmter Ziele entwickelte die Software passable Fußballfähigkeiten.

Den trainierten Software-Agenten in einen Roboterkörper zu verwandeln, erwies sich als keine allzu große Herausforderung. Den Autoren zufolge handelte es sich um einen Zero-Shot-Prozess, sodass keine zusätzliche Schulung erforderlich war.

„Wir haben die Lücke zwischen Simulation und Realität durch einfache Systemidentifikation verringert, die Robustheit unserer Richtlinien durch Domänen-Randomisierung und Störungen während des Trainings verbessert und Belohnungsbedingungen so gestaltet, dass Verhaltensweisen erzielt werden, die den Roboter weniger wahrscheinlich schädigen“, erklären sie.

Das heißt, sie stellten sicher, dass die Simulatorparameter den Einstellungen der Hardware-Aktuatoren, zufälligen Merkmalen wie Bodenreibung und Gelenkausrichtung, der Masse der Roboterteile, der Latenz des Regelkreises und zufälligen Störungen zugeordnet waren, um sicherzustellen, dass die Software eine Vielzahl von Anforderungen bewältigen konnte Kräfte, die auf den Körper des Roboters einwirken. In einer Anpassung fügten sie eine Belohnungskomponente hinzu, die die Bots dazu ermutigte, ihre Kniegelenke weniger zu belasten, da diese andernfalls leicht beschädigt würden.

Die Schulung der Aufstands- und Fußballlehrer dauerte 14 Stunden bzw. 158 Stunden (6.5 Tage), gefolgt von 68 Stunden Destillation und Selbstspiel. Und das Ergebnis sei besser als der bewusste Versuch, diese Fähigkeiten zu programmieren, sagten die Wissenschaftler.

„Die Strategie des verstärkenden Lernens schnitt besser ab als die speziellen manuell entwickelten Fähigkeiten: Sie ging 156 Prozent schneller und brauchte 63 Prozent weniger Zeit zum Aufstehen“, heißt es in dem Papier.

„Bei der Initialisierung in der Nähe des Balls wurde der Ball mit 5 Prozent geringerer Geschwindigkeit geschossen; beide erreichten eine Ballgeschwindigkeit von rund 2 m/s. Mit einer zusätzlichen Anlauf-Annäherung an den Ball betrug die mittlere Trittgeschwindigkeit der erlernten Richtlinie jedoch 2.6 m/s (24 Prozent schneller als die geskriptete Fertigkeit) und die maximale Trittgeschwindigkeit über die Episoden hinweg betrug 3.4 m/s.“

Die Experten von DeepMind haben gezeigt, dass Deep Reinforcement Learning eingesetzt werden kann, um humanoiden Robotern effektiv und kostengünstig beizubringen. Das ist ein weiterer zögerlicher Schritt in Richtung einer Zukunft, in der zweibeinige Roboter unter uns wandeln, im Guten wie im Schlechten. ®

Zeitstempel:

Mehr von Das Register