Google DeepMind trainiert „künstliches Brainstorming“ in der Schach-KI | Quanta-Magazin

Google DeepMind trainiert „künstliches Brainstorming“ in der Schach-KI | Quanta-Magazin

Google DeepMind trainiert „künstliches Brainstorming“ in der Schach-KI | Quanta Magazine PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Einleitung

Als Covid-19 die Menschen Anfang 2020 nach Hause schickte, war der Informatiker Tom Zahavy Schach wiederentdeckt. Er hatte als Kind gespielt und kürzlich Garri Kasparows Buch gelesen Tiefgründiges Denken, eine Erinnerung an die Spiele des Großmeisters im Jahr 1997 gegen IBMs Schachcomputer Deep Blue. Er schaute sich Schachvideos auf YouTube an und Das Gambit der Königin auf Netflix.

Trotz seines erneuten Interesses suchte Zahavy nicht nach Möglichkeiten, sein Spiel zu verbessern. „Ich bin kein großartiger Spieler“, sagte er. „Ich bin besser in Schachrätseln“ – Anordnungen von Figuren, die oft erfunden sind und während einer echten Partie wahrscheinlich nicht vorkommen, die einen Spieler herausfordern, kreative Wege zu finden, um sich einen Vorteil zu verschaffen.

Die Rätsel können den Spielern helfen, ihre Fähigkeiten zu verbessern, aber in jüngerer Zeit haben sie auch dazu beigetragen, die verborgenen Grenzen von Schachprogrammen aufzudecken. Eines der berüchtigtsten Rätsel, das 2017 vom Mathematiker Sir Roger Penrose erfunden wurde, bringt stärkere schwarze Figuren (wie die Dame und die Türme) auf das Brett, allerdings in ungünstigen Positionen. Ein erfahrener menschlicher Spieler, der Weiß spielt, könnte das Spiel problemlos in ein Unentschieden lenken, aber leistungsfähige Computerschachprogramme würden sagen, dass Schwarz einen klaren Vorteil hat. Dieser Unterschied, so Zahavy, lege den Schluss nahe, dass Computer zwar die besten menschlichen Spieler der Welt besiegen könnten, sie aber noch nicht in der Lage seien, jedes schwierige Problem zu erkennen und zu lösen. Seitdem haben Penrose und andere umfangreiche Rätselsammlungen zusammengestellt, die Computer nur schwer lösen können.

Schach ist seit langem ein Prüfstein zum Testen neuer Ideen künstliche Intelligenz, und Penroses Rätsel weckten Zahavys Interesse. „Ich habe versucht zu verstehen, was diese Positionen für Computer so schwierig macht, wenn wir doch zumindest einige davon als Menschen lösen können“, sagte er. „Ich war völlig fasziniert.“ Daraus entwickelte sich bald ein berufliches Interesse: Als wissenschaftlicher Mitarbeiter bei Google DeepMind erforscht Zahavy kreative Problemlösungsansätze. Ziel ist die Entwicklung von KI-Systemen mit einem Spektrum möglicher Verhaltensweisen, die über die Ausführung einer einzelnen Aufgabe hinausgehen.

Ein traditionelles KI-Schachprogramm, das darauf trainiert ist, zu gewinnen, mag bei einem Penrose-Rätsel keinen Sinn ergeben, aber Zahavy vermutete, dass ein Programm, das aus vielen verschiedenen Systemen besteht, die als Gruppe zusammenarbeiten, Fortschritte machen könnte. Also entwickelten er und seine Kollegen eine Möglichkeit, mehrere (bis zu 10) Entscheidungs-KI-Systeme miteinander zu verknüpfen, die jeweils für unterschiedliche Strategien optimiert und trainiert wurden, beginnend mit AlphaZero, dem leistungsstarken Schachprogramm von DeepMind. Das neue System, sie berichtet im August, spielte sich besser als AlphaZero allein und zeigte mehr Geschick – und mehr Kreativität – im Umgang mit Penroses Rätseln. Diese Fähigkeiten entstanden gewissermaßen aus der Selbstzusammenarbeit: Wenn ein Ansatz an eine Wand stieß, wandte sich das Programm einfach einem anderen zu.

Dieser Ansatz sei grundsätzlich sinnvoll, sagte er Allison Liemhetcharat, ein Informatiker bei DoorDash, der mit Multi-Agenten-Ansätzen zur Problemlösung in der Robotik gearbeitet hat. „Bei einer Population von Agenten besteht eine höhere Wahrscheinlichkeit, dass die Rätsel in dem Bereich liegen, in dem mindestens einer der Agenten geschult wurde.“

Die Arbeit legt nahe, dass Teams aus unterschiedlichen KI-Systemen schwierige Probleme weit über das Spielbrett hinaus effizient angehen könnten. „Dies ist ein großartiges Beispiel dafür, dass die Suche nach mehr als einer Möglichkeit zur Lösung eines Problems – wie zum Beispiel das Gewinnen einer Schachpartie – viele Vorteile bringt“, sagte er Antoine Cully, ein KI-Forscher am Imperial College London, der nicht am DeepMind-Projekt beteiligt war. Er verglich es mit einer künstlichen Version menschlicher Brainstorming-Sitzungen. „Dieser Denkprozess führt zu kreativen und effektiven Lösungen, die man ohne diese Übung verpassen würde.“

Fehlern nachjagen

Bevor er zu DeepMind kam, interessierte sich Zahavy für Deep Reinforcement Learning, einen Bereich der künstlichen Intelligenz, bei dem ein System neuronale Netze nutzt, um eine Aufgabe durch Versuch und Irrtum zu lernen. Es ist die Grundlage für die leistungsstärksten Schachprogramme (und wird in anderen KI-Anwendungen wie selbstfahrenden Autos verwendet). Das System beginnt mit seiner Umgebung. Beim Schach beispielsweise umfasst die Umgebung das Spielbrett und mögliche Züge. Wenn die Aufgabe darin besteht, ein Auto zu fahren, umfasst die Umgebung alles rund um das Fahrzeug. Das System trifft dann Entscheidungen, ergreift Maßnahmen und bewertet, wie nahe es seinem Ziel gekommen ist. Je näher es dem Ziel kommt, desto mehr Belohnungen sammelt es, und wenn das System Belohnungen sammelt, verbessert es seine Leistung. Der „tiefe“ Teil dieses Ansatzes beschreibt die neuronalen Netze, die zur Analyse und Bewertung von Verhaltensweisen verwendet werden.

Durch Reinforcement Learning lernte AlphaZero, Schachmeister zu werden. DeepMind berichtet dass es während der ersten neun Trainingsstunden des Programms im Dezember 2017 44 Millionen Spiele gegen sich selbst bestritt. Zuerst wurden seine Züge zufällig bestimmt, aber mit der Zeit lernte es, Züge auszuwählen, die eher zu einem Schachmatt führten. Nach nur wenigen Stunden Training entwickelte AlphaZero die Fähigkeit, jeden menschlichen Schachspieler zu besiegen.

Aber so erfolgreich Reinforcement Learning auch sein kann, es führt nicht immer zu Strategien, die ein allgemeines Verständnis des Spiels widerspiegeln. Im Laufe des letzten halben Jahrzehnts bemerkten Zahavy und andere eine Zunahme eigenartiger Störungen, die auf Systemen auftreten konnten, die durch Versuch und Irrtum trainiert wurden. Ein System, das beispielsweise Videospiele spielt, könnte eine Lücke finden und herausfinden, wie man schummelt oder ein Level überspringt, oder es könnte genauso gut in einer sich wiederholenden Schleife stecken bleiben. Rätsel im Penrose-Stil deuteten in ähnlicher Weise auf eine Art blinden Fleck oder Glitch in AlphaZero hin – es konnte nicht herausfinden, wie man ein Problem angehen sollte, das es noch nie zuvor gesehen hatte.

Aber vielleicht sind nicht alle Störungen nur Fehler. Zahavy vermutete, dass die blinden Flecken von AlphaZero tatsächlich etwas anderes sein könnten – Entscheidungen und Verhaltensweisen, die mit den internen Belohnungen des Systems verknüpft sind. Systeme des Deep Reinforcement Learning, sagte er, wüssten nicht, wie man scheitert – oder wie man Fehler erkennt. Die Fähigkeit zum Scheitern wird seit langem mit kreativer Problemlösung in Verbindung gebracht. „Kreativität hat eine menschliche Qualität“, schrieb Kasparov Tiefgründiges Denken. „Es akzeptiert die Vorstellung des Scheiterns.“

KI-Systeme tun dies normalerweise nicht. Und wenn ein System nicht erkennt, dass es seine Aufgabe nicht erfüllt hat, versucht es möglicherweise nichts anderes. Stattdessen wird es einfach weiterhin versuchen, das zu tun, was es bereits getan hat. Das ist wahrscheinlich der Grund, warum es bei Videospielen zu solchen Sackgassen kam – oder dass man bei einigen Penrose-Herausforderungen stecken blieb, sagte Zahavy. Das System jage „seltsamen Arten von intrinsischen Belohnungen“, sagte er, die es während seiner Ausbildung entwickelt habe. Dinge, die von außen wie Fehler aussahen, waren wahrscheinlich die Folge der Entwicklung spezifischer, aber letztendlich erfolgloser Strategien.

Das System betrachtete diese seltsamen Belohnungen als Schritte in Richtung eines größeren Ziels, das es eigentlich nicht erreichen konnte, und wusste nicht, etwas Neues auszuprobieren. „Ich habe versucht, sie zu verstehen“, sagte Zahavy.

Ein besseres Spiel

Ein Grund dafür, dass sich diese Störungen als so folgenreich – und so nützlich – erweisen können, liegt zum Teil in dem, was Forscher als Problem bei der Verallgemeinerung erkennen. Während Reinforcement-Learning-Systeme eine wirksame Strategie entwickeln können, um eine bestimmte Situation mit einer bestimmten Aktion zu verbinden – was Forscher als „Richtlinie“ bezeichnen –, können sie sie nicht auf andere Probleme anwenden. „Normalerweise passiert es beim Reinforcement Learning, fast unabhängig von der Methode, dass man zwar die Richtlinie erhält, die den konkreten Fall des Problems löst, an dem man trainiert hat, diese aber nicht verallgemeinert“, sagte er Julian Togelius, Informatiker an der New York University und Forschungsdirektor bei modl.ai.

Zahavy war der Ansicht, dass die Penrose-Rätsel genau diese Art der Verallgemeinerung erforderten. Vielleicht konnte AlphaZero die meisten Rätsel nicht lösen, weil es sich so darauf konzentrierte, ganze Spiele zu gewinnen, vom Anfang bis zum Ende. Dieser Ansatz führte jedoch zu blinden Flecken, die durch die unwahrscheinliche Anordnung der Teile in Penrose-Puzzles sichtbar wurden. Vielleicht, so überlegte er, könnte das Programm lernen, das Rätsel zu lösen, wenn es genügend kreativen Raum für Brainstorming und den Zugriff auf verschiedene Trainingsmethoden hätte.

Also sammelten er und seine Kollegen zunächst einen Satz von 53 Penrose-Rätseln und 15 zusätzlichen Herausforderungsrätseln. AlphaZero allein löste weniger als 4 % der Penrose-Rätsel und weniger als 12 % des Rests. Zahavy war nicht überrascht: Viele dieser Rätsel wurden von Schachmeistern entworfen, um Computer absichtlich zu verwirren.

Als Test versuchten die Forscher, AlphaZero so zu trainieren, dass es gegen sich selbst spielt und dabei die Penrose-Puzzle-Anordnung als Ausgangsposition nutzte, statt des kompletten Bretts typischer Spiele. Seine Leistung verbesserte sich dramatisch: Es löste 96 % der Penrose-Rätsel und 76 % der Herausforderungssätze. Im Allgemeinen konnte AlphaZero, wenn es auf ein bestimmtes Rätsel trainierte, dieses Rätsel lösen, genauso wie es gewinnen konnte, wenn es auf ein komplettes Spiel trainierte. Vielleicht, dachte Zahavy, wenn ein Schachprogramm irgendwie Zugang zu all diesen verschiedenen Versionen von AlphaZero haben könnte, die auf diesen verschiedenen Positionen trainiert sind, dann könnte diese Vielfalt die Fähigkeit entfachen, neue Probleme produktiv anzugehen. Vielleicht könnte es verallgemeinert werden, mit anderen Worten, nicht nur die Lösung der Penrose-Rätsel, sondern jedes umfassendere Schachproblem.

Seine Gruppe beschloss, es herauszufinden. Sie haben die neue, abwechslungsreiche Version von AlphaZero entwickelt, die mehrere KI-Systeme umfasst, die unabhängig voneinander und in verschiedenen Situationen trainierten. Der Algorithmus, der das Gesamtsystem steuert, fungiert als eine Art virtueller Partnervermittler, sagte Zahavy: Er soll ermitteln, welcher Agent die besten Erfolgschancen hat, wenn es an der Zeit ist, etwas zu unternehmen. Er und seine Kollegen haben außerdem einen „Diversitätsbonus“ programmiert – eine Belohnung für das System, wenn es Strategien aus einer großen Auswahl an Optionen zieht.

Als das neue System eingeführt wurde, um seine eigenen Spiele zu spielen, stellte das Team eine große Vielfalt fest. Der abwechslungsreiche KI-Spieler experimentierte mit neuen, effektiven Eröffnungen und neuartigen – aber fundierten – Entscheidungen über spezifische Strategien, etwa wann und wo er rochieren sollte. In den meisten Spielen besiegte es das ursprüngliche AlphaZero. Das Team stellte außerdem fest, dass die abwechslungsreiche Version doppelt so viele Herausforderungsrätsel lösen konnte wie das Original und mehr als die Hälfte des gesamten Penrose-Rätselkatalogs lösen konnte.

„Die Idee ist, dass hier, anstatt eine Lösung oder eine einzelne Richtlinie zu finden, die jeden Spieler schlagen würde, die Idee der kreativen Vielfalt genutzt wird“, sagte Cully.

Durch den Zugriff auf mehr und unterschiedliche gespielte Spiele, so Zahavy, habe das abwechslungsreiche AlphaZero mehr Optionen für schwierige Situationen, wenn diese auftauchen. „Wenn man die Art der Spiele kontrollieren kann, die es sieht, kontrolliert man im Grunde auch, wie es verallgemeinert wird“, sagte er. Diese seltsamen intrinsischen Belohnungen (und die damit verbundenen Bewegungen) könnten zu Stärken für verschiedene Verhaltensweisen werden. Dann könnte das System lernen, die unterschiedlichen Ansätze zu bewerten und zu bewerten und zu erkennen, wann sie am erfolgreichsten waren. „Wir haben festgestellt, dass sich diese Gruppe von Agenten tatsächlich auf diese Positionen einigen kann.“

Und vor allem gehen die Auswirkungen über das Schach hinaus.

Kreativität im wirklichen Leben

Cully sagte, ein diversifizierter Ansatz könne jedem KI-System helfen, nicht nur solchen, die auf verstärkendem Lernen basieren. Er nutzt Diversität seit langem, um physische Systeme zu trainieren, darunter a sechsbeiniger Roboter Das durfte verschiedene Arten von Bewegungen erforschen, bevor er es absichtlich „verletzte“ und es ihm erlaubte, sich mit einigen der Techniken, die es zuvor entwickelt hatte, weiterzubewegen. „Wir haben einfach versucht, Lösungen zu finden, die sich von allen bisherigen Lösungen unterscheiden, die wir bisher gefunden haben.“ Seit Kurzem arbeitet er auch mit Forschern zusammen, um Diversität zu nutzen, um vielversprechende neue Medikamentenkandidaten zu identifizieren und wirksame Aktienhandelsstrategien zu entwickeln.

„Das Ziel besteht darin, eine große Sammlung potenziell tausender verschiedener Lösungen zu generieren, wobei sich jede Lösung stark von der anderen unterscheidet“, sagte Cully. So konnte das Gesamtsystem – so wie es der vielseitige Schachspieler gelernt hat – für jede Art von Problem die bestmögliche Lösung auswählen. Das KI-System von Zahavy zeige deutlich, wie „die Suche nach vielfältigen Strategien dabei hilft, über den Tellerrand hinauszuschauen und Lösungen zu finden.“

Zahavy vermutet, dass Forscher KI-Systeme nur dazu bringen müssen, mehr Optionen in Betracht zu ziehen, damit sie kreativ denken können. Diese Hypothese legt eine merkwürdige Verbindung zwischen Menschen und Maschinen nahe: Vielleicht ist Intelligenz nur eine Frage der Rechenleistung. Bei einem KI-System läuft Kreativität möglicherweise auf die Fähigkeit hinaus, aus einem ausreichend großen Angebot an Optionen auszuwählen. Da das System Belohnungen für die Auswahl verschiedener optimaler Strategien erhält, wird diese Art der kreativen Problemlösung verstärkt und gestärkt. Letztendlich könnte es theoretisch jede Art von Problemlösungsstrategie nachahmen, die beim Menschen als kreativ anerkannt wird. Kreativität würde zu einem Rechenproblem werden.

Liemhetcharat stellte fest, dass ein diversifiziertes KI-System das umfassendere Generalisierungsproblem beim maschinellen Lernen wahrscheinlich nicht vollständig lösen kann. Aber es ist ein Schritt in die richtige Richtung. „Es mildert einen der Mängel“, sagte sie.

In praktischer Hinsicht stimmen Zahavys Ergebnisse mit jüngsten Bemühungen überein, die zeigen, wie Zusammenarbeit zu einer besseren Leistung bei schwierigen Aufgaben zwischen Menschen führen kann. Die meisten Hits auf der Billboard 100-Liste wurden beispielsweise von Songwriter-Teams geschrieben, nicht von Einzelpersonen. Und es gibt noch Raum für Verbesserungen. Der vielfältige Ansatz ist derzeit rechenintensiv, da er viel mehr Möglichkeiten berücksichtigen muss als ein typisches System. Zahavy ist auch nicht davon überzeugt, dass selbst das abwechslungsreiche AlphaZero das gesamte Spektrum an Möglichkeiten abdeckt.

„Ich denke immer noch, dass es Raum für andere Lösungen gibt“, sagte er. „Mir ist nicht klar, dass es angesichts aller Daten der Welt [nur] eine Antwort auf jede Frage gibt.“

Wie viel führt eine Reihe von Umfragen durch, um unser Publikum besser zu bedienen. Nimm unser Leserbefragung Informatik und Sie nehmen an der kostenlosen Verlosung teil Wie viel Waren.

Zeitstempel:

Mehr von Quantamagazin