OpenAIs GPT-4 wird Doom nicht ausführen, aber das Spiel wird schlecht funktionieren

OpenAIs GPT-4 wird Doom nicht ausführen, aber das Spiel wird schlecht funktionieren

Möglicherweise leben Sie in einer Schrotflintenhütte. Und möglicherweise arbeiten Sie mit GPT-4. Und Sie fragen sich vielleicht: „Wird GPT-4 Doom ausführen?“ Und Sie fragen sich vielleicht: „Habe ich recht? Liege ich falsch?"

Adrian de Wynter, leitender angewandter Wissenschaftler bei Microsoft und Forscher an der University of York in England, stellte diese Fragen in einem aktuellen Forschungsbericht: „Wird GPT-4 Doom ausführen?"

Leider fehlt GPT-4, einem großen Sprachmodell des von Microsoft unterstützten OpenAI, die Fähigkeit, den Quellcode von Doom direkt auszuführen.

Aber seine multimodale Variante, GPT-4V, die sowohl Bilder als Eingabe als auch Text akzeptieren kann, weist das gleiche liebenswerte Unterkompetenzspiel auf Untergang ebenso wie die anspruchsvollen textbasierten Modelle, die unzählige KI-Startups ins Leben gerufen haben.

„Unter dem Setup des Papiers kann GPT-4 (und GPT-4 mit Vision oder GPT-4V) Doom nicht wirklich alleine ausführen, da es durch seine Eingabegröße begrenzt ist (und natürlich, weil es wahrscheinlich nur Dinge erfinden wird). ; Sie wollen wirklich nicht, dass Ihr Compiler alle fünf Minuten halluziniert)“, schrieb de Wynter in einer Erklärung beachten über seine Arbeit. „Das heißt, es kann definitiv als Proxy für die Engine fungieren, nicht anders als andere ‚Wird es Doom ausführen?‘ Implementierungen, wie z E. Coli or Notizblock"

Das heißt, auf GPT-4V wird Doom nicht ausgeführt wie ein John Deere Traktor aber es wird Doom ohne spezielles Training spielen.

Um dies zu bewältigen, hat de Wynter eine Vision-Komponente namens GPT-4V entwickelt, die Screenshots von der Spiel-Engine erfasst und Strukturbeschreibungen des Spielstatus zurückgibt. Und er kombinierte dies mit einem Agentenmodell, das GPT-4 aufruft, um Entscheidungen auf der Grundlage der visuellen Eingaben und der Vorgeschichte zu treffen. Das Agentenmodell wurde angewiesen, seine Antworten in Tastenbefehle zu übersetzen, die für die Spiel-Engine von Bedeutung sind.

Interaktionen werden über eine Manager-Ebene abgewickelt, die aus einer Open-Source-Python-Bindung an die besteht C Doom-Engine läuft auf Matplotlib.

Eine Tabelle, die das Design des GPT-4V-Systems zum Spielen von DOOM zeigt

De Wynters Diagramm zeigt den Aufbau eines GPT-4V-Systems zum Spielen von Doom … Zum Vergrößern anklicken

Diese Mischung aus KI-Modellen und Code kann dem Papier zufolge Türen öffnen, Feinde bekämpfen und Waffen abfeuern. Und es kann eine breitere Reihe von Anweisungen wie eine Level-Komplettlösung ausführen, um die eigene Leistung zu verbessern.

Der größte Nachteil dieses GPT-4V-basierten Systems ist seine fehlende Objektpermanenz – es vergisst die Zombies im Spiel, wenn sie den Bildschirm verlassen.

GPT-4 vergisst den Zombie und macht einfach weiter

„Zum Beispiel sieht das Modell häufig einen Zombie auf dem Bildschirm und fängt an, auf ihn zu schießen, bis er ihn trifft (oder stirbt)“, erklärt de Wynter. „Das ist KI, die für die Arbeit mit der Hardware von 1993 geschrieben wurde, also gehe ich davon aus, dass sie keinen besonders tiefen Entscheidungsbaum hat. Also schießt der Zombie auf dich und rennt dann durch den Raum.

„Was ist hier das Problem? Nun, zuerst verschwindet der Zombie außer Sicht. Schlimmer noch, es lebt noch und wird dich irgendwann umhauen. Also musst du der Sache nachgehen, oder? Schließlich geht es in „Doom“ um Schlagen oder Schlagen.

„Es stellt sich heraus, dass GPT-4 den Zombie vergisst und einfach weitermacht. Hinweis: Die Eingabeaufforderung teilt dem Modell explizit mit, was zu tun ist, wenn es Schaden erleidet und keinen Feind sehen kann. Besser noch, es macht sich einfach auf den Weg, bleibt in einer Ecke stecken und stirbt. Es hat sich ein paar Mal umgedreht, aber in fast 50–60 Läufen habe ich es beobachtet … zweimal, würde ich sagen.“

Außerdem kann GPT-4 nicht sehr gut argumentieren. Als man ihn bat, seine Handlungen zu erklären, die im Allgemeinen im Kontext richtig waren, waren seine Erklärungen dürftig und beinhalteten oft Halluzinationen (also falsche Informationen).

De Wynter hält es dennoch für bemerkenswert, dass GPT-4 in der Lage ist, Doom ohne vorheriges Training zu spielen.

Gleichzeitig findet er das beunruhigend.

„In der Ethikabteilung ist es ziemlich besorgniserregend, wie einfach es für (a) mich war, Code zu erstellen, um das Modell dazu zu bringen, etwas zu schießen; und (b) dass das Modell etwas genau schießen kann, ohne die Anweisungen tatsächlich zu hinterfragen“, schrieb er in seinem zusammenfassenden Beitrag.

„Obwohl dies eine sehr interessante Untersuchung zum Thema Planung und Argumentation ist und bei automatisierten Videospieltests Anwendung finden könnte, ist es ziemlich offensichtlich, dass dieses Modell nicht weiß, was es tut. Ich fordere jeden dringend dazu auf, darüber nachzudenken, welche Auswirkungen der Einsatz dieser Modelle auf die Gesellschaft hat und wie sie möglicherweise missbraucht werden.“

Und Sie sagen sich vielleicht: „Mein Gott, was habe ich getan?” ®

Zeitstempel:

Mehr von Das Register