OpenAI's GPT-4 zal Doom niet draaien, maar zal het spel slecht spelen

OpenAI's GPT-4 zal Doom niet draaien, maar zal het spel slecht spelen

Het kan zijn dat je in een jachtgeweerhut woont. En misschien merk je dat je met GPT-4 werkt. En je vraagt ​​je misschien af: “Zal GPT-4 Doom draaien?” En je kunt jezelf afvragen: ‘Heb ik gelijk? Heb ik het fout?"

Adrian de Wynter, een belangrijke toegepaste wetenschapper bij Microsoft en onderzoeker aan de Universiteit van York in Engeland, stelde deze vragen in een recent onderzoeksartikel: “Zal GPT-4 een ondergang betekenen?"

Helaas mist GPT-4, een groot taalmodel van door Microsoft ondersteunde OpenAI, de capaciteit om de broncode van Doom rechtstreeks uit te voeren.

Maar de multimodale variant, GPT-4V, die zowel afbeeldingen als tekst als invoer kan accepteren, vertoont dezelfde vertederende subcompetentie. Ondergang zoals de beladen op tekst gebaseerde modellen die talloze AI-startups hebben gelanceerd.

“Volgens de opzet van het artikel kan GPT-4 (en GPT-4 met vision, of GPT-4V) Doom niet echt op zichzelf draaien, omdat het wordt beperkt door de invoergrootte (en uiteraard dat het waarschijnlijk alleen maar dingen zal verzinnen ; je wilt echt niet dat je compiler elke vijf minuten hallucineert)”, schreef De Wynter in een verklarende brief. nota over zijn papier. “Dat gezegd hebbende, kan het zeker fungeren als proxy voor de engine, vergelijkbaar met andere 'zal het Doom draaien?' implementaties, zoals E coli or blocnote. '

Dat wil zeggen dat GPT-4V Doom niet zal draaien zoals een John Deere-tractor maar het zal Doom spelen zonder specifieke training.

Om dit te beheren ontwierp de Wynter een Vision-component die GPT-4V aanroept, die schermafbeeldingen van de game-engine vastlegt en structuurbeschrijvingen van de gamestatus retourneert. En hij combineerde dat met een Agent-model dat GPT-4 aanroept om beslissingen te nemen op basis van de visuele input en voorgeschiedenis. Aan het Agent-model is verteld dat het zijn reacties moet vertalen in toetsaanslagcommando's die betekenis hebben voor de game-engine.

Interacties worden afgehandeld via een Manager-laag die bestaat uit een open source Python-binding met de C Doom-engine draait op Matplotlib.

Een diagram met het ontwerp van het GPT-4V-systeem voor het spelen van DOOM

Het diagram van De Wynter toont het ontwerp van een GPT-4V-systeem voor het spelen van Doom … Klik om te vergroten

Deze mix van AI-modellen en code kan volgens de krant deuren openen, vijanden bevechten en wapens afvuren. En het kan een bredere reeks instructies uitvoeren, zoals een niveau-walkthrough, om zijn eigen prestaties te verbeteren.

De belangrijkste tekortkoming van dit op GPT-4V gebaseerde systeem is het gebrek aan objectduurzaamheid – het vergeet in-game zombies wanneer ze buiten het scherm verdwijnen.

GPT-4 vergeet de zombie en gaat gewoon door

“Het zou bijvoorbeeld heel gebruikelijk zijn dat het model een zombie op het scherm zag en erop begon te schieten totdat hij hem raakte (of stierf)”, legt de Wynter uit. “Dit is AI die is geschreven om te werken met hardware uit 1993, dus ik ga ervan uit dat het geen superdiepe beslissingsboom heeft. Dus de zombie schiet op je en begint dan door de kamer te rennen.

“Wat is hier het probleem? Ten eerste dat de zombie uit het zicht verdwijnt. Erger nog, het leeft nog en zal je op een gegeven moment slaan. Dus je moet er achteraan gaan, toch? In Doom is het tenslotte klappen of klappen.

“Het blijkt dat GPT-4 de zombie vergeet en gewoon doorgaat. Let op: de prompt vertelt het model expliciet wat het moet doen als het schade oploopt en geen vijand kan zien. Beter nog, hij gaat gewoon vrolijk verder, komt vast te zitten in een hoek en sterft. Het draaide zich een paar keer om, maar in bijna 50-60 runs heb ik het waargenomen... twee keer, wil ik zeggen.

Bovendien kan GPT-4 niet zo goed redeneren. Toen hem werd gevraagd zijn acties uit te leggen die over het algemeen correct waren in de context, waren de verklaringen slecht en bevatten ze vaak hallucinaties (ook wel onjuiste informatie genoemd).

Toch vindt De Wynter het opmerkelijk dat GPT-4 zonder voorafgaande training Doom kan spelen.

Tegelijkertijd vindt hij dat verontrustend.

“Op de afdeling ethiek is het behoorlijk zorgwekkend hoe gemakkelijk het voor mij was (a) om code te bouwen om het model iets te laten schieten; en (b) dat het model nauwkeurig iets kan fotograferen zonder de instructies te twijfelen”, schreef hij in zijn samenvattende post.

“Dus hoewel dit een zeer interessante verkenning is rond planning en redenering, en toepassingen zou kunnen hebben bij het geautomatiseerd testen van videogames, is het vrij duidelijk dat dit model zich niet bewust is van wat het doet. Ik dring er bij iedereen op aan om na te denken over wat de inzet van deze modellen [impliceert] voor de samenleving en het mogelijke misbruik ervan.”

En misschien zeg je tegen jezelf: “Mijn God, wat heb ik gedaan?” ®

Tijdstempel:

Meer van Het register