OpenAI's GPT-4 vil ikke køre Doom, men vil spille spillet dårligt

OpenAI's GPT-4 vil ikke køre Doom, men vil spille spillet dårligt

You may find yourself living in a shotgun shack. And you may find yourself working with GPT-4. And you may ask yourself, “Will GPT-4 run Doom?” And you may ask yourself, “Am I right? Am I wrong?”

Adrian de Wynter, en primær anvendt videnskabsmand hos Microsoft og en forsker ved University of York i England, stillede disse spørgsmål i et nyligt forskningspapir, "Will GPT-4 Run Doom?"

Alas, GPT-4, a large language model from Microsoft-backed OpenAI, lacks the capacity to execute Doom’s source code directly.

Men dens multimodale variant, GPT-4V, som kan acceptere billeder som input såvel som tekst, udviser den samme indtagende sub-kompetence spil Doom som de fyldte tekstbaserede modeller, der har lanceret utallige AI-startups.

"Under papirets opsætning kan GPT-4 (og GPT-4 med vision eller GPT-4V) ikke rigtig køre Doom af sig selv, fordi det er begrænset af dets inputstørrelse (og naturligvis, at det sandsynligvis bare vil finde på ting) ; du vil virkelig ikke have, at din compiler hallucinerer hvert femte minut), skrev de Wynter i en forklarende Bemærk om hans papir. "Når det er sagt, kan det helt sikkert fungere som en proxy for motoren, ikke ulig andre 'vil den køre Doom?' implementeringer som f.eks E coli or Notepad".

That is to say, GPT-4V won’t run Doom som en John Deere traktor but it will play Doom without specific training.

For at styre dette har de Wynter designet en Vision-komponent, der kalder GPT-4V, som fanger skærmbilleder fra spilmotoren og returnerer strukturbeskrivelser af spillets tilstand. Og han kombinerede det med en agentmodel, der kalder GPT-4 til at træffe beslutninger baseret på det visuelle input og tidligere historie. Agent-modellen er blevet bedt om at oversætte sine svar til tastetrykskommandoer, der har betydning for spilmotoren.

Interaktioner håndteres gennem et Manager-lag, der består af en open source Python-binding til C Doom motor kører på Matplotlib.

Et diagram, der viser designet af GPT-4V-systemet til at spille DOOM

De Wynter’s diagram showing the design of a GPT-4V system for playing Doom … Click to enlarge

Denne blanding af AI-modeller og kode kan åbne døre, bekæmpe fjender og affyre våben, ifølge avisen. Og det kan udføre et bredere sæt instruktioner som en niveaugennemgang for at forbedre sin egen ydeevne.

Den største mangel ved dette GPT-4V-baserede system er dets mangel på objektpermanens – det glemmer alt om zombier i spillet, når de går væk fra skærmen.

GPT-4 glemmer zombien og fortsætter bare

"For eksempel ville det være meget almindeligt, at modellen ser en zombie på skærmen og begynder at skyde mod den, indtil den ramte den (eller døde)," forklarer de Wynter. "Nu er dette AI skrevet til at fungere med 1993-hardware, så jeg vil gætte på, at det ikke har et super dybt beslutningstræ. Så zombien skyder på dig og begynder så at løbe rundt i lokalet.

"Hvad er problemet her? Nå, først at zombien går ud af syne. Værre, det er stadig i live og vil slå dig på et tidspunkt. Så du skal gå efter det, ikke? I Doom er det trods alt whack or be whacked.

"Det viser sig, at GPT-4 glemmer zombien og bare bliver ved. Bemærk: prompten fortæller eksplicit, hvad modellen skal gøre, hvis den tager skade, og den ikke kan se en fjende. Endnu bedre, det går bare af sted på sin lystige vej, sætter sig fast i et hjørne og dør. Den vendte sig et par gange, men i næsten 50-60 løb observerede jeg den... to gange, vil jeg sige."

GPT-4 kan heller ikke ræsonnere særlig godt. Når de blev bedt om at forklare dens handlinger, der generelt var korrekte i konteksten, var dens forklaringer dårlige og omfattede ofte hallucinationer (alias ukorrekte oplysninger).

De Wynter nonetheless considers it remarkable that GPT-4 is capable of playing Doom without prior training.

Det synes han samtidig er bekymrende.

”På den etiske afdeling er det ret bekymrende, hvor let det var for (a) mig at bygge kode for at få modellen til at skyde noget; og (b) for modellen at skyde noget nøjagtigt uden faktisk at gætte instruktionerne,” skrev han i sit opsummerende indlæg.

"Så selvom dette er en meget interessant udforskning omkring planlægning og ræsonnement og kunne have applikationer i automatiseret videospilstest, er det helt indlysende, at denne model ikke er klar over, hvad den laver. Jeg opfordrer kraftigt alle til at tænke over, hvad implementeringen af ​​disse modeller [indebærer] for samfundet og deres potentielle misbrug."

Og du kan sige til dig selv: "Herregud, hvad har jeg gjort?

Tidsstempel:

Mere fra Registret