OpenAIs GPT-4 vil ikke kjøre Doom, men vil spille spillet dårlig

OpenAIs GPT-4 vil ikke kjøre Doom, men vil spille spillet dårlig

Du kan finne deg selv å bo i en haglehytte. Og du kan finne deg selv å jobbe med GPT-4. Og du kan spørre deg selv: "Vil GPT-4 kjøre Doom?" Og du kan spørre deg selv: "Har jeg rett? Tar jeg feil?"

Adrian de Wynter, en ledende anvendt vitenskapsmann ved Microsoft og en forsker ved University of York i England, stilte disse spørsmålene i en nylig forskningsartikkel, "Vil GPT-4 kjøre Doom?"

Akk, GPT-4, en stor språkmodell fra Microsoft-støttet OpenAI, mangler kapasitet til å utføre Dooms kildekode direkte.

Men dens multimodale variant, GPT-4V, som kan akseptere bilder som input så vel som tekst, viser den samme inntagende underkompetansen som spiller Doom som de fulle tekstbaserte modellene som har lansert utallige AI-startups.

"Under papirets oppsett kan ikke GPT-4 (og GPT-4 med vision, eller GPT-4V) egentlig kjøre Doom av seg selv, fordi den er begrenset av inndatastørrelsen (og åpenbart at den sannsynligvis bare vil finne opp ting ; du vil virkelig ikke at kompilatoren skal hallusinere hvert femte minutt), skrev de Wynter i en forklarende note om papiret hans. Når det er sagt, kan den definitivt fungere som en proxy for motoren, ikke ulikt andre 'vil den kjøre Doom?' implementeringer, som f.eks E coli or notis~~POS=TRUNC».

Det vil si at GPT-4V ikke vil kjøre Doom som en John Deere traktor men den vil spille Doom uten spesifikk trening.

For å klare dette designet de Wynter en Vision-komponent som kaller GPT-4V, som tar skjermbilder fra spillmotoren og returnerer strukturbeskrivelser av spilltilstanden. Og han kombinerte det med en agentmodell som kaller GPT-4 for å ta avgjørelser basert på visuelle input og tidligere historie. Agent-modellen har fått beskjed om å oversette sine svar til tastetrykkkommandoer som har betydning for spillmotoren.

Interaksjoner håndteres gjennom et Manager-lag som består av en åpen kildekode Python-binding til C Doom-motor kjører på Matplotlib.

Et diagram som viser utformingen av GPT-4V-systemet for å spille DOOM

De Wynters diagram som viser utformingen av et GPT-4V-system for å spille Doom … Klikk for å forstørre

Denne blandingen av AI-modeller og kode kan åpne dører, bekjempe fiender og avfyre ​​våpen, ifølge avisen. Og den kan utføre et bredere sett med instruksjoner som en nivågjennomgang for å forbedre sin egen ytelse.

Den største mangelen på dette GPT-4V-baserte systemet er mangelen på objektpermanens – det glemmer zombier i spillet når de går utenfor skjermen.

GPT-4 glemmer zombien og bare fortsetter

"For eksempel ville det være veldig vanlig for modellen å se en zombie på skjermen, og begynne å skyte mot den til den traff den (eller døde)," forklarer de Wynter. "Nå er dette AI skrevet for å fungere med 1993-maskinvare, så jeg kommer til å gjette at det ikke har et superdypt beslutningstre. Så zombien skyter på deg og begynner så å løpe rundt i rommet.

«Hva er problemet her? Vel, først at zombien går ut av syne. Enda verre, den er fortsatt i live og vil slå deg på et tidspunkt. Så du må gå etter det, ikke sant? Tross alt, i Doom er det whack or be whacked.

"Det viser seg at GPT-4 glemmer zombien og bare fortsetter. Merk: ledeteksten forteller eksplisitt modellen hva den skal gjøre hvis den tar skade og den ikke kan se en fiende. Enda bedre, den bare går sin glade vei, setter seg fast i et hjørne og dør. Den snudde et par ganger, men etter nesten 50-60 løp observerte jeg den... to ganger, vil jeg si.»

GPT-4 kan heller ikke resonnere særlig godt. Når de ble bedt om å forklare handlingene som generelt var korrekte i konteksten, var forklaringene dårlige og inkluderte ofte hallusinasjoner (også uriktig informasjon).

De Wynter anser det likevel som bemerkelsesverdig at GPT-4 er i stand til å spille Doom uten forutgående trening.

Samtidig synes han det er urovekkende.

«På etikkavdelingen er det ganske bekymringsfullt hvor enkelt det var for (a) meg å bygge kode for å få modellen til å skyte noe; og (b) for at modellen skal fotografere noe nøyaktig uten å faktisk gjette instruksjonene,» skrev han i oppsummeringsinnlegget sitt.

"Så selv om dette er en veldig interessant utforskning rundt planlegging og resonnement, og kan ha applikasjoner i automatisert videospilltesting, er det ganske åpenbart at denne modellen ikke er klar over hva den gjør. Jeg oppfordrer sterkt alle til å tenke på hva utplassering av disse modellene [betyr] for samfunnet og deres potensielle misbruk.»

Og du kan si til deg selv: "Herregud, hva har jeg gjort?

Tidstempel:

Mer fra Registeret