GPT-4 de la OpenAI nu va rula Doom, dar va juca prost jocul

GPT-4 de la OpenAI nu va rula Doom, dar va juca prost jocul

You may find yourself living in a shotgun shack. And you may find yourself working with GPT-4. And you may ask yourself, “Will GPT-4 run Doom?” And you may ask yourself, “Am I right? Am I wrong?”

Adrian de Wynter, principal om de știință aplicat la Microsoft și cercetător la Universitatea din York din Anglia, a pus aceste întrebări într-o lucrare de cercetare recentă, „Will GPT-4 Run Doom?

Alas, GPT-4, a large language model from Microsoft-backed OpenAI, lacks the capacity to execute Doom’s source code directly.

Dar varianta sa multimodală, GPT-4V, care poate accepta imagini ca intrare, precum și text, prezintă aceeași subcompetență îndrăzneață de joc. Osândă precum modelele pline de text care au lansat nenumărate startup-uri AI.

„În configurația lucrării, GPT-4 (și GPT-4 cu viziune, sau GPT-4V) nu poate rula Doom de la sine, deoarece este limitat de dimensiunea sa de intrare (și, evident, că probabil doar va inventa lucruri ; chiar nu vrei ca compilatorul tău să aibă halucine la fiecare cinci minute),” a scris de Wynter într-o explicație nota despre lucrarea lui. „Aceasta fiind spuse, poate acționa cu siguranță ca un proxy pentru motor, nu spre deosebire de alte „va rula Doom?” implementări, cum ar fi E coli or Notepad. "

That is to say, GPT-4V won’t run Doom ca un tractor John Deere but it will play Doom without specific training.

Pentru a gestiona acest lucru, de Wynter a proiectat o componentă Vision care numește GPT-4V, care captează capturi de ecran din motorul de joc și returnează descrieri ale structurii stării jocului. Și a combinat asta cu un model Agent care apelează GPT-4 pentru a lua decizii bazate pe intrarea vizuală și istoricul anterior. Modelului Agent i s-a spus să-și traducă răspunsurile în comenzi de apăsare a tastei care au semnificație pentru motorul de joc.

Interacțiunile sunt gestionate printr-un strat Manager constând dintr-o legătură Python open source la C motorul Doom rulează pe Matplotlib.

A chart showing the design of GPT-4V system for playing DOOM

De Wynter’s diagram showing the design of a GPT-4V system for playing Doom … Click to enlarge

Acest amestec de modele AI și cod poate deschide uși, poate lupta cu inamicii și poate trage arme, potrivit ziarului. Și poate executa un set mai larg de instrucțiuni, cum ar fi o procedură de nivel, pentru a-și îmbunătăți propria performanță.

Principalul neajuns al acestui sistem bazat pe GPT-4V este lipsa de permanență a obiectelor - uită de zombii din joc atunci când ies de pe ecran.

GPT-4 uită de zombi și continuă

„De exemplu, ar fi foarte obișnuit ca modelul să vadă un zombi pe ecran și să înceapă să tragă în el până când îl lovește (sau moare)”, explică de Wynter. „Acum, acesta este AI scris pentru a funcționa cu hardware-ul din 1993, așa că o să presupun că nu are un arbore de decizie foarte profund. Așa că zombiul trage în tine și apoi începe să alerge prin cameră.

„Care este problema aici? Ei bine, mai întâi că zombiul dispare din vedere. Mai rău, este încă în viață și te va lovi la un moment dat. Deci trebuie să mergi după el, nu? La urma urmei, în Doom, este lovit sau fii lovit.

„Se pare că GPT-4 uită de zombi și continuă. Notă: promptul îi spune în mod explicit modelului ce trebuie să facă dacă primește daune și nu poate vedea un inamic. Mai bine, pur și simplu pleacă pe drumul său vesel, rămâne blocat într-un colț și moare. S-a întors de câteva ori, dar în aproape 50-60 de alergări, l-am observat... de două ori, vreau să spun.”

De asemenea, GPT-4 nu poate raționa foarte bine. Când i s-a cerut să-și explice acțiunile care au fost în general corecte în context, explicațiile sale au fost slabe și au inclus adesea halucinații (denumite și informații incorecte).

De Wynter nonetheless considers it remarkable that GPT-4 is capable of playing Doom without prior training.

În același timp, găsește acest lucru îngrijorător.

„În departamentul de etică, este destul de îngrijorător cât de ușor mi-a fost (a) să construiesc cod pentru a determina modelul să filmeze ceva; și (b) ca modelul să filmeze cu precizie ceva, fără să ghicească instrucțiunile”, a scris el în postarea sa rezumată.

„Așadar, deși aceasta este o explorare foarte interesantă în jurul planificării și raționamentului și ar putea avea aplicații în testarea automată a jocurilor video, este destul de evident că acest model nu este conștient de ceea ce face. Îndemn cu tărie pe toată lumea să se gândească la ce [implică] implementarea acestor modele pentru societate și la potențiala utilizare greșită a acestora.”

Și poți să-ți spui: „Doamne, ce am făcut?” ®

Timestamp-ul:

Mai mult de la Registrul