GPT-4 di OpenAI non eseguirà Doom, ma giocherà male

GPT-4 di OpenAI non eseguirà Doom, ma giocherà male

Potresti ritrovarti a vivere in una baracca di fucili. E potresti ritrovarti a lavorare con GPT-4. E potresti chiederti: "GPT-4 eseguirà Doom?" E potresti chiederti: “Ho ragione? Ho sbagliato?"

Adrian de Wynter, uno dei principali scienziati applicati della Microsoft e ricercatore presso l'Università di York in Inghilterra, ha posto queste domande in un recente documento di ricerca: "GPT-4 eseguirà Doom?"

Purtroppo, GPT-4, un ampio modello linguistico di OpenAI supportato da Microsoft, non ha la capacità di eseguire direttamente il codice sorgente di Doom.

Ma la sua variante multimodale, GPT-4V, che può accettare immagini come input così come testo, mostra la stessa accattivante sottocompetenza giocando Destino come i complessi modelli basati su testo che hanno lanciato innumerevoli startup di intelligenza artificiale.

"Secondo la configurazione del documento, GPT-4 (e GPT-4 con visione, o GPT-4V) non può davvero eseguire Doom da solo, perché è limitato dalla dimensione dell'input (e, ovviamente, probabilmente inventerà solo cose ; non vorrai davvero che il tuo compilatore abbia allucinazioni ogni cinque minuti)", ha scritto de Wynter in una nota esplicativa Nota riguardo al suo articolo. "Detto questo, può sicuramente fungere da proxy per il motore, non diversamente dagli altri 'funzionerà Doom?' implementazioni, come E. Coli or Notepad. "

Vale a dire, GPT-4V non eseguirà Doom come un trattore John Deere ma giocherà a Doom senza una formazione specifica.

Per gestire ciò, de Wynter ha progettato un componente Vision chiamato GPT-4V, che cattura screenshot dal motore di gioco e restituisce descrizioni strutturali dello stato del gioco. E lo ha combinato con un modello di agente che chiama GPT-4 per prendere decisioni basate sull'input visivo e sulla cronologia precedente. Al modello dell'Agente è stato detto di tradurre le sue risposte in comandi da premere che hanno significato per il motore di gioco.

Le interazioni vengono gestite tramite un livello Manager costituito da un collegamento Python open source al file Motore C-Doom in esecuzione su Matplotlib.

Un grafico che mostra il design del sistema GPT-4V per giocare a DOOM

Il diagramma di De Wynter che mostra il progetto di un sistema GPT-4V per giocare a Doom… Clicca per ingrandire

Secondo il documento, questo mix di modelli e codici IA può aprire porte, combattere nemici e sparare con armi. Inoltre, può eseguire una serie più ampia di istruzioni come una procedura dettagliata per migliorare le proprie prestazioni.

Il principale difetto di questo sistema basato su GPT-4V è la mancanza di permanenza degli oggetti: si dimentica degli zombi nel gioco quando escono dallo schermo.

GPT-4 si dimentica dello zombi e continua ad andare avanti

"Ad esempio, sarebbe molto comune per il modello vedere uno zombie sullo schermo e iniziare a sparargli finché non lo colpisce (o muore)", spiega de Wynter. “Ora, questa è un'intelligenza artificiale scritta per funzionare con l'hardware del 1993, quindi immagino che non abbia un albero decisionale molto profondo. Quindi lo zombi ti spara e poi inizia a correre per la stanza.

“Qual è il problema qui? Bene, prima di tutto lo zombie scompare dalla vista. Peggio ancora, è ancora vivo e ad un certo punto ti colpirà. Quindi devi inseguirlo, giusto? Dopotutto, in Doom, o colpisci o vieni colpito.

“Si scopre che GPT-4 si dimentica dello zombie e continua ad andare avanti. Nota: il messaggio dice esplicitamente al modello cosa fare se sta subendo danni e non può vedere un nemico. Meglio ancora, se ne va per la sua strada, rimane bloccato in un angolo e muore. Si è girato un paio di volte, ma in quasi 50-60 corse l'ho osservato... due volte, voglio dire.

Inoltre, GPT-4 non può ragionare molto bene. Quando gli è stato chiesto di spiegare le sue azioni che erano generalmente corrette nel contesto, le sue spiegazioni erano mediocri e spesso includevano allucinazioni (ovvero informazioni errate).

De Wynter ritiene comunque notevole che GPT-4 sia in grado di giocare a Doom senza previa formazione.

Allo stesso tempo, trova ciò preoccupante.

“Per quanto riguarda il dipartimento di etica, è piuttosto preoccupante quanto sia stato facile per (a) me creare un codice per far sì che il modello riprendesse qualcosa; e (b) che il modello possa riprendere con precisione qualcosa senza effettivamente indovinare le istruzioni", ha scritto nel suo post di riepilogo.

“Quindi, anche se si tratta di un’esplorazione molto interessante sulla pianificazione e sul ragionamento, e potrebbe avere applicazioni nei test automatizzati dei videogiochi, è abbastanza ovvio che questo modello non è consapevole di ciò che sta facendo. Invito vivamente tutti a pensare a ciò che l’implementazione di questi modelli [implica] per la società e al loro potenziale uso improprio”.

E potresti dire a te stesso: "Mio Dio, cosa ho fatto?”®

Timestamp:

Di più da Il registro