Un'intelligenza artificiale di Google ha guardato 30,000 ore di videogiochi: ora se ne fa una propria

Un'intelligenza artificiale di Google ha guardato 30,000 ore di videogiochi: ora se ne fa una propria

Un'intelligenza artificiale di Google ha guardato 30,000 ore di videogiochi: ora crea la propria data intelligence PlatoBlockchain. Ricerca verticale. Ai.

L’intelligenza artificiale continua a generare molta luce e calore. I migliori modelli di testo e immagini, che ora comandano abbonamenti e sono integrati in prodotti di consumo, competono per pollici. OpenAI, Google e Anthropic sono tutti, più o meno, testa a testa.

Non sorprende quindi che i ricercatori dell’intelligenza artificiale stiano cercando di spingere i modelli generativi in ​​un nuovo territorio. Poiché l’intelligenza artificiale richiede quantità prodigiose di dati, un modo per prevedere dove andranno le cose è guardare quali dati sono ampiamente disponibili online, ma ancora in gran parte non sfruttati.

Il video, di cui ce n'è in abbondanza, è un ovvio passo successivo. Infatti, il mese scorso, OpenAI ha presentato in anteprima una nuova intelligenza artificiale da testo a video chiamata Sora che ha stupito gli spettatori.

Ma che dire dei videogiochi... giochi?

Chiedi e ricevi

Si scopre che ci sono parecchi video di giocatori online. Google DeepMind afferma di aver addestrato una nuova intelligenza artificiale, Genie, su 30,000 ore di filmati video curati che mostrano i giocatori che giocano a semplici platform (si pensi ai primi giochi Nintendo) e ora può creare esempi propri.

Genie trasforma una semplice immagine, foto o schizzo in un videogioco interattivo.

Dato un suggerimento, ad esempio un disegno di un personaggio e dei suoi dintorni, l'IA può quindi ricevere input da un giocatore per muovere un personaggio attraverso il suo mondo. In un post sul blog, DeepMind ha mostrato le creazioni di Genie mentre navigavano in paesaggi 2D, camminando o saltando tra le piattaforme. Come un serpente che si mangia la coda, alcuni di questi mondi sono stati addirittura ricavati da immagini generate dall’intelligenza artificiale.

A differenza dei videogiochi tradizionali, Genie genera questi mondi interattivi fotogramma dopo fotogramma. Dato un prompt e un comando di movimento, prevede i fotogrammi successivi più probabili e li crea al volo. Ha anche imparato a includere un senso di parallasse, una caratteristica comune nei platform in cui il primo piano si muove più velocemente dello sfondo.

In particolare, la formazione dell'IA non includeva etichette. Piuttosto, Genie ha imparato a correlare i comandi di input, come andare a sinistra, a destra o saltare, con i movimenti di gioco semplicemente osservando esempi durante il suo addestramento. Cioè, quando un personaggio in un video si spostava a sinistra, non c'era alcuna etichetta che collegasse il comando al movimento. Genie ha capito quella parte da solo. Ciò significa che, potenzialmente, le versioni future potrebbero essere addestrate su tanti video applicabili quanti ce ne sono online.

L'intelligenza artificiale è una prova di concetto impressionante, ma è ancora in una fase iniziale di sviluppo e DeepMind non ha ancora intenzione di rendere pubblico il modello.

I giochi stessi sono mondi pixelati che scorrono alla velocità di un fotogramma al secondo. In confronto, i videogiochi contemporanei possono raggiungere 60 o 120 fotogrammi al secondo. Inoltre, come tutti gli algoritmi generativi, Genie genera artefatti visivi strani o incoerenti. È anche incline ad avere allucinazioni su “futuri irrealistici” ha scritto il team nel loro articolo descrivendo l'intelligenza artificiale.

Detto questo, ci sono alcuni motivi per credere che Genie migliorerà da qui.

Montare mondi

Poiché l’intelligenza artificiale può imparare dai video online senza etichetta ed è ancora di dimensioni modeste – solo 11 miliardi di parametri – ci sono ampie opportunità di espansione. I modelli più grandi addestrati su più informazioni tendono a migliorare notevolmente. E con a settore in crescita focalizzato sull’inferenza- il processo mediante il quale un'intelligenza artificiale addestrata esegue compiti, come la generazione di immagini o testo - è probabile che diventi più veloce.

DeepMind afferma che Genie potrebbe aiutare le persone, come gli sviluppatori professionisti, a realizzare videogiochi. Ma come OpenAI, che crede che Sora sia molto più che semplici video, il team sta pensando in grande. L’approccio potrebbe andare ben oltre i videogiochi.

Un esempio: IA in grado di controllare i robot. Il team ha addestrato un modello separato su video di bracci robotici che completavano vari compiti. Il modello ha imparato a manipolare i robot e a maneggiare una varietà di oggetti.

DeepMind ha anche affermato che gli ambienti di videogiochi generati da Genie potrebbero essere utilizzati per addestrare agenti IA. Non è una nuova strategia. In un articolo del 2021, un altro Il team di DeepMind ha delineato un videogioco chiamato XLand che era popolato da agenti IA e da un signore supremo dell'IA che generava compiti e giochi per sfidarli. L’idea che il prossimo grande passo nell’intelligenza artificiale richiederà algoritmi in grado di addestrarsi a vicenda o generare dati di addestramento sintetici lo è guadagnando trazione.

Tutto questo è l'ultimo tentativo di un'intensa competizione tra OpenAI e Google per mostrare i progressi nell'intelligenza artificiale. Mentre altri sul campo, come Antropico, stanno avanzando modelli multimodali simili a GPT-4, anche Google e OpenAI sembrano focalizzati su algoritmi che simulano il mondo. Tali algoritmi potrebbero essere migliori nella pianificazione e nell’interazione. Entrambe saranno competenze cruciali per gli agenti IA che entrambe le organizzazioni sembrano intenzionate a produrre.

"Genie può essere stimolato con immagini mai viste prima, come fotografie o schizzi del mondo reale, consentendo alle persone di interagire con i loro mondi virtuali immaginati, agendo essenzialmente come un modello mondiale di base", hanno scritto i ricercatori nello studio. Post del blog Genio. “Ci concentriamo su video di giochi platform 2D e robotica ma il nostro metodo è generale e dovrebbe funzionare per qualsiasi tipo di dominio ed è scalabile per set di dati Internet sempre più grandi”.

Allo stesso modo, quando OpenAI ha presentato in anteprima Sora il mese scorso, i ricercatori hanno suggerito che potrebbe annunciare qualcosa di più fondamentale: un simulatore mondiale. Entrambi i team sembrano considerare l’enorme quantità di video online come un modo per addestrare l’intelligenza artificiale a generare i propri video, sì, ma anche a comprendere e operare in modo più efficace nel mondo, online e offline.

Se questo sia vantaggioso o sostenibile a lungo termine è una questione aperta. Il cervello umano funziona con la potenza di una lampadina; L’intelligenza artificiale generativa utilizza interi data center. Ma è meglio non sottovalutare le forze in gioco in questo momento, in termini di talento, tecnologia, cervello e denaro, con l’obiettivo non solo di migliorare l’intelligenza artificiale, ma di renderla più efficiente.

Abbiamo visto progressi impressionanti nel testo, nelle immagini, nell'audio e in tutti e tre insieme. I video sono il prossimo ingrediente che verrà messo nella pentola e potrebbero creare una miscela ancora più potente.

Immagine di credito: Google DeepMind

Timestamp:

Di più da Hub di singolarità