La nuova intelligenza artificiale generativa "ispirata alla fisica" supera le aspettative | Rivista Quanti

La nuova intelligenza artificiale generativa "ispirata alla fisica" supera le aspettative | Rivista Quanti

La nuova intelligenza artificiale generativa "ispirata alla fisica" supera le aspettative | Quanta Magazine PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Introduzione

Gli strumenti dell’intelligenza artificiale – in particolare le reti neurali – sono stati utili ai fisici. Per anni, questa tecnologia ha aiutato i ricercatori a ricostruire le traiettorie delle particelle negli esperimenti con l’acceleratore, a cercare prove dell’esistenza di nuove particelle e a rilevare onde gravitazionali ed esopianeti. Sebbene gli strumenti di intelligenza artificiale possano chiaramente fare molto per i fisici, la domanda ora, secondo Max Tegmark, fisico del Massachusetts Institute of Technology, è: “Possiamo restituire qualcosa?”

Tegmark ritiene che i suoi colleghi fisici possano dare un contributo significativo alla scienza dell’intelligenza artificiale e ha fatto di questa la sua massima priorità di ricerca. Un modo in cui i fisici potrebbero contribuire a far avanzare la tecnologia dell’intelligenza artificiale, ha detto, sarebbe quello di sostituire gli algoritmi “scatola nera” delle reti neurali, il cui funzionamento è in gran parte imperscrutabile, con equazioni ben comprese dei processi fisici.

L'idea non è nuova di zecca. Modelli di intelligenza artificiale generativa basato sulla diffusione - il processo che, ad esempio, fa sì che il latte versato in una tazza di caffè si diffonda in modo uniforme - è emerso per la prima volta nel 2015 e da allora la qualità delle immagini generate è migliorata in modo significativo. Questa tecnologia è alla base di popolari software di produzione di immagini come DALL·E 2 e Midjourney. Ora, Tegmark e i suoi colleghi stanno imparando se altri modelli generativi ispirati alla fisica potrebbero funzionare altrettanto bene dei modelli basati sulla diffusione, o anche meglio.

Alla fine dell'anno scorso, il team di Tegmark ha introdotto un nuovo metodo promettente per produrre immagini chiamato the Modello generativo del flusso di Poisson (PFGM). In esso, i dati sono rappresentati da particelle cariche, che si combinano per creare un campo elettrico le cui proprietà dipendono dalla distribuzione delle cariche in un dato momento. Si chiama modello di flusso di Poisson perché il movimento delle cariche è governato dall'equazione di Poisson, che deriva dal principio secondo cui la forza elettrostatica tra due cariche varia inversamente al quadrato della distanza tra loro (simile alla formulazione della gravità newtoniana) .

Questo processo fisico è al centro di PFGM. "Il nostro modello può essere caratterizzato quasi completamente dalla forza e dalla direzione del campo elettrico in ogni punto dello spazio", ha affermato Yilun Xu, uno studente laureato al MIT e coautore dell'articolo. "Ciò che la rete neurale impara durante il processo di addestramento è come stimare quel campo elettrico." E così facendo, può imparare a creare immagini perché un’immagine in questo modello può essere descritta sinteticamente da un campo elettrico.

Introduzione

PFGM può creare immagini della stessa qualità di quelle prodotte da approcci basati sulla diffusione e farlo da 10 a 20 volte più velocemente. "Utilizza un costrutto fisico, il campo elettrico, in un modo che non abbiamo mai visto prima", ha detto Hananel Hazan, uno scienziato informatico della Tufts University. “Ciò apre la porta alla possibilità che altri fenomeni fisici vengano sfruttati per migliorare le nostre reti neurali”.

I modelli di diffusione e di flusso di Poisson hanno molto in comune, oltre ad essere basati su equazioni importate dalla fisica. Durante l'addestramento, un modello di diffusione progettato per la generazione di immagini inizia in genere con un'immagine - un cane, diciamo - e poi aggiunge rumore visivo, alterando ogni pixel in modo casuale finché le sue caratteristiche non vengono completamente nascoste (anche se non completamente eliminate). Il modello tenta quindi di invertire il processo e generare un cane vicino all'originale. Una volta addestrato, il modello può creare con successo cani – e altre immagini – partendo da una tela apparentemente bianca.

I modelli di flusso di Poisson funzionano più o meno allo stesso modo. Durante l'addestramento, c'è un processo in avanti, che prevede l'aggiunta di rumore, in modo incrementale, a un'immagine un tempo nitida, e un processo inverso in cui il modello tenta di rimuovere quel rumore, passo dopo passo, fino a quando la versione iniziale non viene in gran parte recuperata. Come con la generazione basata sulla diffusione, il sistema alla fine impara a creare immagini che non ha mai visto durante l'addestramento.

Ma la fisica alla base dei modelli di Poisson è completamente diversa. La diffusione è guidata da forze termodinamiche, mentre il flusso di Poisson è guidato da forze elettrostatiche. Quest'ultima rappresenta un'immagine dettagliata utilizzando una disposizione di cariche in grado di creare un campo elettrico molto complicato. Questo campo, tuttavia, fa sì che le cariche si diffondano in modo più uniforme nel tempo, proprio come il latte si disperde naturalmente in una tazza di caffè. Il risultato è che il campo stesso diventa più semplice e uniforme. Ma questo campo uniforme, pieno di rumore, non è una tabula rasa completa; contiene ancora i semi dell'informazione da cui le immagini possono essere facilmente assemblate.

All'inizio del 2023, il team ha aggiornato il modello di Poisson, estendendolo abbracciare un’intera famiglia di modelli. La versione aumentata, PFGM++, include un nuovo parametro, D, che consente ai ricercatori di regolare la dimensionalità del sistema. Questo può fare una grande differenza: nel familiare spazio tridimensionale, l’intensità del campo elettrico prodotto da una carica è inversamente proporzionale al quadrato della distanza da quella carica. Ma in quattro dimensioni, l’intensità del campo segue una legge del cubo inversa. E per ogni dimensione dello spazio, e ogni valore dello D, tale relazione è alquanto diversa.

Introduzione

Quella singola innovazione ha dato ai modelli di flusso di Poisson una variabilità molto maggiore, con i casi estremi che offrono vantaggi diversi. Quando D è basso, ad esempio, il modello è più robusto, cioè più tollerante verso gli errori commessi nella stima del campo elettrico. "Il modello non può prevedere perfettamente il campo elettrico", ha detto Ziming Liu, un altro studente laureato al MIT e coautore di entrambi gli articoli. “C'è sempre qualche deviazione. Ma robustezza significa che anche se l’errore di stima è elevato, puoi comunque generare buone immagini”. Quindi potresti non ritrovarti con il cane dei tuoi sogni, ma ti ritroverai comunque con qualcosa che somiglia a un cane.

All'estremo opposto, quando D è elevato, la rete neurale diventa più facile da addestrare, richiedendo meno dati per padroneggiare le proprie capacità artistiche. Il motivo esatto non è facile da spiegare, ma è dovuto al fatto che quando ci sono più dimensioni, il modello ha meno campi elettrici di cui tenere traccia e quindi meno dati da assimilare.

Il modello migliorato, PFGM++, “offre la flessibilità necessaria per eseguire l’interpolazione tra questi due estremi”, ha affermato Rosa Yu, scienziato informatico presso l'Università della California, San Diego.

E da qualche parte all'interno di questo intervallo si trova un valore ideale per D che trova il giusto equilibrio tra robustezza e facilità di allenamento, ha affermato Xu. “Uno degli obiettivi del lavoro futuro sarà quello di trovare un modo sistematico per trovare quel punto debole, in modo da poter selezionare il migliore possibile D per una determinata situazione senza ricorrere a tentativi ed errori.

Un altro obiettivo per i ricercatori del MIT riguarda la scoperta di ulteriori processi fisici che possano fornire la base per nuove famiglie di modelli generativi. Attraverso un progetto chiamato GenPhys, il team ha già identificato un candidato promettente: il potenziale di Yukawa, che si riferisce alla forza nucleare debole. "È diverso dai modelli di flusso e diffusione di Poisson, in cui il numero di particelle è sempre conservato", ha detto Liu. “Il potenziale di Yukawa ti consente di annichilare le particelle o di dividere una particella in due. Un modello del genere potrebbe, ad esempio, simulare sistemi biologici in cui il numero di cellule non deve rimanere lo stesso”.

Questa potrebbe essere una linea di indagine fruttuosa, ha detto Yu. “Potrebbe portare a nuovi algoritmi e nuovi modelli generativi con potenziali applicazioni che vanno oltre la generazione di immagini”.

E il solo PFGM++ ha già superato le aspettative originali dei suoi inventori. All'inizio non si rendevano conto di quando D è impostato su infinito, il loro modello di flusso di Poisson amplificato diventa indistinguibile da un modello di diffusione. Liu lo ha scoperto nei calcoli effettuati all’inizio di quest’anno.

Mert Pilanci, informatico dell'Università di Stanford, considera questa “unificazione” il risultato più importante derivante dal lavoro del gruppo del MIT. “L’articolo PFGM++”, ha detto, “rivela che entrambi questi modelli fanno parte di una classe più ampia, [il che] solleva una domanda intrigante: potrebbero esserci altri modelli fisici per l’intelligenza artificiale generativa in attesa di essere scoperti, suggerendo un’unificazione ancora più grande? "

Timestamp:

Di più da Quantamagazine