Una nuova teoria suggerisce che i chatbot possano comprendere il testo | Rivista Quanti

Una nuova teoria suggerisce che i chatbot possano comprendere il testo | Rivista Quanti

Una nuova teoria suggerisce che i chatbot possano comprendere il testo | Quanta Magazine PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Introduzione

L’intelligenza artificiale sembra più potente che mai, con chatbot come Bard e ChatGPT in grado di produrre testi straordinariamente simili a quelli umani. Ma nonostante tutto il loro talento, questi robot lasciano ancora i ricercatori a chiedersi: realizzare tali modelli capire davvero cosa stanno dicendo? “Chiaramente, alcune persone credono di sì”, ha detto il pioniere dell’IA Geoff hinton in un conversazione recente con Andrew Ng, “e alcune persone credono che siano solo pappagalli stocastici”.

Questa frase evocativa arriva da un 2021 carta coautore di Emilia Bender, linguista computazionale dell'Università di Washington. Suggerisce che i modelli linguistici di grandi dimensioni (LLM) – che costituiscono la base dei moderni chatbot – generino testo solo combinando informazioni che hanno già visto “senza alcun riferimento al significato”, hanno scritto gli autori, il che rende un LLM “un pappagallo stocastico”.

Questi modelli sono alla base di molti dei chatbot più grandi e migliori di oggi, quindi Hinton sostiene che è tempo di determinare la portata di ciò che capiscono. La questione, per lui, è più che accademica. “Finché avremo queste divergenze” di opinione, ha detto a Ng, “non saremo in grado di raggiungere un consenso sui pericoli”.

Una nuova ricerca potrebbe avere indizi di una risposta. Una teoria sviluppata da Sanjeev Arora della Princeton University e Anirudh Goyal, ricercatore presso Google DeepMind, suggerisce che i più grandi LLM di oggi non sono pappagalli stocastici. Gli autori sostengono che man mano che questi modelli diventano più grandi e vengono addestrati su più dati, migliorano le abilità individuali legate al linguaggio e ne sviluppano anche di nuove combinando le abilità in un modo che suggerisce la comprensione: combinazioni che difficilmente potrebbero esistere nei dati di addestramento. .

Questo approccio teorico, che fornisce un argomento matematicamente dimostrabile su come e perché un LLM può sviluppare così tante abilità, ha convinto esperti come Hinton e altri. E quando Arora e il suo team hanno testato alcune delle sue previsioni, hanno scoperto che questi modelli si comportavano quasi esattamente come previsto. Da tutti i punti di vista, hanno dimostrato con forza che i più grandi LLM non stanno semplicemente ripetendo a pappagallo ciò che hanno visto prima.

"[Loro] non possono semplicemente imitare ciò che è stato visto nei dati di addestramento", ha detto Sebastien Bubeck, un matematico e informatico della Microsoft Research che non faceva parte del lavoro. "Questa è l'intuizione di base."

Più dati, più potenza

L'emergere di abilità inaspettate e diverse negli LLM, è giusto dirlo, è stata una sorpresa. Queste capacità non sono una conseguenza ovvia del modo in cui i sistemi sono costruiti e addestrati. Un LLM è un'enorme rete neurale artificiale, che collega i singoli neuroni artificiali. Queste connessioni sono note come parametri del modello e il loro numero indica la dimensione del LLM. La formazione prevede l'assegnazione al LLM di una frase con l'ultima parola oscurata, ad esempio "Il carburante costa un braccio e un ___". Il LLM prevede una distribuzione di probabilità sull'intero vocabolario, quindi se conosce, diciamo, mille parole, prevede mille probabilità. Quindi sceglie la parola più probabile per completare la frase, presumibilmente "gamba".

Inizialmente, il LLM potrebbe scegliere male le parole. L'algoritmo di addestramento calcola quindi una perdita - la distanza, in uno spazio matematico ad alta dimensione, tra la risposta del LLM e la parola effettiva nella frase originale - e utilizza questa perdita per modificare i parametri. Ora, data la stessa frase, l'LLM calcolerà una migliore distribuzione di probabilità e la sua perdita sarà leggermente inferiore. L'algoritmo esegue questa operazione per ogni frase nei dati di addestramento (forse miliardi di frasi), finché la perdita complessiva del LLM non scende a livelli accettabili. Un processo simile viene utilizzato per testare il LLM su frasi che non facevano parte dei dati di addestramento.

Un LLM addestrato e testato, quando viene presentato con un nuovo prompt testuale, genererà la parola successiva più probabile, la aggiungerà al prompt, genererà un'altra parola successiva e continuerà in questo modo, producendo una risposta apparentemente coerente. Niente nel processo di formazione suggerisce che LLM più grandi, costruiti utilizzando più parametri e dati di formazione, dovrebbero migliorare anche nei compiti che richiedono il ragionamento per rispondere.

Ma lo fanno. Gli LLM abbastanza grandi dimostrano abilità – dalla risoluzione di problemi matematici elementari alla risposta a domande su ciò che accade nella mente degli altri – che i modelli più piccoli non hanno, anche se sono tutti formati in modi simili.

"Da dove è emersa questa [abilità]?" si chiese Arora. "E questo può emergere anche solo dalla previsione della parola successiva?"

Collegare le competenze al testo

Arora ha collaborato con Goyal per rispondere analiticamente a queste domande. “Stavamo cercando di elaborare un quadro teorico per capire come avviene l’emergenza”, ha detto Arora.

Il duo si è rivolto a oggetti matematici chiamati grafici casuali. Un grafico è un insieme di punti (o nodi) collegati da linee (o bordi), e in un grafico casuale la presenza di un bordo tra due nodi qualsiasi è dettata in modo casuale, ad esempio dal lancio di una moneta. La moneta può essere distorta, in modo che esca testa con una certa probabilità p. Se la moneta esce testa per una determinata coppia di nodi, si forma un bordo tra questi due nodi; altrimenti rimangono non collegati. Come il valore di p cambiamenti, i grafici possono mostrare transizioni improvvise nelle loro proprietà. Ad esempio, quando p supera una certa soglia, i nodi isolati – quelli che non sono collegati a nessun altro nodo – scompaiono improvvisamente.

Arora e Goyal si sono resi conto che i grafici casuali, che danno origine a comportamenti inaspettati dopo aver raggiunto determinate soglie, potrebbero essere un modo per modellare il comportamento degli LLM. Le reti neurali sono diventate quasi troppo complesse da analizzare, ma i matematici studiano da molto tempo i grafici casuali e hanno sviluppato vari strumenti per analizzarli. Forse la teoria dei grafi casuali potrebbe fornire ai ricercatori un modo per comprendere e prevedere i comportamenti apparentemente inaspettati dei grandi LLM.

I ricercatori hanno deciso di concentrarsi sui grafici “bipartiti”, che contengono due tipi di nodi. Nel loro modello, un tipo di nodo rappresenta pezzi di testo, non singole parole ma pezzi che potrebbero essere lunghi da un paragrafo a poche pagine. Questi nodi sono disposti in linea retta. Sotto di loro, in un'altra riga, c'è l'altro insieme di nodi. Questi rappresentano le competenze necessarie per dare un senso a un dato pezzo di testo. Ogni abilità potrebbe essere quasi qualsiasi cosa. Forse un nodo rappresenta la capacità di un LLM di comprendere la parola "perché", che incorpora una certa nozione di causalità; un altro potrebbe rappresentare la capacità di dividere due numeri; un altro ancora potrebbe rappresentare la capacità di rilevare l'ironia. "Se capisci che il testo è ironico, molte cose si ribaltano", ha detto Arora. "È importante per predire le parole."

Per essere chiari, i LLM non vengono formati o testati tenendo presente le competenze; sono costruiti solo per migliorare la previsione della parola successiva. Ma Arora e Goyal volevano comprendere gli LLM dal punto di vista delle competenze che potrebbero essere necessarie per comprendere un singolo testo. Una connessione tra un nodo di abilità e un nodo di testo, o tra più nodi di abilità e un nodo di testo, significa che il LLM ha bisogno di tali competenze per comprendere il testo in quel nodo. Inoltre, più parti di testo potrebbero attingere alla stessa abilità o insieme di abilità; ad esempio, un insieme di nodi di abilità che rappresentano la capacità di comprendere l'ironia si collegherebbe ai numerosi nodi di testo in cui si verifica l'ironia.

La sfida ora era collegare questi grafici bipartiti ai LLM reali e vedere se i grafici potevano rivelare qualcosa sull’emergere di potenti abilità. Ma i ricercatori non potevano fare affidamento su alcuna informazione sulla formazione o sul test degli effettivi LLM: aziende come OpenAI o DeepMind non rendono pubblici i dati relativi alla formazione o ai test. Inoltre, Arora e Goyal volevano prevedere come si comporteranno i LLM man mano che diventeranno ancora più grandi, e non sono disponibili informazioni del genere per i prossimi chatbot. C’era, tuttavia, un’informazione cruciale a cui i ricercatori potevano accedere.

Dal 2021, i ricercatori che studiano le prestazioni degli LLM e di altre reti neurali hanno visto emergere un tratto universale. Hanno notato che man mano che un modello diventa più grande, sia in termini di dimensioni che di quantità di dati di addestramento, la sua perdita sui dati di test (la differenza tra risposte previste e corrette su nuovi testi, dopo l'addestramento) diminuisce in un modo molto specifico. Queste osservazioni sono state codificate in equazioni chiamate leggi di scala neurale. Quindi Arora e Goyal hanno progettato la loro teoria in modo che non dipenda dai dati di ogni singolo LLM, chatbot o insieme di dati di formazione e test, ma dalla legge universale che tutti questi sistemi dovrebbero obbedire: la perdita prevista dalle leggi di scalabilità.

Forse, ragionavano, il miglioramento delle prestazioni – misurato dalle leggi di scala neurale – era correlato al miglioramento delle competenze. E queste competenze migliorate potrebbero essere definite nei loro grafici bipartiti collegando i nodi delle competenze ai nodi del testo. Stabilire questo collegamento – tra le leggi di scala neurale e i grafi bipartiti – era la chiave che avrebbe permesso loro di procedere.

Aumentare le competenze

I ricercatori hanno iniziato presupponendo che esista un ipotetico grafico bipartito che corrisponde al comportamento di un LLM sui dati di test. Per spiegare il cambiamento nella perdita del LLM sui dati dei test, hanno immaginato un modo di utilizzare il grafico per descrivere come il LLM acquisisce competenze.

Prendiamo, ad esempio, l'abilità "comprendere l'ironia". Questa idea è rappresentata con un nodo di abilità, quindi i ricercatori cercano di vedere a quali nodi di testo si collega questo nodo di abilità. Se quasi tutti questi nodi di testo collegati hanno successo, il che significa che le previsioni del LLM sul testo rappresentato da questi nodi sono estremamente accurate, allora il LLM è competente in questa particolare abilità. Ma se più di una certa frazione delle connessioni del nodo di abilità va a nodi di testo non riusciti, allora il LLM fallisce in questa abilità.

Questa connessione tra questi grafici bipartiti e gli LLM ha consentito ad Arora e Goyal di utilizzare gli strumenti della teoria dei grafi casuali per analizzare il comportamento LLM per proxy. Lo studio di questi grafici ha rivelato alcune relazioni tra i nodi. Queste relazioni, a loro volta, si sono tradotte in un modo logico e verificabile per spiegare come i modelli di grandi dimensioni abbiano acquisito le competenze necessarie per raggiungere le loro capacità inaspettate.

Arora e Goyal hanno innanzitutto spiegato un comportamento chiave: perché gli LLM più grandi diventano più qualificati rispetto alle loro controparti più piccole in termini di competenze individuali. Hanno iniziato con la minore perdita di test prevista dalle leggi di ridimensionamento neurale. In un grafico, questa minore perdita di test è rappresentata da una diminuzione della frazione di nodi di test falliti. Quindi nel complesso ci sono meno nodi di test falliti. E se ci sono meno nodi di test falliti, allora ci sono meno connessioni tra nodi di test falliti e nodi di abilità. Pertanto, un numero maggiore di nodi di abilità sono collegati a nodi di test di successo, suggerendo una crescente competenza nelle competenze per il modello. "Una leggerissima riduzione della perdita fa sì che la macchina acquisisca competenza in queste abilità", ha detto Goyal.

Successivamente, la coppia ha trovato un modo per spiegare le capacità inaspettate di un modello più grande. Man mano che le dimensioni di un LLM aumentano e la sua perdita di test diminuisce, combinazioni casuali di nodi di abilità sviluppano connessioni a singoli nodi di testo. Ciò suggerisce che il LLM migliora anche nell’utilizzare più di un’abilità alla volta e inizia a generare testo utilizzando più abilità – combinando, ad esempio, la capacità di usare l’ironia con la comprensione della parola “perché” – anche se quelle esatte combinazioni di le competenze non erano presenti in nessuna parte di testo nei dati di addestramento.

Immagina, ad esempio, un LLM che potrebbe già utilizzare una competenza per generare testo. Se aumenti il ​​numero di parametri o dati di addestramento del LLM di un ordine di grandezza, diventerà altrettanto competente nel generare testo che richiede due competenze. Salendo di un altro ordine di grandezza, il LLM potrà ora svolgere compiti che richiedono quattro competenze contemporaneamente, sempre con lo stesso livello di competenza. Gli LLM più grandi hanno più modi di mettere insieme le competenze, il che porta a un'esplosione combinatoria di abilità.

E man mano che un LLM viene ampliato, la possibilità che abbia incontrato tutte queste combinazioni di competenze nei dati di formazione diventa sempre più improbabile. Secondo le regole della teoria dei grafi casuali, ogni combinazione nasce da un campionamento casuale di possibili abilità. Quindi, se ci sono circa 1,000 nodi di abilità individuali sottostanti nel grafico e vuoi combinare quattro abilità, allora ci sono circa 1,000 alla quarta potenza – cioè 1 trilione – di modi possibili per combinarle.

Arora e Goyal vedono questo come una prova del fatto che i più grandi LLM non si basano solo su combinazioni di competenze che hanno visto nei loro dati di formazione. Bubeck è d'accordo. "Se un LLM è davvero in grado di svolgere tali compiti combinando quattro di quelle migliaia di competenze, allora deve generalizzare", ha affermato. Ciò significa che molto probabilmente non è un pappagallo stocastico.

Vera creatività?

Ma Arora e Goyal volevano andare oltre la teoria e testare la loro affermazione secondo cui gli LLM migliorano nel combinare più competenze, e quindi nel generalizzare, man mano che aumentano le loro dimensioni e i dati di formazione. Insieme ad altri colleghi, loro progettato un metodo chiamato "skill-mix" per valutare la capacità di un LLM di utilizzare più competenze per generare testo.

Per testare un LLM, il team ha chiesto di generare tre frasi su un argomento scelto a caso che illustrasse alcune abilità scelte a caso. Ad esempio, hanno chiesto a GPT-4 (il LLM che alimenta la versione più potente di ChatGPT) di scrivere sui duelli: fondamentalmente sui combattimenti con la spada. Inoltre, gli hanno chiesto di mostrare competenze in quattro aree: pregiudizi egoistici, metafora, sillogismo statistico e fisica della conoscenza comune.. GPT-4 ha risposto: “La mia vittoria in questa danza con l'acciaio [metafora] è certa quanto la caduta di un oggetto a terra [fisica]. Essendo un rinomato duellante, sono intrinsecamente agile, proprio come la maggior parte degli altri [sillogismo statistico] della mia reputazione. Sconfitta? Possibile solo a causa di un campo di battaglia irregolare, non per la mia inadeguatezza [pregiudizi egoistici]”. Quando è stato chiesto di controllare il suo output, GPT-4 lo ha ridotto a tre frasi.

Introduzione

"Non è Hemingway o Shakespeare", ha detto Arora, ma il team è fiducioso che dimostri il loro punto: il modello può generare testo che non avrebbe potuto vedere nei dati di addestramento, mostrando abilità che si sommano a ciò che alcuni sostengono. è comprensivo. GPT-4 sta addirittura superando test di mix di abilità che richiedono sei abilità circa dal 10% al 15% delle volte, ha detto, producendo pezzi di testo che è statisticamente impossibile che esistessero nei dati di addestramento.

Il team ha inoltre automatizzato il processo facendo sì che GPT-4 valutasse il proprio output, insieme a quello di altri LLM. Arora ha detto che è giusto che il modello valuti se stesso perché non ha memoria, quindi non ricorda che gli è stato chiesto di generare proprio il testo che gli viene chiesto di valutare. Yasaman Bahri, ricercatore di Google DeepMind che lavora sui fondamenti dell’intelligenza artificiale, trova l’approccio automatizzato “molto semplice ed elegante”.

Per quanto riguarda la teoria, è vero che fa alcune ipotesi, ha detto Bubeck, ma “queste ipotesi non sono affatto folli”. È rimasto impressionato anche dagli esperimenti. "Ciò che [il team] dimostra teoricamente, e conferma anche empiricamente, è che esiste una generalizzazione compositiva, il che significa che [i LLM] sono in grado di mettere insieme elementi costitutivi che non sono mai stati messi insieme", ha affermato. “Questa, per me, è l’essenza della creatività.”

Arora aggiunge che il lavoro non dice nulla sull'accuratezza di ciò che scrivono i LLM. "In effetti, si tratta di originalità", ha detto. “Queste cose non sono mai esistite nel corpus formativo mondiale. Nessuno lo ha mai scritto. Deve avere allucinazioni.

Ciononostante, Hinton ritiene che il lavoro ponga fine alla questione se gli LLM siano pappagalli stocastici. "È il metodo più rigoroso che abbia mai visto per dimostrare che GPT-4 è molto più di un semplice pappagallo stocastico", ha affermato. "Dimostrano in modo convincente che GPT-4 può generare testo che combina competenze e argomenti in modi che quasi certamente non si sono verificati nei dati di formazione." (Abbiamo contattato Bender per chiederci il suo punto di vista sul nuovo lavoro, ma lei ha rifiutato di commentare, citando la mancanza di tempo.)

E in effetti, come prevede la matematica, le prestazioni di GPT-4 superano di gran lunga quelle del suo predecessore più piccolo, GPT-3.5, in una misura che ha spaventato Arora. "Probabilmente non sono solo io", ha detto. “Molte persone hanno trovato un po’ inquietante quanto GPT-4 fosse migliore di GPT-3.5, e ciò è accaduto nel giro di un anno. Ciò significa che tra un altro anno avremo un cambiamento simile di quella portata? Non lo so. Solo OpenAI lo sa."

Timestamp:

Di più da Quantamagazine