In che modo il ragionamento basato sulla catena di pensiero aiuta il calcolo delle reti neurali

Ripubblicato da Platone

Seguaci: 0

In che modo il ragionamento basato sulla catena di pensiero aiuta il calcolo delle reti neurali | Quanta Magazine PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Probabilmente il tuo insegnante di scuola elementare non ti ha mostrato come sommare numeri di 20 cifre. Ma se sai come sommare i numeri più piccoli, tutto ciò di cui hai bisogno sono carta, matita e un po' di pazienza. Inizia con le unità e procedi verso sinistra passo dopo passo, e presto ne accumulerai quintilioni con facilità.

Problemi come questo sono facili per gli esseri umani, ma solo se li affrontiamo nel modo giusto. "Il modo in cui noi esseri umani risolviamo questi problemi non è 'fissarlo e poi scrivere la risposta'", ha detto Eran Malach, un ricercatore di machine learning presso l'Università di Harvard. "In realtà camminiamo attraverso i passaggi."

Questa intuizione ha ispirato i ricercatori che studiano i grandi modelli linguistici che alimentano i chatbot come ChatGPT. Sebbene questi sistemi possano risolvere domande che coinvolgono pochi passaggi di aritmetica, spesso falliscono problemi che coinvolgono molti passaggi, come il calcolo della somma di due grandi numeri. Ma nel 2022, un team di ricercatori di Google ha mostrato che chiedere ai modelli linguistici di generare soluzioni passo dopo passo ha permesso ai modelli di risolvere problemi che in precedenza sembravano fuori dalla loro portata. La loro tecnica, chiamata stimolazione della catena di pensiero, si diffuse presto, anche se i ricercatori faticavano a capire cosa la facesse funzionare.

Ora, diversi team hanno esplorato il potere del ragionamento basato sulla catena di pensiero utilizzando tecniche provenienti da un ramo arcano dell’informatica teorica chiamato teoria della complessità computazionale. È l'ultimo capitolo di una linea di ricerca che utilizza la teoria della complessità per studiare le capacità intrinseche e i limiti dei modelli linguistici. Questi sforzi chiariscono dove dovremmo aspettarci che i modelli falliscano e potrebbero indicare nuovi approcci per costruirli.

"Rimuovono parte della magia", ha detto Dimitris Papailiopoulos, un ricercatore di machine learning presso l'Università del Wisconsin, Madison. "È una buona cosa."

Trasformatori di formazione

I grandi modelli linguistici sono costruiti attorno a strutture matematiche chiamate reti neurali artificiali. I tanti “neuroni” all’interno di queste reti eseguono semplici operazioni matematiche su lunghe stringhe di numeri che rappresentano singole parole, trasmutando ogni parola che passa attraverso la rete in un’altra. I dettagli di questa alchimia matematica dipendono da un altro insieme di numeri chiamati parametri della rete, che quantificano la forza delle connessioni tra i neuroni.

Per addestrare un modello linguistico a produrre risultati coerenti, i ricercatori in genere iniziano con una rete neurale i cui parametri hanno tutti valori casuali, e poi la alimentano con una quantità di dati provenienti da Internet. Ogni volta che il modello vede un nuovo blocco di testo, tenta di prevedere ciascuna parola a turno: indovina la seconda parola in base alla prima, la terza in base alle prime due e così via. Confronta ogni previsione con il testo reale, quindi ne modifica i parametri per ridurre la differenza. Ogni modifica modifica solo leggermente le previsioni del modello, ma in qualche modo il loro effetto collettivo consente a un modello di rispondere in modo coerente a input che non ha mai visto.

Da 20 anni i ricercatori addestrano le reti neurali a elaborare il linguaggio. Ma il lavoro è davvero iniziato nel 2017, quando i ricercatori di Google hanno introdotto un nuovo tipo di rete chiamato trasformatore.

"Questo è stato proposto sette anni fa, il che sembra preistoria", ha detto Pablo Barceló, ricercatore di machine learning presso la Pontificia Università Cattolica del Cile.

Ciò che ha reso i trasformatori così trasformativi è che è facile ampliarli, ovvero aumentare il numero di parametri e la quantità di dati di addestramento, senza rendere la formazione eccessivamente costosa. Prima dei trasformatori, le reti neurali avevano al massimo qualche centinaio di milioni di parametri; oggi, i modelli più grandi basati su trasformatore ne hanno più di un trilione. Gran parte del miglioramento delle prestazioni del modello linguistico negli ultimi cinque anni deriva semplicemente dal suo ampliamento.

I trasformatori hanno reso questo possibile utilizzando speciali strutture matematiche chiamate teste di attenzione, che danno loro una sorta di visione a volo d'uccello del testo che stanno leggendo. Quando un trasformatore legge un nuovo blocco di testo, la sua attenzione analizza rapidamente l'intero testo e identifica le connessioni rilevanti tra le parole, forse notando che la quarta e l'ottava parola sono probabilmente più utili per prevedere la decima. Quindi le teste dell'attenzione trasmettono le parole a un'enorme rete di neuroni chiamata rete feedforward, che esegue la pesante elaborazione dei numeri necessaria per generare le previsioni che aiutano l'apprendimento.

I veri trasformatori hanno più livelli di attenzione separati da reti feedforward e emettono previsioni solo dopo l'ultimo livello. Ma a ogni livello, i responsabili dell’attenzione hanno già identificato il contesto più rilevante per ogni parola, quindi il passo di feedforward ad alta intensità computazionale può avvenire simultaneamente per ogni parola nel testo. Ciò accelera il processo di formazione, rendendo possibile addestrare i trasformatori su set di dati sempre più grandi. Ancora più importante, consente ai ricercatori di distribuire l’enorme carico computazionale derivante dall’addestramento di un’enorme rete neurale su molti processori che lavorano in tandem.

Per ottenere il massimo da enormi quantità di dati, “è necessario rendere i modelli davvero grandi”, ha affermato David Chiang, ricercatore di machine learning presso l'Università di Notre Dame. "Non sarà pratico addestrarli a meno che non siano parallelizzati."

Tuttavia, la struttura parallela che rende così semplice l'addestramento dei trasformatori non aiuta dopo l'addestramento: a quel punto non è necessario prevedere parole che già esistono. Durante il normale funzionamento, i trasformatori emettono una parola alla volta, ricollegando ciascuna uscita all'ingresso prima di generare la parola successiva, ma sono ancora bloccati con un'architettura ottimizzata per l'elaborazione parallela.

Man mano che i modelli basati su trasformatori crescevano e alcuni compiti continuavano a dare loro problemi, alcuni ricercatori iniziarono a chiedersi se la spinta verso modelli più parallelizzabili avesse avuto un prezzo. C'era un modo per comprendere teoricamente il comportamento dei trasformatori?

La complessità dei trasformatori

Gli studi teorici sulle reti neurali incontrano molte difficoltà, soprattutto quando cercano di tenere conto dell'addestramento. Le reti neurali utilizzano una procedura ben nota per modificare i propri parametri in ogni fase del processo di addestramento. Ma può essere difficile capire perché questa semplice procedura converga su un buon insieme di parametri.

Piuttosto che considerare ciò che accade durante l'addestramento, alcuni ricercatori studiano le capacità intrinseche dei trasformatori immaginando che sia possibile adattare i loro parametri a qualsiasi valore arbitrario. Ciò equivale a trattare un trasformatore come un tipo speciale di computer programmabile.

"Hai un dispositivo informatico e vuoi sapere: 'Bene, cosa può fare?' Che tipo di funzioni può calcolare?'” Ha detto Chiang.

Queste sono le domande centrali nello studio formale della computazione. Il campo risale al 1936, quando Alan Turing immaginò per la prima volta un dispositivo fantasioso, ora chiamata macchina di Turing, che poteva eseguire qualsiasi calcolo leggendo e scrivendo simboli su un nastro infinito. I teorici della complessità computazionale si sarebbero poi basati sul lavoro di Turing dimostrando che i problemi computazionali ricadono naturalmente in diversi ambiti classi di complessità definiti dalle risorse necessarie per risolverli.

Nel 2019, Barceló e altri due ricercatori dimostrato che una versione idealizzata di un trasformatore con un numero fisso di parametri potrebbe essere potente quanto una macchina di Turing. Se imposti un trasformatore in modo che reimmetta ripetutamente il suo output come input e imposti i parametri sui valori appropriati per il problema specifico che desideri risolvere, alla fine fornirà la risposta corretta.

Quel risultato era un punto di partenza, ma si basava su alcune ipotesi non realistiche che probabilmente avrebbero sopravvalutato la potenza dei trasformatori. Negli anni successivi, i ricercatori hanno lavorato per sviluppare quadri teorici più realistici.

Uno di questi sforzi è iniziato nel 2021, quando Guglielmo Merrill, ora studente laureato alla New York University, stava lasciando una borsa di studio di due anni presso l'Allen Institute for Artificial Intelligence di Seattle. Mentre era lì, aveva analizzato altri tipi di reti neurali utilizzando tecniche che sembravano inadeguate per l'architettura parallela dei trasformatori. Poco prima di partire, ha avviato una conversazione con un ricercatore di intelligenza artificiale dell'Allen Institute Ashish Sabharval, che aveva studiato la teoria della complessità prima di dedicarsi alla ricerca sull'intelligenza artificiale. Cominciarono a sospettare che la teoria della complessità potesse aiutarli a comprendere i limiti dei trasformatori.

“Sembrava un modello semplice; ci devono essere alcune limitazioni che si possono semplicemente definire”, ha detto Sabharwal.

I due hanno analizzato i trasformatori utilizzando un ramo della teoria della complessità computazionale, chiamato complessità dei circuiti, che viene spesso utilizzato per studiare il calcolo parallelo e hanno avuto stato applicato di recente alle versioni semplificate dei trasformatori. Nel corso dell’anno successivo, hanno perfezionato molte delle ipotesi irrealistiche del lavoro precedente. Per studiare come la struttura parallela dei trasformatori potrebbe limitare le loro capacità, i due hanno considerato il caso in cui i trasformatori non reimmettono il loro output nel loro input, ma il loro primo output dovrebbe essere la risposta finale. Essi dimostrato che i trasformatori in questo quadro teorico non potrebbero risolvere alcun problema computazionale che si trovi al di fuori di una specifica classe di complessità. E si ritiene che molti problemi di matematica, compresi quelli relativamente semplici come la risoluzione di equazioni lineari, si trovino al di fuori di questa classe.

Fondamentalmente, hanno dimostrato che il parallelismo aveva un costo, almeno quando i trasformatori dovevano fornire subito una risposta. "I trasformatori sono piuttosto deboli se il modo in cui li usi è dare un input e aspettarti solo una risposta immediata", ha detto Merrill.

Esperimenti mentali

I risultati di Merrill e Sabharwal hanno sollevato una domanda naturale: quanto diventano più potenti i trasformatori quando possono riciclare i loro output? Barceló e i suoi coautori avevano studiato questo caso nella loro analisi del 2019 dei trasformatori idealizzati, ma con ipotesi più realistiche la questione rimaneva aperta. E negli anni successivi, i ricercatori avevano scoperto la suggestione della catena di pensiero, dando alla domanda una ritrovata rilevanza.

Merrill e Sabharwal sapevano che il loro approccio puramente matematico non poteva catturare tutti gli aspetti del ragionamento basato sulla catena di pensiero in modelli linguistici reali, dove la formulazione del prompt può essere molto importante. Ma non importa come viene formulato un prompt, finché fa sì che un modello linguistico produca soluzioni passo dopo passo, il modello può in linea di principio riutilizzare i risultati dei passaggi intermedi nei passaggi successivi attraverso il trasformatore. Ciò potrebbe fornire un modo per eludere i limiti del calcolo parallelo.

Nel frattempo, un team dell’Università di Pechino aveva pensato in modo simile e i risultati preliminari erano positivi. In un articolo del maggio 2023, hanno identificato alcuni problemi matematici che dovrebbero essere impossibili per i normali trasformatori nel quadro di Merrill e Sabharwal, e ha mostrato che i passaggi intermedi hanno consentito ai trasformatori di risolvere questi problemi.

In ottobre, Merrill e Sabharwal hanno proseguito il loro lavoro precedente con a studio teorico dettagliato della potenza computazionale della catena di pensiero. Hanno quantificato come quella potenza di calcolo aggiuntiva dipenda dal numero di passaggi intermedi che un trasformatore può utilizzare prima di dover fornire una risposta finale. In generale, i ricercatori si aspettano che il numero appropriato di passaggi intermedi per risolvere qualsiasi problema dipenda dalla dimensione dell’input al problema. Ad esempio, la strategia più semplice per sommare due numeri da 20 cifre richiede il doppio dei passaggi intermedi di addizione rispetto allo stesso approccio per sommare due numeri da 10 cifre.

Esempi come questo suggeriscono che i trasformatori non trarrebbero molto vantaggio dall'utilizzo di pochi passaggi intermedi. In effetti, Merrill e Sabharwal hanno dimostrato che la catena di pensiero inizia davvero ad aiutare solo quando il numero di passaggi intermedi cresce in proporzione alla dimensione dell’input, e molti problemi richiedono che il numero di passaggi intermedi diventi ancora più grande.

La completezza del risultato ha impressionato i ricercatori. "Hanno davvero bloccato questo", ha detto Daniele Hsu, un ricercatore di machine learning presso la Columbia University.

Il recente lavoro di Merrill e Sabharwal indica che la catena di pensiero non è una panacea: in linea di principio può aiutare i trasformatori a risolvere problemi più difficili, ma solo a costo di un grande sforzo computazionale.

"Siamo interessati a diversi modi per aggirare i limiti dei trasformatori in un solo passo", ha affermato Merrill. “La catena di pensiero è un modo, ma questo studio dimostra che potrebbe non essere il modo più economico”.

Torna alla realtà

Tuttavia, i ricercatori avvertono che questo tipo di analisi teorica non può rivelare molto sui modelli linguistici reali. Risultati positivi – prove che i trasformatori possono in linea di principio risolvere determinati problemi – non implicano che un modello linguistico imparerà effettivamente quelle soluzioni durante la formazione.

E anche i risultati che affrontano i limiti dei trasformatori presentano alcuni avvertimenti: indicano che nessun trasformatore può risolvere perfettamente determinati problemi in tutti i casi. Naturalmente, questo è un livello piuttosto alto. "Potrebbero esserci casi speciali del problema che potrebbe gestire perfettamente", ha detto Hsu.

Nonostante questi avvertimenti, il nuovo lavoro offre un modello per analizzare diversi tipi di architetture di rete neurale che potrebbero eventualmente sostituire i trasformatori. Se un’analisi della teoria della complessità suggerisce che alcuni tipi di reti sono più potenti di altri, ciò dimostrerebbe che tali reti potrebbero funzionare meglio anche nel mondo reale.

Chiang ha inoltre sottolineato che la ricerca sui limiti dei trasformatori è tanto più preziosa in quanto i modelli linguistici sono sempre più utilizzati in un'ampia gamma di applicazioni del mondo reale, rendendo facile sopravvalutare le loro capacità.

"In realtà ci sono molte cose che non fanno così bene, e dobbiamo essere molto, molto consapevoli di quali siano i limiti", ha detto Chiang. "Ecco perché questo tipo di lavoro è davvero importante."

Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
PlatoData.Network Generativo verticale Ai. Potenzia te stesso. Accedi qui.
PlatoAiStream. Intelligenza Web3. Conoscenza amplificata. Accedi qui.
PlatoneESG. Carbonio, Tecnologia pulita, Energia, Ambiente, Solare, Gestione dei rifiuti. Accedi qui.
Platone Salute. Intelligence sulle biotecnologie e sulle sperimentazioni cliniche. Accedi qui.
Fonte: https://www.quantamagazine.org/how-chain-of-thought-reasoning-helps-neural-networks-compute-20240321/

Timestamp: 21 Marzo 2024

Timestamp: Novembre 8, 2022

In che modo il ragionamento basato sulla catena di pensiero aiuta il calcolo delle reti neurali | Rivista Quanti

Ripubblicato da Platone

Trasformatori di formazione

La complessità dei trasformatori

Esperimenti mentali

Torna alla realtà

Di più da Quantamagazine

I messaggi segreti possono nascondersi nei media generati dall'intelligenza artificiale | Rivista Quanta

Gli "orologi" epigenetici predicono la vera età biologica degli animali

I matematici scoprono un'infinità di possibili forme di buchi neri

Il trio matematico avanza il problema secolare della teoria dei numeri

Come si dimostra un segreto?

Studia le arterie in crescita per aiutare il recupero da un attacco di cuore

In che modo i supergeni alimentano l'evoluzione nonostante le mutazioni dannose

Chi siamo

Ricerca verticale e Ai

Piattaforma

Rimani in contatto

Il mio account

Introduzione

Trasformatori di formazione

La complessità dei trasformatori

Esperimenti mentali

Torna alla realtà

Di più da Quantamagazine

Chi siamo

Ricerca verticale e Ai

Piattaforma

Rimani in contatto

Il mio account