Come i trasformatori sembrano imitare parti del cervello PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Come i trasformatori sembrano imitare parti del cervello

Capire come il cervello organizza e accede alle informazioni spaziali - dove siamo, cosa c'è dietro l'angolo, come arrivarci - rimane una sfida squisita. Il processo prevede il richiamo di un'intera rete di memorie e dati spaziali archiviati da decine di miliardi di neuroni, ciascuno connesso a migliaia di altri. I neuroscienziati hanno identificato elementi chiave come celle della griglia, neuroni che mappano le posizioni. Ma andare più in profondità si rivelerà complicato: non è che i ricercatori possano rimuovere e studiare fette di materia grigia umana per osservare come i ricordi basati sulla posizione di immagini, suoni e odori fluiscono e si connettono tra loro.

L'intelligenza artificiale offre un'altra via d'accesso. Per anni, i neuroscienziati hanno sfruttato molti tipi di reti neurali, i motori che alimentano la maggior parte delle applicazioni di deep learning, per modellare l'attivazione dei neuroni nel cervello. In un recente lavoro, i ricercatori hanno dimostrato che l'ippocampo, una struttura del cervello fondamentale per la memoria, è fondamentalmente un tipo speciale di rete neurale, nota come trasformatore, sotto mentite spoglie. Il loro nuovo modello traccia le informazioni spaziali in un modo che è parallelo al funzionamento interno del cervello. Hanno riscontrato un notevole successo.

"Il fatto che sappiamo che questi modelli del cervello sono equivalenti al trasformatore significa che i nostri modelli funzionano molto meglio e sono più facili da addestrare", ha affermato James Whittington, un neuroscienziato cognitivo che divide il suo tempo tra la Stanford University e il laboratorio di Tim Behrens all'università di Oxford.

Gli studi di Whittington e altri suggeriscono che i trasformatori possono migliorare notevolmente la capacità dei modelli di rete neurale di imitare i tipi di calcoli eseguiti dalle celle della griglia e da altre parti del cervello. Tali modelli potrebbero spingere la nostra comprensione di come funzionano le reti neurali artificiali e, ancora più probabilmente, di come vengono eseguiti i calcoli nel cervello, ha affermato Whittington.

"Non stiamo cercando di ricreare il cervello", ha detto David Ha, un informatico di Google Brain che lavora anche su modelli di trasformatori. "Ma possiamo creare un meccanismo in grado di fare ciò che fa il cervello?"

I Transformer sono apparsi per la prima volta cinque anni fa come un nuovo modo per l'IA di elaborare il linguaggio. Sono la salsa segreta in quei programmi di completamento delle frasi che catturano i titoli dei titoli come BERTA e GPT-3, che può generare testi di canzoni convincenti, comporre sonetti shakespeariani e impersonare rappresentanti del servizio clienti.

I trasformatori funzionano utilizzando un meccanismo chiamato auto-attenzione, in cui ogni input - una parola, un pixel, un numero in una sequenza - è sempre collegato a ogni altro input. (Altre reti neurali collegano gli input solo a determinati altri input.) Ma mentre i trasformatori sono stati progettati per compiti linguistici, da allora hanno eccelso in altri compiti come la classificazione delle immagini e ora la modellazione del cervello.

Nel 2020, un gruppo guidato da Sepp Hochreiter, uno scienziato informatico dell'Università Johannes Kepler di Linz in Austria, ha utilizzato un trasformatore per riorganizzare un modello potente e di lunga data di recupero della memoria chiamato rete Hopfield. Introdotte per la prima volta 40 anni fa dal fisico di Princeton John Hopfield, queste reti seguono una regola generale: i neuroni che sono attivi allo stesso tempo costruiscono forti connessioni tra loro.

Hochreiter e i suoi collaboratori, osservando che i ricercatori stavano cercando modelli migliori di recupero della memoria, hanno visto una connessione tra il modo in cui le reti Hopfield recuperano i ricordi e il modo in cui i trasformatori eseguono l'attenzione. Hanno aggiornato la rete Hopfield, trasformandola essenzialmente in un trasformatore. Questa modifica ha consentito al modello di archiviare e recuperare più ricordi grazie a connessioni più efficaci, ha affermato Whittington. Lo stesso Hopfield, insieme a Dmitry Krotov del MIT-IBM Watson AI Lab, ha dimostrato che una rete Hopfield basata su trasformatori era biologicamente plausibile.

Poi, all'inizio di quest'anno, Whittington e Behrens hanno contribuito a modificare ulteriormente l'approccio di Hochreiter, modificando il trasformatore in modo che invece di trattare i ricordi come una sequenza lineare, come una stringa di parole in una frase, li codificasse come coordinate in spazi di dimensioni superiori. Quella "svolta", come l'hanno chiamata i ricercatori, ha ulteriormente migliorato le prestazioni del modello nei compiti di neuroscienza. Hanno anche dimostrato che il modello era matematicamente equivalente ai modelli dei modelli di attivazione delle cellule della griglia che i neuroscienziati vedono nelle scansioni fMRI.

"Le cellule della griglia hanno questo tipo di struttura eccitante, bella e regolare e con schemi sorprendenti che è improbabile che si manifestino a caso", ha affermato Caswell Barry, neuroscienziato dell'University College di Londra. Il nuovo lavoro ha mostrato come i trasformatori replicano esattamente quei modelli osservati nell'ippocampo. "Hanno riconosciuto che un trasformatore può capire dove si basa sugli stati precedenti e come si è spostato, e in un modo che è inserito nei modelli tradizionali di celle della griglia".

Altri lavori recenti suggeriscono che i trasformatori potrebbero migliorare la nostra comprensione anche di altre funzioni cerebrali. L'anno scorso, Martin Schrimpf, neuroscienziato computazionale presso il Massachusetts Institute of Technology, analizzato 43 diversi modelli di rete neurale per vedere quanto bene hanno previsto le misurazioni dell'attività neurale umana come riportato da fMRI ed elettrocorticografia. I trasformatori, ha scoperto, sono le attuali reti neurali all'avanguardia e all'avanguardia, che predicono quasi tutte le variazioni riscontrate nell'imaging.

E Ha, insieme al collega scienziato informatico Yuji Tang, ha recentemente progettato un modello che potrebbe inviare intenzionalmente grandi quantità di dati attraverso un trasformatore in modo casuale e disordinato, imitando il modo in cui il corpo umano trasmette le osservazioni sensoriali al cervello. Il loro trasformatore, come il nostro cervello, potrebbe gestire con successo un flusso disordinato di informazioni.

"Le reti neurali sono cablate per accettare un input particolare", ha affermato Tang. Ma nella vita reale, i set di dati spesso cambiano rapidamente e la maggior parte dell'IA non ha modo di adeguarsi. "Volevamo sperimentare un'architettura che potesse adattarsi molto rapidamente".

Nonostante questi segni di progresso, Behrens vede i trasformatori solo come un passo verso un modello accurato del cervello, non la fine della ricerca. "Devo essere un neuroscienziato scettico qui", ha detto. "Non credo che i trasformatori finiranno per essere il modo in cui pensiamo al linguaggio nel cervello, ad esempio, anche se hanno il miglior modello attuale di frasi".

“È questa la base più efficiente per fare previsioni su dove sono e cosa vedrò dopo? Se devo essere onesto, è troppo presto per dirlo", ha detto Barry.

Schrimpf, inoltre, ha notato che anche i trasformatori con le migliori prestazioni sono limitati, funzionano bene per parole e frasi brevi, ad esempio, ma non per compiti linguistici su larga scala come raccontare storie.

"La mia sensazione è che questa architettura, questo trasformatore, ti metta nello spazio giusto per comprendere la struttura del cervello e possa essere migliorato con l'allenamento", ha affermato Schrimpf. "Questa è una buona direzione, ma il campo è super complesso".

Timestamp:

Di più da Quantamagazine