L'intelligenza artificiale autodidatta mostra somiglianze con il funzionamento del cervello PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

L'intelligenza artificiale autodidatta mostra somiglianze con il funzionamento del cervello

Da un decennio ormai, molti dei più impressionanti sistemi di intelligenza artificiale sono stati insegnati utilizzando un enorme inventario di dati etichettati. Un'immagine potrebbe essere etichettata come "gatto soriano" o "gatto tigre", ad esempio, per "addestrare" una rete neurale artificiale per distinguere correttamente un soriano da una tigre. La strategia ha avuto un successo spettacolare e una deplorevole mancanza.

Tale formazione "supervisionata" richiede dati faticosamente etichettati dagli esseri umani e le reti neurali spesso prendono scorciatoie, imparando ad associare le etichette a informazioni minime e talvolta superficiali. Ad esempio, una rete neurale potrebbe utilizzare la presenza dell'erba per riconoscere la foto di una mucca, perché le mucche vengono generalmente fotografate nei campi.

"Stiamo allevando una generazione di algoritmi che sono come studenti universitari [che] non sono venuti a lezione per l'intero semestre e poi la notte prima della finale, stanno rimuginando", ha detto Alessio Efros, uno scienziato informatico presso l'Università della California, Berkeley. "Non imparano davvero il materiale, ma si comportano bene nel test."

Per i ricercatori interessati all'intersezione tra intelligenza animale e macchina, inoltre, questo "apprendimento supervisionato" potrebbe essere limitato in ciò che può rivelare sui cervelli biologici. Gli animali, compresi gli esseri umani, non usano set di dati etichettati per imparare. Per la maggior parte, esplorano l'ambiente da soli e, così facendo, acquisiscono una conoscenza ricca e solida del mondo.

Ora alcuni neuroscienziati computazionali hanno iniziato a esplorare le reti neurali che sono state addestrate con pochi o nessun dato umano etichettato. Questi algoritmi di "apprendimento autosupervisionato" si sono rivelati un enorme successo modellare il linguaggio umano e, più recentemente, il riconoscimento delle immagini. In un lavoro recente, i modelli computazionali dei sistemi visivi e uditivi dei mammiferi costruiti utilizzando modelli di apprendimento auto-supervisionato hanno mostrato una corrispondenza più stretta con la funzione cerebrale rispetto alle loro controparti di apprendimento supervisionato. Ad alcuni neuroscienziati, sembra che le reti artificiali stiano iniziando a rivelare alcuni dei metodi effettivi che il nostro cervello usa per apprendere.

Supervisione imperfetta

I modelli cerebrali ispirati alle reti neurali artificiali sono diventati maggiorenni circa 10 anni fa, più o meno nello stesso periodo in cui una rete neurale ha preso il nome AlexNet ha rivoluzionato il compito di classificare le immagini sconosciute. Quella rete, come tutte le reti neurali, era composta da strati di neuroni artificiali, unità computazionali che formano connessioni tra loro che possono variare in forza o "peso". Se una rete neurale non riesce a classificare un'immagine correttamente, l'algoritmo di apprendimento aggiorna i pesi delle connessioni tra i neuroni per rendere meno probabile quell'errata classificazione nel prossimo round di allenamento. L'algoritmo ripete questo processo molte volte con tutte le immagini di addestramento, modificando i pesi, finché il tasso di errore della rete non è accettabilmente basso.

Più o meno nello stesso periodo, i neuroscienziati hanno sviluppato i primi modelli computazionali del sistema visivo dei primati, utilizzando reti neurali come AlexNet e i suoi successori. L'unione sembrava promettente: quando alle scimmie e alle reti neurali artificiali venivano mostrate le stesse immagini, ad esempio, l'attività dei neuroni reali e dei neuroni artificiali mostrava una corrispondenza intrigante. Sono seguiti modelli artificiali di rilevamento dell'udito e degli odori.

Ma con il progredire del campo, i ricercatori si sono resi conto dei limiti della formazione supervisionata. Ad esempio, nel 2017, Leon Gatys, uno scienziato informatico all'epoca all'Università di Tubinga in Germania, e i suoi colleghi hanno scattato l'immagine di una Ford Model T, quindi hanno sovrapposto un motivo a pelle di leopardo sulla foto, generando un'immagine bizzarra ma facilmente riconoscibile . Una delle principali reti neurali artificiali ha classificato correttamente l'immagine originale come un Modello T, ma ha considerato l'immagine modificata un leopardo. Si era fissato sulla trama e non aveva alcuna comprensione della forma di un'auto (o di un leopardo, del resto).

Le strategie di apprendimento autocontrollato sono progettate per evitare tali problemi. In questo approccio, gli esseri umani non etichettano i dati. Piuttosto, "le etichette provengono dai dati stessi", ha affermato Friedemann Zenke, neuroscienziato computazionale presso il Friedrich Miescher Institute for Biomedical Research di Basilea, in Svizzera. Gli algoritmi autocontrollati creano essenzialmente lacune nei dati e chiedono alla rete neurale di riempire gli spazi vuoti. In un cosiddetto modello linguistico di grandi dimensioni, ad esempio, l'algoritmo di addestramento mostrerà alla rete neurale le prime parole di una frase e le chiederà di prevedere la parola successiva. Quando è stato addestrato con un enorme corpus di testo raccolto da Internet, il modello sembra imparare la struttura sintattica della lingua, che dimostra un'impressionante capacità linguistica, il tutto senza etichette o supervisione esterne.

Uno sforzo simile è in corso nella visione artificiale. Alla fine del 2021, Kaiming lui e colleghi hanno rivelato il loro “codificatore automatico mascherato”, che si basa su a per l'esame sperimentato dal team di Efros nel 2016. L'algoritmo di apprendimento auto-supervisionato maschera casualmente le immagini, oscurandone quasi tre quarti di ciascuna. L'autocodificatore mascherato trasforma le parti non mascherate in rappresentazioni latenti: descrizioni matematiche compresse che contengono informazioni importanti su un oggetto. (Nel caso di un'immagine, la rappresentazione latente potrebbe essere una descrizione matematica che cattura, tra le altre cose, la forma di un oggetto nell'immagine.) Un decodificatore converte quindi quelle rappresentazioni in immagini complete.

L'algoritmo di apprendimento auto-supervisionato allena la combinazione codificatore-decodificatore per trasformare le immagini mascherate nelle loro versioni complete. Eventuali differenze tra le immagini reali e quelle ricostruite vengono reimmesse nel sistema per aiutarlo ad apprendere. Questo processo si ripete per una serie di immagini di addestramento finché il tasso di errore del sistema non è adeguatamente basso. In un esempio, quando a un codificatore automatico mascherato addestrato è stata mostrata un'immagine mai vista prima di un autobus con quasi l'80% oscurato, il sistema ha ricostruito con successo la struttura del bus.

"Questo è un risultato molto, molto impressionante", ha affermato Efros.

Le rappresentazioni latenti create in un sistema come questo sembrano contenere informazioni sostanzialmente più profonde di quelle che le strategie precedenti potrebbero includere. Il sistema potrebbe apprendere la forma di un'auto, ad esempio, o di un leopardo, e non solo i loro schemi. "E questa è davvero l'idea fondamentale dell'apprendimento auto-supervisionato: costruisci le tue conoscenze dal basso", ha affermato Efros. Nessun impegno dell'ultimo minuto per superare i test.

Cervelli autocontrollati

In sistemi come questo, alcuni neuroscienziati vedono echi di come impariamo. "Penso che non ci sia dubbio che il 90% di ciò che fa il cervello è l'apprendimento auto-supervisionato", ha detto Blake Richards, neuroscienziato computazionale presso la McGill University e Mila, il Quebec Artificial Intelligence Institute. Si pensa che i cervelli biologici prevedano continuamente, ad esempio, la posizione futura di un oggetto mentre si muove, o la parola successiva in una frase, proprio come un algoritmo di apprendimento auto-supervisionato tenta di prevedere il divario in un'immagine o in un segmento di testo. E anche i cervelli imparano dai loro errori da soli: solo una piccola parte del feedback del nostro cervello proviene da una fonte esterna che dice, essenzialmente, "risposta sbagliata".

Ad esempio, considera i sistemi visivi degli esseri umani e di altri primati. Questi sono i più studiati di tutti i sistemi sensoriali animali, ma i neuroscienziati hanno faticato a spiegare perché includono due percorsi separati: il flusso visivo ventrale, che è responsabile del riconoscimento di oggetti e volti, e il flusso visivo dorsale, che elabora il movimento (il " what” e “where”, rispettivamente).

Richards e il suo team hanno creato un modello autocontrollato che suggerisce una risposta. Essi allenato un'IA che combinava due diverse reti neurali: la prima, chiamata architettura ResNet, era progettata per l'elaborazione di immagini; la seconda, nota come rete ricorrente, potrebbe tenere traccia di una sequenza di input precedenti per fare previsioni sul prossimo input previsto. Per addestrare l'IA combinata, il team ha iniziato con una sequenza di, diciamo, 10 fotogrammi da un video e ha lasciato che ResNet li elabori uno per uno. La rete ricorrente ha quindi previsto la rappresentazione latente dell'undicesimo frame, pur non facendo corrispondere semplicemente i primi 11 frame. L'algoritmo di apprendimento auto-supervisionato ha confrontato la previsione con il valore effettivo e ha incaricato le reti neurali di aggiornare i loro pesi per migliorare la previsione.

Il team di Richards ha scoperto che un'IA addestrata con un singolo ResNet era brava nel riconoscimento degli oggetti, ma non nel classificare i movimenti. Ma quando hanno diviso il singolo ResNet in due, creando due percorsi (senza modificare il numero totale di neuroni), l'IA ha sviluppato rappresentazioni per gli oggetti in uno e per il movimento nell'altro, consentendo la categorizzazione a valle di queste proprietà, proprio come probabilmente il nostro cervello fare.

Per testare ulteriormente l'IA, il team ha mostrato una serie di video che i ricercatori dell'Allen Institute for Brain Science di Seattle avevano precedentemente mostrato ai topi. Come i primati, i topi hanno regioni del cervello specializzate per le immagini statiche e per il movimento. I ricercatori Allen hanno registrato l'attività neurale nella corteccia visiva del topo mentre gli animali guardavano i video.

Anche qui, il team di Richards ha trovato somiglianze nel modo in cui l'IA e i cervelli viventi hanno reagito ai video. Durante l'allenamento, uno dei percorsi nella rete neurale artificiale è diventato più simile alle regioni ventrali del cervello del topo che rilevano oggetti e l'altro percorso è diventato simile alle regioni dorsali focalizzate sul movimento.

I risultati suggeriscono che il nostro sistema visivo ha due percorsi specializzati perché aiutano a prevedere il futuro visivo, ha affermato Richards; un singolo percorso non è abbastanza buono.

I modelli del sistema uditivo umano raccontano una storia simile. A giugno, una squadra guidata da Jean-Remi King, ricercatore presso Meta AI, addestrato un'IA chiamata Wav2Vec 2.0, che utilizza una rete neurale per trasformare l'audio in rappresentazioni latenti. I ricercatori mascherano alcune di queste rappresentazioni, che poi alimentano un'altra rete neurale componente chiamata trasformatore. Durante l'allenamento, il trasformatore prevede le informazioni mascherate. Nel processo, l'intera IA impara a trasformare i suoni in rappresentazioni latenti, anche in questo caso non sono necessarie etichette. Il team ha utilizzato circa 600 ore di dati vocali per addestrare la rete, "che è approssimativamente ciò che un bambino otterrebbe nei primi due anni di esperienza", ha affermato King.

Una volta addestrato il sistema, i ricercatori hanno riprodotto sezioni di audiolibri in inglese, francese e mandarino. I ricercatori hanno quindi confrontato le prestazioni dell'IA con i dati di 412 persone, un mix di madrelingua delle tre lingue che avevano ascoltato gli stessi brani audio mentre si vedevano il cervello ripreso in uno scanner fMRI. King ha affermato che la sua rete neurale e il cervello umano, nonostante le immagini fMRI rumorose e a bassa risoluzione, "non solo sono correlati tra loro, ma sono correlati in modo sistematico": l'attività nei primi strati dell'IA si allinea con l'attività nella corteccia uditiva primaria, mentre l'attività degli strati più profondi dell'IA si allinea con l'attività negli strati superiori del cervello, in questo caso la corteccia prefrontale. "Sono dati davvero belli", ha detto Richards. "Non è conclusivo, ma [è] un'altra prova convincente per suggerire che, in effetti, il modo in cui impariamo la lingua è in gran parte cercando di prevedere le prossime cose che verranno dette".

Patologie non curate

Non tutti sono convinti. Josh McDermott, neuroscienziato computazionale presso il Massachusetts Institute of Technology, ha lavorato su modelli di visione e percezione uditiva utilizzando sia l'apprendimento supervisionato che quello autosupervisionato. Il suo laboratorio ha progettato quelli che lui chiama "metameri", sintetizzando segnali audio e visivi che, per un essere umano, sono solo rumore imperscrutabile. Per una rete neurale artificiale, tuttavia, i metameri sembrano indistinguibili dai segnali reali. Ciò suggerisce che le rappresentazioni che si formano negli strati più profondi della rete neurale, anche con l'apprendimento auto-supervisionato, non corrispondono alle rappresentazioni nel nostro cervello. Questi approcci di apprendimento autocontrollato "sono progressi nel senso che sei in grado di apprendere rappresentazioni che possono supportare molti comportamenti di riconoscimento senza aver bisogno di tutte queste etichette", ha detto McDermott. "Ma hanno ancora molte patologie dei modelli supervisionati".

Anche gli algoritmi stessi hanno bisogno di più lavoro. Ad esempio, in Wav2Vec 2.0 di Meta AI, l'IA prevede solo rappresentazioni latenti per poche decine di millisecondi di suono, meno tempo di quello necessario per emettere un rumore percettivamente distinto, per non parlare di una parola. "Ci sono molte cose da fare per fare qualcosa di simile a ciò che fa il cervello", ha detto King.

Comprendere veramente le funzioni cerebrali richiederà qualcosa di più dell'apprendimento auto-supervisionato. Per prima cosa, il cervello è pieno di connessioni di feedback, mentre i modelli attuali hanno poche connessioni di questo tipo, se non nessuna. Un passo successivo ovvio sarebbe usare l'apprendimento auto-supervisionato per addestrare reti altamente ricorrenti - un processo difficile - e vedere come l'attività in tali reti si confronta con l'attività cerebrale reale. L'altro passaggio cruciale sarebbe abbinare l'attività dei neuroni artificiali nei modelli di apprendimento auto-supervisionati all'attività dei singoli neuroni biologici. "Speriamo che, in futuro, i [nostri] risultati vengano confermati anche con registrazioni unicellulari", ha affermato King.

Se le somiglianze osservate tra cervelli e modelli di apprendimento auto-supervisionato valgono per altri compiti sensoriali, sarà un'indicazione ancora più forte che qualsiasi magia di cui i nostri cervelli siano capaci richiede in qualche modo un apprendimento auto-supervisionato. "Se troviamo somiglianze sistematiche tra sistemi molto diversi, [suggerirebbe] che forse non ci sono molti modi per elaborare le informazioni in modo intelligente", ha affermato King. "Almeno, questa è una specie di bella ipotesi con cui vorremmo lavorare".

Timestamp:

Di più da Quantamagazine