L'intelligenza artificiale sa cos'è una mela? Lei mira a scoprirlo.

Ripubblicato da Platone

Seguaci: 0

L'intelligenza artificiale sa cos'è una Apple? Lei mira a scoprirlo. | Quanta Magazine PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Inizia a parlare con Ellie Pavlick sul suo lavoro - cercando prove di comprensione all'interno di grandi modelli linguistici (LLM) - e potrebbe sembrare che si stia prendendo gioco di ciò. La frase "mano agitata" è una delle sue preferite, e se menziona "significato" o "ragionamento", spesso sarà accompagnato da virgolette aeree evidenti. Questo è solo il modo in cui Pavlick si mantiene onesta. Come scienziata informatica che studia modelli linguistici alla Brown University e a Google DeepMind, sa che abbracciare la debolezza intrinseca del linguaggio naturale è l'unico modo per prenderlo sul serio. "Questa è una disciplina scientifica - ed è un po' molle", ha detto.

Precisione e sfumature hanno coesistito nel mondo di Pavlick fin dall'adolescenza, quando le piacevano la matematica e le scienze "ma si è sempre identificata come un tipo più creativo". Come studentessa universitaria, ha conseguito lauree in economia e performance al sassofono prima di conseguire un dottorato in informatica, un campo in cui si sente ancora un'outsider. "Ci sono molte persone che [pensano] che i sistemi intelligenti assomiglieranno molto al codice dei computer: puliti e convenienti come molti sistemi che [siamo] bravi a comprendere", ha detto. “Credo solo che le risposte siano complicate. Se ho una soluzione semplice, sono abbastanza sicuro che sia sbagliata. E non voglio sbagliarmi”.

Un incontro casuale con uno scienziato informatico che lavorava nell'elaborazione del linguaggio naturale ha portato Pavlick a intraprendere il suo lavoro di dottorato studiando come i computer potrebbero codificare la semantica, o il significato nel linguaggio. "Penso che abbia grattato un certo prurito", ha detto. "Si immerge nella filosofia e si adatta a molte delle cose su cui sto lavorando attualmente." Ora, una delle principali aree di ricerca di Pavlick si concentra sul “radicamento”: la questione se il significato delle parole dipenda da cose che esistono indipendentemente dal linguaggio stesso, come percezioni sensoriali, interazioni sociali o anche altri pensieri. I modelli linguistici sono addestrati interamente sul testo, quindi forniscono una piattaforma fruttuosa per esplorare il modo in cui è importante radicare il significato. Ma la questione stessa preoccupa linguisti e altri pensatori da decenni.

"Questi non sono solo problemi 'tecnici'", ha detto Pavlick. "Il linguaggio è così vasto che, a me, sembra che comprenda tutto."

Quanta ha parlato con Pavlick di come trasformare la filosofia in scienza, di cosa significa "significato" e dell'importanza dei risultati poco attraenti. L'intervista è stata condensata e modificata per chiarezza.

Cosa significa “comprensione” o “significato”, empiricamente? Cosa cerchi nello specifico?

Quando stavo iniziando il mio programma di ricerca alla Brown, abbiamo deciso che il significato coinvolge in qualche modo i concetti. Mi rendo conto che questo è un impegno teorico che non tutti si assumono, ma sembra intuitivo. Se usi la parola “mela” per indicare la mela, hai bisogno del concetto di mela. Deve essere una cosa, indipendentemente dal fatto che tu usi o meno la parola per riferirti ad esso. Questo è ciò che significa “avere significato”: deve esserci il concetto, qualcosa che stai verbalizzando.

Voglio trovare concetti nel modello. Voglio qualcosa che posso afferrare all'interno della rete neurale, la prova che esiste una cosa che rappresenta internamente la "mela", che consente di riferirla costantemente con la stessa parola. Perché sembra esserci questa struttura interna che non è casuale e arbitraria. Puoi trovare queste piccole pepite con funzioni ben definite che fanno qualcosa in modo affidabile.

Mi sono concentrato sulla caratterizzazione di questa struttura interna. Che forma ha? Può essere un sottoinsieme dei pesi all'interno della rete neurale, o qualche tipo di operazione algebrica lineare su quei pesi, una sorta di astrazione geometrica. Ma deve svolgere un ruolo causale [nel comportamento del modello]: è connesso a questi input ma non a quelli, e a questi output e non a quelli.

Sembra qualcosa che potresti iniziare a chiamare "significato". Si tratta di capire come trovare questa struttura e stabilire relazioni, in modo che, una volta messo tutto a posto, possiamo applicarlo a domande come "Sa cosa significa 'mela'?"

Hai trovato qualche esempio di questa struttura?

Sì, uno colpevole implica quando un modello linguistico recupera un'informazione. Se chiedi al modello “Qual è la capitale della Francia”, deve rispondere “Parigi” e “Qual è la capitale della Polonia” dovrebbe restituire “Varsavia”. Potrebbe facilmente memorizzare tutte queste risposte, e potrebbero essere sparse ovunque [all'interno del modello] - non c'è una vera ragione per cui debba avere una connessione tra queste cose.

Invece, abbiamo trovato un piccolo punto nel modello in cui sostanzialmente si riduce quella connessione in un piccolo vettore. Se lo aggiungi a "Qual è la capitale della Francia", recupererà "Parigi"; e lo stesso vettore, se chiedi “Qual è la capitale della Polonia”, recupererà “Varsavia”. È come questo vettore sistematico di “recupero-capitale-città”.

Questa è una scoperta davvero interessante perché sembra che [il modello] stia riducendo questi piccoli concetti e poi applicando algoritmi generali su di essi. E anche se stiamo esaminando queste domande davvero [semplici], si tratta di trovare prove di questi ingredienti grezzi che il modello sta utilizzando. In questo caso, sarebbe più facile farla franca memorizzando: in molti modi, è ciò per cui queste reti sono progettate. Invece, scompone [le informazioni] in pezzi e “ragioni” al riguardo. E speriamo che, man mano che sviluppiamo progetti sperimentali migliori, potremmo trovare qualcosa di simile per tipi di concetti più complicati.

Come si collega il radicamento a queste rappresentazioni?

Il modo in cui gli esseri umani imparano la lingua si basa su tantissimi input non linguistici: le tue sensazioni corporee, le tue emozioni, se hai fame, qualunque cosa. Questo è considerato davvero importante per il significato.

Ma ci sono altre nozioni di radicamento che hanno più a che fare con le rappresentazioni interne. Ci sono parole che non sono ovviamente collegate al mondo fisico, eppure hanno comunque un significato. Una parola come “democrazia” è un esempio preferito. È una cosa nella tua testa: posso pensare alla democrazia senza parlarne. Quindi il radicamento potrebbe essere dal linguaggio a quella cosa, quella rappresentazione interna.

Ma tu sostieni che anche le cose più esterne, come il colore, potrebbero ancora essere ancorate a rappresentazioni “concettuali” interne, senza fare affidamento sulle percezioni. Come funzionerebbe?

Ebbene, un modello linguistico non ha occhi, giusto? Non “sa” nulla dei colori. Quindi forse [cattura] qualcosa di più generale, come comprendere le relazioni tra loro. So che quando unisco il blu e il rosso, ottengo il viola; questo tipo di relazioni potrebbero definire questa struttura interna [fondamentale].

Possiamo fornire esempi di colore ad un LLM utilizzando codici RGB [stringhe di numeri che rappresentano i colori]. Se dici "OK, ecco il rosso" e gli dai il codice RGB per il rosso e "Ecco il blu" con il codice RGB per il blu, e poi dici "Dimmi cos'è il viola", dovrebbe generare il codice RGB per viola. Questa mappatura dovrebbe essere una buona indicazione che la struttura interna del modello è solida: mancano le percezioni [per il colore], ma la struttura concettuale c'è.

La cosa complicata è che [il modello] potrebbe semplicemente memorizzare i codici RGB, che sono presenti in tutti i suoi dati di addestramento. Quindi abbiamo "ruotato" tutti i colori [lontano dai loro reali valori RGB]: abbiamo detto al LLM che la parola "giallo" era associata al codice RGB del verde e così via. Il modello ha funzionato bene: quando hai chiesto il verde, ti avrebbe dato la versione ruotata del codice RGB. Ciò suggerisce che esiste una sorta di coerenza nelle sue rappresentazioni interne del colore. Si tratta di applicare la conoscenza delle loro relazioni, non solo di memorizzarle.

Questo è il punto centrale del radicamento. La mappatura di un nome su un colore è arbitraria. Riguarda più le relazioni tra loro. Quindi è stato emozionante.

Come possono queste domande dal suono filosofico essere scientifiche?

Recentemente sono venuto a conoscenza di un esperimento mentale: cosa accadrebbe se l'oceano si riversasse sulla sabbia e [quando] si ritirasse, gli schemi generassero una poesia? La poesia ha un significato? Sembra estremamente astratto e puoi avere questo lungo dibattito filosofico.

La cosa bella dei modelli linguistici è che non abbiamo bisogno di un esperimento mentale. Non è come: "In teoria, questa o quella cosa sarebbe intelligente?" È solo: questa cosa è intelligente? Diventa scientifico ed empirico.

A volte le persone sono sprezzanti; c'è il “pappagalli stocastici" approccio. Penso che [derivi da] la paura che le persone sottoscrivano eccessivamente l'intelligenza a queste cose, cosa che vediamo. E per correggere ciò, la gente dice: “No, è tutta una farsa. Questo è fumo e specchi”.

E' un po' un disservizio. Abbiamo centrato qualcosa di abbastanza eccitante e abbastanza nuovo, e vale la pena capirlo a fondo. Si tratta di un'enorme opportunità che non dovrebbe essere trascurata perché temiamo di interpretare eccessivamente i modelli.

Ovviamente tu'ho anche prodotto riparazioni sfatando esattamente quel tipo di interpretazione eccessiva.

Quel lavoro, in cui le persone trovavano tutte le “euristica superficiale” che i modelli sfruttavano [per imitare la comprensione], sono stati fondamentali per la mia maturità come scienziato. Ma è complicato. È come non dichiarare la vittoria troppo presto. C'è un po' di scetticismo o paranoia [in me] riguardo al fatto che una valutazione sia stata fatta bene, anche se so di averla progettata con molta attenzione!

Quindi fa parte del gioco: non pretendere troppo. Un'altra parte è che, se hai a che fare con questi sistemi [modello linguistico], sai che non sono di livello umano: il modo in cui risolvono le cose non è così intelligente come sembra.

Quando così tanti metodi e termini di base sono in discussione in questo campo, come si misura il successo?

Ciò che penso che stiamo cercando, come scienziati, è una descrizione precisa e comprensibile per l'uomo di ciò che ci interessa: l'intelligenza, in questo caso. E poi alleghiamo le parole che ci aiutano ad arrivarci. Abbiamo bisogno di una sorta di vocabolario funzionante.

Ma è difficile, perché altrimenti potresti entrare in questa battaglia semantica. Quando le persone dicono “Ha un significato: sì o no?” Non lo so. Stiamo indirizzando la conversazione sulla cosa sbagliata.

Quello che cerco di offrire è un resoconto preciso dei comportamenti che ci siamo preoccupati di spiegare. Ed è piuttosto discutibile a quel punto se lo si voglia chiamare “significato” o “rappresentazione” o una qualsiasi di queste parole caricate. Il punto è che c'è una teoria o un modello proposto sul tavolo: valutiamolo.

Allora come può la ricerca sui modelli linguistici muoversi verso questo approccio più diretto?

Il tipo di domande profonde a cui mi piacerebbe davvero poter rispondere: quali sono gli elementi costitutivi dell'intelligenza? Che aspetto ha l'intelligenza umana? Che aspetto ha l'intelligenza del modello? - sono davvero importanti. Ma penso che le cose che dovranno accadere nei prossimi 10 anni non siano molto attraenti.

Se vogliamo occuparci di queste rappresentazioni [interne], abbiamo bisogno di metodi per trovarle, metodi scientificamente validi. Se fatto nel modo giusto, questo materiale metodologico di basso livello e super trasandato non farà notizia. Ma queste sono le cose veramente importanti che ci permetteranno di rispondere correttamente a queste domande profonde.

Nel frattempo, i modelli continueranno a cambiare. Quindi ci saranno un sacco di cose che la gente continuerà a pubblicare come se fosse “la svolta”, ma probabilmente non lo è. Nella mia mente, sembra troppo presto per ottenere grandi scoperte.

Le persone stanno studiando questi compiti davvero semplici, come chiedere [un modello linguistico da completare] "John ha dato da bere a _______" e cercare di vedere se dice "John" o "Mary". Ciò non dà la sensazione di un risultato che spieghi l'intelligenza. Ma in realtà credo che gli strumenti che stiamo utilizzando per descrivere questo noiosissimo problema siano essenziali per rispondere alle domande profonde sull’intelligenza.

Distribuzione di contenuti basati su SEO e PR. Ricevi amplificazione oggi.
PlatoData.Network Generativo verticale Ai. Potenzia te stesso. Accedi qui.
PlatoAiStream. Intelligenza Web3. Conoscenza amplificata. Accedi qui.
PlatoneESG. Carbonio, Tecnologia pulita, Energia, Ambiente, Solare, Gestione dei rifiuti. Accedi qui.
Platone Salute. Intelligence sulle biotecnologie e sulle sperimentazioni cliniche. Accedi qui.
Fonte: https://www.quantamagazine.org/does-ai-know-what-an-apple-is-she-aims-to-find-out-20240425/

Timestamp: 25 aprile 2024

Timestamp: Gennaio 17, 2024

Ripubblicato da Platone

Cosa significa “comprensione” o “significato”, empiricamente? Cosa cerchi nello specifico?

Hai trovato qualche esempio di questa struttura?

Come si collega il radicamento a queste rappresentazioni?

Ma tu sostieni che anche le cose più esterne, come il colore, potrebbero ancora essere ancorate a rappresentazioni “concettuali” interne, senza fare affidamento sulle percezioni. Come funzionerebbe?

Come possono queste domande dal suono filosofico essere scientifiche?

Ovviamente tu'ho anche prodotto riparazioni sfatando esattamente quel tipo di interpretazione eccessiva.

Quando così tanti metodi e termini di base sono in discussione in questo campo, come si misura il successo?

Allora come può la ricerca sui modelli linguistici muoversi verso questo approccio più diretto?

Le piante trovano la luce sfruttando gli spazi tra le loro cellule | Rivista Quanti

Adolescente risolve un ostinato enigma sui sosia dei numeri primi

Gli studi sui genomi umani estinti hanno ricevuto il premio Nobel per la medicina

Una domanda su una linea rotante aiuta a rivelare cosa rende speciali i numeri reali

L'anello di luce orbitante di un buco nero potrebbe crittografare i suoi segreti interiori

Trova le chiavi dell'ecologia nelle cellule che rubano agli altri

Come gli scienziati stanno affrontando il difficile compito di prevedere il ciclo solare | Rivista Quanti

Nel "secondo cervello" dell'intestino emergono gli agenti chiave della salute | Rivista Quanti

Una nuova svolta avvicina la moltiplicazione delle matrici all'ideale | Rivista Quanti

Chi siamo

Ricerca verticale e Ai

Piattaforma

Rimani in contatto

Il mio account

Introduzione

Introduzione

Cosa significa “comprensione” o “significato”, empiricamente? Cosa cerchi nello specifico?

Hai trovato qualche esempio di questa struttura?

Introduzione

Come si collega il radicamento a queste rappresentazioni?

Ma tu sostieni che anche le cose più esterne, come il colore, potrebbero ancora essere ancorate a rappresentazioni “concettuali” interne, senza fare affidamento sulle percezioni. Come funzionerebbe?

Introduzione

Come possono queste domande dal suono filosofico essere scientifiche?

Ovviamente tu'ho anche prodotto riparazioni sfatando esattamente quel tipo di interpretazione eccessiva.

Introduzione

Quando così tanti metodi e termini di base sono in discussione in questo campo, come si misura il successo?

Introduzione

Allora come può la ricerca sui modelli linguistici muoversi verso questo approccio più diretto?

Di più da Quantamagazine

Chi siamo

Ricerca verticale e Ai

Piattaforma

Rimani in contatto

Il mio account