Cosa significa allineare l’intelligenza artificiale ai valori umani? Intelligenza dei dati PlatoBlockchain. Ricerca verticale. Ai.

Cosa significa allineare l'IA ai valori umani?

Introduzione

Molti anni fa, ho imparato a programmare su una vecchia Symbolics Lisp Machine. Il sistema operativo aveva un comando integrato scritto "DWIM", abbreviazione di "Do What I Mean". Se digitavo un comando e ricevevo un errore, potevo digitare "DWIM" e la macchina cercava di capire cosa intendevo fare. Una sorprendente frazione del tempo, ha funzionato davvero.

Il comando DWIM era un microcosmo del problema più moderno di "allineamento AI": noi umani siamo inclini a dare alle macchine istruzioni ambigue o sbagliate e vogliamo che facciano ciò che intendiamo, non necessariamente ciò che diciamo.

I computer spesso fraintendono ciò che vogliamo che facciano, con risultati inaspettati e spesso divertenti. Un ricercatore di machine learning, ad esempio, mentre indagava sui risultati sospettosamente buoni di un programma di classificazione delle immagini, scoperto che stava basando le classificazioni non sull'immagine stessa, ma sul tempo impiegato per accedere al file immagine: le immagini di classi diverse erano archiviate in database con tempi di accesso leggermente diversi. Altro programmatore intraprendente voleva che il suo aspirapolvere Roomba smettesse di urtare i mobili, quindi ha collegato Roomba a una rete neurale che premiava la velocità ma puniva Roomba quando il paraurti anteriore si scontrava con qualcosa. La macchina ha soddisfatto questi obiettivi guidando sempre all'indietro.

Ma la comunità dei ricercatori sull'allineamento dell'IA vede un lato oscuro in questi aneddoti. In effetti, credono che l'incapacità delle macchine di discernere ciò che vogliamo veramente che facciano sia un rischio esistenziale. Per risolvere questo problema, credono, dobbiamo trovare modi per allineare i sistemi di intelligenza artificiale con le preferenze, gli obiettivi e i valori umani.

Questo punto di vista ha guadagnato importanza con il libro bestseller del 2014 superintelligenza dal filosofo Nick Bostrom, che ha sostenuto in parte che la crescente intelligenza dei computer potrebbe rappresentare una minaccia diretta per il futuro dell'umanità. Bostrom non ha mai definito con precisione l'intelligenza, ma, come la maggior parte degli altri nella comunità dell'allineamento dell'IA, ha adottato una definizione in seguito articolato dal ricercatore di intelligenza artificiale Stuart Russell come: "Un'entità è considerata intelligente, in parole povere, se sceglie azioni che dovrebbero raggiungere i suoi obiettivi, dato ciò che ha percepito".

Bostrom ha basato la sua visione dei rischi dell'IA su due tesi. La prima è la tesi dell'ortogonalità, che afferma, nelle parole di Bostrom, “L'intelligenza e gli obiettivi finali sono assi ortogonali lungo i quali i possibili agenti possono liberamente variare. In altre parole, più o meno qualsiasi livello di intelligenza potrebbe in linea di principio essere combinato con più o meno qualsiasi obiettivo finale”. La seconda è la tesi della convergenza strumentale, che implica che un agente intelligente agirà in modi che promuovono la propria sopravvivenza, auto-miglioramento e acquisizione di risorse, purché ciò renda l'agente più propenso a raggiungere il suo obiettivo finale. Quindi ha fatto un'ultima ipotesi: i ricercatori avrebbero presto creato una superintelligenza AI, una che "supera di gran lunga le prestazioni cognitive degli umani praticamente in tutti i domini di interesse".

Per Bostrom e altri nella comunità dell'allineamento dell'IA, questa prospettiva significa rovina per l'umanità a meno che non riusciamo ad allineare le IA superintelligenti con i nostri desideri e valori. Bostrom illustra questo pericolo con un ormai famoso esperimento mentale: immagina di dare a un'intelligenza artificiale superintelligente l'obiettivo di massimizzare la produzione di graffette. Secondo le tesi di Bostrom, nel tentativo di raggiungere questo obiettivo, il sistema di intelligenza artificiale utilizzerà la sua genialità e creatività sovrumane per aumentare il proprio potere e controllo, acquisendo infine tutte le risorse del mondo per produrre più graffette. L'umanità si estinguerà, ma la produzione di graffette sarà davvero massimizzata.

Se credi che l'intelligenza sia definita dalla capacità di raggiungere obiettivi, che qualsiasi obiettivo possa essere "inserito" dagli esseri umani in un agente di intelligenza artificiale superintelligente e che un tale agente userebbe la sua superintelligenza per fare qualsiasi cosa per raggiungere quell'obiettivo, allora lo farai arrivare allo stesso conclusione che Russell ha fatto: "Tutto ciò che è necessario per assicurare la catastrofe è una macchina altamente competente combinata con esseri umani che hanno una capacità imperfetta di specificare le preferenze umane in modo completo e corretto".

È un tropo familiare nella fantascienza: l'umanità è minacciata da macchine fuori controllo che hanno interpretato male i desideri umani. Ora un segmento non inconsistente della comunità di ricerca sull'IA è profondamente preoccupato per questo tipo di scenario che si sta svolgendo nella vita reale. Dozzine di istituti hanno già speso centinaia di milioni di dollari per il problema e gli sforzi di ricerca sull'allineamento sono in corso nelle università di tutto il mondo e presso le grandi aziende di intelligenza artificiale come Google, Meta e OpenAI.

Che dire dei rischi più immediati posti dall'IA non superintelligente, come la perdita del lavoro, i pregiudizi, le violazioni della privacy e la diffusione di disinformazione? Si scopre che c'è poca sovrapposizione tra le comunità interessate principalmente a tali rischi a breve termine e quelle che si preoccupano maggiormente dei rischi di allineamento a lungo termine. In effetti, c'è qualcosa di una guerra culturale dell'IA, con una parte più preoccupata per questi rischi attuali rispetto a quello che considerano un tecno-futurismo irrealistico, e l'altra parte che considera i problemi attuali meno urgenti dei potenziali rischi catastrofici posti dall'IA superintelligente.

A molti al di fuori di queste comunità specifiche, l'allineamento dell'IA assomiglia a una religione: una con leader venerati, dottrine indiscusse e discepoli devoti che combattono un nemico potenzialmente onnipotente (IA superintelligente non allineata). In effetti, l'informatico e blogger Scott Aaronson di recente noto che ora ci sono rami "ortodossi" e "riformati" della fede dell'allineamento dell'IA. Il primo, scrive, si preoccupa quasi interamente di "IA disallineata che inganna gli umani mentre lavora per distruggerli". Al contrario, scrive, "noi riformisti che rischiano l'IA consideriamo questa possibilità, ma ci preoccupiamo almeno altrettanto delle potenti IA che sono armate da esseri umani cattivi, che prevediamo comportino rischi esistenziali molto prima".

Molti ricercatori sono attivamente impegnati in progetti basati sull'allineamento, che vanno da tentativi di impartire principi di filosofia morale alle macchine, a formazione di modelli linguistici di grandi dimensioni sui giudizi etici in crowdsourcing. Nessuno di questi sforzi è stato particolarmente utile per far ragionare le macchine su situazioni del mondo reale. Molti scrittori hanno notato i numerosi ostacoli che impediscono alle macchine di apprendere le preferenze e i valori umani: le persone sono spesso irrazionali e si comportano in modi che contraddicono i loro valori, e i valori possono cambiare nel corso della vita e delle generazioni individuali. Dopotutto, non è chiaro quali valori dovremmo far cercare alle macchine di apprendere.

Molti nella comunità di allineamento pensano che il percorso più promettente sia una tecnica di apprendimento automatico nota come apprendimento per rinforzo inverso (IRL). Con IRL, alla macchina non viene assegnato un obiettivo da massimizzare; tali obiettivi "inseriti", ritengono i sostenitori dell'allineamento, possono inavvertitamente portare a scenari di massimizzazione di graffette. Invece, il compito della macchina è osservare il comportamento degli esseri umani e dedurre le loro preferenze, obiettivi e valori. Negli ultimi anni, i ricercatori hanno utilizzato IRL per addestrare macchine per giocare ai videogiochi osservando gli esseri umani e insegnando ai robot come fare i salti mortali fornendo loro un feedback incrementale da parte degli umani (le persone hanno visto brevi clip dei vari tentativi di un robot e hanno scelto quello che sembrava migliore).

Non è chiaro se metodi simili possano insegnare alle macchine le idee più sottili e astratte dei valori umani. Lo scrittore Brian Christian, autore di a popolare libro scientifico sull'allineamento dell'IA, è ottimista: “Non è così esagerato immaginare di sostituire il nebuloso concetto di 'backflip' con un concetto ancora più nebuloso e ineffabile, come 'disponibilità'. O 'gentilezza'. O un comportamento "buono".

Tuttavia, penso che questo sottovaluti la sfida. Nozioni etiche come la gentilezza e il buon comportamento sono molto più complesse e dipendenti dal contesto di qualsiasi cosa IRL abbia imparato finora. Considera la nozione di "veridicità", un valore che sicuramente vogliamo nei nostri sistemi di intelligenza artificiale. In effetti, uno dei principali problemi con i grandi modelli linguistici di oggi è la loro incapacità di distinguere la verità dalla falsità. Allo stesso tempo, a volte potremmo desiderare che i nostri assistenti di intelligenza artificiale, proprio come gli umani, moderino la loro veridicità: per proteggere la privacy, evitare di insultare gli altri o tenere qualcuno al sicuro, tra innumerevoli altre situazioni difficili da articolare.

Altri concetti etici sono altrettanto complessi. Dovrebbe essere chiaro che un primo passo essenziale verso l'insegnamento dei concetti etici alle macchine è in primo luogo consentire alle macchine di afferrare concetti simili a quelli umani, che ho sostenuto è ancora l'intelligenza artificiale problema aperto più importante.

Inoltre, vedo un problema ancora più fondamentale con le nozioni scientifiche alla base dell'allineamento dell'IA. La maggior parte delle discussioni immagina un'intelligenza artificiale superintelligente come una macchina che, pur superando gli umani in tutti i compiti cognitivi, manca ancora di buon senso umano e rimane di natura stranamente meccanica. E, soprattutto, in linea con la tesi dell'ortogonalità di Bostrom, la macchina ha raggiunto la superintelligenza senza avere nessuno dei propri obiettivi o valori, aspettando invece che gli obiettivi vengano inseriti dagli umani.

Eppure l'intelligenza potrebbe funzionare in questo modo? Nulla nell'attuale scienza della psicologia o delle neuroscienze supporta questa possibilità. Negli esseri umani, almeno, l'intelligenza è profondamente interconnessa con i nostri obiettivi e valori, così come il nostro senso di sé e il nostro particolare ambiente sociale e culturale. L'intuizione che una sorta di intelligenza pura potesse essere separata da questi altri fattori ha portato a molte previsioni fallite nella storia dell'IA. Da quello che sappiamo, sembra molto più probabile che gli obiettivi di un sistema di intelligenza artificiale generalmente intelligente non possano essere facilmente inseriti, ma dovrebbero svilupparsi, come il nostro, come risultato della sua stessa educazione sociale e culturale.

Nel suo libro Compatibile con l'uomo, Russell sostiene l'urgenza della ricerca sul problema dell'allineamento: “Il momento giusto per preoccuparsi di un problema potenzialmente serio per l'umanità dipende non solo da quando si verificherà il problema, ma anche da quanto tempo ci vorrà per preparare e implementare una soluzione. " Ma senza una migliore comprensione di cosa sia l'intelligenza e di quanto sia separabile da altri aspetti della nostra vita, non possiamo nemmeno definire il problema, tanto meno trovare una soluzione. Definire e risolvere correttamente il problema dell'allineamento non sarà facile; ci richiederà di sviluppare una teoria dell'intelligenza ampia e scientificamente fondata.

Timestamp:

Di più da Quantamagazine