Il ricercatore che insegnerebbe alle macchine a essere oneste

Il ricercatore che insegnerebbe alle macchine a essere oneste

Il ricercatore che insegnerebbe alle macchine a essere corrette Data Intelligence PlatoBlockchain. Ricerca verticale. Ai.

Introduzione

Di tanto in tanto, una persona può prendere un concetto astratto apparentemente troppo vago per uno studio formale e offrire un'elegante definizione formale. Claude Shannon l'ha fatto con informazioni, e Andrey Kolmogorov lo ha fatto con casualità. Negli ultimi anni, i ricercatori hanno cercato di fare lo stesso per il concetto di equità nell'apprendimento automatico. Sfortunatamente, questo è stato più complicato. Non solo il concetto è più difficile da definire, ma è anche impossibile che una singola definizione soddisfi tutte le metriche di equità desiderabili. Arvind Narayanan, un informatico della Princeton University, è stato determinante nel contestualizzare diversi punti di vista e aiutare questo nuovo campo ad affermarsi.

La sua carriera ha attraversato tutti i livelli di astrazione, dalla teoria alla politica, ma il viaggio che alla fine ha portato al suo lavoro attuale è iniziato nel 2006. Quell'anno, Netflix ha sponsorizzato un concorso che avrebbe assegnato $ 1 milione a chiunque avesse migliorato l'accuratezza del proprio sistema di raccomandazione 10%. Netflix ha fornito un set di dati presumibilmente anonimo degli utenti e delle loro valutazioni, con le informazioni di identificazione personale rimosse. Ma Narayanan ha mostrato che con una sofisticata tecnica statistica, sono necessari solo pochi punti dati per rivelare l'identità di un utente "anonimo" nel set di dati.

Da allora, Narayanan si è concentrato su altre aree in cui la teoria incontra la pratica. Tramite la Progetto di trasparenza e responsabilità web di Princeton, il suo team ha scoperto modi surrettizi in cui i siti web tracciano gli utenti ed estraggono dati sensibili. Il suo team ha scoperto che un gruppo come la National Security Agency potrebbe utilizzare i dati di navigazione web (in particolare i cookie inseriti da terze parti) non solo per scoprire l'identità reale dell'utente, ma anche per ricostruire dal 62% al 73% della cronologia di navigazione. . Lo hanno dimostrato - per riff sul famoso New Yorker cartone animato - su Internet, i siti web ora sanno che sei un cane.

Negli ultimi anni, Narayanan si è rivolto specificamente a machine learning — un'applicazione dell'intelligenza artificiale che offre alle macchine la capacità di apprendere dai dati. Pur accogliendo con favore i progressi dell'intelligenza artificiale, sottolinea come tali sistemi possano fallire anche con buone intenzioni e come queste tecnologie altrimenti utili possano diventare strumenti per giustificare la discriminazione. In questa luce, i punti apparentemente sconnessi che hanno definito la traiettoria di ricerca di Narayanan formano una sorta di costellazione.

Quanta ha parlato con Narayanan del suo lavoro sulla de-anonimizzazione, dell'importanza dell'intuizione statistica e delle numerose insidie ​​dei sistemi di intelligenza artificiale. L'intervista è stata condensata e modificata per chiarezza.

Introduzione

Hai sempre voluto fare ricerca matematica e scientifica?

Sono cresciuto molto interessato a entrambi, ma principalmente alla matematica. Ero bravo a risolvere enigmi e ho anche avuto un certo successo alle Olimpiadi Matematiche Internazionali. Ma ho avuto un enorme malinteso sulla differenza tra la risoluzione di enigmi e la ricerca matematica.

E così presto, ho concentrato la mia ricerca sulla crittografia, in particolare sulla crittografia teorica, perché stavo ancora lavorando con l'illusione di essere molto bravo in matematica. E poi il resto della mia carriera è stato un viaggio per capire che in realtà non è affatto la mia forza.

Deve essere servito da buon background per il tuo lavoro di de-anonimizzazione.

Hai ragione. Ciò che ha permesso la ricerca sulla de-anonimizzazione è l'abilità che io chiamo intuizione statistica. In realtà non è una conoscenza matematica formale. È essere in grado di avere un'intuizione nella tua testa come: "Se prendo questo complesso set di dati e vi applico questa trasformazione, qual è un risultato plausibile?"

L'intuizione potrebbe spesso essere sbagliata, e va bene. Ma è importante avere l'intuizione perché può guidarti verso percorsi che potrebbero essere fruttuosi.

Introduzione

In che modo l'intuizione statistica ti ha aiutato nel tuo lavoro sui dati di Netflix?

Stavo cercando di escogitare uno schema di anonimizzazione per i dati ad alta dimensione. È fallito completamente, ma nel processo di fallimento avevo sviluppato l'intuizione che i dati ad alta dimensione non possono essere resi anonimi in modo efficace. Ovviamente Netflix, con la concorrenza, ha affermato di aver fatto esattamente questo.

Avevo il mio naturale scetticismo nei confronti delle dichiarazioni di marketing delle aziende, quindi ero motivato a dimostrare che si sbagliavano. Il mio consulente, Vitaly Shmatikov, e io ci abbiamo lavorato per alcune intense settimane. Una volta che ci siamo resi conto che il lavoro stava davvero avendo un impatto, ho iniziato a fare di più.

Qual è stato l'impatto complessivo? Hai avuto notizie da Netflix e da altre società i cui dati si sono rivelati non così anonimi?

Bene, un impatto positivo è che ha stimolato la scienza di privacy differenziale. Ma in termini di come le aziende hanno reagito, ci sono state alcune reazioni diverse. In molti casi, le aziende che altrimenti avrebbero rilasciato al pubblico set di dati ora non lo fanno più: stanno sfruttando la privacy come arma per combattere gli sforzi di trasparenza.

Facebook è noto per questo. Quando i ricercatori vanno su Facebook e dicono: "Abbiamo bisogno di accedere ad alcuni di questi dati per studiare come le informazioni si stanno propagando sulla piattaforma", Facebook ora può dire: "No, non possiamo dartelo. Ciò comprometterà la privacy dei nostri utenti”.

Una volta hai scritto a carta sostenendo che il termine "informazioni di identificazione personale" può essere fuorviante. Come mai?

Penso che ci sia confusione tra i responsabili politici derivante da due diversi modi in cui il termine viene utilizzato. Uno è informazioni su di te che sono molto sensibili, come il tuo numero di previdenza sociale. Un altro significato è l'informazione che può essere indicizzata in alcuni set di dati e quindi utilizzata per trovare maggiori informazioni su di te.

Questi due hanno significati diversi. Non ho problemi con il concetto di PII nel primo senso. Alcune informazioni sulle persone sono molto sensibili e dovremmo trattarle con maggiore attenzione. Ma mentre il tuo indirizzo email non è necessariamente molto sensibile per la maggior parte delle persone, è comunque un identificatore univoco che può essere utilizzato per trovarti in altri set di dati. Finché la combinazione di attributi su una persona è disponibile a chiunque altro al mondo, è tutto ciò di cui hai bisogno per la de-anonimizzazione.

Introduzione

Come sei arrivato a studiare l'equità?

Ho tenuto un corso di equità e apprendimento automatico nel 2017. Questo mi ha dato una buona idea dei problemi aperti sul campo. E insieme a questo, ho tenuto un discorso intitolato "21 Definizioni di equità e loro politica.” Ho spiegato che la proliferazione di definizioni tecniche non era dovuta a ragioni tecniche, ma perché ci sono autentiche questioni morali al centro di tutto questo. Non c'è modo di avere un unico criterio statistico che catturi tutti i desiderata normativi - tutte le cose che vuoi. Il discorso è stato ben accolto, quindi quei due insieme mi hanno convinto che avrei dovuto iniziare ad approfondire questo argomento.

Anche tu ha tenuto un discorso sul rilevamento dell'olio di serpente AI, anch'esso ben accolto. In che modo ciò si collega all'equità nell'apprendimento automatico?

Quindi la motivazione per questo era che ci sono chiaramente molte vere innovazioni tecniche in atto nell'IA, come il programma di conversione testo-immagine DALL E 2 o il programma di scacchi Alpha Zero. È davvero sorprendente che questo progresso sia stato così rapido. Gran parte di questa innovazione merita di essere celebrata.

Il problema nasce quando usiamo questo termine generico e generico "AI" per cose del genere così come per applicazioni più complesse, come i metodi statistici per la previsione del rischio criminale. In tale contesto, il tipo di tecnologia coinvolta è molto diverso. Si tratta di due tipi di applicazioni molto diversi e anche i potenziali benefici e danni sono molto diversi. Non c'è quasi alcuna connessione tra loro, quindi usare lo stesso termine per entrambi crea confusione.

Le persone sono indotte a pensare che tutto questo progresso che stanno vedendo con la generazione di immagini si tradurrebbe effettivamente in progresso verso compiti sociali come prevedere il rischio criminale o prevedere quali bambini abbandoneranno la scuola. Ma non è affatto così. Prima di tutto, possiamo fare solo leggermente meglio del caso casuale nel prevedere chi potrebbe essere arrestato per un crimine. E questa precisione si ottiene con classificatori davvero semplici. Non migliora nel tempo e non migliora man mano che raccogliamo più set di dati. Quindi tutte queste osservazioni sono in contrasto con l'uso del deep learning per la generazione di immagini, per esempio.

Come distingueresti i diversi tipi di problemi di apprendimento automatico?

Questo non è un elenco esaustivo, ma ci sono tre categorie comuni. La prima categoria è la percezione, che include compiti come descrivere il contenuto di un'immagine. La seconda categoria è quella che io chiamo "giudizio automatizzato", come quando Facebook vuole utilizzare algoritmi per determinare quale discorso è troppo tossico per rimanere sulla piattaforma. E il terzo prevede i futuri esiti sociali tra le persone: se qualcuno verrà arrestato per un crimine o se un bambino abbandonerà la scuola.

In tutti e tre i casi, le precisioni ottenibili sono molto diverse, i potenziali pericoli di un'IA imprecisa sono molto diversi e le implicazioni etiche che ne derivano sono molto diverse.

Ad esempio, il riconoscimento facciale, nella mia classificazione, è un problema di percezione. Molte persone dicono che il riconoscimento facciale è impreciso e talvolta hanno ragione. Ma non credo che sia perché ci sono limiti fondamentali all'accuratezza del riconoscimento facciale. Quella tecnologia è migliorata e migliorerà. Questo è esattamente il motivo per cui dovremmo preoccuparcene da una prospettiva etica: quando lo metti nelle mani della polizia, che potrebbe essere irresponsabile, o di stati che non sono trasparenti riguardo al suo utilizzo.

Introduzione

Cosa rende i problemi di previsione sociale molto più difficili dei problemi di percezione?

I problemi di percezione hanno un paio di caratteristiche. Uno, non c'è ambiguità sul fatto che ci sia un gatto in un'immagine. Quindi hai la verità di base. In secondo luogo, hai dati di allenamento essenzialmente illimitati perché puoi utilizzare tutte le immagini sul web. E se sei Google o Facebook, puoi utilizzare tutte le immagini che le persone hanno caricato sulla tua app. Quindi questi due fattori - la mancanza di ambiguità e la disponibilità dei dati - consentono ai classificatori di funzionare davvero bene.

È diverso dai problemi di previsione, che non hanno queste due caratteristiche. C'è una terza differenza che dovrei menzionare, che in un certo senso è la più importante: le conseguenze morali dell'attuazione di questi modelli di previsione sono molto diverse dall'utilizzo di uno strumento di traduzione linguistica sul telefono o di uno strumento di etichettatura delle immagini.

Ma non è la stessa gravità dello strumento utilizzato per determinare se qualcuno debba essere, diciamo, detenuto in attesa di processo. Queste hanno conseguenze per la libertà delle persone. Quindi l'ironia è che l'area in cui l'IA funziona più male, non è migliorata nel tempo ed è improbabile che migliori in futuro è l'area che ha tutte queste conseguenze incredibilmente importanti.

Gran parte del tuo lavoro ha richiesto di parlare con esperti al di fuori del tuo campo. Com'è collaborare con altri in questo modo?

Le collaborazioni interdisciplinari sono state alcune delle collaborazioni più piacevoli. Penso che qualsiasi collaborazione del genere avrà i suoi momenti frustranti perché le persone non parlano la stessa lingua.

La mia ricetta per questo è: cultura, poi lingua, poi sostanza. Se non capisci la loro cultura, ad esempio che tipo di borsa di studio apprezzano, sarà davvero difficile. Ciò che è prezioso per una persona può sembrare irrilevante per un'altra. Quindi gli aspetti culturali devono essere esplorati prima. Quindi puoi iniziare a stabilire un linguaggio e un vocabolario comuni e arrivare finalmente alla sostanza della collaborazione.

Quanto sei ottimista riguardo alla possibilità di adottare in modo sicuro e saggio nuove tecnologie?

Parte del problema è una lacuna di conoscenza. I responsabili delle decisioni, le agenzie governative, le aziende e altre persone che acquistano questi strumenti di intelligenza artificiale potrebbero non riconoscere i seri limiti dell'accuratezza predittiva.

Ma alla fine penso che sia un problema politico. Alcune persone vogliono tagliare i costi, quindi vogliono uno strumento automatizzato, che elimini posti di lavoro. Quindi c'è una pressione molto forte per credere a qualunque cosa questi fornitori dicano sui loro strumenti predittivi.

Sono due problemi diversi. Le persone come me possono forse aiutare a colmare il divario informativo. Ma affrontare il problema politico richiede attivismo. Ci impone di trarre vantaggio dal processo democratico. È bello vedere che ci sono molte persone che lo fanno. E a lungo termine, penso che possiamo respingere le applicazioni dannose e abusive dell'IA. Non credo che cambierà in un istante, ma attraverso un lungo, prolungato processo di attivismo che è già in corso da un decennio o più. Sono sicuro che continuerà per molto tempo.

Timestamp:

Di più da Quantamagazine