Cercetătorul care ar învăța mașinile să fie corecte

Cercetătorul care ar învăța mașinile să fie corecte

Cercetătorul care ar învăța mașinile să fie corecte PlatoBlockchain Data Intelligence. Căutare verticală. Ai.

Introducere

Din când în când, o persoană poate lua un concept abstract care este aparent prea vag pentru studiu formal și poate oferi o definiție formală elegantă. Claude Shannon a făcut-o cu informații, iar Andrey Kolmogorov a făcut-o cu dezordine. În ultimii ani, cercetătorii au încercat să facă același lucru pentru conceptul de corectitudine în învățarea automată. Din păcate, acest lucru a fost mai complicat. Nu numai că conceptul este mai greu de definit, dar este și imposibil ca o singură definiție să satisfacă toate valorile de corectitudine dorite. Arvind Narayanan, un informatician la Universitatea Princeton, a jucat un rol esențial în contextualizarea diferitelor puncte de vedere și pentru a ajuta acest nou domeniu să se stabilească.

Cariera sa a acoperit toate nivelurile de abstractizare, de la teorie la politică, dar călătoria care a condus în cele din urmă la munca sa actuală a început în 2006. În acel an, Netflix a sponsorizat un concurs care ar acorda 1 milion de dolari oricui și-a îmbunătățit acuratețea sistemului de recomandare prin 10%. Netflix a furnizat un set de date pretins anonim de utilizatori și evaluările acestora, cu informații de identificare personală eliminate. Dar Narayanan a arătat că, cu o tehnică statistică sofisticată, aveți nevoie doar de câteva puncte de date pentru a dezvălui identitatea unui utilizator „anonim” în setul de date.

De atunci, Narayanan s-a concentrat pe alte domenii în care teoria se întâlnește cu practica. Prin Proiectul Princeton privind transparența și responsabilitatea web, echipa sa a descoperit moduri secrete prin care site-urile web urmăresc utilizatorii și extrag date sensibile. Echipa sa a aflat că un grup precum Agenția Națională de Securitate ar putea folosi datele de navigare pe web (în special, cookie-urile plasate de terți) nu numai pentru a descoperi identitatea utilizatorului în lumea reală, ci și pentru a reconstrui 62% până la 73% din istoricul de navigare. . Ei au arătat că — a riff pe celebru New Yorker desen animat — pe internet, site-urile web știu acum că ești un câine.

În ultimii ani, Narayanan s-a orientat în mod special către masina de învățare — o aplicație de inteligență artificială care oferă mașinilor capacitatea de a învăța din date. Deși salută progresele în domeniul inteligenței artificiale, el subliniază modul în care astfel de sisteme pot eșua chiar și cu intenții bune și cum aceste tehnologii altfel utile pot deveni instrumente pentru a justifica discriminarea. În această lumină, punctele aparent neconectate care au definit traiectoria de cercetare a lui Narayanan formează un fel de constelație.

Cuante a vorbit cu Narayanan despre munca sa privind de-anonimizarea, importanța intuiției statistice și numeroasele capcane ale sistemelor AI. Interviul a fost condensat și editat pentru claritate.

Introducere

Ți-ai dorit mereu să faci cercetări la matematică și știință?

Am crescut foarte interesat de ambele, dar în primul rând de matematică. Eram bun la rezolvarea puzzle-urilor și chiar am avut un oarecare succes la Olimpiada Internațională de Matematică. Dar am avut o mare concepție greșită despre diferența dintre rezolvarea puzzle-urilor și matematica de cercetare.

Și atât de devreme, mi-am concentrat cercetările pe criptografie, în special pe criptografia teoretică, pentru că încă mai lucram sub iluzie că sunt foarte bun la matematică. Și apoi restul carierei mele a fost o călătorie prin care să-mi dau seama că de fapt nu este forța mea deloc.

Acesta trebuie să fi servit ca fundal bun pentru munca dvs. de de-anonimizare.

Ai dreptate. Ceea ce a permis cercetarea de de-anonimizare este abilitatea pe care o numesc intuiție statistică. Nu este de fapt cunoștințe matematice formale. Este să ai în cap o intuiție de genul: „Dacă iau acest set de date complex și îi aplic această transformare, care este un rezultat plauzibil?”

Intuiția ar putea fi adesea greșită și asta e în regulă. Dar este important să ai intuiție, deoarece te poate ghida către căi care ar putea fi fructuoase.

Introducere

Cum v-a ajutat intuiția statistică cu munca dvs. pe datele Netflix?

Încercam să elaborez o schemă de anonimizare a datelor cu dimensiuni mari. A eșuat complet, dar în procesul de eșec am dezvoltat intuiția că datele cu dimensiuni înalte nu pot fi anonimizate în mod eficient. Desigur, Netflix, cu concurența lor, a susținut că a făcut exact asta.

Aveam scepticismul meu firesc față de declarațiile de marketing ale companiilor, așa că am fost motivat să le dovedesc greșite. Consilierul meu, Vitaly Shmatikov, și cu mine am lucrat la el timp de câteva săptămâni intense. Odată ce ne-am dat seama că munca chiar avea un impact, am început să fac mai mult.

Care a fost impactul general? Ați primit răspunsuri de la Netflix și de la alte companii ale căror date s-au dovedit a nu fi chiar atât de anonime?

Ei bine, un impact pozitiv este că a stimulat știința confidențialitate diferențială. Dar în ceea ce privește modul în care companiile au reacționat, au existat câteva reacții diferite. În multe cazuri, companiile care altfel ar fi eliberat seturi de date publicului nu mai fac acum acest lucru – folosesc confidențialitatea ca o modalitate de a lupta împotriva eforturilor de transparență.

Facebook este cunoscut pentru acest lucru. Când cercetătorii merg la Facebook și spun: „Avem nevoie de acces la unele dintre aceste date pentru a studia cum se propagă informațiile pe platformă”, Facebook poate spune acum: „Nu, nu vă putem oferi asta. Acest lucru va compromite confidențialitatea utilizatorilor noștri.”

Ai scris odată un hârtie argumentând că termenul „informații de identificare personală” poate induce în eroare. Cum așa?

Cred că există confuzie în rândul factorilor de decizie politică care rezultă din două moduri diferite în care este folosit termenul. Una este informațiile despre tine care sunt foarte sensibile, cum ar fi numărul tău de securitate socială. O altă semnificație este informațiile care pot fi indexate în anumite seturi de date și, prin urmare, utilizate pentru a găsi mai multe informații despre tine.

Aceste două au semnificații diferite. Nu am carne de vită cu conceptul de PII în primul sens. Anumite informații despre oameni sunt foarte sensibile și ar trebui să le tratăm cu mai multă atenție. Dar, deși adresa ta de e-mail nu este neapărat foarte sensibilă pentru majoritatea oamenilor, este totuși un identificator unic care poate fi folosit pentru a te găsi în alte seturi de date. Atâta timp cât combinația de atribute despre o persoană este disponibilă pentru oricine altcineva din lume, asta este tot ce aveți nevoie pentru de-anonimizare.

Introducere

Cum ai ajuns până la urmă să studiezi corectitudinea?

Am predat un curs de corectitudine și învățare automată în 2017. Asta mi-a dat o idee bună despre problemele deschise din domeniu. Și împreună cu asta, am ținut o conferință numită „21 Definițiile corectitudinii și politica lor.” I-am explicat că proliferarea definițiilor tehnice nu a fost din motive tehnice, ci pentru că există întrebări morale autentice în centrul tuturor acestor lucruri. Nu există nicio modalitate de a avea un singur criteriu statistic care să surprindă toate dezideratele normative - toate lucrurile pe care le doriți. Discuția a fost bine primită, așa că cei doi împreună m-au convins că ar trebui să încep să intru în acest subiect.

Tu la fel a ținut o discuție la detectarea uleiului de șarpe AI, care a fost, de asemenea, bine primit. Cum se leagă asta cu corectitudinea în învățarea automată?

Deci, motivația pentru aceasta a fost că există în mod clar o mulțime de inovații tehnice autentice care se întâmplă în AI, cum ar fi programul text-to-image. DALL E 2 sau programul de șah alphazero. Este cu adevărat uimitor că acest progres a fost atât de rapid. O mare parte din această inovație merită să fie celebrată.

Problema apare atunci când folosim acest termen umbrelă „AI” foarte lax și larg pentru astfel de lucruri, precum și aplicații mai complicate, cum ar fi metodele statistice pentru predicția riscului criminal. În acest context, tipul de tehnologie implicat este foarte diferit. Acestea sunt două tipuri foarte diferite de aplicații, iar beneficiile și daunele potențiale sunt, de asemenea, foarte diferite. Aproape că nu există nicio legătură între ele, așa că folosirea aceluiași termen pentru ambele este complet confuză.

Oamenii sunt induși în eroare să creadă că toate aceste progrese pe care le văd cu generarea de imagini s-ar traduce de fapt în progres față de sarcini sociale, cum ar fi prezicerea riscului criminal sau prezicerea copiilor care vor abandona școala. Dar nu este deloc cazul. În primul rând, putem face doar puțin mai bine decât șansa întâmplătoare să prezicem cine ar putea fi arestat pentru o crimă. Și această precizie este obținută cu clasificatoare foarte simple. Nu se îmbunătățește în timp și nu se îmbunătățește pe măsură ce colectăm mai multe seturi de date. Deci, toate aceste observații sunt în contrast cu utilizarea învățării profunde pentru generarea de imagini, de exemplu.

Cum ați distinge diferitele tipuri de probleme de învățare automată?

Aceasta nu este o listă exhaustivă, dar există trei categorii comune. Prima categorie este percepția, care include sarcini precum descrierea conținutului unei imagini. A doua categorie este ceea ce eu numesc „judecarea automată”, cum ar fi atunci când Facebook dorește să folosească algoritmi pentru a determina ce discurs este prea toxic pentru a rămâne pe platformă. Iar a treia este prezicerea viitoarelor rezultate sociale în rândul oamenilor - dacă cineva ar fi arestat pentru o crimă sau dacă un copil va abandona școala.

În toate cele trei cazuri, preciziile realizabile sunt foarte diferite, pericolele potențiale ale IA inexacte sunt foarte diferite, iar implicațiile etice care urmează sunt foarte diferite.

De exemplu, recunoașterea feței, în clasificarea mea, este o problemă de percepție. Mulți oameni vorbesc că recunoașterea feței este inexactă și, uneori, au dreptate. Dar nu cred că asta se datorează faptului că există limite fundamentale ale acurateței recunoașterii feței. Acea tehnologie s-a îmbunătățit și se va îmbunătăți. Tocmai de aceea ar trebui să ne îngrijorăm din perspectivă etică - atunci când îl puneți în mâinile poliției, care ar putea fi nesocotite sau statelor care nu sunt transparente cu privire la utilizarea sa.

Introducere

Ce face problemele de predicție socială mult mai dificile decât problemele de percepție?

Problemele de percepție au câteva caracteristici. În primul rând, nu există nicio ambiguitate în ceea ce privește dacă există o pisică într-o imagine. Deci ai adevărul de bază. În al doilea rând, aveți în esență date de antrenament nelimitate, deoarece puteți utiliza toate imaginile de pe web. Și dacă ești Google sau Facebook, poți folosi toate imaginile pe care oamenii le-au încărcat în aplicația ta. Deci, acești doi factori - lipsa ambiguității și disponibilitatea datelor - permit clasificatorilor să funcționeze foarte bine.

Este diferit de problemele de predicție, care nu au aceste două caracteristici. Există o a treia diferență pe care ar trebui să o menționez, care într-un anumit sens este cea mai importantă: consecințele morale ale punerii în aplicare a acestor modele de predicție sunt foarte diferite de utilizarea unui instrument de traducere a limbii pe telefon sau a unui instrument de etichetare a imaginilor.

Dar aceasta nu este aceeași seriozitate cu instrumentul folosit pentru a determina dacă cineva ar trebui, să zicem, să fie reținut preventiv. Acestea au consecințe asupra libertății oamenilor. Așadar, ironia este că zona în care AI funcționează cel mai prost, nu s-a îmbunătățit cu adevărat de-a lungul timpului și este puțin probabil să se îmbunătățească în viitor este zona care are toate aceste consecințe incredibil de importante.

O mare parte din munca dvs. a necesitat să discutați cu experți din afara domeniului dvs. Cum e să colaborezi cu alții ca asta?

Colaborările interdisciplinare au fost unele dintre cele mai plăcute colaborări. Cred că orice astfel de colaborare va avea momente frustrante pentru că oamenii nu vorbesc aceeași limbă.

Rețeta mea pentru asta este: cultură, apoi limba, apoi substanță. Dacă nu înțelegeți cultura lor - cum ar fi ce fel de bursă prețuiesc - va fi foarte greu. Ceea ce este valoros pentru o persoană poate părea irelevant pentru altul. Așa că aspectele culturale trebuie navigate mai întâi. Apoi puteți începe să stabiliți un limbaj și un vocabular comun și, în sfârșit, puteți ajunge la substanța colaborării.

Cât de optimist ești dacă putem adopta în siguranță și înțelepciune noi tehnologii?

O parte a problemei este lipsa de cunoștințe. Factorii de decizie, agențiile guvernamentale, companiile și alte persoane care cumpără aceste instrumente AI ar putea să nu recunoască limitele serioase ale acurateței predictive.

Dar până la urmă cred că este o problemă politică. Unii oameni vor să reducă costurile, așa că vor un instrument automatizat, care să elimine locurile de muncă. Deci există o presiune foarte puternică de a crede orice spun acești furnizori despre instrumentele lor de predicție.

Sunt două probleme diferite. Oameni ca mine poate ajuta la rezolvarea decalajului de informații. Dar abordarea problemei politice necesită activism. Ne cere să profităm de procesul democratic. E bine să vezi că sunt mulți oameni care fac asta. Și, pe termen lung, cred că ne putem respinge împotriva aplicațiilor dăunătoare și abuzive ale AI. Nu cred că se va schimba într-o clipă, ci printr-un proces de activism lung, prelungit și prelungit, care se desfășoară deja de un deceniu sau mai mult. Sunt sigur că va continua mult timp.

Timestamp-ul:

Mai mult de la Quantamagazina