Forskaren som skulle lära maskiner att vara rättvisa

Forskaren som skulle lära maskiner att vara rättvisa

Forskaren som skulle lära maskiner att vara rättvisa PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Beskrivning

Då och då kan en person ta ett abstrakt koncept som till synes är för vagt för formell studie och erbjuda en elegant formell definition. Claude Shannon gjorde det med informationen, och Andrey Kolmogorov gjorde det med slumpmässighet. Under de senaste åren har forskare försökt göra detsamma för begreppet rättvisa i maskininlärning. Tyvärr har detta varit knepigare. Det är inte bara svårare att definiera begreppet, utan det är också omöjligt för en enda definition att uppfylla alla önskvärda rättvisemått. Arvind Narayanan, en datavetare vid Princeton University, har varit avgörande för att kontextualisera olika åsikter och hjälpa detta nya fält att etablera sig.

Hans karriär har sträckt sig över alla abstraktionsnivåer, från teori till policy, men resan som så småningom ledde till hans nuvarande arbete började 2006. Det året sponsrade Netflix en tävling som skulle ge $1 miljon till den som förbättrade noggrannheten i sitt rekommendationssystem genom att 10 %. Netflix tillhandahöll en påstådd anonym datauppsättning av användare och deras betyg, med personligt identifierbar information borttagen. Men Narayanan visade att med en sofistikerad statistisk teknik behöver du bara några få datapunkter för att avslöja identiteten på en "anonym" användare i datamängden.

Sedan dess har Narayanan fokuserat på andra områden där teori möter praktik. Genom Princeton Web Transparency and Accountability Project, upptäckte hans team smygande sätt som webbplatser spårar användare och extraherar känslig data. Hans team fick reda på att en grupp som National Security Agency kunde använda webbläsardata (särskilt cookies som placerats av tredje part) inte bara för att upptäcka användarens verkliga identitet, utan också för att rekonstruera 62 % till 73 % av deras webbhistorik . De visade det — att riffa på kända Ny Yorker tecknad — På internet vet nu webbplatser att du är en hund.

De senaste åren har Narayanan vänt sig specifikt till maskininlärning — en tillämpning av artificiell intelligens som ger maskiner möjlighet att lära av data. Samtidigt som han välkomnar framsteg inom AI, påpekar han hur sådana system kan misslyckas även med goda avsikter, och hur dessa annars användbara tekniker kan bli verktyg för att rättfärdiga diskriminering. I detta ljus bildar de till synes osammanhängande prickarna som har definierat Narayanans forskningsbana en slags konstellation.

Quanta pratade med Narayanan om hans arbete med avanonymisering, vikten av statistisk intuition och de många fallgroparna med AI-system. Intervjun har förtätats och redigerats för tydlighetens skull.

Beskrivning

Har du alltid velat forska i matematik och naturvetenskap?

Jag växte upp väldigt intresserad av båda, men framför allt av matematik. Jag var bra på att lösa pussel och hade till och med en del framgångar vid den internationella matematiska olympiaden. Men jag hade en enorm missuppfattning om skillnaden mellan pussellösning och forskning i matematik.

Och så tidigt fokuserade jag min forskning på kryptografi, särskilt teoretisk kryptografi, eftersom jag fortfarande arbetade under villfarelsen att jag var väldigt bra på matematik. Och sedan har resten av min karriär varit en resa för att inse att det faktiskt inte alls är min styrka.

Det måste ha fungerat som en bra bakgrund för ditt avanonymiseringsarbete.

Du har rätt. Det som möjliggjorde avanonymiseringsforskningen är den färdighet som jag kallar statistisk intuition. Det är faktiskt inte formell matematisk kunskap. Det är att kunna ha en intuition i huvudet som: "Om jag tar den här komplexa datamängden och tillämpar denna transformation på den, vad är ett rimligt resultat?"

Intuitionen kan ofta vara fel, och det är okej. Men det är viktigt att ha intuition eftersom den kan vägleda dig mot vägar som kan vara fruktbara.

Beskrivning

Hur hjälpte statistisk intuition med ditt arbete med Netflix-data?

Jag hade försökt skapa ett anonymiseringsschema för högdimensionell data. Det misslyckades fullständigt, men i processen att misslyckas hade jag utvecklat intuitionen att högdimensionell data inte kan anonymiseras effektivt. Naturligtvis påstod Netflix, med sin konkurrens, ha gjort precis det.

Jag hade min naturliga skepsis mot företags marknadsföringsuttalanden, så jag var motiverad att bevisa att de hade fel. Min rådgivare, Vitaly Shmatikov, och jag arbetade med det under några intensiva veckor. När vi insåg att arbetet verkligen fick genomslag började jag göra mer.

Vilken var den övergripande effekten? Hörde du tillbaka från Netflix och andra företag vars data visade sig inte vara fullt så anonym?

Tja, en positiv effekt är att det sporrade vetenskapen om differentiell integritet. Men när det gäller hur företagen reagerat har det varit lite olika reaktioner. I många fall gör företag som annars skulle ha släppt datamängder till allmänheten det nu inte längre – de beväpnar integritet som ett sätt att bekämpa insynsinsatser.

Facebook är känt för att göra detta. När forskare går till Facebook och säger: "Vi behöver tillgång till en del av denna data för att studera hur information sprids på plattformen", kan Facebook nu säga: "Nej, det kan vi inte ge dig. Det kommer att äventyra våra användares integritet.”

Du skrev en gång en papper hävdar att termen "personligt identifierbar information" kan vara vilseledande. Hur så?

Jag tror att det råder förvirring bland beslutsfattare på grund av två olika sätt som termen används på. En är information om dig som är mycket känslig, som ditt personnummer. En annan betydelse är information som kan indexeras till vissa datamängder och därigenom användas för att hitta mer information om dig.

Dessa två har olika betydelser. Jag har ingen biff med begreppet PII i första meningen. Vissa uppgifter om personer är mycket känsliga, och vi bör behandla dem mer försiktigt. Men även om din e-postadress inte nödvändigtvis är särskilt känslig för de flesta, är det fortfarande en unik identifierare som kan användas för att hitta dig i andra datamängder. Så länge kombinationen av attribut om en person är tillgänglig för alla andra i världen, är det allt du behöver för avanonymisering.

Beskrivning

Hur kom du till slut på att studera rättvisa?

Jag undervisade i en kurs i rättvisa och maskininlärning 2017. Det gav mig en bra uppfattning om de öppna problemen inom området. Och tillsammans med det höll jag ett föredrag som hette "21 Definitioner av rättvisa och deras politik.” Jag förklarade att spridningen av tekniska definitioner inte berodde på tekniska skäl, utan för att det finns genuina moraliska frågor i hjärtat av allt detta. Det finns inget sätt att du kan ha ett enda statistiskt kriterium som fångar alla normativa önskemål - alla saker du vill ha. Föredraget togs emot väl, så de två tillsammans övertygade mig om att jag borde börja gå in på det här ämnet.

Du med höll ett föredrag på att upptäcka AI ormolja, vilket också togs emot väl. Hur hänger det ihop med rättvisa i maskininlärning?

Så motivationen till detta var att det helt klart händer en hel del genuin teknisk innovation inom AI, som text-till-bild-programmet DALL E 2 eller schackprogrammet Alpha Zero. Det är verkligen fantastiskt att denna utveckling har gått så snabbt. Mycket av den innovationen förtjänar att firas.

Problemet kommer när vi använder den här mycket lösa och breda paraplytermen "AI" för sådana saker såväl som för svårare tillämpningar, som statistiska metoder för att förutsäga kriminella risker. I det sammanhanget är det mycket olika vilken typ av teknik det handlar om. Det är två väldigt olika typer av applikationer, och de potentiella fördelarna och skadorna är också väldigt olika. Det finns nästan inget samband alls mellan dem, så att använda samma term för båda är mycket förvirrande.

Människor vilseleds att tro att alla dessa framsteg de ser med bildgenerering faktiskt skulle översättas till framsteg mot sociala uppgifter som att förutsäga kriminella risker eller förutsäga vilka barn som kommer att hoppa av skolan. Men så är det inte alls. Först och främst kan vi bara göra något bättre än en slumpmässig chans att förutse vem som kan gripas för ett brott. Och den noggrannheten uppnås med riktigt enkla klassificerare. Det blir inte bättre med tiden, och det blir inte bättre när vi samlar in fler datamängder. Så alla dessa observationer står i kontrast till användningen av djupinlärning för bildgenerering, till exempel.

Hur skulle du särskilja olika typer av maskininlärningsproblem?

Detta är inte en uttömmande lista, men det finns tre vanliga kategorier. Den första kategorin är perception, som inkluderar uppgifter som att beskriva innehållet i en bild. Den andra kategorin är vad jag kallar "automatisera bedömning", till exempel när Facebook vill använda algoritmer för att avgöra vilket tal som är för giftigt för att finnas kvar på plattformen. Och den tredje är att förutsäga framtida sociala resultat bland människor - om någon skulle arresteras för ett brott eller om ett barn kommer att hoppa av skolan.

I alla tre fallen är de uppnåbara noggrannheterna mycket olika, de potentiella farorna med felaktig AI är mycket olika och de etiska konsekvenserna som följer är mycket olika.

Till exempel är ansiktsigenkänning, i min klassificering, ett uppfattningsproblem. Många pratar om att ansiktsigenkänning är felaktig, och ibland har de rätt. Men jag tror inte att det beror på att det finns grundläggande gränser för noggrannheten av ansiktsigenkänning. Den tekniken har blivit bättre och den kommer att bli bättre. Det är just därför vi bör vara bekymrade över det ur ett etiskt perspektiv - när du lägger det i händerna på polisen, som kan vara oansvarigt, eller stater som inte är transparenta om användningen.

Beskrivning

Vad gör sociala förutsägelseproblem så mycket svårare än uppfattningsproblem?

Perceptionsproblem har ett par egenskaper. För det första är det ingen tvetydighet om huruvida det finns en katt i en bild. Så du har grundsanningen. För det andra har du i princip obegränsad träningsdata eftersom du kan använda alla bilder på webben. Och om du är Google eller Facebook kan du använda alla bilder som folk har laddat upp till din app. Så dessa två faktorer - bristen på oklarhet och datatillgänglighet - gör att klassificerare kan prestera riktigt bra.

Det skiljer sig från förutsägelseproblem, som inte har dessa två egenskaper. Det finns en tredje skillnad som jag borde nämna, som i någon mening är den viktigaste: De moraliska konsekvenserna av att sätta dessa förutsägelsemodeller i verket skiljer sig mycket från att använda ett språköversättningsverktyg på din telefon eller ett verktyg för bildmärkning.

Men det är inte samma allvar som verktyget som används för att avgöra om någon ska häktas, låt oss säga, före rättegången. De får konsekvenser för människors frihet. Så ironin är att det område där AI fungerar sämst, inte riktigt har förbättrats med tiden och sannolikt inte kommer att förbättras i framtiden är det område som har alla dessa otroligt viktiga konsekvenser.

Mycket av ditt arbete har krävt att du pratar med experter utanför ditt område. Hur är det att samarbeta med andra så här?

Tvärvetenskapliga samarbeten har varit några av de roligaste samarbetena. Jag tror att ett sådant samarbete kommer att ha sina frustrerande stunder eftersom människor inte talar samma språk.

Mitt recept på det är: kultur, sedan språk, sedan substans. Om du inte förstår deras kultur - som vilken typ av stipendium de värdesätter - kommer det att bli riktigt svårt. Vad som är värdefullt för en person kan verka irrelevant för en annan. Så de kulturella aspekterna måste navigeras först. Sedan kan man börja etablera ett gemensamt språk och ordförråd och slutligen komma till innehållet i samarbetet.

Hur optimistisk är du om vi säkert och klokt kan ta till oss ny teknik?

En del av frågan är en kunskapslucka. Beslutsfattare, statliga myndigheter, företag och andra personer som köper dessa AI-verktyg kanske inte inser de allvarliga gränserna för prediktiv precision.

Men i slutändan tror jag att det är ett politiskt problem. Vissa människor vill minska kostnaderna, så de vill ha ett automatiserat verktyg som eliminerar jobb. Så det finns ett mycket starkt tryck att tro på vad dessa leverantörer än säger om deras prediktiva verktyg.

Det är två olika problem. Människor som jag kan kanske hjälpa till att ta itu med informationsklyftan. Men att ta itu med det politiska problemet kräver aktivism. Det kräver att vi drar fördel av den demokratiska processen. Det är bra att se att det är många som gör det. Och i det långa loppet tror jag att vi kan trycka tillbaka mot de skadliga och kränkande tillämpningarna av AI. Jag tror inte att det kommer att förändras på ett ögonblick utan genom en lång, utdragen, utdragen process av aktivism som redan har pågått i ett decennium eller mer. Jag är säker på att det kommer att fortsätta ett bra tag till.

Tidsstämpel:

Mer från Quantamagazin