Der Forscher, der Maschinen Fairness beibringen würde

Der Forscher, der Maschinen Fairness beibringen würde

Der Forscher, der Maschinen beibringen würde, fair zu sein PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Einleitung

Hin und wieder kann eine Person ein abstraktes Konzept nehmen, das scheinbar zu vage für ein formales Studium ist, und eine elegante formale Definition anbieten. Claude Shannon hat es mit gemacht Information, und Andrey Kolmogorov hat es mit gemacht Zufälligkeit. In den letzten Jahren haben Forscher versucht, dasselbe für das Konzept der Fairness beim maschinellen Lernen zu tun. Leider war dies schwieriger. Das Konzept ist nicht nur schwieriger zu definieren, sondern es ist auch unmöglich, dass eine einzelne Definition alle wünschenswerten Fairnessmetriken erfüllt. Arvind Narayanan, Informatiker an der Princeton University, war maßgeblich daran beteiligt, unterschiedliche Ansichten zu kontextualisieren und dazu beizutragen, dass sich dieses neue Gebiet etabliert.

Seine Karriere umfasste alle Ebenen der Abstraktion, von der Theorie bis zur Politik, aber die Reise, die schließlich zu seiner aktuellen Arbeit führte, begann im Jahr 2006. In diesem Jahr sponserte Netflix einen Wettbewerb, bei dem jeder, der die Genauigkeit seines Empfehlungssystems verbesserte, 1 Million US-Dollar erhielt 10%. Netflix stellte einen angeblich anonymen Datensatz von Benutzern und ihren Bewertungen zur Verfügung, wobei personenbezogene Daten entfernt wurden. Aber Narayanan zeigte, dass man mit einer ausgeklügelten statistischen Technik nur wenige Datenpunkte benötigt, um die Identität eines „anonymen“ Benutzers im Datensatz aufzudecken.

Seitdem konzentriert sich Narayanan auf andere Bereiche, in denen Theorie auf Praxis trifft. Durch das Princeton Web Transparency and Accountability Project, entdeckte sein Team heimliche Methoden, mit denen Websites Benutzer verfolgen und vertrauliche Daten extrahieren. Sein Team fand heraus, dass eine Gruppe wie die National Security Agency Webbrowsing-Daten (insbesondere von Dritten platzierte Cookies) nicht nur dazu verwenden könnte, die reale Identität des Benutzers zu ermitteln, sondern auch, um 62 % bis 73 % seines Browserverlaufs zu rekonstruieren . Sie haben das gezeigt – um das zu riffeln berühmt New Yorker Karikatur – Im Internet wissen Websites jetzt, dass Sie ein Hund sind.

In den letzten Jahren hat sich Narayanan speziell dem zugewandt Maschinelles Lernen — eine Anwendung künstlicher Intelligenz, die Maschinen die Fähigkeit verleiht, aus Daten zu lernen. Während er Fortschritte in der KI begrüßt, weist er darauf hin, wie solche Systeme auch mit guten Absichten scheitern können und wie diese ansonsten nützlichen Technologien zu Werkzeugen werden können, um Diskriminierung zu rechtfertigen. In diesem Licht bilden die scheinbar unverbundenen Punkte, die Narayanans Forschungslaufbahn bestimmt haben, eine Art Konstellation.

Wie viel sprach mit Narayanan über seine Arbeit zur De-Anonymisierung, die Bedeutung statistischer Intuition und die vielen Fallstricke von KI-Systemen. Das Interview wurde aus Gründen der Übersichtlichkeit gekürzt und bearbeitet.

Einleitung

Wollten Sie schon immer mathematische und naturwissenschaftliche Forschung betreiben?

Ich bin sehr interessiert an beiden aufgewachsen, hauptsächlich aber an Mathematik. Ich war gut im Lösen von Rätseln und hatte sogar einige Erfolge bei der Internationalen Mathematikolympiade. Aber ich hatte ein großes Missverständnis über den Unterschied zwischen Rätsellösen und Forschungsmathematik.

Und so früh konzentrierte ich meine Forschung auf Kryptografie, insbesondere auf theoretische Kryptografie, weil ich immer noch unter dem Wahn litt, dass ich sehr gut in Mathe sei. Und dann war der Rest meiner Karriere eine Reise der Erkenntnis, dass das eigentlich überhaupt nicht meine Stärke ist.

Das muss ein guter Hintergrund für Ihre Deanonymisierungsarbeit gewesen sein.

Sie haben Recht. Was die Deanonymisierungsforschung ermöglicht hat, ist die Fähigkeit, die ich statistische Intuition nenne. Es ist nicht wirklich formales mathematisches Wissen. Es ist in der Lage, eine Intuition im Kopf zu haben wie: „Wenn ich diesen komplexen Datensatz nehme und diese Transformation darauf anwende, was ist ein plausibles Ergebnis?“

Die Intuition kann oft falsch sein, und das ist in Ordnung. Aber es ist wichtig, Intuition zu haben, weil sie Sie auf Wege führen kann, die fruchtbar sein könnten.

Einleitung

Wie hat Ihnen die statistische Intuition bei Ihrer Arbeit an den Netflix-Daten geholfen?

Ich hatte versucht, ein Anonymisierungsschema für hochdimensionale Daten zu entwickeln. Es ist völlig gescheitert, aber während des Scheiterns hatte ich die Intuition entwickelt, dass hochdimensionale Daten nicht effektiv anonymisiert werden können. Natürlich hat Netflix mit seiner Konkurrenz behauptet, genau das getan zu haben.

Ich hatte meine natürliche Skepsis gegenüber den Marketingaussagen von Unternehmen, also war ich motiviert, sie als falsch zu beweisen. Mein Berater Vitaly Shmatikov und ich haben einige intensive Wochen daran gearbeitet. Als wir merkten, dass die Arbeit wirklich Wirkung zeigte, fing ich an, mehr zu tun.

Was war die Gesamtwirkung? Haben Sie von Netflix und anderen Unternehmen gehört, deren Daten sich als nicht ganz so anonym erwiesen haben?

Nun, ein positiver Effekt ist, dass es die Wissenschaft beflügelt hat differenzierte Privatsphäre. Aber in Bezug auf die Reaktion der Unternehmen gab es einige unterschiedliche Reaktionen. In vielen Fällen tun Unternehmen, die sonst Datensätze für die Öffentlichkeit freigegeben hätten, dies jetzt nicht mehr – sie nutzen die Privatsphäre als Waffe, um Transparenzbemühungen zu bekämpfen.

Facebook ist dafür bekannt. Wenn Forscher zu Facebook gehen und sagen: „Wir brauchen Zugriff auf einige dieser Daten, um zu untersuchen, wie sich Informationen auf der Plattform verbreiten“, kann Facebook jetzt sagen: „Nein, das können wir Ihnen nicht geben. Das gefährdet die Privatsphäre unserer Nutzer.“

Du hast mal geschrieben a Krepppapier argumentieren, dass der Begriff „personenbezogene Daten“ irreführend sein kann. Wie so?

Ich denke, dass es unter den politischen Entscheidungsträgern zu Verwirrung kommt, weil der Begriff auf zwei verschiedene Arten verwendet wird. Eine davon sind Informationen über Sie, die sehr sensibel sind, wie Ihre Sozialversicherungsnummer. Eine andere Bedeutung sind Informationen, die in einigen Datensätzen indexiert und dadurch verwendet werden können, um weitere Informationen über Sie zu finden.

Diese beiden haben unterschiedliche Bedeutungen. Ich habe kein Problem mit dem Konzept von PII im ersten Sinne. Bestimmte Informationen über Personen sind sehr sensibel und wir sollten sie sorgfältiger behandeln. Aber obwohl Ihre E-Mail-Adresse für die meisten Menschen nicht unbedingt sehr sensibel ist, ist sie dennoch eine eindeutige Kennung, die verwendet werden kann, um Sie in anderen Datensätzen zu finden. Solange die Kombination von Attributen über eine Person für jeden anderen auf der Welt verfügbar ist, ist das alles, was Sie für die De-Anonymisierung benötigen.

Einleitung

Wie sind Sie schließlich dazu gekommen, Fairness zu studieren?

Ich habe 2017 einen Kurs zu Fairness und maschinellem Lernen gehalten. Dadurch habe ich eine gute Vorstellung von den offenen Problemen in diesem Bereich bekommen. Und zusammen damit hielt ich einen Vortrag mit dem Titel „21 Fairness-Definitionen und ihre Politik.“ Ich habe erklärt, dass die Verbreitung technischer Definitionen nicht aus technischen Gründen erfolgt, sondern weil dem Ganzen echte moralische Fragen zugrunde liegen. Es gibt keine Möglichkeit, ein einziges statistisches Kriterium zu haben, das alle normativen Desiderate erfasst – all die Dinge, die Sie wollen. Der Vortrag kam gut an, sodass mich die beiden gemeinsam davon überzeugten, dass ich anfangen sollte, mich mit diesem Thema zu beschäftigen.

Du auch hielt einen Vortrag beim Nachweis von AI-Schlangenöl, das ebenfalls gut angenommen wurde. Wie verhält sich das zur Fairness beim maschinellen Lernen?

Die Motivation dafür war also, dass es eindeutig viele echte technische Innovationen in der KI gibt, wie das Text-zu-Bild-Programm DALLE 2 oder das Schachprogramm AlphaZero. Es ist wirklich erstaunlich, dass dieser Fortschritt so schnell war. Viele dieser Innovationen verdienen es, gefeiert zu werden.

Das Problem tritt auf, wenn wir diesen sehr lockeren und breiten Überbegriff „KI“ für solche Dinge sowie für komplexere Anwendungen verwenden, wie z. B. statistische Methoden zur Vorhersage von kriminellen Risiken. In diesem Zusammenhang ist die Art der beteiligten Technologie sehr unterschiedlich. Dies sind zwei sehr unterschiedliche Arten von Anwendungen, und die potenziellen Vorteile und Schäden sind ebenfalls sehr unterschiedlich. Es gibt fast überhaupt keine Verbindung zwischen ihnen, daher ist es völlig verwirrend, denselben Begriff für beide zu verwenden.

Die Leute werden zu der Annahme verleitet, dass all diese Fortschritte, die sie bei der Bildgenerierung sehen, sich tatsächlich in Fortschritt niederschlagen würden auf soziale Aufgaben wie die Vorhersage eines kriminellen Risikos oder die Vorhersage, welche Kinder die Schule abbrechen werden. Aber das ist überhaupt nicht der Fall. Erstens können wir nur etwas besser als der Zufall vorhersagen, wer wegen eines Verbrechens verhaftet werden könnte. Und diese Genauigkeit wird mit wirklich einfachen Klassifikatoren erreicht. Es wird mit der Zeit nicht besser, und es wird nicht besser, wenn wir mehr Datensätze sammeln. All diese Beobachtungen stehen also beispielsweise im Gegensatz zur Nutzung von Deep Learning zur Bildgenerierung.

Wie würden Sie verschiedene Arten von maschinellen Lernproblemen unterscheiden?

Dies ist keine vollständige Liste, aber es gibt drei allgemeine Kategorien. Die erste Kategorie ist die Wahrnehmung, die Aufgaben wie die Beschreibung des Inhalts eines Bildes umfasst. Die zweite Kategorie ist das, was ich „Automatisierung des Urteils“ nenne, beispielsweise wenn Facebook Algorithmen verwenden möchte, um festzustellen, welche Sprache zu giftig ist, um auf der Plattform zu bleiben. Und der dritte ist die Vorhersage zukünftiger sozialer Ergebnisse zwischen Menschen – ob jemand wegen eines Verbrechens verhaftet wird oder ob ein Kind die Schule abbrechen wird.

In allen drei Fällen sind die erreichbaren Genauigkeiten sehr unterschiedlich, die potenziellen Gefahren einer ungenauen KI sehr unterschiedlich und die daraus folgenden ethischen Implikationen sehr unterschiedlich.

Zum Beispiel ist die Gesichtserkennung in meiner Klassifizierung ein Wahrnehmungsproblem. Viele Leute sprechen davon, dass die Gesichtserkennung ungenau ist, und manchmal haben sie Recht. Aber ich glaube nicht, dass das daran liegt, dass der Genauigkeit der Gesichtserkennung grundlegende Grenzen gesetzt sind. Diese Technologie hat sich verbessert, und sie wird noch besser werden. Genau deshalb sollten wir uns aus ethischer Sicht Gedanken darüber machen – wenn Sie es in die Hände der Polizei legen, die möglicherweise nicht rechenschaftspflichtig ist, oder Staaten, die in Bezug auf seine Verwendung nicht transparent sind.

Einleitung

Was macht soziale Vorhersageprobleme so viel schwieriger als Wahrnehmungsprobleme?

Wahrnehmungsprobleme haben eine Reihe von Merkmalen. Erstens gibt es keine Zweideutigkeit darüber, ob auf einem Bild eine Katze zu sehen ist. Sie haben also die Grundwahrheit. Zweitens haben Sie im Wesentlichen unbegrenzte Trainingsdaten, da Sie alle Bilder im Internet verwenden können. Und wenn Sie Google oder Facebook sind, können Sie alle Bilder verwenden, die Personen in Ihre App hochgeladen haben. Diese beiden Faktoren – das Fehlen von Mehrdeutigkeiten und die Verfügbarkeit von Daten – ermöglichen es den Klassifikatoren, wirklich gute Leistungen zu erbringen.

Das unterscheidet sich von Vorhersageproblemen, die diese beiden Eigenschaften nicht aufweisen. Es gibt noch einen dritten Unterschied, den ich erwähnen sollte, der in gewissem Sinne der wichtigste ist: Die moralischen Konsequenzen der Umsetzung dieser Vorhersagemodelle unterscheiden sich stark von der Verwendung eines Sprachübersetzungstools auf Ihrem Telefon oder eines Bildkennzeichnungstools.

Aber das ist nicht die gleiche Ernsthaftigkeit wie das Instrument, das verwendet wird, um festzustellen, ob jemand beispielsweise in Untersuchungshaft genommen werden sollte. Diese haben Folgen für die Freiheit der Menschen. Die Ironie ist also, dass der Bereich, in dem die KI am schlechtesten funktioniert, sich im Laufe der Zeit nicht wirklich verbessert hat und sich wahrscheinlich auch in Zukunft nicht verbessern wird, der Bereich ist, der all diese unglaublich wichtigen Konsequenzen hat.

Ein Großteil Ihrer Arbeit erforderte Gespräche mit Experten außerhalb Ihres Fachgebiets. Wie ist es, so mit anderen zusammenzuarbeiten?

Interdisziplinäre Kooperationen gehören zu den angenehmsten Kooperationen. Ich denke, jede solche Zusammenarbeit wird ihre frustrierenden Momente haben, weil die Leute nicht dieselbe Sprache sprechen.

Mein Rezept dafür lautet: Kultur, dann Sprache, dann Substanz. Wenn Sie ihre Kultur nicht verstehen – zum Beispiel, welche Art von Stipendium sie schätzen – wird es wirklich schwierig. Was für den einen wertvoll ist, mag für den anderen irrelevant erscheinen. Die kulturellen Aspekte müssen also zuerst navigiert werden. Dann können Sie beginnen, eine gemeinsame Sprache und ein gemeinsames Vokabular aufzubauen, und schließlich zum Inhalt der Zusammenarbeit kommen.

Wie optimistisch sind Sie, ob wir neue Technologien sicher und sinnvoll einsetzen können?

Teil des Problems ist eine Wissenslücke. Entscheidungsträger, Regierungsbehörden, Unternehmen und andere Personen, die diese KI-Tools kaufen, erkennen möglicherweise nicht die ernsthaften Grenzen der Vorhersagegenauigkeit.

Aber letztendlich denke ich, dass es ein politisches Problem ist. Einige Leute wollen Kosten senken, also wollen sie ein automatisiertes Tool, das Jobs eliminiert. Es besteht also ein sehr starker Druck, alles zu glauben, was diese Anbieter über ihre Vorhersagetools sagen.

Das sind zwei verschiedene Probleme. Leute wie ich können vielleicht helfen, die Informationslücke zu schließen. Aber die Lösung des politischen Problems erfordert Aktivismus. Es erfordert, dass wir uns den demokratischen Prozess zunutze machen. Es ist gut zu sehen, dass es viele Leute gibt, die das tun. Und ich denke, dass wir auf lange Sicht gegen die schädlichen und missbräuchlichen Anwendungen von KI vorgehen können. Ich glaube nicht, dass sich das augenblicklich ändern wird, sondern durch einen langwierigen, langwierigen Prozess des Aktivismus, der bereits seit einem Jahrzehnt oder länger andauert. Ich bin sicher, es wird noch lange so weitergehen.

Zeitstempel:

Mehr von Quantamagazin