Was bedeutet es, KI mit menschlichen Werten in Einklang zu bringen?

Neuauflage von Plato

Verfolger: 0

Vor vielen Jahren habe ich das Programmieren auf einer alten Symbolics Lisp Machine gelernt. Das Betriebssystem hatte einen eingebauten Befehl namens „DWIM“, kurz für „Do What I Mean“. Wenn ich einen Befehl eintippte und eine Fehlermeldung erhielt, konnte ich „DWIM“ eingeben, und die Maschine versuchte herauszufinden, was ich vorhatte. In einem überraschenden Bruchteil der Zeit funktionierte es tatsächlich.

Der DWIM-Befehl war ein Mikrokosmos des moderneren Problems der „KI-Ausrichtung“: Wir Menschen neigen dazu, Maschinen mehrdeutige oder falsche Anweisungen zu geben, und wir wollen, dass sie tun, was wir meinen, nicht unbedingt, was wir sagen.

Computer interpretieren häufig falsch, was wir von ihnen erwarten, mit unerwarteten und oft amüsanten Ergebnissen. Ein Forscher für maschinelles Lernen untersuchte beispielsweise die verdächtig guten Ergebnisse eines Bildklassifizierungsprogramms. entdeckt dass die Klassifizierungen nicht auf dem Bild selbst basierten, sondern darauf, wie lange der Zugriff auf die Bilddatei dauerte – die Bilder aus verschiedenen Klassen wurden in Datenbanken mit leicht unterschiedlichen Zugriffszeiten gespeichert. Andere geschäftstüchtiger Programmierer Er wollte, dass sein Roomba-Staubsauger nicht mehr gegen Möbel stößt, also verband er den Roomba mit einem neuronalen Netzwerk, das Geschwindigkeit belohnte, aber den Roomba bestrafte, wenn die vordere Stoßstange mit etwas kollidierte. Die Maschine kam diesen Zielen entgegen, indem sie immer rückwärts fuhr.

Aber die Gemeinschaft der KI-Alignment-Forscher sieht eine dunklere Seite dieser Anekdoten. Tatsächlich glauben sie, dass die Unfähigkeit der Maschinen zu erkennen, was wir wirklich wollen, dass sie tun, ein existenzielles Risiko darstellt. Um dieses Problem zu lösen, müssen wir Wege finden, KI-Systeme an menschlichen Vorlieben, Zielen und Werten auszurichten.

Diese Ansicht gewann mit dem Bestseller von 2014 an Bedeutung Superintelligenz des Philosophen Nick Bostrom, der zum Teil argumentierte, dass die zunehmende Intelligenz von Computern eine direkte Bedrohung für die Zukunft der Menschheit darstellen könnte. Bostrom hat Intelligenz nie genau definiert, aber wie die meisten anderen in der KI-Gemeinschaft hat er später eine Definition angenommen artikuliert vom KI-Forscher Stuart Russell wie: „Eine Entität wird grob gesagt als intelligent angesehen, wenn sie Maßnahmen wählt, von denen erwartet wird, dass sie ihre Ziele erreichen, wenn man bedenkt, was sie wahrgenommen hat.“

Bostrom stützte seine Einschätzung der Risiken von KI auf zwei Thesen. Die erste ist die Orthogonalitätsthese, die in Bostroms Worten besagt: „Intelligenz und Endziele sind orthogonale Achsen, entlang denen mögliche Agenten frei variieren können. Mit anderen Worten, mehr oder weniger jedes Intelligenzniveau könnte im Prinzip mit mehr oder weniger jedem endgültigen Ziel kombiniert werden.“ Die zweite ist die instrumentelle Konvergenzthese, die impliziert, dass ein intelligenter Agent auf eine Weise handelt, die sein eigenes Überleben, seine Selbstverbesserung und den Erwerb von Ressourcen fördert, solange dies die Wahrscheinlichkeit erhöht, dass der Agent sein endgültiges Ziel erreicht. Dann machte er eine letzte Vermutung: Forscher würden bald eine KI-Superintelligenz schaffen – eine, die „die kognitive Leistungsfähigkeit von Menschen in praktisch allen interessierenden Bereichen bei weitem übertrifft“.

Für Bostrom und andere in der KI-Ausrichtungsgemeinschaft bedeutet diese Aussicht den Untergang der Menschheit, wenn es uns nicht gelingt, superintelligente KIs mit unseren Wünschen und Werten in Einklang zu bringen. Bostrom veranschaulicht diese Gefahr mit einem mittlerweile berühmten Gedankenexperiment: Stellen Sie sich vor, Sie geben einer superintelligenten KI das Ziel, die Produktion von Büroklammern zu maximieren. Um dieses Ziel zu erreichen, wird das KI-System laut Bostroms Thesen seine übermenschliche Brillanz und Kreativität einsetzen, um seine eigene Macht und Kontrolle zu steigern und letztendlich alle Ressourcen der Welt zu erwerben, um mehr Büroklammern herzustellen. Die Menschheit wird aussterben, aber die Produktion von Büroklammern wird tatsächlich maximiert.

Wenn Sie glauben, dass Intelligenz durch die Fähigkeit definiert wird, Ziele zu erreichen, dass jedes Ziel von Menschen in einen superintelligenten KI-Agenten „eingefügt“ werden könnte und dass ein solcher Agent seine Superintelligenz nutzen würde, um alles zu tun, um dieses Ziel zu erreichen, dann werden Sie das tun gleich ankommen Abschluss dass Russell es getan hat: „Alles, was benötigt wird, um eine Katastrophe zu gewährleisten, ist eine hochkompetente Maschine in Kombination mit Menschen, die eine unvollkommene Fähigkeit haben, menschliche Vorlieben vollständig und korrekt anzugeben.“

Es ist ein bekanntes Bild aus der Science-Fiction – die Bedrohung der Menschheit durch außer Kontrolle geratene Maschinen, die menschliche Wünsche falsch interpretiert haben. Jetzt ist ein nicht unerheblicher Teil der KI-Forschungsgemeinschaft zutiefst besorgt darüber, dass sich diese Art von Szenario im wirklichen Leben abspielt. Dutzende von Instituten haben bereits Hunderte Millionen Dollar für das Problem ausgegeben, und an Universitäten auf der ganzen Welt und bei großen KI-Unternehmen wie Google, Meta und OpenAI werden Forschungsanstrengungen zur Ausrichtung durchgeführt.

Was ist mit den unmittelbareren Risiken, die von nicht-superintelligenter KI ausgehen, wie z. B. Arbeitsplatzverlust, Voreingenommenheit, Datenschutzverletzungen und Verbreitung von Fehlinformationen? Es stellt sich heraus, dass es kaum Überschneidungen zwischen den Gemeinschaften gibt, die sich hauptsächlich mit solchen kurzfristigen Risiken befassen, und denen, die sich mehr um längerfristige Anpassungsrisiken sorgen. Tatsächlich gibt es so etwas wie einen KI-Kulturkrieg, bei dem die eine Seite sich mehr Sorgen über diese aktuellen Risiken macht als über das, was sie als unrealistischen Techno-Futurismus ansieht, und die andere Seite die aktuellen Probleme für weniger dringend hält als die potenziellen katastrophalen Risiken, die von der superintelligenten KI ausgehen.

Für viele außerhalb dieser spezifischen Gemeinschaften sieht die KI-Ausrichtung so etwas wie eine Religion aus – eine mit verehrten Führern, unbestrittenen Lehren und hingebungsvollen Schülern, die gegen einen potenziell allmächtigen Feind (nicht ausgerichtete superintelligente KI) kämpfen. In der Tat, der Informatiker und Blogger Scott Aaronson kürzlich bekannt dass es jetzt „orthodoxe“ und „reformierte“ Zweige des KI-Ausrichtungsglaubens gibt. Ersteres, schreibt er, macht sich fast ausschließlich Sorgen über „fehlausgerichtete KI, die Menschen täuscht, während sie daran arbeitet, sie zu zerstören“. Im Gegensatz dazu schreibt er: „Wir Reform-KI-Risikospieler erwägen diese Möglichkeit, aber wir machen uns mindestens genauso viele Sorgen über mächtige KIs, die von bösen Menschen bewaffnet werden, von denen wir erwarten, dass sie viel früher existenzielle Risiken darstellen.“

Viele Forscher sind aktiv an Alignment-basierten Projekten beteiligt, von Versuche, Prinzipien zu vermitteln der Moralphilosophie zu Maschinen, zu Training großer Sprachmodelle auf Crowdsourcing ethische Urteile. Keine dieser Bemühungen war besonders nützlich, um Maschinen dazu zu bringen, über Situationen in der realen Welt nachzudenken. Viele Autoren haben auf die vielen Hindernisse hingewiesen, die Maschinen daran hindern, menschliche Vorlieben und Werte zu lernen: Menschen sind oft irrational und verhalten sich auf eine Weise, die ihren Werten widerspricht, und Werte können sich im Laufe des Lebens und der Generationen von Menschen ändern. Schließlich ist nicht klar, wessen Werte wir Maschinen lernen lassen sollten.

Viele in der Alignment-Community glauben, dass der vielversprechendste Weg in die Zukunft eine maschinelle Lerntechnik ist, die als bekannt ist inverses bestärkendes Lernen (IRL). Bei IRL wird der Maschine kein Ziel zur Maximierung gegeben; Alignment-Befürworter glauben, dass solche „eingefügten“ Ziele unbeabsichtigt zu Büroklammer-Maximierer-Szenarien führen können. Stattdessen hat die Maschine die Aufgabe, das Verhalten von Menschen zu beobachten und auf ihre Vorlieben, Ziele und Werte zu schließen. In den letzten Jahren haben Forscher IRL dazu verwendet Zugmaschinen, um Videospiele zu spielen indem wir Menschen beobachten und Robotern beibringen wie man Rückwärtssaltos macht indem sie ihnen inkrementelles Feedback von Menschen geben (Menschen sahen sich kurze Clips der verschiedenen Versuche eines Roboters an und wählten den aus, der am besten aussah).

Es ist unklar, ob ähnliche Methoden Maschinen die subtileren und abstrakteren Vorstellungen menschlicher Werte beibringen können. Der Schriftsteller Brian Christian, Autor von a Populärwissenschaftliches Buch über KI-AusrichtungEr ist optimistisch: „Es ist gar nicht so weit hergeholt, sich vorzustellen, das nebulöse Konzept ‚Backflip‘ durch ein noch nebulöseres und unbeschreiblicheres Konzept wie ‚Hilfsbereitschaft‘ zu ersetzen. Oder „Freundlichkeit“. Oder ‚gutes‘ Benehmen.“

Ich denke jedoch, dass dies die Herausforderung unterschätzt. Ethische Begriffe wie Freundlichkeit und gutes Benehmen sind viel komplexer und kontextabhängiger als alles, was IRL bisher gemeistert hat. Betrachten Sie den Begriff „Wahrhaftigkeit“ – ein Wert, den wir sicherlich in unseren KI-Systemen wollen. Tatsächlich ist ein Hauptproblem der heutigen großen Sprachmodelle ihre Unfähigkeit, Wahrheit von Falschheit zu unterscheiden. Gleichzeitig möchten wir manchmal, dass unsere KI-Assistenten, genau wie Menschen, ihre Wahrhaftigkeit mäßigen: um die Privatsphäre zu schützen, andere nicht zu beleidigen oder jemanden zu schützen, neben unzähligen anderen schwer zu artikulierenden Situationen.

Andere ethische Konzepte sind ebenso komplex. Es sollte klar sein, dass ein wesentlicher erster Schritt, um Maschinen ethische Konzepte zu lehren, darin besteht, Maschinen in die Lage zu versetzen, überhaupt menschenähnliche Konzepte zu verstehen, die meiner Meinung nach immer noch KIs sind wichtigstes offenes Problem.

Darüber hinaus sehe ich ein noch grundlegenderes Problem mit den wissenschaftlich zugrunde liegenden Vorstellungen von KI-Ausrichtung. Die meisten Diskussionen stellen sich eine superintelligente KI als eine Maschine vor, die den Menschen zwar in allen kognitiven Aufgaben übertrifft, aber dennoch keinen menschenähnlichen gesunden Menschenverstand hat und von seltsam mechanischer Natur bleibt. Und wichtig ist, dass die Maschine in Übereinstimmung mit Bostroms Orthogonalitätsthese Superintelligenz erreicht hat, ohne eigene Ziele oder Werte zu haben, und stattdessen darauf wartet, dass Ziele von Menschen eingefügt werden.

Doch könnte Intelligenz so funktionieren? Nichts in der aktuellen Wissenschaft der Psychologie oder der Neurowissenschaften unterstützt diese Möglichkeit. Zumindest beim Menschen ist Intelligenz eng mit unseren Zielen und Werten sowie unserem Selbstbewusstsein und unserem besonderen sozialen und kulturellen Umfeld verbunden. Die Intuition, dass eine Art reine Intelligenz von diesen anderen Faktoren getrennt werden könnte, hat dazu geführt viele gescheiterte Vorhersagen in der Geschichte der KI. Viel wahrscheinlicher scheint es nach dem, was wir wissen, dass die Ziele eines allgemein intelligenten KI-Systems nicht einfach eingefügt werden könnten, sondern sich, wie unseres, als Ergebnis der eigenen sozialen und kulturellen Erziehung entwickeln müssten.

In seinem Buch Menschlich kompatibel, argumentiert Russell für die Dringlichkeit der Erforschung des Alignment-Problems: „Der richtige Zeitpunkt, sich über ein potenziell ernstes Problem für die Menschheit Gedanken zu machen, hängt nicht nur davon ab, wann das Problem auftritt, sondern auch davon, wie lange es dauern wird, eine Lösung vorzubereiten und umzusetzen. ” Aber ohne ein besseres Verständnis dafür, was Intelligenz ist und wie trennbar sie von anderen Aspekten unseres Lebens ist, können wir das Problem nicht einmal definieren, geschweige denn eine Lösung finden. Das richtige Definieren und Lösen des Ausrichtungsproblems wird nicht einfach sein; es wird von uns verlangen, eine breite, wissenschaftlich fundierte Theorie der Intelligenz zu entwickeln.

Zeitstempel: 13. Dezember 202213. Dezember 2022

Zeitstempel: 15. September 2022

Was bedeutet es, KI an menschlichen Werten auszurichten?

Neuauflage von Plato

Mehr von Quantamagazin

Informatik-Beweis enthüllt unerwartete Form der Verschränkung

Maschinen lernen besser, wenn wir ihnen die Grundlagen beibringen

Warum Mathematiker erneut beweisen, was sie bereits wissen

So bauen Sie einen Origami-Computer | Quanta-Magazin

Eine Frage zu einer rotierenden Linie hilft aufzudecken, was reelle Zahlen so besonders macht

Wie können unendlich viele Primzahlen unendlich weit voneinander entfernt sein?

Wie aus der alten Kunst der Finsternisvorhersage eine exakte Wissenschaft wurde | Quanta-Magazin

Der Informatiker, der die Privatsphäre im Internet verbessert

Chaosforscher können jetzt gefährliche Punkte ohne Wiederkehr vorhersagen

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto

Einleitung