Lektionen über die Sicherheit und den Missbrauch von Sprachmodellen

Neuauflage von Plato

Verfolger: 0

Lektionen zur Sicherheit und zum Missbrauch von Sprachmodellen

Der Einsatz leistungsfähiger KI-Systeme hat unser Verständnis von Sicherheit und Missbrauch weit mehr bereichert, als dies allein durch Forschung möglich gewesen wäre. Vor allem:

Der Missbrauch von API-basierten Sprachmodellen tritt oft in anderen Formen auf, als wir am meisten befürchtet haben.
Wir haben Einschränkungen in bestehenden Sprachmodellbewertungen identifiziert, die wir mit neuartigen Benchmarks und Klassifikatoren angehen.
Grundlagenforschung zur Sicherheit bietet erhebliche Vorteile für die kommerzielle Nutzung von KI-Systemen.

Hier beschreiben wir unsere neuesten Überlegungen in der Hoffnung, anderen KI-Entwicklern dabei zu helfen, die Sicherheit und den Missbrauch von eingesetzten Modellen anzugehen.

Oin den letzten zwei Jahren, haben wir viel darüber gelernt, wie Sprachmodelle verwendet und missbraucht werden können – Einblicke, die wir ohne die Erfahrung mit dem Einsatz in der realen Welt nicht hätten gewinnen können. Im Juni 2020 haben wir damit begonnen, Entwicklern und Forschern Zugriff auf die zu gewähren OpenAI-API, eine Schnittstelle für den Zugriff auf und die Erstellung von Anwendungen auf der Grundlage neuer KI-Modelle, die von OpenAI entwickelt wurden. Die Bereitstellung von GPT-3, Codex und anderen Modellen in einer Weise, die das Schadensrisiko verringert, hat verschiedene technische und politische Herausforderungen mit sich gebracht.

Überblick über unseren Modellbereitstellungsansatz

Große Sprachmodelle sind jetzt in der Lage, a sehr breites Aufgabenspektrum, oft out of the box. Ihre Risikoprofile, potenziellen Anwendungen und weiterreichenden Auswirkungen auf die Gesellschaft bleiben schlecht verstanden. Infolgedessen betont unser Bereitstellungsansatz die kontinuierliche Iteration und nutzt die folgenden Strategien, die darauf abzielen, die Vorteile der Bereitstellung zu maximieren und gleichzeitig die damit verbundenen Risiken zu reduzieren:

Risikoanalyse vor der Bereitstellung unter Nutzung einer wachsenden Anzahl von Sicherheitsbewertungen und Red-Teaming-Tools (z. B. haben wir unser InstructGPT anhand der Bewertungen auf Sicherheitsverschlechterungen überprüft nachfolgend diskutiert)
Beginnend mit einer kleinen Benutzerbasis (z. B. sowohl GPT-3 als auch unsere GPT anweisen Serie begann als Private Beta)
Untersuchung der Ergebnisse von Pilotprojekten für neuartige Anwendungsfälle (z. B. Untersuchung der Bedingungen, unter denen wir die Generierung von Langforminhalten sicher ermöglichen könnten, Arbeit mit einer kleinen Anzahl von Kunden)
Implementieren von Prozessen, die helfen, die Nutzung im Auge zu behalten (z. B. Überprüfung von Anwendungsfällen, Token-Quoten und Ratenbegrenzungen)
Durchführung detaillierter retrospektiver Überprüfungen (z. B. von Sicherheitsvorfällen und Großeinsätzen)

Lektionen zur Sicherheit und zum Missbrauch von Sprachmodellen

Beachten Sie, dass dieses Diagramm die Notwendigkeit von Rückkopplungsschleifen im kontinuierlichen Prozess der Modellentwicklung und -bereitstellung und die Tatsache, dass die Sicherheit in jeder Phase integriert werden muss, visuell vermitteln soll. Es ist nicht beabsichtigt, ein vollständiges oder ideales Bild unseres Prozesses oder des Prozesses einer anderen Organisation zu vermitteln.

Es gibt keine Wunderwaffe für eine verantwortungsvolle Bereitstellung, daher versuchen wir, in jeder Phase der Entwicklung und Bereitstellung die Einschränkungen unserer Modelle und potenzielle Möglichkeiten für Missbrauch zu kennen und zu beheben. Dieser Ansatz ermöglicht es uns, so viel wie möglich über Sicherheits- und Richtlinienfragen in kleinem Maßstab zu lernen und diese Erkenntnisse zu integrieren, bevor wir größere Bereitstellungen starten.

Es gibt keinen Königsweg für einen verantwortungsvollen Einsatz.

Obwohl dies nicht vollständig ist, umfassen einige Bereiche, in die wir bisher investiert haben, Folgendes:^[1]:

Vortraining technische Daten kuratieren und filtern
Feintuning Modelle besser Instruktionen befolgen
Risikoanalyse möglicher Einsätze
Bereitstellung detaillierter Benutzer Dokumentation
Building Werkzeuge um schädliche Modellausgaben zu überprüfen
Überprüfung von Anwendungsfällen anhand unserer Politik durchzulesen
Überwachung auf Anzeichen von Missbrauch
Studieren der Auswirkungen unserer Modelle

Da jede Phase der Intervention Grenzen hat, ist ein ganzheitlicher Ansatz erforderlich.

Es gibt Bereiche, in denen wir mehr hätten tun können und wo wir noch Verbesserungspotenzial haben. Als wir zum Beispiel zum ersten Mal an GPT-3 gearbeitet haben, haben wir es eher als internes Forschungsartefakt denn als Produktionssystem betrachtet und waren beim Herausfiltern toxischer Trainingsdaten nicht so aggressiv, wie wir es sonst getan hätten. Wir haben mehr in die Erforschung und Entfernung solchen Materials für nachfolgende Modelle investiert. Wir haben länger gebraucht, um einige Fälle von Missbrauch zu beheben, in denen wir keine klaren Richtlinien zu diesem Thema hatten, und sind besser darin geworden, diese Richtlinien zu wiederholen. Und wir arbeiten weiter an einem Paket von Sicherheitsanforderungen, das Risiken maximal wirksam angeht, gleichzeitig den Entwicklern klar kommuniziert wird und übermäßige Reibung minimiert.

Dennoch glauben wir, dass unser Ansatz es uns ermöglicht hat, verschiedene Arten von Schäden durch die Verwendung von Sprachmodellen im Vergleich zu einem eher praxisorientierten Ansatz zu messen und zu reduzieren, während gleichzeitig ein breites Spektrum an wissenschaftlichen, künstlerischen und kommerziellen Anwendungen unseres Ansatzes ermöglicht wird Modelle.^[2]

Die vielen Formen und Größen des Missbrauchs von Sprachmodellen

OpenAI ist seit unserer frühen Arbeit an der Erforschung der Risiken des KI-Missbrauchs aktiv böswilliger Einsatz von KI in 2018 und auf GPT-2 im Jahr 2019, und wir haben besonderes Augenmerk auf KI-Systeme gelegt, die Einflussoperationen ermöglichen. Wir haben arbeitete mit externe Experten zu entwickeln Proofs of Concept und gefördert vorsichtig Analyse solcher Risiken durch Dritte. Wir setzen uns weiterhin dafür ein, Risiken im Zusammenhang mit sprachmodellgestützten Einflussoperationen anzugehen, und haben kürzlich einen Workshop zu diesem Thema mitorganisiert.^[3]

Dennoch haben wir Hunderte von Akteuren entdeckt und gestoppt, die versuchten, GPT-3 für eine viel breitere Palette von Zwecken zu missbrauchen, als Desinformationen für Einflussnahmen zu produzieren, einschließlich auf eine Weise, die wir entweder nicht vorhergesehen haben oder die wir vorhergesehen, aber nicht erwartet hatten so weit verbreitet.^[4] Unsere Anwendungsfall-Richtlinien, Inhaltsrichtlinien, und die interne Erkennungs- und Reaktionsinfrastruktur waren ursprünglich auf Risiken ausgerichtet, die wir auf der Grundlage interner und externer Untersuchungen vorhergesehen haben, wie z. B. die Generierung irreführender politischer Inhalte mit GPT-3 oder die Generierung von Malware mit Codex. Unsere Erkennungs- und Reaktionsbemühungen haben sich im Laufe der Zeit als Reaktion auf reale Fälle von Missbrauch entwickelt, die „in freier Wildbahn“ aufgetreten sind und in unseren anfänglichen Risikobewertungen nicht so prominent auftraten wie Beeinflussungsvorgänge. Beispiele sind Spam-Werbung für dubiose Medizinprodukte und Rollenspiele mit rassistischen Fantasien.

Um die Untersuchung des Missbrauchs von Sprachmodellen und deren Eindämmung zu unterstützen, suchen wir in diesem Jahr aktiv nach Möglichkeiten, Statistiken zu Sicherheitsvorfällen auszutauschen, um Diskussionen über den Missbrauch von Sprachmodellen zu konkretisieren.

Die Schwierigkeit der Risiko- und Wirkungsmessung

Viele Aspekte der Risiken und Auswirkungen von Sprachmodellen sind nach wie vor schwer zu messen und daher schwer zu überwachen, zu minimieren und auf verantwortungsvolle Weise offenzulegen. Wir haben bestehende akademische Benchmarks für die Bewertung von Sprachmodellen aktiv genutzt und sind bestrebt, weiterhin auf externer Arbeit aufzubauen, aber wir haben auch festgestellt, dass vorhandene Benchmark-Datensätze häufig nicht die Sicherheits- und Missbrauchsrisiken widerspiegeln, die wir in der Praxis sehen.^[5]

Solche Einschränkungen spiegeln die Tatsache wider, dass akademische Datensätze selten zu dem ausdrücklichen Zweck erstellt werden, die Verwendung von Sprachmodellen in der Produktion zu informieren, und nicht von den Erfahrungen profitieren, die durch den Einsatz solcher Modelle in großem Umfang gewonnen wurden. Aus diesem Grund haben wir neue Bewertungsdatensätze und Frameworks zur Messung der Sicherheit unserer Modelle entwickelt, die wir bald veröffentlichen werden. Insbesondere haben wir neue Bewertungsmetriken zur Messung der Toxizität in Modellausgaben entwickelt und auch interne Klassifikatoren zur Erkennung von Inhalten entwickelt, die gegen unsere verstoßen Inhaltsrichtlinie, wie erotische Inhalte, Hassreden, Gewalt, Belästigung und Selbstverletzung. Beides wiederum wurde auch zur Verbesserung unserer Daten vor dem Training genutzt^[6]– insbesondere durch die Verwendung der Klassifikatoren zum Herausfiltern von Inhalten und der Bewertungsmetriken zum Messen der Auswirkungen von Datensatzinterventionen.

Die zuverlässige Klassifizierung einzelner Modellergebnisse entlang verschiedener Dimensionen ist schwierig, und die Messung ihrer sozialen Auswirkungen auf der Ebene der OpenAI-API ist noch schwieriger. Wir haben mehrere interne Studien durchgeführt, um einen institutionellen Muskel für solche Messungen aufzubauen, aber diese haben oft mehr Fragen als Antworten aufgeworfen.

Wir sind besonders daran interessiert, die wirtschaftlichen Auswirkungen unserer Modelle und die Verteilung dieser Auswirkungen besser zu verstehen. Wir haben guten Grund zu der Annahme, dass die Arbeitsmarktauswirkungen des Einsatzes aktueller Modelle in absoluten Zahlen bereits erheblich sein können und dass sie mit zunehmender Leistungsfähigkeit und Reichweite unserer Modelle zunehmen werden. Wir haben bisher von einer Vielzahl lokaler Auswirkungen erfahren, darunter massive Produktivitätssteigerungen bei bestehenden Aufgaben, die von Einzelpersonen ausgeführt werden, wie z , wie zum Beispiel Synthese von groß angelegtem qualitativem Feedback. Aber uns fehlt ein gutes Verständnis der Nettoeffekte.

Wir glauben, dass es für diejenigen, die leistungsstarke KI-Technologien entwickeln und einsetzen, wichtig ist, sowohl die positiven als auch die negativen Auswirkungen ihrer Arbeit direkt anzugehen. Wir diskutieren einige Schritte in diese Richtung im abschließenden Abschnitt dieses Beitrags.

Die Beziehung zwischen der Sicherheit und dem Nutzen von KI-Systemen

In unserer Charter, veröffentlicht im Jahr 2018, sagen wir, dass wir „besorgt darüber sind, dass die AGI-Entwicklung in der Spätphase zu einem Wettrennen ohne Zeit für angemessene Sicherheitsvorkehrungen wird“. Wir dann veröffentlicht eine detaillierte Analyse der wettbewerbsorientierten KI-Entwicklung, die wir aufmerksam verfolgt haben Folge Forschung. Gleichzeitig hat der Einsatz von KI-Systemen über die OpenAI-API auch unser Verständnis der Synergien zwischen Sicherheit und Nutzen vertieft.

Zum Beispiel bevorzugen Entwickler mit überwältigender Mehrheit unsere InstructGPT-Modelle, die fein abgestimmt sind, um den Absichten der Benutzer zu folgen^[7]– über die Basis-GPT-3-Modelle. Bemerkenswerterweise waren die InstructGPT-Modelle jedoch ursprünglich nicht von kommerziellen Überlegungen motiviert, sondern zielten darauf ab, langfristig Fortschritte zu erzielen Ausrichtungsprobleme. In der Praxis bedeutet dies, dass Kunden, vielleicht nicht überraschend, Modelle bevorzugen, die bei der Sache bleiben und die Absicht des Benutzers verstehen, und Modelle, die mit geringerer Wahrscheinlichkeit schädliche oder falsche Ergebnisse erzeugen.^[8] Andere Grundlagenforschung, wie unsere Arbeit an Nutzung von Informationen aus dem Internet abgerufen werden, um Fragen wahrheitsgetreuer zu beantworten, hat auch das Potenzial, den kommerziellen Nutzen von KI-Systemen zu verbessern.^[9]

Diese Synergien werden nicht immer auftreten. Zum Beispiel brauchen leistungsfähigere Systeme oft mehr Zeit, um sie effektiv zu bewerten und auszurichten, wodurch unmittelbare Gewinnmöglichkeiten ausgeschlossen werden. Und der Nutzen eines Benutzers und der der Gesellschaft sind möglicherweise aufgrund negativer externer Effekte nicht aufeinander abgestimmt – ziehen Sie vollautomatisiertes Verfassen von Texten in Betracht, was für die Ersteller von Inhalten von Vorteil, aber schlecht für das Informationsökosystem als Ganzes sein kann.

Es ist ermutigend, Fälle von starken Synergien zwischen Sicherheit und Nutzen zu sehen, aber wir verpflichten uns, in Sicherheits- und Richtlinienforschung zu investieren, selbst wenn sie mit kommerziellem Nutzen in Konflikt geraten.

Wir verpflichten uns, in Sicherheits- und Politikforschung zu investieren, auch wenn sie gegen den kommerziellen Nutzen verstoßen.

Möglichkeiten, sich zu engagieren

Jede der oben genannten Lektionen wirft eigene neue Fragen auf. Welche Arten von Sicherheitsvorfällen können wir immer noch nicht erkennen und vorhersehen? Wie können wir Risiken und Auswirkungen besser messen? Wie können wir sowohl die Sicherheit als auch den Nutzen unserer Modelle weiter verbessern und Kompromisse zwischen diesen beiden eingehen, wenn sie auftreten?

Wir diskutieren viele dieser Probleme aktiv mit anderen Unternehmen, die Sprachmodelle einsetzen. Aber wir wissen auch, dass keine Organisation oder Gruppe von Organisationen alle Antworten hat, und wir möchten einige Möglichkeiten aufzeigen, wie die Leser sich stärker in das Verständnis und die Gestaltung unseres Einsatzes modernster KI-Systeme einbringen können.

Erstens ist es von unschätzbarem Wert, Erfahrungen aus erster Hand bei der Interaktion mit hochmodernen KI-Systemen zu sammeln, um deren Fähigkeiten und Auswirkungen zu verstehen. Wir haben kürzlich die API-Warteliste beendet, nachdem wir mehr Vertrauen in unsere Fähigkeit aufgebaut haben, Missbrauch effektiv zu erkennen und darauf zu reagieren. Einzelpersonen ein unterstützten Ländern und Gebieten können schnell Zugriff auf die OpenAI-API erhalten, indem sie sich anmelden hier.

Zweitens können Forscher, die an Themen arbeiten, die für uns von besonderem Interesse sind, wie Bias und Missbrauch, und die von einer finanziellen Unterstützung profitieren würden, eine subventionierte Nutzung von API-Credits beantragen diese Form. Externe Forschung ist von entscheidender Bedeutung, um sowohl unser Verständnis dieser vielschichtigen Systeme als auch das breitere Verständnis der Öffentlichkeit zu verbessern.

Schließlich veröffentlichen wir heute eine Forschungsagenda Erforschung der Auswirkungen auf den Arbeitsmarkt im Zusammenhang mit unserer Codex-Modellfamilie und Aufforderung zur Erlangung externer Mitarbeiter zur Durchführung dieser Forschung. Wir freuen uns, mit unabhängigen Forschern zusammenzuarbeiten, um die Auswirkungen unserer Technologien zu untersuchen, um geeignete politische Interventionen zu informieren und unser Denken von der Codegenerierung auf andere Modalitäten auszudehnen.

Wenn Sie daran interessiert sind, verantwortungsbewusst modernste KI-Technologien einzusetzen, sich bewerben um bei OpenAI zu arbeiten!

Zeitstempel: 3. März 2022

Zeitstempel: 31. August 2022

Neuauflage von Plato

Superalignment Fast Grants

Demokratische Beiträge zum KI-Förderprogramm: gewonnene Erkenntnisse und Umsetzungspläne

Neue Möglichkeiten, Ihre Daten in ChatGPT zu verwalten

OpenAI gibt neue Mitglieder im Vorstand bekannt

Wie sollen sich KI-Systeme verhalten und wer soll entscheiden?

Minecraft spielen lernen mit Video PreTraining (VPT)

Den Modellen beibringen, ihre Unsicherheit in Worte zu fassen

DALL·E: Vorstellung von Outpainting

Über uns

Vertikale Suche & Ai

Plattform

Bleiben Sie in Verbindung

Konto