Gelernte Lektionen zur Sicherheit von Sprachmodellen und zum Missbrauch von PlatoBlockchain Data Intelligence. Vertikale Suche. Ai.

Lektionen zur Sicherheit und zum Missbrauch von Sprachmodellen

Lektionen zur Sicherheit und zum Missbrauch von Sprachmodellen

Der Einsatz leistungsfähiger KI-Systeme hat unser Verständnis von Sicherheit und Missbrauch weit mehr bereichert, als dies allein durch Forschung möglich gewesen wäre. Vor allem:

  • Der Missbrauch von API-basierten Sprachmodellen tritt oft in anderen Formen auf, als wir am meisten befürchtet haben.
  • Wir haben Einschränkungen in bestehenden Sprachmodellbewertungen identifiziert, die wir mit neuartigen Benchmarks und Klassifikatoren angehen.
  • Grundlagenforschung zur Sicherheit bietet erhebliche Vorteile für die kommerzielle Nutzung von KI-Systemen.

Hier beschreiben wir unsere neuesten Überlegungen in der Hoffnung, anderen KI-Entwicklern dabei zu helfen, die Sicherheit und den Missbrauch von eingesetzten Modellen anzugehen.


Oin den letzten zwei Jahren, haben wir viel darüber gelernt, wie Sprachmodelle verwendet und missbraucht werden können – Einblicke, die wir ohne die Erfahrung mit dem Einsatz in der realen Welt nicht hätten gewinnen können. Im Juni 2020 haben wir damit begonnen, Entwicklern und Forschern Zugriff auf die zu gewähren OpenAI-API, eine Schnittstelle für den Zugriff auf und die Erstellung von Anwendungen auf der Grundlage neuer KI-Modelle, die von OpenAI entwickelt wurden. Die Bereitstellung von GPT-3, Codex und anderen Modellen in einer Weise, die das Schadensrisiko verringert, hat verschiedene technische und politische Herausforderungen mit sich gebracht.

Überblick über unseren Modellbereitstellungsansatz

Große Sprachmodelle sind jetzt in der Lage, a sehr breites Aufgabenspektrum, oft out of the box. Ihre Risikoprofile, potenziellen Anwendungen und weiterreichenden Auswirkungen auf die Gesellschaft bleiben schlecht verstanden. Infolgedessen betont unser Bereitstellungsansatz die kontinuierliche Iteration und nutzt die folgenden Strategien, die darauf abzielen, die Vorteile der Bereitstellung zu maximieren und gleichzeitig die damit verbundenen Risiken zu reduzieren:

  • Risikoanalyse vor der Bereitstellung unter Nutzung einer wachsenden Anzahl von Sicherheitsbewertungen und Red-Teaming-Tools (z. B. haben wir unser InstructGPT anhand der Bewertungen auf Sicherheitsverschlechterungen überprüft nachfolgend diskutiert)
  • Beginnend mit einer kleinen Benutzerbasis (z. B. sowohl GPT-3 als auch unsere GPT anweisen Serie begann als Private Beta)
  • Untersuchung der Ergebnisse von Pilotprojekten für neuartige Anwendungsfälle (z. B. Untersuchung der Bedingungen, unter denen wir die Generierung von Langforminhalten sicher ermöglichen könnten, Arbeit mit einer kleinen Anzahl von Kunden)
  • Implementieren von Prozessen, die helfen, die Nutzung im Auge zu behalten (z. B. Überprüfung von Anwendungsfällen, Token-Quoten und Ratenbegrenzungen)
  • Durchführung detaillierter retrospektiver Überprüfungen (z. B. von Sicherheitsvorfällen und Großeinsätzen)
Lektionen zur Sicherheit und zum Missbrauch von Sprachmodellen


Beachten Sie, dass dieses Diagramm die Notwendigkeit von Rückkopplungsschleifen im kontinuierlichen Prozess der Modellentwicklung und -bereitstellung und die Tatsache, dass die Sicherheit in jeder Phase integriert werden muss, visuell vermitteln soll. Es ist nicht beabsichtigt, ein vollständiges oder ideales Bild unseres Prozesses oder des Prozesses einer anderen Organisation zu vermitteln.

Es gibt keine Wunderwaffe für eine verantwortungsvolle Bereitstellung, daher versuchen wir, in jeder Phase der Entwicklung und Bereitstellung die Einschränkungen unserer Modelle und potenzielle Möglichkeiten für Missbrauch zu kennen und zu beheben. Dieser Ansatz ermöglicht es uns, so viel wie möglich über Sicherheits- und Richtlinienfragen in kleinem Maßstab zu lernen und diese Erkenntnisse zu integrieren, bevor wir größere Bereitstellungen starten.


Es gibt keinen Königsweg für einen verantwortungsvollen Einsatz.

Obwohl dies nicht vollständig ist, umfassen einige Bereiche, in die wir bisher investiert haben, Folgendes:[1]:

Da jede Phase der Intervention Grenzen hat, ist ein ganzheitlicher Ansatz erforderlich.

Es gibt Bereiche, in denen wir mehr hätten tun können und wo wir noch Verbesserungspotenzial haben. Als wir zum Beispiel zum ersten Mal an GPT-3 gearbeitet haben, haben wir es eher als internes Forschungsartefakt denn als Produktionssystem betrachtet und waren beim Herausfiltern toxischer Trainingsdaten nicht so aggressiv, wie wir es sonst getan hätten. Wir haben mehr in die Erforschung und Entfernung solchen Materials für nachfolgende Modelle investiert. Wir haben länger gebraucht, um einige Fälle von Missbrauch zu beheben, in denen wir keine klaren Richtlinien zu diesem Thema hatten, und sind besser darin geworden, diese Richtlinien zu wiederholen. Und wir arbeiten weiter an einem Paket von Sicherheitsanforderungen, das Risiken maximal wirksam angeht, gleichzeitig den Entwicklern klar kommuniziert wird und übermäßige Reibung minimiert.

Dennoch glauben wir, dass unser Ansatz es uns ermöglicht hat, verschiedene Arten von Schäden durch die Verwendung von Sprachmodellen im Vergleich zu einem eher praxisorientierten Ansatz zu messen und zu reduzieren, während gleichzeitig ein breites Spektrum an wissenschaftlichen, künstlerischen und kommerziellen Anwendungen unseres Ansatzes ermöglicht wird Modelle.[2]

Die vielen Formen und Größen des Missbrauchs von Sprachmodellen

OpenAI ist seit unserer frühen Arbeit an der Erforschung der Risiken des KI-Missbrauchs aktiv böswilliger Einsatz von KI in 2018 und auf GPT-2 im Jahr 2019, und wir haben besonderes Augenmerk auf KI-Systeme gelegt, die Einflussoperationen ermöglichen. Wir haben arbeitete mit externe Experten zu entwickeln Proofs of Concept und gefördert vorsichtig Analyse solcher Risiken durch Dritte. Wir setzen uns weiterhin dafür ein, Risiken im Zusammenhang mit sprachmodellgestützten Einflussoperationen anzugehen, und haben kürzlich einen Workshop zu diesem Thema mitorganisiert.[3]

Dennoch haben wir Hunderte von Akteuren entdeckt und gestoppt, die versuchten, GPT-3 für eine viel breitere Palette von Zwecken zu missbrauchen, als Desinformationen für Einflussnahmen zu produzieren, einschließlich auf eine Weise, die wir entweder nicht vorhergesehen haben oder die wir vorhergesehen, aber nicht erwartet hatten so weit verbreitet.[4] Unsere Anwendungsfall-Richtlinien, Inhaltsrichtlinien, und die interne Erkennungs- und Reaktionsinfrastruktur waren ursprünglich auf Risiken ausgerichtet, die wir auf der Grundlage interner und externer Untersuchungen vorhergesehen haben, wie z. B. die Generierung irreführender politischer Inhalte mit GPT-3 oder die Generierung von Malware mit Codex. Unsere Erkennungs- und Reaktionsbemühungen haben sich im Laufe der Zeit als Reaktion auf reale Fälle von Missbrauch entwickelt, die „in freier Wildbahn“ aufgetreten sind und in unseren anfänglichen Risikobewertungen nicht so prominent auftraten wie Beeinflussungsvorgänge. Beispiele sind Spam-Werbung für dubiose Medizinprodukte und Rollenspiele mit rassistischen Fantasien.

Um die Untersuchung des Missbrauchs von Sprachmodellen und deren Eindämmung zu unterstützen, suchen wir in diesem Jahr aktiv nach Möglichkeiten, Statistiken zu Sicherheitsvorfällen auszutauschen, um Diskussionen über den Missbrauch von Sprachmodellen zu konkretisieren.

Die Schwierigkeit der Risiko- und Wirkungsmessung

Viele Aspekte der Risiken und Auswirkungen von Sprachmodellen sind nach wie vor schwer zu messen und daher schwer zu überwachen, zu minimieren und auf verantwortungsvolle Weise offenzulegen. Wir haben bestehende akademische Benchmarks für die Bewertung von Sprachmodellen aktiv genutzt und sind bestrebt, weiterhin auf externer Arbeit aufzubauen, aber wir haben auch festgestellt, dass vorhandene Benchmark-Datensätze häufig nicht die Sicherheits- und Missbrauchsrisiken widerspiegeln, die wir in der Praxis sehen.[5]

Solche Einschränkungen spiegeln die Tatsache wider, dass akademische Datensätze selten zu dem ausdrücklichen Zweck erstellt werden, die Verwendung von Sprachmodellen in der Produktion zu informieren, und nicht von den Erfahrungen profitieren, die durch den Einsatz solcher Modelle in großem Umfang gewonnen wurden. Aus diesem Grund haben wir neue Bewertungsdatensätze und Frameworks zur Messung der Sicherheit unserer Modelle entwickelt, die wir bald veröffentlichen werden. Insbesondere haben wir neue Bewertungsmetriken zur Messung der Toxizität in Modellausgaben entwickelt und auch interne Klassifikatoren zur Erkennung von Inhalten entwickelt, die gegen unsere verstoßen Inhaltsrichtlinie, wie erotische Inhalte, Hassreden, Gewalt, Belästigung und Selbstverletzung. Beides wiederum wurde auch zur Verbesserung unserer Daten vor dem Training genutzt[6]– insbesondere durch die Verwendung der Klassifikatoren zum Herausfiltern von Inhalten und der Bewertungsmetriken zum Messen der Auswirkungen von Datensatzinterventionen.

Die zuverlässige Klassifizierung einzelner Modellergebnisse entlang verschiedener Dimensionen ist schwierig, und die Messung ihrer sozialen Auswirkungen auf der Ebene der OpenAI-API ist noch schwieriger. Wir haben mehrere interne Studien durchgeführt, um einen institutionellen Muskel für solche Messungen aufzubauen, aber diese haben oft mehr Fragen als Antworten aufgeworfen.

Wir sind besonders daran interessiert, die wirtschaftlichen Auswirkungen unserer Modelle und die Verteilung dieser Auswirkungen besser zu verstehen. Wir haben guten Grund zu der Annahme, dass die Arbeitsmarktauswirkungen des Einsatzes aktueller Modelle in absoluten Zahlen bereits erheblich sein können und dass sie mit zunehmender Leistungsfähigkeit und Reichweite unserer Modelle zunehmen werden. Wir haben bisher von einer Vielzahl lokaler Auswirkungen erfahren, darunter massive Produktivitätssteigerungen bei bestehenden Aufgaben, die von Einzelpersonen ausgeführt werden, wie z , wie zum Beispiel Synthese von groß angelegtem qualitativem Feedback. Aber uns fehlt ein gutes Verständnis der Nettoeffekte.

Wir glauben, dass es für diejenigen, die leistungsstarke KI-Technologien entwickeln und einsetzen, wichtig ist, sowohl die positiven als auch die negativen Auswirkungen ihrer Arbeit direkt anzugehen. Wir diskutieren einige Schritte in diese Richtung im abschließenden Abschnitt dieses Beitrags.

Die Beziehung zwischen der Sicherheit und dem Nutzen von KI-Systemen

In unserer Charter, veröffentlicht im Jahr 2018, sagen wir, dass wir „besorgt darüber sind, dass die AGI-Entwicklung in der Spätphase zu einem Wettrennen ohne Zeit für angemessene Sicherheitsvorkehrungen wird“. Wir dann veröffentlicht eine detaillierte Analyse der wettbewerbsorientierten KI-Entwicklung, die wir aufmerksam verfolgt haben Folge Forschung. Gleichzeitig hat der Einsatz von KI-Systemen über die OpenAI-API auch unser Verständnis der Synergien zwischen Sicherheit und Nutzen vertieft.

Zum Beispiel bevorzugen Entwickler mit überwältigender Mehrheit unsere InstructGPT-Modelle, die fein abgestimmt sind, um den Absichten der Benutzer zu folgen[7]– über die Basis-GPT-3-Modelle. Bemerkenswerterweise waren die InstructGPT-Modelle jedoch ursprünglich nicht von kommerziellen Überlegungen motiviert, sondern zielten darauf ab, langfristig Fortschritte zu erzielen Ausrichtungsprobleme. In der Praxis bedeutet dies, dass Kunden, vielleicht nicht überraschend, Modelle bevorzugen, die bei der Sache bleiben und die Absicht des Benutzers verstehen, und Modelle, die mit geringerer Wahrscheinlichkeit schädliche oder falsche Ergebnisse erzeugen.[8] Andere Grundlagenforschung, wie unsere Arbeit an Nutzung von Informationen aus dem Internet abgerufen werden, um Fragen wahrheitsgetreuer zu beantworten, hat auch das Potenzial, den kommerziellen Nutzen von KI-Systemen zu verbessern.[9]

Diese Synergien werden nicht immer auftreten. Zum Beispiel brauchen leistungsfähigere Systeme oft mehr Zeit, um sie effektiv zu bewerten und auszurichten, wodurch unmittelbare Gewinnmöglichkeiten ausgeschlossen werden. Und der Nutzen eines Benutzers und der der Gesellschaft sind möglicherweise aufgrund negativer externer Effekte nicht aufeinander abgestimmt – ziehen Sie vollautomatisiertes Verfassen von Texten in Betracht, was für die Ersteller von Inhalten von Vorteil, aber schlecht für das Informationsökosystem als Ganzes sein kann.

Es ist ermutigend, Fälle von starken Synergien zwischen Sicherheit und Nutzen zu sehen, aber wir verpflichten uns, in Sicherheits- und Richtlinienforschung zu investieren, selbst wenn sie mit kommerziellem Nutzen in Konflikt geraten.


Wir verpflichten uns, in Sicherheits- und Politikforschung zu investieren, auch wenn sie gegen den kommerziellen Nutzen verstoßen.

Möglichkeiten, sich zu engagieren

Jede der oben genannten Lektionen wirft eigene neue Fragen auf. Welche Arten von Sicherheitsvorfällen können wir immer noch nicht erkennen und vorhersehen? Wie können wir Risiken und Auswirkungen besser messen? Wie können wir sowohl die Sicherheit als auch den Nutzen unserer Modelle weiter verbessern und Kompromisse zwischen diesen beiden eingehen, wenn sie auftreten?

Wir diskutieren viele dieser Probleme aktiv mit anderen Unternehmen, die Sprachmodelle einsetzen. Aber wir wissen auch, dass keine Organisation oder Gruppe von Organisationen alle Antworten hat, und wir möchten einige Möglichkeiten aufzeigen, wie die Leser sich stärker in das Verständnis und die Gestaltung unseres Einsatzes modernster KI-Systeme einbringen können.

Erstens ist es von unschätzbarem Wert, Erfahrungen aus erster Hand bei der Interaktion mit hochmodernen KI-Systemen zu sammeln, um deren Fähigkeiten und Auswirkungen zu verstehen. Wir haben kürzlich die API-Warteliste beendet, nachdem wir mehr Vertrauen in unsere Fähigkeit aufgebaut haben, Missbrauch effektiv zu erkennen und darauf zu reagieren. Einzelpersonen ein unterstützten Ländern und Gebieten können schnell Zugriff auf die OpenAI-API erhalten, indem sie sich anmelden hier.

Zweitens können Forscher, die an Themen arbeiten, die für uns von besonderem Interesse sind, wie Bias und Missbrauch, und die von einer finanziellen Unterstützung profitieren würden, eine subventionierte Nutzung von API-Credits beantragen diese Form. Externe Forschung ist von entscheidender Bedeutung, um sowohl unser Verständnis dieser vielschichtigen Systeme als auch das breitere Verständnis der Öffentlichkeit zu verbessern.

Schließlich veröffentlichen wir heute eine Forschungsagenda Erforschung der Auswirkungen auf den Arbeitsmarkt im Zusammenhang mit unserer Codex-Modellfamilie und Aufforderung zur Erlangung externer Mitarbeiter zur Durchführung dieser Forschung. Wir freuen uns, mit unabhängigen Forschern zusammenzuarbeiten, um die Auswirkungen unserer Technologien zu untersuchen, um geeignete politische Interventionen zu informieren und unser Denken von der Codegenerierung auf andere Modalitäten auszudehnen.

Wenn Sie daran interessiert sind, verantwortungsbewusst modernste KI-Technologien einzusetzen, sich bewerben um bei OpenAI zu arbeiten!


Anerkennungen

Danke an Lilian Weng, Rosie Campbell, Anna Makanju, Bob McGrew, Hannah Wong, Ryan Lowe, Steve Dowling, Mira Murati, Sam Altman, Greg Brockman, Ilya Sutskever, Percy Liang, Peter Welinder, Ethan Perez, Ellie Evans, Helen Ngo, Helen Toner, Justin Jay Wang, Jack Clark, Rishi Bommasani, Girish Sastry, Sarah Shoker, Matt Knight, Bianca Martin, Bob Rotsted, Lama Ahmad, Toki Sherbakov und andere für ihr Feedback zu diesem Beitrag und verwandten Arbeiten.


Fußnoten

  1. Dieser Beitrag basiert auf unserem Ansatz zur Bereitstellung von Sprachmodellen über eine API, und daher sind die beschriebenen Lektionen und Abhilfemaßnahmen am relevantesten für diejenigen, die auch eine API-basierte Bereitstellung verfolgen. Wir erwarten jedoch auch, dass ein Teil der Diskussion für diejenigen relevant sein wird, die Erstanbieteranwendungen unter Verwendung von Sprachmodellen erstellen, und für diejenigen, die die Open-Source-Veröffentlichung von Sprachmodellen in Betracht ziehen. ↩︎

  2. Dieser Beitrag soll die Erkenntnisse aus unserem Ansatz erläutern und teilen, anstatt vorzuschlagen, dass alle Akteure notwendigerweise denselben Ansatz verfolgen sollten oder dass derselbe Ansatz auf alle möglichen KI-Systeme anwendbar ist. Mit unterschiedlichen Bereitstellungsansätzen sind Vorteile und Kosten verbunden, verschiedene Modelle profitieren mehr oder weniger von Studien vor der Bereitstellung, und in einigen Fällen kann es wertvoll sein, wenn unterschiedliche Bereitstellungspfade von verschiedenen Akteuren verfolgt werden. ↩︎

  3. Weitere Einzelheiten zu diesem Workshop werden in der darauf aufbauenden Veröffentlichung enthalten sein. ↩︎

  4. Die Minderungen, die wir als Reaktion auf Missbrauch betonen, haben sich ebenfalls weiterentwickelt. Zum Beispiel konzentrierten wir uns zunächst auf die Generierung von Langformtexten als Bedrohungsvektor angesichts früherer Fälle von Einflussnahmen, bei denen Personen manuelle irreführende Inhalte in Langform geschrieben hatten. Angesichts dieser Betonung legen wir maximale Ausgabelängen für generierten Text fest. Basierend auf einer Pilotstudie zur Langformgenerierung haben wir jedoch festgestellt, dass Ausgabebeschränkungen wenig Einfluss auf Richtlinienverstöße hatten – wir sind zu der Überzeugung gelangt, dass Kurzforminhalte, die das Engagement für irreführende Inhalte verstärken oder verstärken, das größere Risiko darstellen könnten. ↩︎

  5. Beispiele für Einschränkungen in bestehenden Datensätzen aus der Perspektive von Praktikern, die eine ganzheitliche Bewertung der Sicherheit von Ergebnissen realer Sprachmodelle anstreben, umfassen Folgendes: ein zu enger Fokus (z. alles unter dem Dach der „Toxizität“ zu messen), eine Tendenz, die Besonderheiten der Verwendung und des Kontexts wegzustrahieren, ein Versäumnis, das zu messen generativ Dimension der Verwendung von Sprachmodellen (z. B. Verwendung von Multiple-Choice-Stil), Eingabeaufforderungen, die sich stilistisch von denen unterscheiden, die typischerweise in Anwendungsfällen realer Sprachmodelle verwendet werden, Nichterfassung von Sicherheitsdimensionen, die in der Praxis wichtig sind (z. B. eine Ausgabe, die einem Sicherheits- motivierte Einschränkung in der Anweisung) oder die Nichterfassung von Arten von Outputs, von denen wir festgestellt haben, dass sie mit Missbrauch korrelieren (z. B. erotische Inhalte). ↩︎

  6. Während unsere Bemühungen speziell darauf ausgerichtet sind, Einschränkungen in bestehenden Benchmarks und in unseren eigenen Modellen zu beheben, erkennen wir auch an, dass es Einschränkungen bei den von uns verwendeten Methoden wie der klassifikatorbasierten Datenfilterung gibt. Beispielsweise ist die operative Definition der Inhaltsbereiche, die wir durch Filterung erkennen möchten, eine Herausforderung, und die Filterung selbst kann schädliche Verzerrungen hervorrufen. Darüber hinaus ist die Kennzeichnung toxischer Daten ein kritischer Bestandteil dieser Arbeit, und die Gewährleistung der psychischen Gesundheit dieser Etikettierer ist eine branchenweite Herausforderung. ↩︎

  7. Der relevante „Benutzer“ unserer API kann je nach Kontext ein Entwickler sein, der eine Anwendung erstellt, oder ein Endbenutzer, der mit einer solchen Anwendung interagiert. Es gibt tiefgreifende Fragen zu den Werten, die unsere abgestimmten Modelle widerspiegeln, und wir hoffen, ein differenzierteres Verständnis dafür zu entwickeln, wie die Werte einer Vielzahl möglicher Benutzer und konkurrierender Ziele bei der Ausrichtung von Sprachmodellen in Einklang gebracht werden können, damit sie hilfreicher, wahrheitsgemäßer und weniger schädlich sind. ↩︎

  8. Besser ausgerichtete Modelle haben auch praktischere Vorteile, wie z. B. die Verringerung des Bedarfs an „Prompt Engineering“ (Bereitstellung von Beispielen für das gewünschte Verhalten, um das Modell in die richtige Richtung zu lenken), und sparen Platz im Kontextfenster des Modells, der für andere Zwecke verwendet werden kann. ↩︎

  9. Über die Forschung hinaus haben wir festgestellt, dass andere sicherheitsmotivierte Interventionen manchmal unerwartete Vorteile für die Kunden haben. Beispielsweise helfen Ratenbegrenzungen zur Eindämmung von Spam oder irreführenden Inhalten den Kunden auch bei der Kostenkontrolle. ↩︎

Zeitstempel:

Mehr von OpenAI