Geleerde lessen over de veiligheid van taalmodellen en misbruik van PlatoBlockchain-gegevensinformatie. Verticaal zoeken. Ai.

Geleerde lessen over veiligheid en misbruik van taalmodellen

Geleerde lessen over veiligheid en misbruik van taalmodellen

De inzet van krachtige AI-systemen heeft ons begrip van veiligheid en misbruik veel meer verrijkt dan door onderzoek alleen mogelijk zou zijn geweest. Opmerkelijk:

  • Misbruik van taalmodellen op basis van API's komt vaak in andere vormen voor dan we het meest vreesden.
  • We hebben beperkingen vastgesteld in bestaande evaluaties van taalmodellen die we aanpakken met nieuwe benchmarks en classificaties.
  • Fundamenteel veiligheidsonderzoek biedt aanzienlijke voordelen voor het commerciële nut van AI-systemen.

Hier beschrijven we onze nieuwste denkwijze in de hoop andere AI-ontwikkelaars te helpen de veiligheid en het misbruik van ingezette modellen aan te pakken.


Ode afgelopen twee jaar, hebben we veel geleerd over hoe taalmodellen kunnen worden gebruikt en misbruikt - inzichten die we niet hadden kunnen krijgen zonder de ervaring van implementatie in de echte wereld. In juni 2020 zijn we begonnen met het verlenen van toegang aan ontwikkelaars en onderzoekers tot de OpenAI-API, een interface voor het openen en bouwen van applicaties bovenop nieuwe AI-modellen ontwikkeld door OpenAI. Het implementeren van GPT-3, Codex en andere modellen op een manier die het risico op schade vermindert, heeft geleid tot verschillende technische en beleidsmatige uitdagingen.

Overzicht van onze benadering van modelimplementatie

Grote taalmodellen zijn nu in staat om een zeer breed takenpakket, vaak uit de doos. Hun risicoprofielen, mogelijke toepassingen en bredere effecten op de samenleving blijven slecht begrijpelijk. Als gevolg hiervan legt onze implementatieaanpak de nadruk op continue iteratie en maken we gebruik van de volgende strategieën die zijn gericht op het maximaliseren van de voordelen van implementatie en het verminderen van de bijbehorende risico's:

  • Risicoanalyse voorafgaand aan de implementatie, gebruikmakend van een groeiend aantal veiligheidsevaluaties en rode teaming-tools (we hebben bijvoorbeeld onze InstructGPT gecontroleerd op eventuele achteruitgang van de veiligheid met behulp van de evaluaties hieronder besproken)
  • Beginnend met een klein gebruikersbestand (bijv. zowel GPT-3 als onze InstruerenGPT serie begon als privé-bèta's)
  • Bestuderen van de resultaten van pilots van nieuwe use-cases (bijv. het onderzoeken van de omstandigheden waaronder we het genereren van lange inhoud veilig kunnen mogelijk maken, in samenwerking met een klein aantal klanten)
  • Implementatie van processen die helpen het gebruik in de gaten te houden (bijv. beoordeling van gebruiksscenario's, tokenquota en snelheidslimieten)
  • Gedetailleerde retrospectieve beoordelingen uitvoeren (bijv. van veiligheidsincidenten en grote implementaties)
Geleerde lessen over veiligheid en misbruik van taalmodellen


Merk op dat dit diagram bedoeld is om de behoefte aan feedbackloops in het continue proces van modelontwikkeling en implementatie visueel weer te geven en het feit dat veiligheid in elke fase moet worden geïntegreerd. Het is niet bedoeld om een ​​compleet of ideaal beeld te geven van het proces van onze of een andere organisatie.

Er is geen wondermiddel voor verantwoorde implementatie, dus we proberen in elke fase van ontwikkeling en implementatie meer te weten te komen over de beperkingen van onze modellen en mogelijke mogelijkheden voor misbruik en deze aan te pakken. Deze aanpak stelt ons in staat om op kleine schaal zoveel mogelijk te leren over veiligheids- en beleidskwesties en deze inzichten op te nemen voordat grootschalige implementaties worden gelanceerd.


Er is geen wondermiddel voor verantwoorde inzet.

Hoewel niet uitputtend, zijn er enkele gebieden waarin we tot nu toe hebben geïnvesteerd:[1]:

Aangezien elke fase van interventie beperkingen heeft, is een holistische benadering noodzakelijk.

Er zijn gebieden waar we meer hadden kunnen doen en waar we nog ruimte hebben voor verbetering. Toen we bijvoorbeeld voor het eerst aan GPT-3 werkten, beschouwden we het als een intern onderzoeksartefact in plaats van een productiesysteem en waren we niet zo agressief in het uitfilteren van giftige trainingsgegevens zoals we anders zouden zijn geweest. We hebben meer geïnvesteerd in het onderzoeken en verwijderen van dergelijk materiaal voor volgende modellen. We hebben er langer over gedaan om enkele gevallen van misbruik aan te pakken in gevallen waarin we geen duidelijk beleid over dit onderwerp hadden, en we zijn beter geworden in het herhalen van dat beleid. En we blijven itereren naar een pakket veiligheidseisen dat maximaal effectief is in het aanpakken van risico's, terwijl het ook duidelijk wordt gecommuniceerd naar ontwikkelaars en buitensporige wrijving tot een minimum wordt beperkt.

Toch zijn we van mening dat onze aanpak ons ​​in staat heeft gesteld om verschillende soorten schade door het gebruik van taalmodellen te meten en te verminderen in vergelijking met een meer hands-off benadering, terwijl we tegelijkertijd een breed scala aan wetenschappelijke, artistieke en commerciële toepassingen van onze modellen.[2]

De vele vormen en maten van misbruik van taalmodellen

OpenAI is actief in het onderzoeken van de risico's van AI-misbruik sinds ons vroege werk aan de kwaadwillig gebruik van AI in 2018 en op GPT-2 in 2019, en we hebben bijzondere aandacht besteed aan AI-systemen die beïnvloedingsoperaties mogelijk maken. We hebben gewerkt met externe experts om te ontwikkelen conceptbewijzen en gepromoot voorzichtig analyse van dergelijke risico's door derden. We blijven ons inzetten voor het aanpakken van risico's die samenhangen met beïnvloedingsoperaties op basis van taalmodellen en hebben onlangs een workshop over dit onderwerp mede georganiseerd.[3]

Toch hebben we honderden actoren opgespoord en tegengehouden die probeerden GPT-3 te misbruiken voor een veel breder scala aan doeleinden dan het produceren van desinformatie voor beïnvloedingsoperaties, ook op manieren die we ofwel niet hadden voorzien of waarvan we verwachtten maar niet verwachtten te worden. zo overheersend.[4] Onze gebruik case richtlijnen, inhoudsrichtlijnen, en de interne detectie- en responsinfrastructuur waren aanvankelijk gericht op risico's die we verwachtten op basis van intern en extern onderzoek, zoals het genereren van misleidende politieke inhoud met GPT-3 of het genereren van malware met Codex. Onze detectie- en reactie-inspanningen zijn in de loop van de tijd geëvolueerd als reactie op echte gevallen van misbruik die 'in het wild' zijn aangetroffen en die niet zo prominent naar voren kwamen als invloed op de operaties in onze eerste risicobeoordelingen. Voorbeelden zijn spampromoties voor dubieuze medische producten en het naspelen van racistische fantasieën.

Ter ondersteuning van de studie van misbruik van taalmodellen en de beperking daarvan, onderzoeken we actief de mogelijkheden om dit jaar statistieken over veiligheidsincidenten te delen, om zo de discussies over misbruik van taalmodellen te concretiseren.

De moeilijkheid van risico- en impactmeting

Veel aspecten van de risico's en effecten van taalmodellen blijven moeilijk te meten en daarom moeilijk te controleren, te minimaliseren en op een verantwoorde manier bekend te maken. We hebben actief gebruik gemaakt van bestaande academische benchmarks voor de evaluatie van taalmodellen en willen graag voortbouwen op extern werk, maar we hebben ook geconstateerd dat bestaande benchmarkdatasets vaak geen afspiegeling zijn van de veiligheids- en misbruikrisico's die we in de praktijk zien.[5]

Dergelijke beperkingen weerspiegelen het feit dat academische datasets zelden worden gemaakt met het expliciete doel om het productiegebruik van taalmodellen te informeren, en niet profiteren van de ervaring die is opgedaan met het op grote schaal inzetten van dergelijke modellen. Als gevolg hiervan hebben we nieuwe evaluatiedatasets en kaders ontwikkeld voor het meten van de veiligheid van onze modellen, die we binnenkort willen publiceren. We hebben met name nieuwe evaluatiestatistieken ontwikkeld voor het meten van toxiciteit in modeluitvoer en hebben ook interne classificaties ontwikkeld voor het detecteren van inhoud die in strijd is met onze inhoudsbeleid, zoals erotische inhoud, aanzetten tot haat, geweld, intimidatie en zelfbeschadiging. Beide zijn op hun beurt ook gebruikt voor het verbeteren van onze pre-trainingsgegevens[6]—in het bijzonder door de classificaties te gebruiken om inhoud uit te filteren en de evaluatiestatistieken om de effecten van dataset-interventies te meten.

Het betrouwbaar classificeren van individuele modeloutputs langs verschillende dimensies is moeilijk, en het meten van hun sociale impact op de schaal van de OpenAI API is nog moeilijker. We hebben verschillende interne onderzoeken gedaan om een ​​institutionele spier op te bouwen voor een dergelijke meting, maar deze hebben vaak meer vragen dan antwoorden opgeroepen.

We zijn vooral geïnteresseerd in een beter begrip van de economische impact van onze modellen en de verdeling van die effecten. We hebben goede redenen om aan te nemen dat de gevolgen voor de arbeidsmarkt van de inzet van de huidige modellen in absolute termen al aanzienlijk kunnen zijn, en dat ze zullen toenemen naarmate de mogelijkheden en het bereik van onze modellen groeien. We hebben tot nu toe een verscheidenheid aan lokale effecten vernomen, waaronder enorme productiviteitsverbeteringen op bestaande taken die door individuen worden uitgevoerd, zoals copywriting en samenvattingen (soms bijdragend aan het verplaatsen en creëren van banen), evenals gevallen waarin de API nieuwe toepassingen ontgrendelde die voorheen onhaalbaar waren , zoals synthese van grootschalige kwalitatieve feedback. Maar we hebben geen goed inzicht in de netto-effecten.

Wij zijn van mening dat het belangrijk is voor degenen die krachtige AI-technologieën ontwikkelen en inzetten om zowel de positieve als de negatieve effecten van hun werk direct aan te pakken. We bespreken enkele stappen in die richting in het afsluitende gedeelte van dit bericht.

De relatie tussen de veiligheid en het nut van AI-systemen

In onze Charter, gepubliceerd in 2018, zeggen we dat we "bezorgd zijn dat de AGI-ontwikkeling in een laat stadium een ​​competitieve race wordt zonder tijd voor adequate veiligheidsmaatregelen." Wij dan gepubliceerde een gedetailleerde analyse van de ontwikkeling van concurrerende AI, en we hebben deze op de voet gevolgd volgend Onderzoek. Tegelijkertijd heeft de inzet van AI-systemen via de OpenAI API ook ons ​​begrip van de synergieën tussen veiligheid en nut verdiept.

Ontwikkelaars geven bijvoorbeeld overweldigend de voorkeur aan onze InstructGPT-modellen, die zijn afgestemd op de bedoelingen van de gebruiker[7]-over de basis GPT-3-modellen. Het is echter opmerkelijk dat de InstructGPT-modellen oorspronkelijk niet werden gemotiveerd door commerciële overwegingen, maar eerder gericht waren op het boeken van vooruitgang op de lange termijn. uitlijningsproblemen. In praktische termen betekent dit dat klanten, misschien niet verrassend, de voorkeur geven aan modellen die bij het werk blijven en de bedoeling van de gebruiker begrijpen, en modellen die minder snel schadelijke of onjuiste output produceren.[8] Ander fundamenteel onderzoek, zoals ons werk aan gebruik maken van informatie die van internet zijn gehaald om vragen waarheidsgetrouwer te beantwoorden, heeft ook de potentie om de commerciële bruikbaarheid van AI-systemen te verbeteren.[9]

Deze synergieën zullen niet altijd voorkomen. Zo zullen krachtigere systemen vaak meer tijd nodig hebben om effectief te evalueren en op elkaar af te stemmen, waardoor directe winstkansen worden uitgesloten. En het nut van een gebruiker en dat van de samenleving zijn mogelijk niet op elkaar afgestemd vanwege negatieve externe factoren - denk aan volledig geautomatiseerde copywriting, wat gunstig kan zijn voor makers van inhoud, maar slecht voor het informatie-ecosysteem als geheel.

Het is bemoedigend om gevallen van sterke synergie tussen veiligheid en nut te zien, maar we zijn vastbesloten om te investeren in veiligheids- en beleidsonderzoek, zelfs als ze in tegenspraak zijn met commercieel nut.


We zetten ons in om te investeren in veiligheids- en beleidsonderzoek, zelfs als ze in tegenspraak zijn met commercieel nut.

Manieren om mee te doen

Elk van de bovenstaande lessen roept nieuwe vragen op. Wat voor soort veiligheidsincidenten kunnen we nog steeds niet detecteren en anticiperen? Hoe kunnen we risico's en effecten beter meten? Hoe kunnen we zowel de veiligheid als het nut van onze modellen blijven verbeteren en de afwegingen maken tussen deze twee wanneer ze zich voordoen?

We zijn actief in gesprek over veel van deze problemen met andere bedrijven die taalmodellen inzetten. Maar we weten ook dat geen enkele organisatie of groep organisaties alle antwoorden heeft, en we willen graag verschillende manieren benadrukken waarop lezers meer betrokken kunnen raken bij het begrijpen en vormgeven van onze inzet van geavanceerde AI-systemen.

Ten eerste is het van onschatbare waarde om ervaring op te doen met de interactie met geavanceerde AI-systemen om hun mogelijkheden en implicaties te begrijpen. We hebben onlangs de API-wachtlijst beëindigd nadat we meer vertrouwen hadden gekregen in ons vermogen om misbruik effectief te detecteren en erop te reageren. particulieren ondersteunde landen en gebieden kan snel toegang krijgen tot de OpenAI API door u aan te melden hier.

Ten tweede kunnen onderzoekers die werken aan onderwerpen die voor ons van bijzonder belang zijn, zoals vooringenomenheid en misbruik, en die baat zouden hebben bij financiële steun, gesubsidieerde API-kredieten aanvragen met behulp van dit formulier. Extern onderzoek is van vitaal belang voor zowel ons begrip van deze veelzijdige systemen als voor een breder publiek begrip.

Eindelijk, vandaag publiceren we een onderzoeksagenda het onderzoeken van de arbeidsmarkteffecten die samenhangen met onze Codex-modellenfamilie, en een oproep voor externe medewerkers om dit onderzoek uit te voeren. We zijn verheugd om met onafhankelijke onderzoekers samen te werken om de effecten van onze technologieën te bestuderen om de juiste beleidsinterventies te informeren en om uiteindelijk ons ​​denken uit te breiden van codegeneratie naar andere modaliteiten.

Als u geïnteresseerd bent om op verantwoorde wijze geavanceerde AI-technologieën in te zetten, dit toepassen werken bij OpenAI!


Dankwoord

Met dank aan Lilian Weng, Rosie Campbell, Anna Makanju, Bob McGrew, Hannah Wong, Ryan Lowe, Steve Dowling, Mira Murati, Sam Altman, Greg Brockman, Ilya Sutskever, Percy Liang, Peter Welinder, Ethan Perez, Ellie Evans, Helen Ngo, Helen Toner, Justin Jay Wang, Jack Clark, Rishi Bommasani, Girish Sastry, Sarah Shoker, Matt Knight, Bianca Martin, Bob Rotsted, Lama Ahmad, Toki Sherbakov en anderen voor het geven van feedback op dit bericht en gerelateerd werk.


voetnoten

  1. Dit bericht is gebaseerd op onze benadering van het implementeren van taalmodellen via een API, en als zodanig zijn de beschreven lessen en oplossingen het meest relevant voor degenen die ook op API gebaseerde implementatie nastreven. We verwachten echter ook dat een deel van de discussie relevant zal zijn voor degenen die first-party applicaties bouwen met behulp van taalmodellen en voor degenen die de open source-release van taalmodellen overwegen.

  2. Dit bericht is bedoeld om lessen uit onze aanpak uit te leggen en te delen, in plaats van te suggereren dat alle actoren noodzakelijkerwijs dezelfde aanpak moeten volgen, of dat dezelfde aanpak van toepassing is op alle mogelijke AI-systemen. Er zijn voordelen en kosten verbonden aan verschillende implementatiebenaderingen, verschillende modellen zullen min of meer baat hebben bij onderzoek voorafgaand aan de implementatie, en in sommige gevallen kan het waardevol zijn dat verschillende implementatietrajecten door verschillende actoren worden gevolgd.

  3. Meer details over deze workshop zullen worden opgenomen in de aanstaande publicatie die erop gebaseerd is.

  4. De mitigaties die we benadrukken als reactie op misbruik zijn ook geëvolueerd. We hebben ons bijvoorbeeld in eerste instantie gericht op het genereren van lange tekst als bedreigingsvector, gezien eerdere gevallen van beïnvloedingsoperaties waarbij mensen handmatig misleidende inhoud in lange vorm schreven. Gezien die nadruk hebben we maximale uitvoerlengtes ingesteld voor gegenereerde tekst. Op basis van een pilotonderzoek naar het genereren van lange formulieren zagen we echter dat uitvoerbeperkingen weinig effect hadden op beleidsschendingen. In plaats daarvan zijn we gaan geloven dat korte inhoud die de betrokkenheid bij misleidende inhoud vergroot of vergroot, het grotere risico zou kunnen zijn.

  5. Voorbeelden van beperkingen in bestaande datasets, vanuit het perspectief van beoefenaars die op zoek zijn naar een holistische beoordeling van de veiligheid van de output van echte taalmodellen, zijn de volgende: een te beperkte focus (bijv. het meten van alles onder de paraplu van "toxiciteit"), een neiging om de specifieke kenmerken van gebruik en context te abstraheren, het niet meten van de generatief dimensie van het gebruik van een taalmodel (bijv. met behulp van een meerkeuzestijl), prompts die stilistisch verschillen van die typisch worden gebruikt in gevallen van gebruik van echte taalmodellen, waarbij geen veiligheidsaspecten worden vastgelegd die in de praktijk belangrijk zijn (bijv. een uitvoer die volgt op of negeert een veiligheids- gemotiveerde beperking in de instructie), of het niet vastleggen van soorten output waarvan we hebben vastgesteld dat ze verband houden met misbruik (bijv. erotische inhoud).

  6. Hoewel onze inspanningen specifiek gericht zijn op het aanpakken van beperkingen in bestaande benchmarks en in onze eigen modellen, erkennen we ook dat er beperkingen zijn aan de methoden die we gebruiken, zoals op classificatie gebaseerde gegevensfiltratie. Het operationeel definiëren van de inhoudsgebieden die we via filtratie willen detecteren, is bijvoorbeeld een uitdaging en filtratie zelf kan schadelijke vooroordelen introduceren. Bovendien is de etikettering van toxische gegevens een cruciaal onderdeel van dit werk en is het waarborgen van de geestelijke gezondheid van deze labelers een uitdaging voor de hele sector.

  7. De relevante "gebruiker" van onze API kan een ontwikkelaar zijn die een applicatie bouwt of een eindgebruiker die interactie heeft met een dergelijke applicatie, afhankelijk van de context. Er zijn diepe vragen over de waarden die onze afgestemde modellen weerspiegelen en we hopen een meer genuanceerd begrip te krijgen van hoe de waarden van een breed scala aan mogelijke gebruikers en concurrerende doelstellingen in evenwicht kunnen worden gebracht bij het afstemmen van taalmodellen om nuttiger, waarheidsgetrouwer en minder schadelijk te zijn.

  8. Meer uitgelijnde modellen hebben ook meer praktische voordelen, zoals het verminderen van de behoefte aan "prompt engineering" (het geven van voorbeelden van het gewenste gedrag om het model in de goede richting te sturen), het besparen van ruimte in het contextvenster van het model die voor andere doeleinden kan worden gebruikt.

  9. Naast onderzoek hebben we geconstateerd dat andere veiligheidsgemotiveerde interventies soms onverwachte voordelen voor klanten hebben. Tarieflimieten die bedoeld zijn om spam of misleidende inhoud te beteugelen, helpen klanten bijvoorbeeld ook om de kosten onder controle te houden.

Tijdstempel:

Meer van OpenAI