Geleerde lessen over veiligheid en misbruik van taalmodellen

Heruitgegeven door Plato

volgers: 0

Geleerde lessen over veiligheid en misbruik van taalmodellen

De inzet van krachtige AI-systemen heeft ons begrip van veiligheid en misbruik veel meer verrijkt dan door onderzoek alleen mogelijk zou zijn geweest. Opmerkelijk:

Misbruik van taalmodellen op basis van API's komt vaak in andere vormen voor dan we het meest vreesden.
We hebben beperkingen vastgesteld in bestaande evaluaties van taalmodellen die we aanpakken met nieuwe benchmarks en classificaties.
Fundamenteel veiligheidsonderzoek biedt aanzienlijke voordelen voor het commerciële nut van AI-systemen.

Hier beschrijven we onze nieuwste denkwijze in de hoop andere AI-ontwikkelaars te helpen de veiligheid en het misbruik van ingezette modellen aan te pakken.

Ode afgelopen twee jaar, hebben we veel geleerd over hoe taalmodellen kunnen worden gebruikt en misbruikt - inzichten die we niet hadden kunnen krijgen zonder de ervaring van implementatie in de echte wereld. In juni 2020 zijn we begonnen met het verlenen van toegang aan ontwikkelaars en onderzoekers tot de OpenAI-API, een interface voor het openen en bouwen van applicaties bovenop nieuwe AI-modellen ontwikkeld door OpenAI. Het implementeren van GPT-3, Codex en andere modellen op een manier die het risico op schade vermindert, heeft geleid tot verschillende technische en beleidsmatige uitdagingen.

Overzicht van onze benadering van modelimplementatie

Grote taalmodellen zijn nu in staat om een zeer breed takenpakket, vaak uit de doos. Hun risicoprofielen, mogelijke toepassingen en bredere effecten op de samenleving blijven slecht begrijpelijk. Als gevolg hiervan legt onze implementatieaanpak de nadruk op continue iteratie en maken we gebruik van de volgende strategieën die zijn gericht op het maximaliseren van de voordelen van implementatie en het verminderen van de bijbehorende risico's:

Risicoanalyse voorafgaand aan de implementatie, gebruikmakend van een groeiend aantal veiligheidsevaluaties en rode teaming-tools (we hebben bijvoorbeeld onze InstructGPT gecontroleerd op eventuele achteruitgang van de veiligheid met behulp van de evaluaties hieronder besproken)
Beginnend met een klein gebruikersbestand (bijv. zowel GPT-3 als onze InstruerenGPT serie begon als privé-bèta's)
Bestuderen van de resultaten van pilots van nieuwe use-cases (bijv. het onderzoeken van de omstandigheden waaronder we het genereren van lange inhoud veilig kunnen mogelijk maken, in samenwerking met een klein aantal klanten)
Implementatie van processen die helpen het gebruik in de gaten te houden (bijv. beoordeling van gebruiksscenario's, tokenquota en snelheidslimieten)
Gedetailleerde retrospectieve beoordelingen uitvoeren (bijv. van veiligheidsincidenten en grote implementaties)

Geleerde lessen over veiligheid en misbruik van taalmodellen

Merk op dat dit diagram bedoeld is om de behoefte aan feedbackloops in het continue proces van modelontwikkeling en implementatie visueel weer te geven en het feit dat veiligheid in elke fase moet worden geïntegreerd. Het is niet bedoeld om een compleet of ideaal beeld te geven van het proces van onze of een andere organisatie.

Er is geen wondermiddel voor verantwoorde implementatie, dus we proberen in elke fase van ontwikkeling en implementatie meer te weten te komen over de beperkingen van onze modellen en mogelijke mogelijkheden voor misbruik en deze aan te pakken. Deze aanpak stelt ons in staat om op kleine schaal zoveel mogelijk te leren over veiligheids- en beleidskwesties en deze inzichten op te nemen voordat grootschalige implementaties worden gelanceerd.

Er is geen wondermiddel voor verantwoorde inzet.

Hoewel niet uitputtend, zijn er enkele gebieden waarin we tot nu toe hebben geïnvesteerd:^[1]:

Vooropleiding gegevens beheer en filtering
Scherpstellen modellen naar beter Instructies volgen
Risicoanalyse van potentiële implementaties
Gedetailleerde gebruiker verstrekken: documentatie
Gebouw tools om schadelijke modeluitgangen te screenen
Gebruiksgevallen beoordelen tegen onze beleidsmaatregelen door te lezen.
Controle op tekenen van misbruik
Het bestuderen van de effecten van onze modellen

Aangezien elke fase van interventie beperkingen heeft, is een holistische benadering noodzakelijk.

Er zijn gebieden waar we meer hadden kunnen doen en waar we nog ruimte hebben voor verbetering. Toen we bijvoorbeeld voor het eerst aan GPT-3 werkten, beschouwden we het als een intern onderzoeksartefact in plaats van een productiesysteem en waren we niet zo agressief in het uitfilteren van giftige trainingsgegevens zoals we anders zouden zijn geweest. We hebben meer geïnvesteerd in het onderzoeken en verwijderen van dergelijk materiaal voor volgende modellen. We hebben er langer over gedaan om enkele gevallen van misbruik aan te pakken in gevallen waarin we geen duidelijk beleid over dit onderwerp hadden, en we zijn beter geworden in het herhalen van dat beleid. En we blijven itereren naar een pakket veiligheidseisen dat maximaal effectief is in het aanpakken van risico's, terwijl het ook duidelijk wordt gecommuniceerd naar ontwikkelaars en buitensporige wrijving tot een minimum wordt beperkt.

Toch zijn we van mening dat onze aanpak ons in staat heeft gesteld om verschillende soorten schade door het gebruik van taalmodellen te meten en te verminderen in vergelijking met een meer hands-off benadering, terwijl we tegelijkertijd een breed scala aan wetenschappelijke, artistieke en commerciële toepassingen van onze modellen.^[2]

De vele vormen en maten van misbruik van taalmodellen

OpenAI is actief in het onderzoeken van de risico's van AI-misbruik sinds ons vroege werk aan de kwaadwillig gebruik van AI in 2018 en op GPT-2 in 2019, en we hebben bijzondere aandacht besteed aan AI-systemen die beïnvloedingsoperaties mogelijk maken. We hebben gewerkt met externe experts om te ontwikkelen conceptbewijzen en gepromoot voorzichtig analyse van dergelijke risico's door derden. We blijven ons inzetten voor het aanpakken van risico's die samenhangen met beïnvloedingsoperaties op basis van taalmodellen en hebben onlangs een workshop over dit onderwerp mede georganiseerd.^[3]

Toch hebben we honderden actoren opgespoord en tegengehouden die probeerden GPT-3 te misbruiken voor een veel breder scala aan doeleinden dan het produceren van desinformatie voor beïnvloedingsoperaties, ook op manieren die we ofwel niet hadden voorzien of waarvan we verwachtten maar niet verwachtten te worden. zo overheersend.^[4] Onze gebruik case richtlijnen, inhoudsrichtlijnen, en de interne detectie- en responsinfrastructuur waren aanvankelijk gericht op risico's die we verwachtten op basis van intern en extern onderzoek, zoals het genereren van misleidende politieke inhoud met GPT-3 of het genereren van malware met Codex. Onze detectie- en reactie-inspanningen zijn in de loop van de tijd geëvolueerd als reactie op echte gevallen van misbruik die 'in het wild' zijn aangetroffen en die niet zo prominent naar voren kwamen als invloed op de operaties in onze eerste risicobeoordelingen. Voorbeelden zijn spampromoties voor dubieuze medische producten en het naspelen van racistische fantasieën.

Ter ondersteuning van de studie van misbruik van taalmodellen en de beperking daarvan, onderzoeken we actief de mogelijkheden om dit jaar statistieken over veiligheidsincidenten te delen, om zo de discussies over misbruik van taalmodellen te concretiseren.

De moeilijkheid van risico- en impactmeting

Veel aspecten van de risico's en effecten van taalmodellen blijven moeilijk te meten en daarom moeilijk te controleren, te minimaliseren en op een verantwoorde manier bekend te maken. We hebben actief gebruik gemaakt van bestaande academische benchmarks voor de evaluatie van taalmodellen en willen graag voortbouwen op extern werk, maar we hebben ook geconstateerd dat bestaande benchmarkdatasets vaak geen afspiegeling zijn van de veiligheids- en misbruikrisico's die we in de praktijk zien.^[5]

Dergelijke beperkingen weerspiegelen het feit dat academische datasets zelden worden gemaakt met het expliciete doel om het productiegebruik van taalmodellen te informeren, en niet profiteren van de ervaring die is opgedaan met het op grote schaal inzetten van dergelijke modellen. Als gevolg hiervan hebben we nieuwe evaluatiedatasets en kaders ontwikkeld voor het meten van de veiligheid van onze modellen, die we binnenkort willen publiceren. We hebben met name nieuwe evaluatiestatistieken ontwikkeld voor het meten van toxiciteit in modeluitvoer en hebben ook interne classificaties ontwikkeld voor het detecteren van inhoud die in strijd is met onze inhoudsbeleid, zoals erotische inhoud, aanzetten tot haat, geweld, intimidatie en zelfbeschadiging. Beide zijn op hun beurt ook gebruikt voor het verbeteren van onze pre-trainingsgegevens^[6]—in het bijzonder door de classificaties te gebruiken om inhoud uit te filteren en de evaluatiestatistieken om de effecten van dataset-interventies te meten.

Het betrouwbaar classificeren van individuele modeloutputs langs verschillende dimensies is moeilijk, en het meten van hun sociale impact op de schaal van de OpenAI API is nog moeilijker. We hebben verschillende interne onderzoeken gedaan om een institutionele spier op te bouwen voor een dergelijke meting, maar deze hebben vaak meer vragen dan antwoorden opgeroepen.

We zijn vooral geïnteresseerd in een beter begrip van de economische impact van onze modellen en de verdeling van die effecten. We hebben goede redenen om aan te nemen dat de gevolgen voor de arbeidsmarkt van de inzet van de huidige modellen in absolute termen al aanzienlijk kunnen zijn, en dat ze zullen toenemen naarmate de mogelijkheden en het bereik van onze modellen groeien. We hebben tot nu toe een verscheidenheid aan lokale effecten vernomen, waaronder enorme productiviteitsverbeteringen op bestaande taken die door individuen worden uitgevoerd, zoals copywriting en samenvattingen (soms bijdragend aan het verplaatsen en creëren van banen), evenals gevallen waarin de API nieuwe toepassingen ontgrendelde die voorheen onhaalbaar waren , zoals synthese van grootschalige kwalitatieve feedback. Maar we hebben geen goed inzicht in de netto-effecten.

Wij zijn van mening dat het belangrijk is voor degenen die krachtige AI-technologieën ontwikkelen en inzetten om zowel de positieve als de negatieve effecten van hun werk direct aan te pakken. We bespreken enkele stappen in die richting in het afsluitende gedeelte van dit bericht.

De relatie tussen de veiligheid en het nut van AI-systemen

In onze Charter, gepubliceerd in 2018, zeggen we dat we "bezorgd zijn dat de AGI-ontwikkeling in een laat stadium een competitieve race wordt zonder tijd voor adequate veiligheidsmaatregelen." Wij dan gepubliceerde een gedetailleerde analyse van de ontwikkeling van concurrerende AI, en we hebben deze op de voet gevolgd volgend Onderzoek. Tegelijkertijd heeft de inzet van AI-systemen via de OpenAI API ook ons begrip van de synergieën tussen veiligheid en nut verdiept.

Ontwikkelaars geven bijvoorbeeld overweldigend de voorkeur aan onze InstructGPT-modellen, die zijn afgestemd op de bedoelingen van de gebruiker^[7]-over de basis GPT-3-modellen. Het is echter opmerkelijk dat de InstructGPT-modellen oorspronkelijk niet werden gemotiveerd door commerciële overwegingen, maar eerder gericht waren op het boeken van vooruitgang op de lange termijn. uitlijningsproblemen. In praktische termen betekent dit dat klanten, misschien niet verrassend, de voorkeur geven aan modellen die bij het werk blijven en de bedoeling van de gebruiker begrijpen, en modellen die minder snel schadelijke of onjuiste output produceren.^[8] Ander fundamenteel onderzoek, zoals ons werk aan gebruik maken van informatie die van internet zijn gehaald om vragen waarheidsgetrouwer te beantwoorden, heeft ook de potentie om de commerciële bruikbaarheid van AI-systemen te verbeteren.^[9]

Deze synergieën zullen niet altijd voorkomen. Zo zullen krachtigere systemen vaak meer tijd nodig hebben om effectief te evalueren en op elkaar af te stemmen, waardoor directe winstkansen worden uitgesloten. En het nut van een gebruiker en dat van de samenleving zijn mogelijk niet op elkaar afgestemd vanwege negatieve externe factoren - denk aan volledig geautomatiseerde copywriting, wat gunstig kan zijn voor makers van inhoud, maar slecht voor het informatie-ecosysteem als geheel.

Het is bemoedigend om gevallen van sterke synergie tussen veiligheid en nut te zien, maar we zijn vastbesloten om te investeren in veiligheids- en beleidsonderzoek, zelfs als ze in tegenspraak zijn met commercieel nut.

We zetten ons in om te investeren in veiligheids- en beleidsonderzoek, zelfs als ze in tegenspraak zijn met commercieel nut.

Manieren om mee te doen

Elk van de bovenstaande lessen roept nieuwe vragen op. Wat voor soort veiligheidsincidenten kunnen we nog steeds niet detecteren en anticiperen? Hoe kunnen we risico's en effecten beter meten? Hoe kunnen we zowel de veiligheid als het nut van onze modellen blijven verbeteren en de afwegingen maken tussen deze twee wanneer ze zich voordoen?

We zijn actief in gesprek over veel van deze problemen met andere bedrijven die taalmodellen inzetten. Maar we weten ook dat geen enkele organisatie of groep organisaties alle antwoorden heeft, en we willen graag verschillende manieren benadrukken waarop lezers meer betrokken kunnen raken bij het begrijpen en vormgeven van onze inzet van geavanceerde AI-systemen.

Ten eerste is het van onschatbare waarde om ervaring op te doen met de interactie met geavanceerde AI-systemen om hun mogelijkheden en implicaties te begrijpen. We hebben onlangs de API-wachtlijst beëindigd nadat we meer vertrouwen hadden gekregen in ons vermogen om misbruik effectief te detecteren en erop te reageren. particulieren ondersteunde landen en gebieden kan snel toegang krijgen tot de OpenAI API door u aan te melden hier.

Ten tweede kunnen onderzoekers die werken aan onderwerpen die voor ons van bijzonder belang zijn, zoals vooringenomenheid en misbruik, en die baat zouden hebben bij financiële steun, gesubsidieerde API-kredieten aanvragen met behulp van dit formulier. Extern onderzoek is van vitaal belang voor zowel ons begrip van deze veelzijdige systemen als voor een breder publiek begrip.

Eindelijk, vandaag publiceren we een onderzoeksagenda het onderzoeken van de arbeidsmarkteffecten die samenhangen met onze Codex-modellenfamilie, en een oproep voor externe medewerkers om dit onderzoek uit te voeren. We zijn verheugd om met onafhankelijke onderzoekers samen te werken om de effecten van onze technologieën te bestuderen om de juiste beleidsinterventies te informeren en om uiteindelijk ons denken uit te breiden van codegeneratie naar andere modaliteiten.

Als u geïnteresseerd bent om op verantwoorde wijze geavanceerde AI-technologieën in te zetten, dit toepassen werken bij OpenAI!

Tijdstempel: 3 maart 2022

Tijdstempel: Augustus 31, 2022

Heruitgegeven door Plato

Snelle subsidies voor superuitlijning

Democratische input voor het AI-subsidieprogramma: geleerde lessen en implementatieplannen

Nieuwe manieren om uw gegevens in ChatGPT te beheren

OpenAI kondigt nieuwe leden aan voor de raad van bestuur

Hoe moeten AI-systemen zich gedragen en wie moet beslissen?

Minecraft leren spelen met Video PreTraining (VPT)

Modellen leren hun onzekerheid in woorden uit te drukken

DALL·E: Introductie van Outpainting

Over Ons

Verticaal zoeken & Ai

Platform

Blijf verbonden

Account