Lärdomar om språkmodellsäkerhet och missbruk

Återutgiven av Platon

anhängare: 0

Lärdomar om språkmodellsäkerhet och missbruk

Utplaceringen av kraftfulla AI-system har berikat vår förståelse för säkerhet och missbruk mycket mer än vad som skulle ha varit möjligt enbart genom forskning. I synnerhet:

API-baserad språkmodellmissbruk kommer ofta i andra former än vi mest fruktade.
Vi har identifierat begränsningar i befintliga språkmodellutvärderingar som vi tar itu med med nya riktmärken och klassificerare.
Grundläggande säkerhetsforskning erbjuder betydande fördelar för den kommersiella nyttan av AI-system.

Här beskriver vi vårt senaste tänkande i hopp om att hjälpa andra AI-utvecklare att ta itu med säkerhet och missbruk av utplacerade modeller.

Ode senaste två åren, vi har lärt oss mycket om hur språkmodeller kan användas och missbrukas – insikter som vi inte hade kunnat få utan erfarenheten av implementering i verkligheten. I juni 2020 började vi ge tillgång till utvecklare och forskare till Öppna AI API, ett gränssnitt för att komma åt och bygga applikationer ovanpå nya AI-modeller utvecklade av OpenAI. Att distribuera GPT-3, Codex och andra modeller på ett sätt som minskar riskerna för skada har inneburit olika tekniska och politiska utmaningar.

Översikt över vårt tillvägagångssätt för modellimplementering

Stora språkmodeller kan nu utföra en mycket brett utbud av uppgifter, ofta ur lådan. Deras riskprofiler, potentiella tillämpningar och bredare effekter på samhället förblir dåligt förstått. Som ett resultat av detta betonar vår implementeringsmetod kontinuerlig iteration och använder sig av följande strategier som syftar till att maximera fördelarna med implementeringen och samtidigt minska tillhörande risker:

Riskanalys före implementering, utnyttjande av en växande uppsättning säkerhetsutvärderingar och röda teamverktyg (t.ex. kontrollerade vi vår InstructGPT för eventuella säkerhetsförsämringar med hjälp av utvärderingarna diskuteras nedan)
Börjar med en liten användarbas (t.ex. både GPT-3 och vår Instruera GPT serie började som privata betaversioner)
Studera resultaten av pilotprojekt med nya användningsfall (t.ex. att undersöka villkoren under vilka vi säkert skulle kunna möjliggöra långformat innehållsgenerering, arbeta med ett litet antal kunder)
Implementera processer som hjälper till att hålla koll på användningen (t.ex. granskning av användningsfall, tokenkvoter och hastighetsgränser)
Genomföra detaljerade retrospektiva granskningar (t.ex. av säkerhetsincidenter och större utbyggnader)

Lärdomar om språkmodellsäkerhet och missbruk

Observera att detta diagram är avsett att visuellt förmedla behovet av återkopplingsslingor i den kontinuerliga processen med modellutveckling och utbyggnad och det faktum att säkerhet måste integreras i varje steg. Det är inte avsett att förmedla en fullständig eller idealisk bild av vår eller någon annan organisations process.

Det finns ingen silverkula för ansvarsfull implementering, så vi försöker lära oss om och ta itu med våra modellers begränsningar och potentiella vägar för missbruk, i varje utvecklings- och distributionsstadium. Detta tillvägagångssätt tillåter oss att lära oss så mycket vi kan om säkerhets- och policyfrågor i liten skala och införliva dessa insikter innan vi lanserar storskaliga implementeringar.

Det finns ingen silverkula för ansvarsfull utplacering.

Även om det inte är uttömmande, inkluderar några områden där vi har investerat hittills^[1]:

Förträning datum kuration och filtrering
Finjustering modeller till bättre Följ instruktioner
Riskanalys av potentiella implementeringar
Ger detaljerad användare dokumentation
Byggnad verktyg för att avskärma skadliga modellutgångar
Granska användningsfall mot vår Strategier
Övervakning av tecken på missbruka
Studerar effekterna av våra modeller

Eftersom varje steg i interventionen har begränsningar är ett holistiskt tillvägagångssätt nödvändigt.

Det finns områden där vi kunde ha gjort mer och där vi fortfarande har utrymme för förbättringar. Till exempel, när vi först arbetade med GPT-3, såg vi det som en intern forskningsartefakt snarare än ett produktionssystem och var inte så aggressiva i att filtrera bort giftig träningsdata som vi annars skulle ha varit. Vi har satsat mer på att undersöka och ta bort sådant material för efterföljande modeller. Vi har tagit längre tid att ta itu med vissa fall av missbruk i fall där vi inte hade tydliga policyer i ämnet och har blivit bättre på att upprepa dessa policyer. Och vi fortsätter att iterera mot ett paket med säkerhetskrav som är maximalt effektiva för att hantera risker, samtidigt som det kommuniceras tydligt till utvecklarna och minimerar överdriven friktion.

Ändå tror vi att vårt tillvägagångssätt har gjort det möjligt för oss att mäta och minska olika typer av skador från språkmodellanvändning jämfört med ett mer praktiskt tillvägagångssätt, samtidigt som vi har möjliggjort ett brett utbud av vetenskapliga, konstnärliga och kommersiella tillämpningar av våra modeller.^[2]

Missbruk av språkmodellers många former och storlekar

OpenAI har varit aktiva i att undersöka riskerna för AI-missbruk sedan vårt tidiga arbete med skadlig användning av AI i 2018 och på GPT-2 under 2019, och vi har ägnat särskild uppmärksamhet åt AI-system som ger inflytandeverksamhet. Vi har arbetade med externa experter att utveckla bevis på konceptet och befordras noggrann analys av sådana risker från tredje part. Vi är fortfarande engagerade i att ta itu med risker som är förknippade med språkmodellaktiverade påverkansoperationer och arrangerade nyligen en workshop i ämnet.^[3]

Ändå har vi upptäckt och stoppat hundratals aktörer som försöker missbruka GPT-3 för ett mycket bredare spektrum av syften än att producera desinformation för påverkansoperationer, inklusive på sätt som vi antingen inte förutsåg eller som vi förutsåg men inte förväntade oss att bli så utbredd.^[4] Vår riktlinjer för användningsfall, riktlinjer för innehåll, och intern infrastruktur för upptäckt och svar var initialt inriktad på risker som vi förutsåg baserat på intern och extern forskning, såsom generering av vilseledande politiskt innehåll med GPT-3 eller generering av skadlig programvara med Codex. Våra detektions- och reaktionsinsatser har utvecklats över tiden som svar på verkliga fall av missbruk som inträffat "i det vilda" som inte var lika framträdande som påverkar verksamheten i våra initiala riskbedömningar. Exempel inkluderar skräppostkampanjer för tvivelaktiga medicinska produkter och rollspel av rasistiska fantasier.

För att stödja studiet av språkmodellmissbruk och begränsning därav, undersöker vi aktivt möjligheter att dela statistik om säkerhetsincidenter i år, för att konkretisera diskussioner om språkmodellmissbruk.

Svårigheten med risk- och effektmätning

Många aspekter av språkmodellers risker och effekter är fortfarande svåra att mäta och därför svåra att övervaka, minimera och avslöja på ett ansvarsfullt sätt. Vi har aktivt använt befintliga akademiska riktmärken för utvärdering av språkmodeller och är angelägna om att fortsätta bygga på externt arbete, men vi har också funnit att befintliga riktmärkesdatauppsättningar ofta inte reflekterar de säkerhets- och missbruksrisker vi ser i praktiken.^[5]

Sådana begränsningar återspeglar det faktum att akademiska datauppsättningar sällan skapas i det uttryckliga syftet att informera produktionsanvändningen av språkmodeller, och inte drar nytta av erfarenheterna från att använda sådana modeller i stor skala. Som ett resultat av detta har vi utvecklat nya utvärderingsdatauppsättningar och ramverk för att mäta säkerheten för våra modeller, som vi planerar att släppa snart. Specifikt har vi utvecklat nya utvärderingsmått för att mäta toxicitet i modellutdata och har även utvecklat interna klassificerare för att upptäcka innehåll som bryter mot vår innehållspolicy, såsom erotiskt innehåll, hatretorik, våld, trakasserier och självskada. Båda dessa har i sin tur också utnyttjats för att förbättra våra förträningsdata^[6]— Specifikt genom att använda klassificerarna för att filtrera bort innehåll och utvärderingsmåtten för att mäta effekterna av datauppsättningsingripanden.

Det är svårt att på ett tillförlitligt sätt klassificera individuella modellutdata längs olika dimensioner, och det är ännu svårare att mäta deras sociala inverkan i skalan av OpenAI API. Vi har genomfört flera interna studier för att bygga en institutionell muskel för sådan mätning, men dessa har ofta väckt fler frågor än svar.

Vi är särskilt intresserade av att bättre förstå den ekonomiska effekten av våra modeller och fördelningen av dessa effekter. Vi har goda skäl att tro att arbetsmarknadens effekter från implementeringen av nuvarande modeller redan kan vara betydande i absoluta termer, och att de kommer att växa i takt med att våra modellers kapacitet och räckvidd växer. Vi har lärt oss om en mängd lokala effekter hittills, inklusive massiva produktivitetsförbättringar på befintliga uppgifter som utförs av individer som copywriting och sammanfattning (ibland bidragit till jobbförskjutning och skapande), såväl som fall där API låste upp nya applikationer som tidigare var omöjliga , Till exempel syntes av storskalig kvalitativ feedback. Men vi saknar en god förståelse för nettoeffekterna.

Vi tror att det är viktigt för dem som utvecklar och använder kraftfull AI-teknik att ta itu med både de positiva och negativa effekterna av sitt arbete direkt. Vi diskuterar några steg i den riktningen i det avslutande avsnittet av detta inlägg.

Förhållandet mellan säkerhet och användbarhet hos AI-system

I vår Charter, publicerad 2018, säger vi att vi "är oroliga över att AGI-utveckling i det sena skedet blir en konkurrenskraftig tävling utan tid för adekvata säkerhetsåtgärder." Vi då publicerade en detaljerad analys av konkurrenskraftig AI-utveckling, och vi har följt noga senare forskning. Samtidigt har implementering av AI-system via OpenAI API också fördjupat vår förståelse för synergierna mellan säkerhet och nytta.

Till exempel föredrar utvecklare överväldigande våra InstructGPT-modeller – som är finjusterade för att följa användarnas avsikter^[7]— över basmodellerna GPT-3. Noterbart var dock att InstructGPT-modellerna ursprungligen inte motiverades av kommersiella överväganden, utan snarare syftade till att göra framsteg på lång sikt anpassningsproblem. Rent praktiskt betyder detta att kunder, kanske inte överraskande, mycket föredrar modeller som håller sig på uppgiften och förstår användarens avsikt, och modeller som är mindre benägna att producera utdata som är skadliga eller felaktiga.^[8] Annan grundforskning, som vårt arbete med utnyttja information hämtas från Internet för att besvara frågor mer sanningsenligt, har också potential att förbättra den kommersiella användbarheten av AI-system.^[9]

Dessa synergier kommer inte alltid att uppstå. Till exempel kommer mer kraftfulla system ofta att ta längre tid att utvärdera och anpassa effektivt, vilket utesluter omedelbara möjligheter till vinst. Och en användares och samhällets nytta kanske inte stämmer överens på grund av negativa externa effekter – överväg helt automatiserad copywriting, som kan vara fördelaktigt för innehållsskapare men dåligt för informationsekosystemet som helhet.

Det är uppmuntrande att se fall av stark synergi mellan säkerhet och nytta, men vi är engagerade i att investera i säkerhet och policyforskning även när de byter med kommersiell nytta.

Vi är engagerade i att investera i säkerhets- och policyforskning även när de växlar mot kommersiell nytta.

Sätt att engagera sig

Var och en av lektionerna ovan väcker nya egna frågor. Vilka typer av säkerhetsincidenter kan vi fortfarande misslyckas med att upptäcka och förutse? Hur kan vi bättre mäta risker och effekter? Hur kan vi fortsätta att förbättra både säkerheten och användbarheten av våra modeller, och navigera mellan dessa två när de uppstår?

Vi diskuterar aktivt många av dessa frågor med andra företag som använder språkmodeller. Men vi vet också att ingen organisation eller uppsättning organisationer har alla svaren, och vi skulle vilja lyfta fram flera sätt som läsare kan bli mer involverade i att förstå och forma vår implementering av toppmoderna AI-system.

För det första är det ovärderligt att få förstahandserfarenhet av att interagera med toppmoderna AI-system för att förstå deras kapacitet och implikationer. Vi avslutade nyligen API-väntelistan efter att ha byggt upp mer förtroende för vår förmåga att effektivt upptäcka och reagera på missbruk. Individer i länder och territorier kan snabbt få tillgång till OpenAI API genom att registrera dig här..

För det andra kan forskare som arbetar med ämnen av särskilt intresse för oss som partiskhet och missbruk, och som skulle dra nytta av ekonomiskt stöd, ansöka om subventionerade API-krediter med hjälp av denna form. Extern forskning är avgörande för att informera både vår förståelse av dessa mångfacetterade system, såväl som en bredare allmänhetens förståelse.

Äntligen, idag publicerar vi en forskningsagenda utforska arbetsmarknadseffekterna förknippade med vår Codex-modellfamilj, och en uppmaning till externa medarbetare för att genomföra denna forskning. Vi är glada över att arbeta med oberoende forskare för att studera effekterna av våra teknologier för att informera om lämpliga politiska interventioner, och för att så småningom utöka vårt tänkande från kodgenerering till andra modaliteter.

Om du är intresserad av att arbeta med att ansvarsfullt distribuera banbrytande AI-teknik, tillämpa att jobba på OpenAI!

Tidsstämpel: Mars 3, 2022

Tidsstämpel: Augusti 31, 2022

Återutgiven av Platon

Superalignment Fast Grants

Demokratiska bidrag till AI-bidragsprogram: lärdomar och genomförandeplaner

Nya sätt att hantera din data i ChatGPT

OpenAI tillkännager nya medlemmar till styrelsen

Hur ska AI-system bete sig och vem ska bestämma?

Lär dig spela Minecraft med Video PreTraining (VPT)

Att lära modeller att uttrycka sin osäkerhet i ord

DALL·E: Introducerar outpainting

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto