Lärdomar om språkmodellsäkerhet och missbruk av PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Lärdomar om språkmodellsäkerhet och missbruk

Lärdomar om språkmodellsäkerhet och missbruk

Utplaceringen av kraftfulla AI-system har berikat vår förståelse för säkerhet och missbruk mycket mer än vad som skulle ha varit möjligt enbart genom forskning. I synnerhet:

  • API-baserad språkmodellmissbruk kommer ofta i andra former än vi mest fruktade.
  • Vi har identifierat begränsningar i befintliga språkmodellutvärderingar som vi tar itu med med nya riktmärken och klassificerare.
  • Grundläggande säkerhetsforskning erbjuder betydande fördelar för den kommersiella nyttan av AI-system.

Här beskriver vi vårt senaste tänkande i hopp om att hjälpa andra AI-utvecklare att ta itu med säkerhet och missbruk av utplacerade modeller.


Ode senaste två åren, vi har lärt oss mycket om hur språkmodeller kan användas och missbrukas – insikter som vi inte hade kunnat få utan erfarenheten av implementering i verkligheten. I juni 2020 började vi ge tillgång till utvecklare och forskare till Öppna AI API, ett gränssnitt för att komma åt och bygga applikationer ovanpå nya AI-modeller utvecklade av OpenAI. Att distribuera GPT-3, Codex och andra modeller på ett sätt som minskar riskerna för skada har inneburit olika tekniska och politiska utmaningar.

Översikt över vårt tillvägagångssätt för modellimplementering

Stora språkmodeller kan nu utföra en mycket brett utbud av uppgifter, ofta ur lådan. Deras riskprofiler, potentiella tillämpningar och bredare effekter på samhället förblir dåligt förstått. Som ett resultat av detta betonar vår implementeringsmetod kontinuerlig iteration och använder sig av följande strategier som syftar till att maximera fördelarna med implementeringen och samtidigt minska tillhörande risker:

  • Riskanalys före implementering, utnyttjande av en växande uppsättning säkerhetsutvärderingar och röda teamverktyg (t.ex. kontrollerade vi vår InstructGPT för eventuella säkerhetsförsämringar med hjälp av utvärderingarna diskuteras nedan)
  • Börjar med en liten användarbas (t.ex. både GPT-3 och vår Instruera GPT serie började som privata betaversioner)
  • Studera resultaten av pilotprojekt med nya användningsfall (t.ex. att undersöka villkoren under vilka vi säkert skulle kunna möjliggöra långformat innehållsgenerering, arbeta med ett litet antal kunder)
  • Implementera processer som hjälper till att hålla koll på användningen (t.ex. granskning av användningsfall, tokenkvoter och hastighetsgränser)
  • Genomföra detaljerade retrospektiva granskningar (t.ex. av säkerhetsincidenter och större utbyggnader)
Lärdomar om språkmodellsäkerhet och missbruk


Observera att detta diagram är avsett att visuellt förmedla behovet av återkopplingsslingor i den kontinuerliga processen med modellutveckling och utbyggnad och det faktum att säkerhet måste integreras i varje steg. Det är inte avsett att förmedla en fullständig eller idealisk bild av vår eller någon annan organisations process.

Det finns ingen silverkula för ansvarsfull implementering, så vi försöker lära oss om och ta itu med våra modellers begränsningar och potentiella vägar för missbruk, i varje utvecklings- och distributionsstadium. Detta tillvägagångssätt tillåter oss att lära oss så mycket vi kan om säkerhets- och policyfrågor i liten skala och införliva dessa insikter innan vi lanserar storskaliga implementeringar.


Det finns ingen silverkula för ansvarsfull utplacering.

Även om det inte är uttömmande, inkluderar några områden där vi har investerat hittills[1]:

Eftersom varje steg i interventionen har begränsningar är ett holistiskt tillvägagångssätt nödvändigt.

Det finns områden där vi kunde ha gjort mer och där vi fortfarande har utrymme för förbättringar. Till exempel, när vi först arbetade med GPT-3, såg vi det som en intern forskningsartefakt snarare än ett produktionssystem och var inte så aggressiva i att filtrera bort giftig träningsdata som vi annars skulle ha varit. Vi har satsat mer på att undersöka och ta bort sådant material för efterföljande modeller. Vi har tagit längre tid att ta itu med vissa fall av missbruk i fall där vi inte hade tydliga policyer i ämnet och har blivit bättre på att upprepa dessa policyer. Och vi fortsätter att iterera mot ett paket med säkerhetskrav som är maximalt effektiva för att hantera risker, samtidigt som det kommuniceras tydligt till utvecklarna och minimerar överdriven friktion.

Ändå tror vi att vårt tillvägagångssätt har gjort det möjligt för oss att mäta och minska olika typer av skador från språkmodellanvändning jämfört med ett mer praktiskt tillvägagångssätt, samtidigt som vi har möjliggjort ett brett utbud av vetenskapliga, konstnärliga och kommersiella tillämpningar av våra modeller.[2]

Missbruk av språkmodellers många former och storlekar

OpenAI har varit aktiva i att undersöka riskerna för AI-missbruk sedan vårt tidiga arbete med skadlig användning av AI i 2018 och på GPT-2 under 2019, och vi har ägnat särskild uppmärksamhet åt AI-system som ger inflytandeverksamhet. Vi har arbetade med externa experter att utveckla bevis på konceptet och befordras noggrann analys av sådana risker från tredje part. Vi är fortfarande engagerade i att ta itu med risker som är förknippade med språkmodellaktiverade påverkansoperationer och arrangerade nyligen en workshop i ämnet.[3]

Ändå har vi upptäckt och stoppat hundratals aktörer som försöker missbruka GPT-3 för ett mycket bredare spektrum av syften än att producera desinformation för påverkansoperationer, inklusive på sätt som vi antingen inte förutsåg eller som vi förutsåg men inte förväntade oss att bli så utbredd.[4] Vår riktlinjer för användningsfall, riktlinjer för innehåll, och intern infrastruktur för upptäckt och svar var initialt inriktad på risker som vi förutsåg baserat på intern och extern forskning, såsom generering av vilseledande politiskt innehåll med GPT-3 eller generering av skadlig programvara med Codex. Våra detektions- och reaktionsinsatser har utvecklats över tiden som svar på verkliga fall av missbruk som inträffat "i det vilda" som inte var lika framträdande som påverkar verksamheten i våra initiala riskbedömningar. Exempel inkluderar skräppostkampanjer för tvivelaktiga medicinska produkter och rollspel av rasistiska fantasier.

För att stödja studiet av språkmodellmissbruk och begränsning därav, undersöker vi aktivt möjligheter att dela statistik om säkerhetsincidenter i år, för att konkretisera diskussioner om språkmodellmissbruk.

Svårigheten med risk- och effektmätning

Många aspekter av språkmodellers risker och effekter är fortfarande svåra att mäta och därför svåra att övervaka, minimera och avslöja på ett ansvarsfullt sätt. Vi har aktivt använt befintliga akademiska riktmärken för utvärdering av språkmodeller och är angelägna om att fortsätta bygga på externt arbete, men vi har också funnit att befintliga riktmärkesdatauppsättningar ofta inte reflekterar de säkerhets- och missbruksrisker vi ser i praktiken.[5]

Sådana begränsningar återspeglar det faktum att akademiska datauppsättningar sällan skapas i det uttryckliga syftet att informera produktionsanvändningen av språkmodeller, och inte drar nytta av erfarenheterna från att använda sådana modeller i stor skala. Som ett resultat av detta har vi utvecklat nya utvärderingsdatauppsättningar och ramverk för att mäta säkerheten för våra modeller, som vi planerar att släppa snart. Specifikt har vi utvecklat nya utvärderingsmått för att mäta toxicitet i modellutdata och har även utvecklat interna klassificerare för att upptäcka innehåll som bryter mot vår innehållspolicy, såsom erotiskt innehåll, hatretorik, våld, trakasserier och självskada. Båda dessa har i sin tur också utnyttjats för att förbättra våra förträningsdata[6]— Specifikt genom att använda klassificerarna för att filtrera bort innehåll och utvärderingsmåtten för att mäta effekterna av datauppsättningsingripanden.

Det är svårt att på ett tillförlitligt sätt klassificera individuella modellutdata längs olika dimensioner, och det är ännu svårare att mäta deras sociala inverkan i skalan av OpenAI API. Vi har genomfört flera interna studier för att bygga en institutionell muskel för sådan mätning, men dessa har ofta väckt fler frågor än svar.

Vi är särskilt intresserade av att bättre förstå den ekonomiska effekten av våra modeller och fördelningen av dessa effekter. Vi har goda skäl att tro att arbetsmarknadens effekter från implementeringen av nuvarande modeller redan kan vara betydande i absoluta termer, och att de kommer att växa i takt med att våra modellers kapacitet och räckvidd växer. Vi har lärt oss om en mängd lokala effekter hittills, inklusive massiva produktivitetsförbättringar på befintliga uppgifter som utförs av individer som copywriting och sammanfattning (ibland bidragit till jobbförskjutning och skapande), såväl som fall där API låste upp nya applikationer som tidigare var omöjliga , Till exempel syntes av storskalig kvalitativ feedback. Men vi saknar en god förståelse för nettoeffekterna.

Vi tror att det är viktigt för dem som utvecklar och använder kraftfull AI-teknik att ta itu med både de positiva och negativa effekterna av sitt arbete direkt. Vi diskuterar några steg i den riktningen i det avslutande avsnittet av detta inlägg.

Förhållandet mellan säkerhet och användbarhet hos AI-system

I vår Charter, publicerad 2018, säger vi att vi "är oroliga över att AGI-utveckling i det sena skedet blir en konkurrenskraftig tävling utan tid för adekvata säkerhetsåtgärder." Vi då publicerade en detaljerad analys av konkurrenskraftig AI-utveckling, och vi har följt noga senare forskning. Samtidigt har implementering av AI-system via OpenAI API också fördjupat vår förståelse för synergierna mellan säkerhet och nytta.

Till exempel föredrar utvecklare överväldigande våra InstructGPT-modeller – som är finjusterade för att följa användarnas avsikter[7]— över basmodellerna GPT-3. Noterbart var dock att InstructGPT-modellerna ursprungligen inte motiverades av kommersiella överväganden, utan snarare syftade till att göra framsteg på lång sikt anpassningsproblem. Rent praktiskt betyder detta att kunder, kanske inte överraskande, mycket föredrar modeller som håller sig på uppgiften och förstår användarens avsikt, och modeller som är mindre benägna att producera utdata som är skadliga eller felaktiga.[8] Annan grundforskning, som vårt arbete med utnyttja information hämtas från Internet för att besvara frågor mer sanningsenligt, har också potential att förbättra den kommersiella användbarheten av AI-system.[9]

Dessa synergier kommer inte alltid att uppstå. Till exempel kommer mer kraftfulla system ofta att ta längre tid att utvärdera och anpassa effektivt, vilket utesluter omedelbara möjligheter till vinst. Och en användares och samhällets nytta kanske inte stämmer överens på grund av negativa externa effekter – överväg helt automatiserad copywriting, som kan vara fördelaktigt för innehållsskapare men dåligt för informationsekosystemet som helhet.

Det är uppmuntrande att se fall av stark synergi mellan säkerhet och nytta, men vi är engagerade i att investera i säkerhet och policyforskning även när de byter med kommersiell nytta.


Vi är engagerade i att investera i säkerhets- och policyforskning även när de växlar mot kommersiell nytta.

Sätt att engagera sig

Var och en av lektionerna ovan väcker nya egna frågor. Vilka typer av säkerhetsincidenter kan vi fortfarande misslyckas med att upptäcka och förutse? Hur kan vi bättre mäta risker och effekter? Hur kan vi fortsätta att förbättra både säkerheten och användbarheten av våra modeller, och navigera mellan dessa två när de uppstår?

Vi diskuterar aktivt många av dessa frågor med andra företag som använder språkmodeller. Men vi vet också att ingen organisation eller uppsättning organisationer har alla svaren, och vi skulle vilja lyfta fram flera sätt som läsare kan bli mer involverade i att förstå och forma vår implementering av toppmoderna AI-system.

För det första är det ovärderligt att få förstahandserfarenhet av att interagera med toppmoderna AI-system för att förstå deras kapacitet och implikationer. Vi avslutade nyligen API-väntelistan efter att ha byggt upp mer förtroende för vår förmåga att effektivt upptäcka och reagera på missbruk. Individer i länder och territorier kan snabbt få tillgång till OpenAI API genom att registrera dig här..

För det andra kan forskare som arbetar med ämnen av särskilt intresse för oss som partiskhet och missbruk, och som skulle dra nytta av ekonomiskt stöd, ansöka om subventionerade API-krediter med hjälp av denna form. Extern forskning är avgörande för att informera både vår förståelse av dessa mångfacetterade system, såväl som en bredare allmänhetens förståelse.

Äntligen, idag publicerar vi en forskningsagenda utforska arbetsmarknadseffekterna förknippade med vår Codex-modellfamilj, och en uppmaning till externa medarbetare för att genomföra denna forskning. Vi är glada över att arbeta med oberoende forskare för att studera effekterna av våra teknologier för att informera om lämpliga politiska interventioner, och för att så småningom utöka vårt tänkande från kodgenerering till andra modaliteter.

Om du är intresserad av att arbeta med att ansvarsfullt distribuera banbrytande AI-teknik, tillämpa att jobba på OpenAI!


Erkännanden

Tack till Lilian Weng, Rosie Campbell, Anna Makanju, Bob McGrew, Hannah Wong, Ryan Lowe, Steve Dowling, Mira Murati, Sam Altman, Greg Brockman, Ilya Sutskever, Percy Liang, Peter Welinder, Ethan Perez, Ellie Evans, Helen Ngo, Helen Toner, Justin Jay Wang, Jack Clark, Rishi Bommasani, Girish Sastry, Sarah Shoker, Matt Knight, Bianca Martin, Bob Rotsted, Lama Ahmad, Toki Sherbakov och andra för att ge feedback på detta inlägg och relaterat arbete.


fotnoter

  1. Det här inlägget är baserat på vårt tillvägagångssätt för att distribuera språkmodeller genom ett API, och som sådana är de lärdomar och begränsningar som beskrivs mest relevanta för dem som också bedriver API-baserad implementering. Men vi förväntar oss också att en del av diskussionen är relevant för dem som bygger förstapartsapplikationer med språkmodeller och de som överväger att släppa språkmodeller med öppen källkod. ↩︎

  2. Det här inlägget är avsett att förklara och dela lärdomar från vårt tillvägagångssätt, snarare än att föreslå att alla aktörer nödvändigtvis bör använda samma tillvägagångssätt, eller att samma tillvägagångssätt är tillämpligt på alla möjliga AI-system. Det finns fördelar och kostnader förknippade med olika utbyggnadssätt, olika modeller kommer att dra mer eller mindre nytta av studier före utplacering, och i vissa fall kan det vara värdefullt för olika utbyggnadsvägar att följa av olika aktörer. ↩︎

  3. Mer information om denna workshop kommer att inkluderas i den kommande publikationen baserad på den. ↩︎

  4. De begränsningar som vi betonar som svar på missbruk har också utvecklats. Till exempel fokuserade vi initialt på långformstextgenerering som en hotvektor, med tanke på tidigare fall av påverkansoperationer som involverade personer som manuellt skrev långformigt vilseledande innehåll. Med tanke på den betoningen anger vi maximala utdatalängder för genererad text. Baserat på en pilotstudie av långformsgenerering såg vi dock att utdatarestriktioner hade liten effekt på policyöverträdelser – vi har istället kommit att tro att kortformigt innehåll som förstärker eller ökar engagemanget för vilseledande innehåll kan vara den större risken. ↩︎

  5. Exempel på begränsningar i befintliga datamängder, ur perspektivet för praktiker som söker en holistisk bedömning av säkerheten för verkliga språkmodeller, inkluderar följande: ett alltför snävt fokus (t.ex. att bara mäta yrkesmässig könsbias), ett alltför brett fokus (t.ex. att mäta allt under paraplyet "toxicitet"), en tendens att abstrahera bort detaljerna i användning och sammanhang, ett misslyckande att mäta generativ dimension av språkmodellanvändning (t.ex. genom att använda flervalsstil), uppmaningar som skiljer sig stilistiskt från de som vanligtvis används i verkliga språkmodellanvändningsfall, som inte fångar säkerhetsdimensioner som är viktiga i praktiken (t.ex. en utdata som följer eller ignorerar en säkerhets- motiverade begränsningar i instruktionen), eller att inte fånga typer av utdata som vi har funnit vara korrelerade med missbruk (t.ex. erotiskt innehåll). ↩︎

  6. Även om våra ansträngningar är specifikt inriktade på att ta itu med begränsningar i befintliga benchmarks och i våra egna modeller, erkänner vi också att det finns begränsningar för de metoder vi använder, såsom klassificerarebaserad datafiltrering. Till exempel är det en utmaning att operativt definiera innehållsområdena vi strävar efter att upptäcka via filtrering och själva filtreringen kan införa skadliga fördomar. Dessutom är märkningen av toxiska data en kritisk komponent i detta arbete och att säkerställa dessa etiketters mentala hälsa är en branschomfattande utmaning. ↩︎

  7. Den relevanta "användaren" av vårt API kan vara en utvecklare som bygger en applikation eller en slutanvändare som interagerar med en sådan applikation, beroende på sammanhang. Det finns djupa frågor om de värderingar som våra anpassade modeller återspeglar och vi hoppas kunna bygga en mer nyanserad förståelse för hur man balanserar värderingarna för ett stort antal möjliga användare och konkurrerande mål när man anpassar språkmodeller för att vara mer hjälpsamma, mer sanningsenliga och mindre skadliga. ↩︎

  8. Mer anpassade modeller har också mer praktiska fördelar som att minska behovet av "prompt engineering" (ger exempel på önskat beteende för att styra modellen i rätt riktning), spara utrymme i modellens kontextfönster som kan användas för andra ändamål. ↩︎

  9. Utöver forskning har vi funnit att andra säkerhetsmotiverade interventioner ibland har oväntade fördelar för kunderna. Prisgränser som till exempel är avsedda att stävja skräppost eller vilseledande innehåll hjälper också kunderna att kontrollera utgifterna. ↩︎

Tidsstämpel:

Mer från OpenAI