Erfaringer om sprogmodelsikkerhed og misbrug af PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

Erfaringer om sprogmodelsikkerhed og misbrug

Erfaringer om sprogmodelsikkerhed og misbrug

Implementeringen af ​​kraftfulde AI-systemer har beriget vores forståelse af sikkerhed og misbrug langt mere, end det ville have været muligt gennem forskning alene. Især:

  • API-baseret sprogmodel misbrug kommer ofte i andre former, end vi frygtede mest.
  • Vi har identificeret begrænsninger i eksisterende sprogmodelevalueringer, som vi adresserer med nye benchmarks og klassifikatorer.
  • Grundlæggende sikkerhedsforskning giver betydelige fordele for den kommercielle nytte af AI-systemer.

Her beskriver vi vores seneste tankegang i håbet om at hjælpe andre AI-udviklere med at håndtere sikkerhed og misbrug af installerede modeller.


Ode seneste to år, har vi lært meget om, hvordan sprogmodeller kan bruges og misbruges – indsigter, vi ikke kunne have fået uden erfaringen med implementering i den virkelige verden. I juni 2020 begyndte vi at give adgang til udviklere og forskere til Åbn AI API, en grænseflade til at få adgang til og bygge applikationer oven på nye AI-modeller udviklet af OpenAI. At implementere GPT-3, Codex og andre modeller på en måde, der reducerer risikoen for skade, har givet forskellige tekniske og politiske udfordringer.

Oversigt over vores modelimplementeringstilgang

Store sprogmodeller er nu i stand til at udføre en meget bred vifte af opgaver, ofte ude af kassen. Deres risikoprofiler, potentielle anvendelser og bredere virkninger på samfundet forblive dårligt forstået. Som et resultat heraf lægger vores implementeringstilgang vægt på kontinuerlig iteration og gør brug af følgende strategier, der sigter mod at maksimere fordelene ved implementering og samtidig reducere tilknyttede risici:

  • Risikoanalyse før implementering, udnyttelse af et voksende sæt sikkerhedsevalueringer og røde teaming-værktøjer (f.eks. tjekkede vi vores InstructGPT for eventuelle sikkerhedsforringelser ved hjælp af evalueringerne diskuteret nedenfor)
  • Startende med en lille brugerbase (f.eks. både GPT-3 og vores Instruer GPT serie begyndte som private betaversioner)
  • Undersøgelse af resultaterne af pilotprojekter af nye use cases (f.eks. udforskning af de betingelser, hvorunder vi sikkert kunne muliggøre generering af langformat indhold, arbejde med et lille antal kunder)
  • Implementering af processer, der hjælper med at holde styr på brugen (f.eks. gennemgang af use cases, token-kvoter og takstgrænser)
  • Udførelse af detaljerede retrospektive anmeldelser (f.eks. af sikkerhedshændelser og større udrulninger)
Erfaringer om sprogmodelsikkerhed og misbrug


Bemærk, at dette diagram er beregnet til visuelt at formidle behovet for feedback-loops i den kontinuerlige proces med modeludvikling og implementering og det faktum, at sikkerhed skal integreres i hvert trin. Det er ikke beregnet til at formidle et fuldstændigt eller ideelt billede af vores eller nogen anden organisations proces.

Der er ingen sølvkugle til ansvarlig implementering, så vi forsøger at lære om og adressere vores modellers begrænsninger og potentielle muligheder for misbrug på alle trin af udvikling og implementering. Denne tilgang giver os mulighed for at lære så meget, som vi kan, om sikkerheds- og politiske spørgsmål i lille skala og inkorporere disse indsigter, før vi lancerer større udrulninger.


Der er ingen sølvkugle til ansvarlig indsættelse.

Selvom det ikke er udtømmende, omfatter nogle områder, hvor vi hidtil har investeret[1]:

Da hvert trin i interventionen har begrænsninger, er en holistisk tilgang nødvendig.

Der er områder, hvor vi kunne have gjort mere, og hvor vi stadig har plads til forbedringer. For eksempel, da vi først arbejdede på GPT-3, så vi det som en intern forskningsartefakt snarere end et produktionssystem og var ikke så aggressive med at filtrere giftige træningsdata fra, som vi ellers kunne have været. Vi har investeret mere i at undersøge og fjerne sådant materiale til efterfølgende modeller. Vi har taget længere tid at behandle nogle tilfælde af misbrug i tilfælde, hvor vi ikke havde klare politikker om emnet, og er blevet bedre til at gentage disse politikker. Og vi fortsætter med at iterere hen imod en pakke af sikkerhedskrav, der er maksimalt effektive til at håndtere risici, samtidig med at de kommunikeres tydeligt til udviklerne og minimerer overdreven friktion.

Alligevel mener vi, at vores tilgang har gjort os i stand til at måle og reducere forskellige typer skader fra sprogmodelbrug sammenlignet med en mere håndfri tilgang, samtidig med at vi har muliggjort en bred vifte af videnskabelige, kunstneriske og kommercielle anvendelser af vores modeller.[2]

De mange former og størrelser af sprogmodelmisbrug

OpenAI har været aktiv i at forske i risikoen for AI-misbrug siden vores tidlige arbejde med ondsindet brug af kunstig intelligens i 2018 og på GPT-2 i 2019, og vi har været særligt opmærksomme på AI-systemer, der styrker indflydelsesoperationer. Vi har arbejdet med eksterne eksperter til at udvikle bevis for koncept og forfremmet forsigtig analyse af sådanne risici fra tredjeparter. Vi er fortsat forpligtet til at adressere risici forbundet med sprogmodelaktiverede indflydelsesoperationer, og vi arrangerede for nylig en workshop om emnet.[3]

Alligevel har vi opdaget og stoppet hundredvis af aktører, der forsøgte at misbruge GPT-3 til en meget bredere række formål end at producere desinformation til indflydelsesoperationer, herunder på måder, som vi enten ikke havde forudset, eller som vi forventede, men ikke forventede at blive så udbredt.[4] Vores brugscase retningslinjer, retningslinjer for indhold, og intern detektions- og responsinfrastruktur var oprindeligt orienteret mod risici, som vi forventede baseret på intern og ekstern forskning, såsom generering af vildledende politisk indhold med GPT-3 eller generering af malware med Codex. Vores detektions- og reaktionsbestræbelser har udviklet sig over tid som reaktion på virkelige tilfælde af misbrug, der er stødt på "i naturen", som ikke var så fremtrædende som indflydelse på operationer i vores indledende risikovurderinger. Eksempler omfatter spamkampagner for tvivlsomme medicinske produkter og rollespil med racistiske fantasier.

For at understøtte undersøgelsen af ​​sprogmodelmisbrug og afbødning heraf, undersøger vi aktivt mulighederne for at dele statistik om sikkerhedshændelser i år for at konkretisere diskussioner om sprogmodelmisbrug.

Sværhedsgraden ved risiko- og effektmåling

Mange aspekter af sprogmodellers risici og virkninger er stadig svære at måle og derfor svære at overvåge, minimere og afsløre på en ansvarlig måde. Vi har gjort aktiv brug af eksisterende akademiske benchmarks til sprogmodelevaluering og er ivrige efter at fortsætte med at bygge videre på eksternt arbejde, men vi har også fundet ud af, at eksisterende benchmarkdatasæt ofte ikke afspejler de sikkerheds- og misbrugsrisici, vi ser i praksis.[5]

Sådanne begrænsninger afspejler det faktum, at akademiske datasæt sjældent skabes med det eksplicitte formål at informere produktionsbrug af sprogmodeller, og ikke drager fordel af erfaringerne fra at implementere sådanne modeller i stor skala. Som et resultat heraf har vi udviklet nye evalueringsdatasæt og rammer til måling af sikkerheden af ​​vores modeller, som vi planlægger at frigive snart. Specifikt har vi udviklet nye evalueringsmetrikker til måling af toksicitet i modeloutput og har også udviklet interne klassifikatorer til at detektere indhold, der overtræder vores indholdspolitik, såsom erotisk indhold, hadefulde ytringer, vold, chikane og selvskade. Begge disse er til gengæld også blevet udnyttet til at forbedre vores før-træningsdata[6]— specifikt ved at bruge klassifikatorerne til at bortfiltrere indhold og evalueringsmetrikkene til at måle effekterne af datasætinterventioner.

Det er vanskeligt at klassificere individuelle modeloutput langs forskellige dimensioner pålideligt, og det er endnu sværere at måle deres sociale indvirkning på OpenAI API'ens skala. Vi har udført flere interne undersøgelser for at opbygge en institutionel muskel til en sådan måling, men disse har ofte rejst flere spørgsmål end svar.

Vi er især interesserede i bedre at forstå den økonomiske effekt af vores modeller og fordelingen af ​​disse påvirkninger. Vi har god grund til at tro, at arbejdsmarkedspåvirkningerne fra implementeringen af ​​nuværende modeller allerede kan være betydelige i absolutte tal, og at de vil vokse i takt med, at vores modellers muligheder og rækkevidde vokser. Vi har til dato lært om en række lokale effekter, herunder massive produktivitetsforbedringer på eksisterende opgaver udført af enkeltpersoner som copywriting og opsummering (nogle gange bidrager til jobfortrængning og -skabelse), såvel som tilfælde, hvor API'en låste op for nye applikationer, der tidligere var uigennemførlige , såsom syntese af storstilet kvalitativ feedback. Men vi mangler en god forståelse af nettoeffekterne.

Vi mener, at det er vigtigt for dem, der udvikler og implementerer kraftfulde AI-teknologier, at tage fat på både de positive og negative virkninger af deres arbejde. Vi diskuterer nogle skridt i den retning i det afsluttende afsnit af dette indlæg.

Forholdet mellem sikkerheden og nytten af ​​AI-systemer

I vores Charter, udgivet i 2018, siger vi, at vi "er bekymrede over, at AGI-udvikling i det sene stadie bliver et konkurrenceløb uden tid til tilstrækkelige sikkerhedsforanstaltninger." Vi da offentliggjort en detaljeret analyse af konkurrencedygtig AI-udvikling, og vi har fulgt nøje med efterfølgende forskning. Samtidig har implementering af AI-systemer via OpenAI API også uddybet vores forståelse af synergierne mellem sikkerhed og nytte.

For eksempel foretrækker udviklere i overvejende grad vores InstructGPT-modeller – som er finjusteret til at følge brugerens intentioner[7]—over basis GPT-3-modellerne. Det er dog bemærkelsesværdigt, at InstructGPT-modellerne ikke oprindeligt var motiveret af kommercielle overvejelser, men snarere var rettet mod at gøre fremskridt på lang sigt tilpasningsproblemer. Rent praktisk betyder det, at kunderne, måske ikke overraskende, meget foretrækker modeller, der forbliver på opgaven og forstår brugerens hensigt, og modeller, der er mindre tilbøjelige til at producere output, der er skadelige eller forkerte.[8] Anden grundforskning, såsom vores arbejde med udnyttelse af information hentet fra internettet for at besvare spørgsmål mere sandfærdigt, har også potentiale til at forbedre den kommercielle anvendelighed af AI-systemer.[9]

Disse synergier vil ikke altid forekomme. For eksempel vil mere kraftfulde systemer ofte tage mere tid til at evaluere og justere effektivt, hvilket udelukker umiddelbare muligheder for profit. Og en brugers og samfundets nytteværdi er muligvis ikke afstemt på grund af negative eksternaliteter – overvej fuldautomatisk tekstforfatning, som kan være gavnligt for indholdsskabere, men dårligt for informationsøkosystemet som helhed.

Det er opmuntrende at se tilfælde af stærk synergi mellem sikkerhed og nytte, men vi er forpligtet til at investere i sikkerhed og politikforskning, selv når de handler med kommerciel nytte.


Vi er forpligtet til at investere i sikkerheds- og politikforskning, selv når de afvejer kommerciel nytte.

Måder at blive involveret på

Hver af lektionerne ovenfor rejser nye spørgsmål. Hvilken slags sikkerhedshændelser kan vi stadig undlade at opdage og forudse? Hvordan kan vi bedre måle risici og påvirkninger? Hvordan kan vi fortsætte med at forbedre både sikkerheden og anvendeligheden af ​​vores modeller og navigere mellem disse to, når de opstår?

Vi diskuterer aktivt mange af disse problemer med andre virksomheder, der implementerer sprogmodeller. Men vi ved også, at ingen organisation eller sæt af organisationer har alle svarene, og vi vil gerne fremhæve flere måder, hvorpå læserne kan blive mere involveret i at forstå og forme vores implementering af avancerede AI-systemer.

For det første er det uvurderligt at få førstehåndserfaring med at interagere med avancerede AI-systemer for at forstå deres muligheder og implikationer. Vi afsluttede for nylig API-ventelisten efter at have opbygget mere tillid til vores evne til effektivt at opdage og reagere på misbrug. Individer i støttede lande og territorier kan hurtigt få adgang til OpenAI API ved at tilmelde dig link..

For det andet kan forskere, der arbejder med emner af særlig interesse for os, såsom bias og misbrug, og som ville drage fordel af økonomisk støtte, ansøge om subsidierede API-kreditter ved hjælp af denne formular. Ekstern forskning er afgørende for at informere både vores forståelse af disse mangefacetterede systemer, såvel som bredere offentlig forståelse.

Endelig udgiver vi i dag en forskningsdagsorden udforskning af arbejdsmarkedspåvirkningerne forbundet med vores Codex-modeller og en opfordring til eksterne samarbejdspartnere til at udføre denne forskning. Vi er glade for at arbejde sammen med uafhængige forskere for at studere virkningerne af vores teknologier for at informere passende politiske interventioner og til sidst udvide vores tænkning fra kodegenerering til andre modaliteter.

Hvis du er interesseret i at arbejde med ansvarlig implementering af avancerede AI-teknologier, ansøge at arbejde hos OpenAI!


Tak

Tak til Lilian Weng, Rosie Campbell, Anna Makanju, Bob McGrew, Hannah Wong, Ryan Lowe, Steve Dowling, Mira Murati, Sam Altman, Greg Brockman, Ilya Sutskever, Percy Liang, Peter Welinder, Ethan Perez, Ellie Evans, Helen Ngo, Helen Toner, Justin Jay Wang, Jack Clark, Rishi Bommasani, Girish Sastry, Sarah Shoker, Matt Knight, Bianca Martin, Bob Rotsted, Lama Ahmad, Toki Sherbakov og andre for at give feedback på dette indlæg og relateret arbejde.


Fodnoter

  1. Dette indlæg er baseret på vores tilgang til implementering af sprogmodeller gennem en API, og som sådan er de beskrevne lektioner og begrænsninger mest relevante for dem, der også forfølger API-baseret implementering. Vi forventer dog også, at noget af diskussionen er relevant for dem, der bygger førstepartsapplikationer ved hjælp af sprogmodeller, og dem, der overvejer frigivelse af open source af sprogmodeller. ↩︎

  2. Dette indlæg har til formål at forklare og dele erfaringer fra vores tilgang, snarere end at foreslå, at alle aktører nødvendigvis bør anvende den samme tilgang, eller at den samme tilgang er anvendelig til alle mulige AI-systemer. Der er fordele og omkostninger forbundet med forskellige implementeringstilgange, forskellige modeller vil drage mere eller mindre gavn af undersøgelser forud for implementeringen, og i nogle tilfælde kan det være værdifuldt, at forskellige aktører følger forskellige implementeringsveje. ↩︎

  3. Flere detaljer om denne workshop vil blive inkluderet i den kommende publikation baseret på den. ↩︎

  4. De begrænsninger, som vi lægger vægt på som reaktion på misbrug, har også udviklet sig. For eksempel fokuserede vi oprindeligt på generering af tekst i lang form som en trusselsvektor, givet tidligere tilfælde af indflydelsesoperationer, der involverede folk manuelt at skrive vildledende indhold i lang form. Med denne vægt sætter vi maksimale outputlængder for genereret tekst. Baseret på en pilotundersøgelse af langformgenerering så vi dog, at outputrestriktioner havde ringe effekt på overtrædelser af politikker – vi er i stedet kommet til at tro, at kortformigt indhold, der forstærker eller øger engagementet i vildledende indhold, kunne være den største risiko. ↩︎

  5. Eksempler på begrænsninger i eksisterende datasæt, set fra praktikere, der søger en holistisk vurdering af sikkerheden ved reelle sprogmodeller, omfatter følgende: et alt for snævert fokus (f.eks. kun måling af erhvervsmæssig kønsbias), et alt for bredt fokus (f.eks. måling af alt under paraplyen "toksicitet"), en tendens til at abstrahere de særlige forhold ved brug og kontekst, en manglende måling af generative dimension af sprogmodelbrug (f.eks. brug af multiple choice-stil), prompter, der stilistisk adskiller sig fra dem, der typisk bruges i rigtige sprogmodelbrugssager, og som ikke fanger sikkerhedsdimensioner, der er vigtige i praksis (f.eks. et output, der følger eller ignorerer en sikkerheds- motiveret begrænsning i instruktionen), eller ikke at fange typer af output, som vi har fundet at være korreleret med misbrug (f.eks. erotisk indhold). ↩︎

  6. Selvom vores indsats er specifikt orienteret mod at adressere begrænsninger i eksisterende benchmarks og i vores egne modeller, anerkender vi også, at der er begrænsninger for de metoder, vi bruger, såsom klassificeringsbaseret datafiltrering. For eksempel er det udfordrende at operationelt definere de indholdsområder, vi sigter efter at detektere via filtrering, og filtrering i sig selv kan introducere skadelige skævheder. Derudover er mærkning af toksiske data en kritisk komponent i dette arbejde, og det er en brancheomspændende udfordring at sikre disse etiketters mentale sundhed. ↩︎

  7. Den relevante "bruger" af vores API kan være en udvikler, der bygger en applikation eller en slutbruger, der interagerer med en sådan applikation, afhængigt af konteksten. Der er dybe spørgsmål om de værdier, som vores tilpassede modeller afspejler, og vi håber at opbygge en mere nuanceret forståelse af, hvordan man kan balancere værdierne for en bred vifte af mulige brugere og konkurrerende mål, når man tilpasser sprogmodeller til at være mere nyttige, mere sandfærdige og mindre skadelige. ↩︎

  8. Mere afstemte modeller har også mere praktiske fordele såsom at reducere behovet for "prompt engineering" (giver eksempler på den ønskede adfærd for at styre modellen i den rigtige retning), hvilket sparer plads i modellens kontekstvindue, som kan bruges til andre formål. ↩︎

  9. Ud over forskning har vi fundet ud af, at andre sikkerhedsmotiverede indgreb nogle gange har uventede fordele for kunderne. For eksempel hjælper takstgrænser, der har til formål at begrænse spam eller vildledende indhold, også kunder med at kontrollere udgifterne. ↩︎

Tidsstempel:

Mere fra OpenAI