Erfaringer om sprogmodelsikkerhed og misbrug

Genudgivet af Platon

Abonnenter: 0

Erfaringer om sprogmodelsikkerhed og misbrug

Implementeringen af kraftfulde AI-systemer har beriget vores forståelse af sikkerhed og misbrug langt mere, end det ville have været muligt gennem forskning alene. Især:

API-baseret sprogmodel misbrug kommer ofte i andre former, end vi frygtede mest.
Vi har identificeret begrænsninger i eksisterende sprogmodelevalueringer, som vi adresserer med nye benchmarks og klassifikatorer.
Grundlæggende sikkerhedsforskning giver betydelige fordele for den kommercielle nytte af AI-systemer.

Her beskriver vi vores seneste tankegang i håbet om at hjælpe andre AI-udviklere med at håndtere sikkerhed og misbrug af installerede modeller.

Ode seneste to år, har vi lært meget om, hvordan sprogmodeller kan bruges og misbruges – indsigter, vi ikke kunne have fået uden erfaringen med implementering i den virkelige verden. I juni 2020 begyndte vi at give adgang til udviklere og forskere til Åbn AI API, en grænseflade til at få adgang til og bygge applikationer oven på nye AI-modeller udviklet af OpenAI. At implementere GPT-3, Codex og andre modeller på en måde, der reducerer risikoen for skade, har givet forskellige tekniske og politiske udfordringer.

Oversigt over vores modelimplementeringstilgang

Store sprogmodeller er nu i stand til at udføre en meget bred vifte af opgaver, ofte ude af kassen. Deres risikoprofiler, potentielle anvendelser og bredere virkninger på samfundet forblive dårligt forstået. Som et resultat heraf lægger vores implementeringstilgang vægt på kontinuerlig iteration og gør brug af følgende strategier, der sigter mod at maksimere fordelene ved implementering og samtidig reducere tilknyttede risici:

Risikoanalyse før implementering, udnyttelse af et voksende sæt sikkerhedsevalueringer og røde teaming-værktøjer (f.eks. tjekkede vi vores InstructGPT for eventuelle sikkerhedsforringelser ved hjælp af evalueringerne diskuteret nedenfor)
Startende med en lille brugerbase (f.eks. både GPT-3 og vores Instruer GPT serie begyndte som private betaversioner)
Undersøgelse af resultaterne af pilotprojekter af nye use cases (f.eks. udforskning af de betingelser, hvorunder vi sikkert kunne muliggøre generering af langformat indhold, arbejde med et lille antal kunder)
Implementering af processer, der hjælper med at holde styr på brugen (f.eks. gennemgang af use cases, token-kvoter og takstgrænser)
Udførelse af detaljerede retrospektive anmeldelser (f.eks. af sikkerhedshændelser og større udrulninger)

Erfaringer om sprogmodelsikkerhed og misbrug

Bemærk, at dette diagram er beregnet til visuelt at formidle behovet for feedback-loops i den kontinuerlige proces med modeludvikling og implementering og det faktum, at sikkerhed skal integreres i hvert trin. Det er ikke beregnet til at formidle et fuldstændigt eller ideelt billede af vores eller nogen anden organisations proces.

Der er ingen sølvkugle til ansvarlig implementering, så vi forsøger at lære om og adressere vores modellers begrænsninger og potentielle muligheder for misbrug på alle trin af udvikling og implementering. Denne tilgang giver os mulighed for at lære så meget, som vi kan, om sikkerheds- og politiske spørgsmål i lille skala og inkorporere disse indsigter, før vi lancerer større udrulninger.

Der er ingen sølvkugle til ansvarlig indsættelse.

Selvom det ikke er udtømmende, omfatter nogle områder, hvor vi hidtil har investeret^[1]:

Fortræning data kurering og filtrering
Finjustering modeller til bedre Følg instruktionerne
Risikoanalyse af potentielle implementeringer
Giver detaljeret bruger dokumentation
Bygning værktøjer at screene skadelige modeloutput
Gennemgang af use cases mod vores politikker
Overvågning for tegn på misbruge
Studere virkningerne af vores modeller

Da hvert trin i interventionen har begrænsninger, er en holistisk tilgang nødvendig.

Der er områder, hvor vi kunne have gjort mere, og hvor vi stadig har plads til forbedringer. For eksempel, da vi først arbejdede på GPT-3, så vi det som en intern forskningsartefakt snarere end et produktionssystem og var ikke så aggressive med at filtrere giftige træningsdata fra, som vi ellers kunne have været. Vi har investeret mere i at undersøge og fjerne sådant materiale til efterfølgende modeller. Vi har taget længere tid at behandle nogle tilfælde af misbrug i tilfælde, hvor vi ikke havde klare politikker om emnet, og er blevet bedre til at gentage disse politikker. Og vi fortsætter med at iterere hen imod en pakke af sikkerhedskrav, der er maksimalt effektive til at håndtere risici, samtidig med at de kommunikeres tydeligt til udviklerne og minimerer overdreven friktion.

Alligevel mener vi, at vores tilgang har gjort os i stand til at måle og reducere forskellige typer skader fra sprogmodelbrug sammenlignet med en mere håndfri tilgang, samtidig med at vi har muliggjort en bred vifte af videnskabelige, kunstneriske og kommercielle anvendelser af vores modeller.^[2]

De mange former og størrelser af sprogmodelmisbrug

OpenAI har været aktiv i at forske i risikoen for AI-misbrug siden vores tidlige arbejde med ondsindet brug af kunstig intelligens i 2018 og på GPT-2 i 2019, og vi har været særligt opmærksomme på AI-systemer, der styrker indflydelsesoperationer. Vi har arbejdet med eksterne eksperter til at udvikle bevis for koncept og forfremmet forsigtig analyse af sådanne risici fra tredjeparter. Vi er fortsat forpligtet til at adressere risici forbundet med sprogmodelaktiverede indflydelsesoperationer, og vi arrangerede for nylig en workshop om emnet.^[3]

Alligevel har vi opdaget og stoppet hundredvis af aktører, der forsøgte at misbruge GPT-3 til en meget bredere række formål end at producere desinformation til indflydelsesoperationer, herunder på måder, som vi enten ikke havde forudset, eller som vi forventede, men ikke forventede at blive så udbredt.^[4] Vores brugscase retningslinjer, retningslinjer for indhold, og intern detektions- og responsinfrastruktur var oprindeligt orienteret mod risici, som vi forventede baseret på intern og ekstern forskning, såsom generering af vildledende politisk indhold med GPT-3 eller generering af malware med Codex. Vores detektions- og reaktionsbestræbelser har udviklet sig over tid som reaktion på virkelige tilfælde af misbrug, der er stødt på "i naturen", som ikke var så fremtrædende som indflydelse på operationer i vores indledende risikovurderinger. Eksempler omfatter spamkampagner for tvivlsomme medicinske produkter og rollespil med racistiske fantasier.

For at understøtte undersøgelsen af sprogmodelmisbrug og afbødning heraf, undersøger vi aktivt mulighederne for at dele statistik om sikkerhedshændelser i år for at konkretisere diskussioner om sprogmodelmisbrug.

Sværhedsgraden ved risiko- og effektmåling

Mange aspekter af sprogmodellers risici og virkninger er stadig svære at måle og derfor svære at overvåge, minimere og afsløre på en ansvarlig måde. Vi har gjort aktiv brug af eksisterende akademiske benchmarks til sprogmodelevaluering og er ivrige efter at fortsætte med at bygge videre på eksternt arbejde, men vi har også fundet ud af, at eksisterende benchmarkdatasæt ofte ikke afspejler de sikkerheds- og misbrugsrisici, vi ser i praksis.^[5]

Sådanne begrænsninger afspejler det faktum, at akademiske datasæt sjældent skabes med det eksplicitte formål at informere produktionsbrug af sprogmodeller, og ikke drager fordel af erfaringerne fra at implementere sådanne modeller i stor skala. Som et resultat heraf har vi udviklet nye evalueringsdatasæt og rammer til måling af sikkerheden af vores modeller, som vi planlægger at frigive snart. Specifikt har vi udviklet nye evalueringsmetrikker til måling af toksicitet i modeloutput og har også udviklet interne klassifikatorer til at detektere indhold, der overtræder vores indholdspolitik, såsom erotisk indhold, hadefulde ytringer, vold, chikane og selvskade. Begge disse er til gengæld også blevet udnyttet til at forbedre vores før-træningsdata^[6]— specifikt ved at bruge klassifikatorerne til at bortfiltrere indhold og evalueringsmetrikkene til at måle effekterne af datasætinterventioner.

Det er vanskeligt at klassificere individuelle modeloutput langs forskellige dimensioner pålideligt, og det er endnu sværere at måle deres sociale indvirkning på OpenAI API'ens skala. Vi har udført flere interne undersøgelser for at opbygge en institutionel muskel til en sådan måling, men disse har ofte rejst flere spørgsmål end svar.

Vi er især interesserede i bedre at forstå den økonomiske effekt af vores modeller og fordelingen af disse påvirkninger. Vi har god grund til at tro, at arbejdsmarkedspåvirkningerne fra implementeringen af nuværende modeller allerede kan være betydelige i absolutte tal, og at de vil vokse i takt med, at vores modellers muligheder og rækkevidde vokser. Vi har til dato lært om en række lokale effekter, herunder massive produktivitetsforbedringer på eksisterende opgaver udført af enkeltpersoner som copywriting og opsummering (nogle gange bidrager til jobfortrængning og -skabelse), såvel som tilfælde, hvor API'en låste op for nye applikationer, der tidligere var uigennemførlige , såsom syntese af storstilet kvalitativ feedback. Men vi mangler en god forståelse af nettoeffekterne.

Vi mener, at det er vigtigt for dem, der udvikler og implementerer kraftfulde AI-teknologier, at tage fat på både de positive og negative virkninger af deres arbejde. Vi diskuterer nogle skridt i den retning i det afsluttende afsnit af dette indlæg.

Forholdet mellem sikkerheden og nytten af AI-systemer

I vores Charter, udgivet i 2018, siger vi, at vi "er bekymrede over, at AGI-udvikling i det sene stadie bliver et konkurrenceløb uden tid til tilstrækkelige sikkerhedsforanstaltninger." Vi da offentliggjort en detaljeret analyse af konkurrencedygtig AI-udvikling, og vi har fulgt nøje med efterfølgende forskning. Samtidig har implementering af AI-systemer via OpenAI API også uddybet vores forståelse af synergierne mellem sikkerhed og nytte.

For eksempel foretrækker udviklere i overvejende grad vores InstructGPT-modeller – som er finjusteret til at følge brugerens intentioner^[7]—over basis GPT-3-modellerne. Det er dog bemærkelsesværdigt, at InstructGPT-modellerne ikke oprindeligt var motiveret af kommercielle overvejelser, men snarere var rettet mod at gøre fremskridt på lang sigt tilpasningsproblemer. Rent praktisk betyder det, at kunderne, måske ikke overraskende, meget foretrækker modeller, der forbliver på opgaven og forstår brugerens hensigt, og modeller, der er mindre tilbøjelige til at producere output, der er skadelige eller forkerte.^[8] Anden grundforskning, såsom vores arbejde med udnyttelse af information hentet fra internettet for at besvare spørgsmål mere sandfærdigt, har også potentiale til at forbedre den kommercielle anvendelighed af AI-systemer.^[9]

Disse synergier vil ikke altid forekomme. For eksempel vil mere kraftfulde systemer ofte tage mere tid til at evaluere og justere effektivt, hvilket udelukker umiddelbare muligheder for profit. Og en brugers og samfundets nytteværdi er muligvis ikke afstemt på grund af negative eksternaliteter – overvej fuldautomatisk tekstforfatning, som kan være gavnligt for indholdsskabere, men dårligt for informationsøkosystemet som helhed.

Det er opmuntrende at se tilfælde af stærk synergi mellem sikkerhed og nytte, men vi er forpligtet til at investere i sikkerhed og politikforskning, selv når de handler med kommerciel nytte.

Vi er forpligtet til at investere i sikkerheds- og politikforskning, selv når de afvejer kommerciel nytte.

Måder at blive involveret på

Hver af lektionerne ovenfor rejser nye spørgsmål. Hvilken slags sikkerhedshændelser kan vi stadig undlade at opdage og forudse? Hvordan kan vi bedre måle risici og påvirkninger? Hvordan kan vi fortsætte med at forbedre både sikkerheden og anvendeligheden af vores modeller og navigere mellem disse to, når de opstår?

Vi diskuterer aktivt mange af disse problemer med andre virksomheder, der implementerer sprogmodeller. Men vi ved også, at ingen organisation eller sæt af organisationer har alle svarene, og vi vil gerne fremhæve flere måder, hvorpå læserne kan blive mere involveret i at forstå og forme vores implementering af avancerede AI-systemer.

For det første er det uvurderligt at få førstehåndserfaring med at interagere med avancerede AI-systemer for at forstå deres muligheder og implikationer. Vi afsluttede for nylig API-ventelisten efter at have opbygget mere tillid til vores evne til effektivt at opdage og reagere på misbrug. Individer i støttede lande og territorier kan hurtigt få adgang til OpenAI API ved at tilmelde dig link..

For det andet kan forskere, der arbejder med emner af særlig interesse for os, såsom bias og misbrug, og som ville drage fordel af økonomisk støtte, ansøge om subsidierede API-kreditter ved hjælp af denne formular. Ekstern forskning er afgørende for at informere både vores forståelse af disse mangefacetterede systemer, såvel som bredere offentlig forståelse.

Endelig udgiver vi i dag en forskningsdagsorden udforskning af arbejdsmarkedspåvirkningerne forbundet med vores Codex-modeller og en opfordring til eksterne samarbejdspartnere til at udføre denne forskning. Vi er glade for at arbejde sammen med uafhængige forskere for at studere virkningerne af vores teknologier for at informere passende politiske interventioner og til sidst udvide vores tænkning fra kodegenerering til andre modaliteter.

Hvis du er interesseret i at arbejde med ansvarlig implementering af avancerede AI-teknologier, ansøge at arbejde hos OpenAI!

Tidsstempel: Marts 3, 2022

Tidsstempel: August 31, 2022

Genudgivet af Platon

Superalignment Fast Grants

Demokratiske input til AI-tilskudsprogram: erfaringer og implementeringsplaner

Nye måder at administrere dine data på i ChatGPT

OpenAI annoncerer nye medlemmer til bestyrelsen

Hvordan skal AI-systemer opføre sig, og hvem skal bestemme?

Lær at spille Minecraft med Video PreTraining (VPT)

At lære modeller at udtrykke deres usikkerhed i ord

DALL·E: Introduktion til udmaling

Om os

Vertikal søgning & Ai

perron

Stay Connected

Konto