Lærdom om språkmodellsikkerhet og misbruk av PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Leksjoner om språkmodellsikkerhet og feilbruk

Leksjoner om språkmodellsikkerhet og feilbruk

Utplasseringen av kraftige AI-systemer har beriket vår forståelse av sikkerhet og misbruk langt mer enn det som ville vært mulig gjennom forskning alene. Spesielt:

  • API-basert språkmodellmisbruk kommer ofte i andre former enn vi fryktet mest.
  • Vi har identifisert begrensninger i eksisterende språkmodellevalueringer som vi adresserer med nye benchmarks og klassifiserere.
  • Grunnleggende sikkerhetsforskning gir betydelige fordeler for den kommersielle nytten av AI-systemer.

Her beskriver vi vår siste tankegang i håp om å hjelpe andre AI-utviklere med å takle sikkerhet og misbruk av utplasserte modeller.


Ode siste to årene, har vi lært mye om hvordan språkmodeller kan brukes og misbrukes – innsikt vi ikke kunne ha fått uten erfaringen med implementering i den virkelige verden. I juni 2020 begynte vi å gi tilgang til utviklere og forskere til Åpne AI API, et grensesnitt for å få tilgang til og bygge applikasjoner på toppen av nye AI-modeller utviklet av OpenAI. Utplassering av GPT-3, Codex og andre modeller på en måte som reduserer risikoen for skade har medført ulike tekniske og politiske utfordringer.

Oversikt over vår modellimplementeringsmetode

Store språkmodeller er nå i stand til å utføre en svært bredt spekter av oppgaver, ofte ut av esken. Deres risikoprofiler, potensielle anvendelser og bredere effekter på samfunnet forbli dårlig forstås. Som et resultat av dette legger vår tilnærming til distribusjon vekt på kontinuerlig iterasjon, og bruker følgende strategier som tar sikte på å maksimere fordelene ved utrulling og samtidig redusere tilknyttede risikoer:

  • Risikoanalyse før distribusjon, utnyttelse av et voksende sett med sikkerhetsevalueringer og røde teamverktøy (f.eks. sjekket vi InstructGPT for eventuelle sikkerhetsforringelser ved å bruke evalueringene diskutert nedenfor)
  • Starter med en liten brukerbase (f.eks. både GPT-3 og vår InstruerGPT serien begynte som private betaer)
  • Studerer resultatene av pilotprosjekter av nye brukssaker (f.eks. å utforske forholdene under hvilke vi trygt kunne muliggjøre langformat innholdsgenerering, arbeid med et lite antall kunder)
  • Implementering av prosesser som bidrar til å holde pulsen på bruken (f.eks. gjennomgang av brukstilfeller, tokenkvoter og takstgrenser)
  • Gjennomføre detaljerte retrospektive vurderinger (f.eks. av sikkerhetshendelser og større utplasseringer)
Leksjoner om språkmodellsikkerhet og feilbruk


Merk at dette diagrammet er ment å visuelt formidle behovet for tilbakemeldingssløyfer i den kontinuerlige prosessen med modellutvikling og distribusjon og det faktum at sikkerhet må integreres i hvert trinn. Det er ikke ment å formidle et fullstendig eller ideelt bilde av vår eller noen annen organisasjons prosess.

Det er ingen sølvkule for ansvarlig distribusjon, så vi prøver å lære om og adressere modellenes begrensninger, og potensielle veier for misbruk, på alle stadier av utvikling og distribusjon. Denne tilnærmingen lar oss lære så mye vi kan om sikkerhets- og policyspørsmål i liten skala og innlemme denne innsikten før vi lanserer større distribusjoner.


Det er ingen sølvkule for ansvarlig utplassering.

Selv om det ikke er uttømmende, inkluderer noen områder vi har investert så langt[1]:

Siden hvert trinn i intervensjonen har begrensninger, er en helhetlig tilnærming nødvendig.

Det er områder hvor vi kunne ha gjort mer og hvor vi fortsatt har rom for forbedring. For eksempel, da vi først jobbet med GPT-3, så vi på det som en intern forskningsartefakt snarere enn et produksjonssystem og var ikke så aggressive i å filtrere ut giftige treningsdata som vi ellers kunne ha vært. Vi har investert mer i å undersøke og fjerne slikt materiale for påfølgende modeller. Vi har brukt lengre tid på å løse noen tilfeller av misbruk i tilfeller der vi ikke hadde klare retningslinjer om emnet, og har blitt flinkere til å gjenta disse retningslinjene. Og vi fortsetter å iterere mot en pakke med sikkerhetskrav som er maksimalt effektive når det gjelder å håndtere risikoer, samtidig som det kommuniseres tydelig til utviklere og minimerer overdreven friksjon.

Likevel tror vi at vår tilnærming har gjort oss i stand til å måle og redusere ulike typer skader fra språkmodellbruk sammenlignet med en mer praktisk tilnærming, samtidig som vi har muliggjort et bredt spekter av vitenskapelige, kunstneriske og kommersielle anvendelser av våre modeller.[2]

De mange formene og størrelsene på språkmodellmisbruk

OpenAI har vært aktiv i å forske på risikoen for AI-misbruk siden vårt tidlige arbeid med ondsinnet bruk av AI i 2018 og på GPT-2 i 2019, og vi har lagt særlig vekt på AI-systemer som styrker påvirkningsoperasjoner. Vi har jobbet med eksterne eksperter til å utvikle proofs of concept og forfremmet forsiktig analyse av slike risikoer fra tredjeparter. Vi er fortsatt forpliktet til å adressere risikoer knyttet til språkmodellaktiverte påvirkningsoperasjoner og arrangerte nylig en workshop om emnet.[3]

Likevel har vi oppdaget og stoppet hundrevis av aktører som forsøkte å misbruke GPT-3 til et mye bredere spekter av formål enn å produsere desinformasjon for påvirkningsoperasjoner, inkludert på måter vi enten ikke forutså eller som vi forventet, men ikke forventet å bli. så utbredt.[4] Vår bruk case retningslinjer, retningslinjer for innhold, og intern deteksjons- og responsinfrastruktur var opprinnelig orientert mot risikoer som vi forutså basert på intern og ekstern forskning, for eksempel generering av villedende politisk innhold med GPT-3 eller generering av malware med Codex. Våre oppdagelses- og responsinnsats har utviklet seg over tid som svar på reelle tilfeller av misbruk som er oppstått «i naturen» som ikke var like fremtredende som påvirket operasjoner i våre første risikovurderinger. Eksempler inkluderer spam-kampanjer for tvilsomme medisinske produkter og rollespill av rasistiske fantasier.

For å støtte studiet av språkmodellmisbruk og bekjempelse av dette, utforsker vi aktivt mulighetene for å dele statistikk om sikkerhetshendelser i år, for å konkretisere diskusjoner om språkmodellmisbruk.

Vanskeligheten med risiko- og effektmåling

Mange aspekter ved språkmodellers risiko og påvirkning er fortsatt vanskelig å måle og derfor vanskelig å overvåke, minimere og avsløre på en ansvarlig måte. Vi har aktivt brukt eksisterende akademiske målestokker for evaluering av språkmodeller og er ivrige etter å bygge videre på eksternt arbeid, men vi har også funnet ut at eksisterende referansedatasett ofte ikke reflekterer sikkerhets- og misbruksrisikoen vi ser i praksis.[5]

Slike begrensninger gjenspeiler det faktum at akademiske datasett sjelden lages med det eksplisitte formål å informere produksjonsbruk av språkmodeller, og ikke drar nytte av erfaringene fra å distribuere slike modeller i stor skala. Som et resultat av dette har vi utviklet nye evalueringsdatasett og rammeverk for å måle sikkerheten til modellene våre, som vi planlegger å lansere snart. Spesifikt har vi utviklet nye evalueringsmålinger for måling av toksisitet i modellutdata, og vi har også utviklet interne klassifiserere for å oppdage innhold som bryter med våre innholdspolitikk, for eksempel erotisk innhold, hatytringer, vold, trakassering og selvskading. Begge disse har i sin tur også blitt utnyttet for å forbedre før-treningsdataene våre[6]– spesifikt ved å bruke klassifikatorene til å filtrere ut innhold og evalueringsverdiene for å måle effekten av datasettintervensjoner.

Det er vanskelig å pålitelig klassifisere individuelle modellutdata langs ulike dimensjoner, og det er enda vanskeligere å måle deres sosiale innvirkning på skalaen til OpenAI API. Vi har gjennomført flere interne studier for å bygge en institusjonell muskel for slik måling, men disse har ofte reist flere spørsmål enn svar.

Vi er spesielt interessert i å bedre forstå den økonomiske effekten av modellene våre og fordelingen av disse effektene. Vi har god grunn til å tro at arbeidsmarkedspåvirkningene fra implementeringen av gjeldende modeller allerede kan være betydelige i absolutte termer, og at de vil vokse etter hvert som mulighetene og rekkevidden til modellene våre vokser. Vi har lært om en rekke lokale effekter til dags dato, inkludert massive produktivitetsforbedringer på eksisterende oppgaver utført av enkeltpersoner som copywriting og oppsummering (noen ganger bidrar til jobbforskyvning og opprettelse), samt tilfeller der API låste opp nye applikasjoner som tidligere var umulige å gjennomføre , som for eksempel syntese av storskala kvalitativ tilbakemelding. Men vi mangler en god forståelse av nettoeffektene.

Vi mener at det er viktig for de som utvikler og distribuerer kraftige AI-teknologier å ta tak i både de positive og negative effektene av arbeidet sitt direkte. Vi diskuterer noen skritt i den retningen i den avsluttende delen av dette innlegget.

Forholdet mellom sikkerheten og nytten til AI-systemer

I vår Charter, publisert i 2018, sier vi at vi "er bekymret for at AGI-utvikling på sent stadium blir et konkurranseløp uten tid til tilstrekkelige sikkerhetstiltak." Vi da publisert en detaljert analyse av konkurransedyktig AI-utvikling, og vi har fulgt nøye med senere undersøkelser. Samtidig har distribusjon av AI-systemer via OpenAI API også utdypet vår forståelse av synergiene mellom sikkerhet og nytte.

For eksempel foretrekker utviklere i overveldende grad våre InstructGPT-modeller – som er finjustert for å følge brukerens intensjoner[7]— over basis GPT-3-modellene. Spesielt var imidlertid InstructGPT-modellene opprinnelig ikke motivert av kommersielle hensyn, men snarere rettet mot å gjøre fremskritt på lang sikt innrettingsproblemer. Rent praktisk betyr dette at kunder, kanskje ikke overraskende, mye foretrekker modeller som holder seg på oppgaven og forstår brukerens hensikt, og modeller som er mindre sannsynlig å produsere utganger som er skadelige eller feilaktige.[8] Annen grunnforskning, som vårt arbeid med utnytte informasjon hentet fra Internett for å svare mer sannferdig på spørsmål, har også potensial til å forbedre den kommersielle nytten av AI-systemer.[9]

Disse synergiene vil ikke alltid oppstå. For eksempel vil kraftigere systemer ofte ta mer tid til å evaluere og justere effektivt, og utelukke umiddelbare muligheter for profitt. Og det kan hende at en brukers nytte og samfunnets nytte ikke stemmer overens på grunn av negative eksternaliteter – vurder helautomatisert copywriting, som kan være fordelaktig for innholdsskapere, men dårlig for informasjonsøkosystemet som helhet.

Det er oppmuntrende å se tilfeller av sterk synergi mellom sikkerhet og nytte, men vi er forpliktet til å investere i sikkerhet og policyforskning selv når de bytter med kommersiell nytte.


Vi er forpliktet til å investere i sikkerhet og policyforskning selv når de avveier kommersiell nytte.

Måter å engasjere seg på

Hver av leksjonene ovenfor reiser nye spørsmål. Hva slags sikkerhetshendelser kan vi fortsatt unnlate å oppdage og forutse? Hvordan kan vi bedre måle risiko og påvirkning? Hvordan kan vi fortsette å forbedre både sikkerheten og nytten til modellene våre, og navigere i avveininger mellom disse to når de oppstår?

Vi diskuterer aktivt mange av disse problemene med andre selskaper som implementerer språkmodeller. Men vi vet også at ingen organisasjoner eller sett med organisasjoner har alle svarene, og vi vil gjerne fremheve flere måter leserne kan bli mer involvert i å forstå og forme vår distribusjon av toppmoderne AI-systemer.

For det første er det uvurderlig å få førstehåndserfaring med å samhandle med toppmoderne AI-systemer for å forstå deres evner og implikasjoner. Vi avsluttet nylig API-ventelisten etter å ha bygget mer tillit til vår evne til effektivt å oppdage og reagere på misbruk. Enkeltpersoner i støttede land og territorier kan raskt få tilgang til OpenAI API ved å registrere deg her..

For det andre kan forskere som jobber med temaer av spesiell interesse for oss, som skjevhet og misbruk, og som vil dra nytte av økonomisk støtte, søke om subsidierte API-kreditter ved å bruke dette skjemaet. Ekstern forskning er avgjørende for å informere både vår forståelse av disse mangefasetterte systemene, så vel som bredere offentlig forståelse.

Endelig publiserer vi i dag en forskningsagenda utforske arbeidsmarkedspåvirkningene knyttet til vår Codex-familie av modeller, og en oppfordring til eksterne samarbeidspartnere for å utføre denne forskningen. Vi er glade for å jobbe med uavhengige forskere for å studere effektene av teknologiene våre for å informere om passende politiske intervensjoner, og til slutt utvide tankegangen vår fra kodegenerering til andre modaliteter.

Hvis du er interessert i å jobbe med ansvarlig distribusjon av banebrytende AI-teknologier, søke om å jobbe hos OpenAI!


Erkjennelsene

Takk til Lilian Weng, Rosie Campbell, Anna Makanju, Bob McGrew, Hannah Wong, Ryan Lowe, Steve Dowling, Mira Murati, Sam Altman, Greg Brockman, Ilya Sutskever, Percy Liang, Peter Welinder, Ethan Perez, Ellie Evans, Helen Ngo, Helen Toner, Justin Jay Wang, Jack Clark, Rishi Bommasani, Girish Sastry, Sarah Shoker, Matt Knight, Bianca Martin, Bob Rotsted, Lama Ahmad, Toki Sherbakov og andre for å gi tilbakemelding på dette innlegget og relatert arbeid.


Fotnoter

  1. Dette innlegget er basert på vår tilnærming til å distribuere språkmodeller gjennom en API, og som sådan er leksjonene og begrensningene som er beskrevet mest relevante for de som også driver med API-basert distribusjon. Vi forventer imidlertid også at noe av diskusjonen er relevant for de som bygger førstepartsapplikasjoner ved bruk av språkmodeller og de som vurderer frigjøring av språkmodeller med åpen kildekode. ↩︎

  2. Dette innlegget er ment å forklare og dele erfaringer fra vår tilnærming, i stedet for å foreslå at alle aktører nødvendigvis bør ta i bruk samme tilnærming, eller at den samme tilnærmingen kan brukes for alle mulige AI-systemer. Det er fordeler og kostnader forbundet med ulike distribusjonstilnærminger, ulike modeller vil ha mer eller mindre nytte av studier før utplassering, og i noen tilfeller kan det være verdifullt for forskjellige utplasseringsveier å følges av ulike aktører. ↩︎

  3. Flere detaljer om denne workshopen vil bli inkludert i den kommende publikasjonen basert på den. ↩︎

  4. Begrensningene som vi legger vekt på som svar på misbruk har også utviklet seg. For eksempel fokuserte vi i utgangspunktet på generering av langformig tekst som en trusselvektor, gitt tidligere tilfeller av påvirkningsoperasjoner som involverte folk manuelt å skrive langformig villedende innhold. Gitt denne vektleggingen, setter vi maksimale utdatalengder for generert tekst. Basert på en pilotstudie av langformgenerering, så vi imidlertid at produksjonsbegrensninger hadde liten effekt på brudd på retningslinjene – vi har i stedet kommet til å tro at kortformatinnhold som forsterker eller øker engasjementet for villedende innhold kan være den største risikoen. ↩︎

  5. Eksempler på begrensninger i eksisterende datasett, fra perspektivet til utøvere som søker en helhetlig vurdering av sikkerheten til utdata fra ekte språkmodeller, inkluderer følgende: et altfor snevert fokus (f.eks. bare måling av yrkesmessig kjønnsskjevhet), et altfor bredt fokus (f.eks. å måle alt under paraplyen "toksisitet"), en tendens til å abstrahere bort spesifikke bruk og kontekst, en unnlatelse av å måle generative dimensjon ved bruk av språkmodeller (f.eks. bruk av flervalgsstil), spørsmål som stilistisk skiller seg fra de som vanligvis brukes i brukssaker for ekte språkmodeller, og fanger ikke sikkerhetsdimensjoner som er viktige i praksis (f.eks. en utgang som følger eller ignorerer en sikkerhets- motivert begrensning i instruksjonen), eller ikke fange opp typer utdata vi har funnet å være korrelert med misbruk (f.eks. erotisk innhold). ↩︎

  6. Mens vår innsats er spesifikt rettet mot å adressere begrensninger i eksisterende benchmarks og i våre egne modeller, erkjenner vi også at det er begrensninger for metodene vi bruker, for eksempel klassifiseringsbasert datafiltrering. For eksempel er det utfordrende å operativt definere innholdsområdene vi ønsker å oppdage via filtrering, og filtrering i seg selv kan introdusere skadelige skjevheter. I tillegg er merking av giftige data en kritisk komponent i dette arbeidet, og å sikre den mentale helsen til disse merkemaskinene er en bransjeomfattende utfordring. ↩︎

  7. Den relevante "brukeren" av API-en vår kan være en utvikler som bygger en applikasjon eller en sluttbruker som samhandler med en slik applikasjon, avhengig av kontekst. Det er dype spørsmål om verdiene våre justerte modeller reflekterer, og vi håper å bygge en mer nyansert forståelse av hvordan man kan balansere verdiene til et bredt spekter av mulige brukere og konkurrerende mål når man justerer språkmodeller for å være mer nyttige, mer sannferdige og mindre skadelige. ↩︎

  8. Mer justerte modeller har også mer praktiske fordeler som å redusere behovet for "prompt engineering" (gi eksempler på ønsket oppførsel for å styre modellen i riktig retning), og sparer plass i modellens kontekstvindu som kan brukes til andre formål. ↩︎

  9. Utover forskning har vi funnet at andre sikkerhetsmotiverte intervensjoner noen ganger har uventede fordeler for kundene. For eksempel hjelper takstgrenser ment å dempe spam eller villedende innhold også kundene med å kontrollere utgiftene. ↩︎

Tidstempel:

Mer fra OpenAI