Leksjoner om språkmodellsikkerhet og feilbruk

Publisert av Platon

Følgere: 0

Leksjoner om språkmodellsikkerhet og feilbruk

Utplasseringen av kraftige AI-systemer har beriket vår forståelse av sikkerhet og misbruk langt mer enn det som ville vært mulig gjennom forskning alene. Spesielt:

API-basert språkmodellmisbruk kommer ofte i andre former enn vi fryktet mest.
Vi har identifisert begrensninger i eksisterende språkmodellevalueringer som vi adresserer med nye benchmarks og klassifiserere.
Grunnleggende sikkerhetsforskning gir betydelige fordeler for den kommersielle nytten av AI-systemer.

Her beskriver vi vår siste tankegang i håp om å hjelpe andre AI-utviklere med å takle sikkerhet og misbruk av utplasserte modeller.

Ode siste to årene, har vi lært mye om hvordan språkmodeller kan brukes og misbrukes – innsikt vi ikke kunne ha fått uten erfaringen med implementering i den virkelige verden. I juni 2020 begynte vi å gi tilgang til utviklere og forskere til Åpne AI API, et grensesnitt for å få tilgang til og bygge applikasjoner på toppen av nye AI-modeller utviklet av OpenAI. Utplassering av GPT-3, Codex og andre modeller på en måte som reduserer risikoen for skade har medført ulike tekniske og politiske utfordringer.

Oversikt over vår modellimplementeringsmetode

Store språkmodeller er nå i stand til å utføre en svært bredt spekter av oppgaver, ofte ut av esken. Deres risikoprofiler, potensielle anvendelser og bredere effekter på samfunnet forbli dårlig forstås. Som et resultat av dette legger vår tilnærming til distribusjon vekt på kontinuerlig iterasjon, og bruker følgende strategier som tar sikte på å maksimere fordelene ved utrulling og samtidig redusere tilknyttede risikoer:

Risikoanalyse før distribusjon, utnyttelse av et voksende sett med sikkerhetsevalueringer og røde teamverktøy (f.eks. sjekket vi InstructGPT for eventuelle sikkerhetsforringelser ved å bruke evalueringene diskutert nedenfor)
Starter med en liten brukerbase (f.eks. både GPT-3 og vår InstruerGPT serien begynte som private betaer)
Studerer resultatene av pilotprosjekter av nye brukssaker (f.eks. å utforske forholdene under hvilke vi trygt kunne muliggjøre langformat innholdsgenerering, arbeid med et lite antall kunder)
Implementering av prosesser som bidrar til å holde pulsen på bruken (f.eks. gjennomgang av brukstilfeller, tokenkvoter og takstgrenser)
Gjennomføre detaljerte retrospektive vurderinger (f.eks. av sikkerhetshendelser og større utplasseringer)

Leksjoner om språkmodellsikkerhet og feilbruk

Merk at dette diagrammet er ment å visuelt formidle behovet for tilbakemeldingssløyfer i den kontinuerlige prosessen med modellutvikling og distribusjon og det faktum at sikkerhet må integreres i hvert trinn. Det er ikke ment å formidle et fullstendig eller ideelt bilde av vår eller noen annen organisasjons prosess.

Det er ingen sølvkule for ansvarlig distribusjon, så vi prøver å lære om og adressere modellenes begrensninger, og potensielle veier for misbruk, på alle stadier av utvikling og distribusjon. Denne tilnærmingen lar oss lære så mye vi kan om sikkerhets- og policyspørsmål i liten skala og innlemme denne innsikten før vi lanserer større distribusjoner.

Det er ingen sølvkule for ansvarlig utplassering.

Selv om det ikke er uttømmende, inkluderer noen områder vi har investert så langt^[1]:

Førtrening dato kurering og filtrering
Finjustering modeller til bedre Følg instruksjonene
Risikoanalyse av potensielle distribusjoner
Gir detaljert bruker dokumentasjon
Bygning verktøy for å skjerme skadelige modellutganger
Gjennomgang av brukssaker mot vår Politikk
Overvåking for tegn på misbruk
Studere virkningene av våre modeller

Siden hvert trinn i intervensjonen har begrensninger, er en helhetlig tilnærming nødvendig.

Det er områder hvor vi kunne ha gjort mer og hvor vi fortsatt har rom for forbedring. For eksempel, da vi først jobbet med GPT-3, så vi på det som en intern forskningsartefakt snarere enn et produksjonssystem og var ikke så aggressive i å filtrere ut giftige treningsdata som vi ellers kunne ha vært. Vi har investert mer i å undersøke og fjerne slikt materiale for påfølgende modeller. Vi har brukt lengre tid på å løse noen tilfeller av misbruk i tilfeller der vi ikke hadde klare retningslinjer om emnet, og har blitt flinkere til å gjenta disse retningslinjene. Og vi fortsetter å iterere mot en pakke med sikkerhetskrav som er maksimalt effektive når det gjelder å håndtere risikoer, samtidig som det kommuniseres tydelig til utviklere og minimerer overdreven friksjon.

Likevel tror vi at vår tilnærming har gjort oss i stand til å måle og redusere ulike typer skader fra språkmodellbruk sammenlignet med en mer praktisk tilnærming, samtidig som vi har muliggjort et bredt spekter av vitenskapelige, kunstneriske og kommersielle anvendelser av våre modeller.^[2]

De mange formene og størrelsene på språkmodellmisbruk

OpenAI har vært aktiv i å forske på risikoen for AI-misbruk siden vårt tidlige arbeid med ondsinnet bruk av AI i 2018 og på GPT-2 i 2019, og vi har lagt særlig vekt på AI-systemer som styrker påvirkningsoperasjoner. Vi har jobbet med eksterne eksperter til å utvikle proofs of concept og forfremmet forsiktig analyse av slike risikoer fra tredjeparter. Vi er fortsatt forpliktet til å adressere risikoer knyttet til språkmodellaktiverte påvirkningsoperasjoner og arrangerte nylig en workshop om emnet.^[3]

Likevel har vi oppdaget og stoppet hundrevis av aktører som forsøkte å misbruke GPT-3 til et mye bredere spekter av formål enn å produsere desinformasjon for påvirkningsoperasjoner, inkludert på måter vi enten ikke forutså eller som vi forventet, men ikke forventet å bli. så utbredt.^[4] Vår bruk case retningslinjer, retningslinjer for innhold, og intern deteksjons- og responsinfrastruktur var opprinnelig orientert mot risikoer som vi forutså basert på intern og ekstern forskning, for eksempel generering av villedende politisk innhold med GPT-3 eller generering av malware med Codex. Våre oppdagelses- og responsinnsats har utviklet seg over tid som svar på reelle tilfeller av misbruk som er oppstått «i naturen» som ikke var like fremtredende som påvirket operasjoner i våre første risikovurderinger. Eksempler inkluderer spam-kampanjer for tvilsomme medisinske produkter og rollespill av rasistiske fantasier.

For å støtte studiet av språkmodellmisbruk og bekjempelse av dette, utforsker vi aktivt mulighetene for å dele statistikk om sikkerhetshendelser i år, for å konkretisere diskusjoner om språkmodellmisbruk.

Vanskeligheten med risiko- og effektmåling

Mange aspekter ved språkmodellers risiko og påvirkning er fortsatt vanskelig å måle og derfor vanskelig å overvåke, minimere og avsløre på en ansvarlig måte. Vi har aktivt brukt eksisterende akademiske målestokker for evaluering av språkmodeller og er ivrige etter å bygge videre på eksternt arbeid, men vi har også funnet ut at eksisterende referansedatasett ofte ikke reflekterer sikkerhets- og misbruksrisikoen vi ser i praksis.^[5]

Slike begrensninger gjenspeiler det faktum at akademiske datasett sjelden lages med det eksplisitte formål å informere produksjonsbruk av språkmodeller, og ikke drar nytte av erfaringene fra å distribuere slike modeller i stor skala. Som et resultat av dette har vi utviklet nye evalueringsdatasett og rammeverk for å måle sikkerheten til modellene våre, som vi planlegger å lansere snart. Spesifikt har vi utviklet nye evalueringsmålinger for måling av toksisitet i modellutdata, og vi har også utviklet interne klassifiserere for å oppdage innhold som bryter med våre innholdspolitikk, for eksempel erotisk innhold, hatytringer, vold, trakassering og selvskading. Begge disse har i sin tur også blitt utnyttet for å forbedre før-treningsdataene våre^[6]– spesifikt ved å bruke klassifikatorene til å filtrere ut innhold og evalueringsverdiene for å måle effekten av datasettintervensjoner.

Det er vanskelig å pålitelig klassifisere individuelle modellutdata langs ulike dimensjoner, og det er enda vanskeligere å måle deres sosiale innvirkning på skalaen til OpenAI API. Vi har gjennomført flere interne studier for å bygge en institusjonell muskel for slik måling, men disse har ofte reist flere spørsmål enn svar.

Vi er spesielt interessert i å bedre forstå den økonomiske effekten av modellene våre og fordelingen av disse effektene. Vi har god grunn til å tro at arbeidsmarkedspåvirkningene fra implementeringen av gjeldende modeller allerede kan være betydelige i absolutte termer, og at de vil vokse etter hvert som mulighetene og rekkevidden til modellene våre vokser. Vi har lært om en rekke lokale effekter til dags dato, inkludert massive produktivitetsforbedringer på eksisterende oppgaver utført av enkeltpersoner som copywriting og oppsummering (noen ganger bidrar til jobbforskyvning og opprettelse), samt tilfeller der API låste opp nye applikasjoner som tidligere var umulige å gjennomføre , som for eksempel syntese av storskala kvalitativ tilbakemelding. Men vi mangler en god forståelse av nettoeffektene.

Vi mener at det er viktig for de som utvikler og distribuerer kraftige AI-teknologier å ta tak i både de positive og negative effektene av arbeidet sitt direkte. Vi diskuterer noen skritt i den retningen i den avsluttende delen av dette innlegget.

Forholdet mellom sikkerheten og nytten til AI-systemer

I vår Charter, publisert i 2018, sier vi at vi "er bekymret for at AGI-utvikling på sent stadium blir et konkurranseløp uten tid til tilstrekkelige sikkerhetstiltak." Vi da publisert en detaljert analyse av konkurransedyktig AI-utvikling, og vi har fulgt nøye med senere undersøkelser. Samtidig har distribusjon av AI-systemer via OpenAI API også utdypet vår forståelse av synergiene mellom sikkerhet og nytte.

For eksempel foretrekker utviklere i overveldende grad våre InstructGPT-modeller – som er finjustert for å følge brukerens intensjoner^[7]— over basis GPT-3-modellene. Spesielt var imidlertid InstructGPT-modellene opprinnelig ikke motivert av kommersielle hensyn, men snarere rettet mot å gjøre fremskritt på lang sikt innrettingsproblemer. Rent praktisk betyr dette at kunder, kanskje ikke overraskende, mye foretrekker modeller som holder seg på oppgaven og forstår brukerens hensikt, og modeller som er mindre sannsynlig å produsere utganger som er skadelige eller feilaktige.^[8] Annen grunnforskning, som vårt arbeid med utnytte informasjon hentet fra Internett for å svare mer sannferdig på spørsmål, har også potensial til å forbedre den kommersielle nytten av AI-systemer.^[9]

Disse synergiene vil ikke alltid oppstå. For eksempel vil kraftigere systemer ofte ta mer tid til å evaluere og justere effektivt, og utelukke umiddelbare muligheter for profitt. Og det kan hende at en brukers nytte og samfunnets nytte ikke stemmer overens på grunn av negative eksternaliteter – vurder helautomatisert copywriting, som kan være fordelaktig for innholdsskapere, men dårlig for informasjonsøkosystemet som helhet.

Det er oppmuntrende å se tilfeller av sterk synergi mellom sikkerhet og nytte, men vi er forpliktet til å investere i sikkerhet og policyforskning selv når de bytter med kommersiell nytte.

Vi er forpliktet til å investere i sikkerhet og policyforskning selv når de avveier kommersiell nytte.

Måter å engasjere seg på

Hver av leksjonene ovenfor reiser nye spørsmål. Hva slags sikkerhetshendelser kan vi fortsatt unnlate å oppdage og forutse? Hvordan kan vi bedre måle risiko og påvirkning? Hvordan kan vi fortsette å forbedre både sikkerheten og nytten til modellene våre, og navigere i avveininger mellom disse to når de oppstår?

Vi diskuterer aktivt mange av disse problemene med andre selskaper som implementerer språkmodeller. Men vi vet også at ingen organisasjoner eller sett med organisasjoner har alle svarene, og vi vil gjerne fremheve flere måter leserne kan bli mer involvert i å forstå og forme vår distribusjon av toppmoderne AI-systemer.

For det første er det uvurderlig å få førstehåndserfaring med å samhandle med toppmoderne AI-systemer for å forstå deres evner og implikasjoner. Vi avsluttet nylig API-ventelisten etter å ha bygget mer tillit til vår evne til effektivt å oppdage og reagere på misbruk. Enkeltpersoner i støttede land og territorier kan raskt få tilgang til OpenAI API ved å registrere deg her..

For det andre kan forskere som jobber med temaer av spesiell interesse for oss, som skjevhet og misbruk, og som vil dra nytte av økonomisk støtte, søke om subsidierte API-kreditter ved å bruke dette skjemaet. Ekstern forskning er avgjørende for å informere både vår forståelse av disse mangefasetterte systemene, så vel som bredere offentlig forståelse.

Endelig publiserer vi i dag en forskningsagenda utforske arbeidsmarkedspåvirkningene knyttet til vår Codex-familie av modeller, og en oppfordring til eksterne samarbeidspartnere for å utføre denne forskningen. Vi er glade for å jobbe med uavhengige forskere for å studere effektene av teknologiene våre for å informere om passende politiske intervensjoner, og til slutt utvide tankegangen vår fra kodegenerering til andre modaliteter.

Hvis du er interessert i å jobbe med ansvarlig distribusjon av banebrytende AI-teknologier, søke om å jobbe hos OpenAI!

Tidstempel: Mars 3, 2022

Tidstempel: August 31, 2022

Publisert av Platon

Superalignment Fast Grants

Demokratiske innspill til AI-stipendprogram: erfaringer og implementeringsplaner

Nye måter å administrere dataene dine i ChatGPT

OpenAI kunngjør nye medlemmer til styret

Hvordan skal AI-systemer oppføre seg, og hvem skal bestemme?

Lær å spille Minecraft med Video PreTraining (VPT)

Lære modeller å uttrykke sin usikkerhet i ord

DALL·E: Introduserer Outpainting

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn