Vår tilnærming til alignment research PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Vår tilnærming til alignment research

Vår tilnærming til å samkjøre AGI er empirisk og iterativ. Vi forbedrer AI-systemenes evne til å lære av menneskelig tilbakemelding og hjelpe mennesker med å evaluere AI. Målet vårt er å bygge et tilstrekkelig justert AI-system som kan hjelpe oss med å løse alle andre innrettingsproblemer.

Introduksjon

Vår innrettingsforskning har som mål å gjøre kunstig generell intelligens (AGI) på linje med menneskelige verdier og følge menneskelig hensikt. Vi tar en iterativ, empirisk tilnærming: ved å forsøke å samkjøre AI-systemer med høy kompetanse, kan vi lære hva som fungerer og hva som ikke fungerer, og dermed avgrense vår evne til å gjøre AI-systemer tryggere og mer justert. Ved hjelp av vitenskapelige eksperimenter studerer vi hvordan justeringsteknikker skalerer og hvor de vil bryte.

Vi takler innrettingsproblemer både i våre mest kapable AI-systemer, så vel som innrettingsproblemer som vi forventer å møte på vår vei til AGI. Vårt hovedmål er å presse aktuelle tilpasningsideer så langt som mulig, og å forstå og dokumentere nøyaktig hvordan de kan lykkes eller hvorfor de vil mislykkes. Vi tror at selv uten fundamentalt nye tilpasningsideer, kan vi sannsynligvis bygge tilstrekkelig justerte AI-systemer til å fremme selve innrettingsforskningen betydelig.

Ujustert AGI kan utgjøre betydelig risiko for menneskeheten og å løse AGI-tilpasningsproblemet kan være så vanskelig at det vil kreve at hele menneskeheten jobber sammen. Derfor er vi forpliktet til åpent å dele vår alignment-forskning når det er trygt å gjøre det: Vi ønsker å være transparente om hvor godt alignment-teknikkene våre faktisk fungerer i praksis, og vi vil at alle AGI-utviklere skal bruke verdens beste alignment-teknikker.

På et høyt nivå fokuserer vår tilnærming til innrettingsforskning på å konstruere et skalerbart treningssignal for svært smarte AI-systemer som er på linje med menneskelig hensikt. Den har tre hovedpilarer:

  1. Trening av AI-systemer ved hjelp av menneskelig tilbakemelding
  2. Trening av AI-systemer for å hjelpe menneskelig evaluering
  3. Opplæring av AI-systemer for å gjøre justeringer

Å tilpasse AI-systemer med menneskelige verdier utgjør også en rekke andre betydelige sosiotekniske utfordringer, for eksempel å bestemme hvem disse systemene skal tilpasses. Å løse disse problemene er viktig for å oppnå vårt oppdrag, men vi diskuterer dem ikke i dette innlegget.


Trening av AI-systemer ved hjelp av menneskelig tilbakemelding

RL fra menneskelig tilbakemelding er vår hovedteknikk for å samkjøre våre utplasserte språkmodeller i dag. Vi trener en klasse med modeller kalt InstruerGPT avledet fra ferdigtrente språkmodeller som GPT-3. Disse modellene er opplært til å følge menneskelig hensikt: både eksplisitt hensikt gitt av en instruksjon, så vel som implisitt hensikt som sannhet, rettferdighet og sikkerhet.

Resultatene våre viser at det er mye lavthengende frukt på justeringsfokusert finjustering akkurat nå: InstructGPT foretrekkes av mennesker fremfor en 100 ganger større forhåndstrent modell, mens finjusteringen koster <2 % av GPT-3s forhåndstreningsberegning og rundt 20,000 XNUMX timer med menneskelig tilbakemelding. Vi håper at arbeidet vårt inspirerer andre i bransjen til å øke investeringene sine i justering av store språkmodeller, og at det hever standarden for brukernes forventninger til sikkerheten til utplasserte modeller.

Vårt naturlige språk API er et veldig nyttig miljø for vår alignment-forskning: Det gir oss en rik tilbakemeldingssløyfe om hvor godt alignment-teknikkene våre faktisk fungerer i den virkelige verden, basert på et svært mangfoldig sett med oppgaver som våre kunder er villige til å betale penger for. I gjennomsnitt foretrekker kundene våre allerede å bruke InstructGPT fremfor våre forhåndstrente modeller.

Men dagens versjoner av InstructGPT er det ganske langt fra helt på linje: noen ganger unnlater de å følge enkle instruksjoner, er ikke alltid sannferdige, nekter ikke pålitelig skadelige oppgaver og gir noen ganger partiske eller giftige svar. Noen kunder synes svarene til InstructGPT er betydelig mindre kreative enn de forhåndstrente modellenes, noe vi ikke hadde skjønt fra å kjøre InstructGPT på offentlig tilgjengelige benchmarks. Vi jobber også med å utvikle en mer detaljert vitenskapelig forståelse av RL fra menneskelig tilbakemelding og hvordan man kan forbedre kvaliteten på menneskelig tilbakemelding.

Å justere API-en vår er mye enklere enn å justere AGI, siden de fleste oppgavene på API-en vår ikke er veldig vanskelige for mennesker å overvåke, og språkmodellene våre er ikke smartere enn mennesker. Vi forventer ikke at RL fra menneskelig tilbakemelding er tilstrekkelig til å justere AGI, men det er en kjernebyggestein for de skalerbare justeringsforslagene som vi er mest begeistret for, og derfor er det verdifullt å perfeksjonere denne metodikken.


Treningsmodeller for å hjelpe menneskelig evaluering

RL fra menneskelig tilbakemelding har en grunnleggende begrensning: den antar at mennesker nøyaktig kan evaluere oppgavene våre AI-systemer gjør. I dag er mennesker ganske gode på dette, men etter hvert som modellene blir dyktigere, vil de kunne utføre oppgaver som er mye vanskeligere for mennesker å evaluere (f.eks. finne alle feilene i en stor kodebase eller en vitenskapelig artikkel). Modellene våre kan lære å fortelle våre menneskelige evaluatorer hva de vil høre i stedet for å fortelle dem sannheten. For å skalere justering ønsker vi å bruke teknikker som rekursiv belønningsmodellering (RRM), debattog iterert forsterkning.

For øyeblikket er hovedretningen vår basert på RRM: vi trener modeller som kan hjelpe mennesker med å evaluere modellene våre på oppgaver som er for vanskelige for mennesker å evaluere direkte. For eksempel:

  • Vi trente en modell til oppsummere bøker. Evaluering av boksammendrag tar lang tid for mennesker hvis de ikke er kjent med boken, men vår modell kan hjelpe menneskelig evaluering ved å skrive kapittelsammendrag.
  • Vi trente en modell til hjelpe mennesker med å vurdere den faktiske nøyaktigheten ved å surfe på nettet og gi sitater og lenker. På enkle spørsmål er denne modellens utdata allerede foretrukket fremfor svar skrevet av mennesker.
  • Vi trente en modell til skrive kritiske kommentarer til sine egne resultater: På en spørringsbasert oppsummeringsoppgave øker hjelp med kritiske kommentarer feilene mennesker finner i modellutdata med 50 % i gjennomsnitt. Dette gjelder selv om vi ber mennesker om å skrive plausible, men feilaktige sammendrag.
  • Vi lager et sett med kodeoppgaver som er valgt for å være svært vanskelige å evaluere pålitelig for mennesker uten hjelp. Vi håper å frigi dette datasettet snart.

Justeringsteknikkene våre må fungere selv om AI-systemene våre foreslår veldig kreative løsninger (som AlphaGos trekk 37), og derfor er vi spesielt interessert i å trene modeller for å hjelpe mennesker til å skille riktige fra villedende eller villedende løsninger. Vi tror den beste måten å lære så mye som mulig om hvordan man kan få AI-assistert evaluering til å fungere i praksis, er å bygge AI-assistenter.


Opplæring av AI-systemer for å gjøre justeringer

Det er foreløpig ingen kjent skalerbar løsning på justeringen på ubestemt tid. Ettersom AI-fremgangen fortsetter, forventer vi å støte på en rekke nye innrettingsproblemer som vi ennå ikke observerer i dagens systemer. Noen av disse problemene forventer vi nå, og noen av dem vil være helt nye.

Vi tror at det sannsynligvis er svært vanskelig å finne en skalerbar løsning på ubestemt tid. I stedet tar vi sikte på en mer pragmatisk tilnærming: å bygge og innrette et system som kan gjøre raskere og bedre fremskritt i samordningsforskningen enn mennesker kan.

Etter hvert som vi gjør fremskritt på dette, kan AI-systemene våre ta over mer og mer av innrettingsarbeidet vårt og til slutt tenke, implementere, studere og utvikle bedre innrettingsteknikker enn vi har nå. De vil jobbe sammen med mennesker for å sikre at deres egne etterfølgere er mer på linje med mennesker.

Vi tror at det er vesentlig enklere å evaluere alignmentforskning enn å produsere den, spesielt når den får evalueringshjelp. Derfor vil menneskelige forskere fokusere mer og mer av sin innsats på å gjennomgå alignment-forskning utført av AI-systemer i stedet for å generere denne forskningen selv. Målet vårt er å trene modeller til å være så samkjørte at vi kan avlaste nesten all kognitiv arbeidskraft som kreves for alignmentforskning.

Viktigere, vi trenger bare «smalere» AI-systemer som har evner på menneskelig nivå i de relevante domenene for å gjøre det like bra som mennesker på alignment-forskning. Vi forventer at disse AI-systemene er lettere å justere enn generelle systemer eller systemer som er mye smartere enn mennesker.

Språkmodeller er spesielt godt egnet for å automatisere tilpasningsforskning fordi de kommer "forhåndslastet" med mye kunnskap og informasjon om menneskelige verdier fra lesing på internett. Ut av boksen er de ikke uavhengige agenter og forfølger derfor ikke sine egne mål i verden. For å gjøre alignment research trenger de ikke ubegrenset tilgang til internett. Likevel kan mange alignmentforskningsoppgaver formuleres som naturlig språk eller kodeoppgaver.

Fremtidige versjoner av WebGPT, InstruerGPTog Codex kan gi et grunnlag som forskningsassistenter for alignment, men de er ikke tilstrekkelig dyktige ennå. Selv om vi ikke vet når modellene våre vil være i stand nok til å bidra meningsfullt til samordningsforskning, tror vi det er viktig å komme i gang på forhånd. Når vi har lært opp en modell som kan være nyttig, planlegger vi å gjøre den tilgjengelig for det eksterne forskningsmiljøet.


Begrensninger

Vi er veldig begeistret for denne tilnærmingen til å samkjøre AGI, men vi forventer at den må tilpasses og forbedres etter hvert som vi lærer mer om hvordan AI-teknologi utvikler seg. Vår tilnærming har også en rekke viktige begrensninger:

  • Veien som er lagt ut her understreker viktigheten av forskning på robusthet og tolkning, to områder som OpenAI for tiden er underinvestert i. Hvis dette passer din profil, vennligst søk på våre forskerstillinger!
  • Bruk av AI-assistanse for evaluering har potensial til å skalere opp eller forsterke selv subtile inkonsekvenser, skjevheter eller sårbarheter som finnes i AI-assistenten.
  • Å justere AGI innebærer sannsynligvis å løse helt andre problemer enn å justere dagens AI-systemer. Vi forventer at overgangen vil være noe kontinuerlig, men hvis det er store diskontinuiteter eller paradigmeskifter, kan det hende at de fleste lærdommene fra å samkjøre modeller som InstructGPT ikke er direkte nyttige.
  • De vanskeligste delene av innrettingsproblemet er kanskje ikke relatert til å konstruere et skalerbart og justert treningssignal for våre AI-systemer. Selv om dette stemmer, vil et slikt treningssignal være nødvendig.
  • Det er kanskje ikke fundamentalt enklere å samkjøre modeller som kan akselerere forskning på en meningsfull måte enn det er å samkjøre AGI. Med andre ord, de minst kapable modellene som kan hjelpe med justering av forskning kan allerede være for farlige hvis de ikke er riktig justert. Hvis dette stemmer, vil vi ikke få mye hjelp fra våre egne systemer for å løse innrettingsproblemer.

Vi ser etter å ansette flere dyktige folk til denne forskningslinjen! Hvis dette interesserer deg, ansetter vi Forskningsingeniører og Forskere!

Tidstempel:

Mer fra OpenAI