Vår inställning till samordningsforskning

Återutgiven av Platon

anhängare: 0

Vår metod för att anpassa AGI är empirisk och iterativ. Vi förbättrar våra AI-systems förmåga att lära av mänsklig feedback och att hjälpa människor att utvärdera AI. Vårt mål är att bygga ett tillräckligt anpassat AI-system som kan hjälpa oss att lösa alla andra inriktningsproblem.

Vår anpassningsforskning syftar till att göra artificiell allmän intelligens (AGI) anpassad till mänskliga värderingar och följa mänskliga avsikter. Vi tar ett iterativt, empiriskt tillvägagångssätt: genom att försöka anpassa högkapabla AI-system kan vi lära oss vad som fungerar och vad som inte fungerar, och på så sätt förfina vår förmåga att göra AI-system säkrare och mer anpassade. Med hjälp av vetenskapliga experiment studerar vi hur inriktningstekniker skalar och var de kommer att gå sönder.

Vi tar itu med anpassningsproblem både i våra mest kapabla AI-system såväl som anpassningsproblem som vi förväntar oss att stöta på på vår väg till AGI. Vårt huvudsakliga mål är att driva nuvarande anpassningsidéer så långt som möjligt, och att förstå och dokumentera exakt hur de kan lyckas eller varför de kommer att misslyckas. Vi tror att även utan fundamentalt nya anpassningsidéer kan vi sannolikt bygga tillräckligt anpassade AI-system för att avsevärt främja själva anpassningsforskningen.

Ojusterat AGI kan utgöra betydande risker för mänskligheten och att lösa AGI-anpassningsproblemet kan vara så svårt att det kommer att kräva att hela mänskligheten arbetar tillsammans. Därför är vi fast beslutna att öppet dela vår anpassningsforskning när det är säkert att göra det: Vi vill vara transparenta om hur väl våra anpassningstekniker faktiskt fungerar i praktiken och vi vill att alla AGI-utvecklare ska använda världens bästa anpassningstekniker.

På en hög nivå fokuserar vårt tillvägagångssätt för anpassningsforskning på att konstruera en skalbar träningssignal för mycket smarta AI-system som är anpassade till mänskliga avsikter. Den har tre huvudpelare:

Utbildning av AI-system med hjälp av mänsklig feedback
Utbildning av AI-system för att underlätta mänsklig utvärdering
Utbilda AI-system för att göra anpassningsforskning

Att anpassa AI-system till mänskliga värderingar innebär också en rad andra betydande sociotekniska utmaningar, som att bestämma till vem dessa system ska anpassas. Att lösa dessa problem är viktigt att uppnå vårt uppdrag, men vi diskuterar dem inte i det här inlägget.

Utbildning av AI-system med hjälp av mänsklig feedback

RL från mänsklig feedback är vår huvudsakliga teknik för att anpassa våra utplacerade språkmodeller idag. Vi tränar en klass av modeller som kallas Instruera GPT härledda från förtränade språkmodeller som GPT-3. Dessa modeller är tränade för att följa mänskliga avsikter: både explicita avsikter som ges av en instruktion såväl som implicita avsikter som sanning, rättvisa och säkerhet.

Våra resultat visar att det finns mycket lågt hängande frukt på inriktningsfokuserad finjustering just nu: InstructGPT föredras av människor framför en 100 gånger större förtränad modell, medan dess finjustering kostar <2 % av GPT-3:s förträningsberäkning och cirka 20,000 XNUMX timmars mänsklig feedback. Vi hoppas att vårt arbete inspirerar andra i branschen att öka sina investeringar i anpassning av stora språkmodeller och att det höjer ribban för användarnas förväntningar på säkerheten hos utplacerade modeller.

Vårt naturliga språk API är en mycket användbar miljö för vår anpassningsforskning: Den ger oss en rik återkopplingsslinga om hur väl våra anpassningstekniker faktiskt fungerar i den verkliga världen, grundad i en mycket mångsidig uppsättning uppgifter som våra kunder är villiga att betala pengar för. I genomsnitt föredrar våra kunder redan att använda InstructGPT framför våra förtränade modeller.

Ändå är dagens versioner av InstructGPT det ganska långt ifrån helt i linje: de misslyckas ibland med att följa enkla instruktioner, är inte alltid sanningsenliga, vägrar inte tillförlitligt skadliga uppgifter och ger ibland partiska eller giftiga svar. Vissa kunder tycker att InstructGPTs svar är betydligt mindre kreativa än de förtränade modellernas, något vi inte hade insett från att köra InstructGPT på allmänt tillgängliga riktmärken. Vi arbetar också med att utveckla en mer detaljerad vetenskaplig förståelse av RL från mänsklig feedback och hur man kan förbättra kvaliteten på mänsklig feedback.

Att anpassa vårt API är mycket enklare än att anpassa AGI eftersom de flesta uppgifter på vårt API inte är särskilt svåra för människor att övervaka och våra utplacerade språkmodeller inte är smartare än människor. Vi förväntar oss inte att RL från mänsklig feedback räcker för att anpassa AGI, men det är en central byggsten för de skalbara anpassningsförslagen som vi är mest exalterade över, och därför är det värdefullt att fullända denna metod.

Utbildningsmodeller för att underlätta mänsklig utvärdering

RL från mänsklig feedback har en grundläggande begränsning: den förutsätter att människor exakt kan utvärdera de uppgifter som våra AI-system gör. Idag är människor ganska bra på detta, men när modellerna blir mer kapabla kommer de att kunna utföra uppgifter som är mycket svårare för människor att utvärdera (t.ex. att hitta alla brister i en stor kodbas eller en vetenskaplig artikel). Våra modeller kan lära sig att berätta för våra mänskliga utvärderare vad de vill höra istället för att berätta sanningen för dem. För att skala anpassning vill vi använda tekniker som rekursiv belöningsmodellering (RRM), diskussionoch itererad förstärkning.

För närvarande är vår huvudinriktning baserad på RRM: vi tränar modeller som kan hjälpa människor att utvärdera våra modeller på uppgifter som är för svåra för människor att utvärdera direkt. Till exempel:

Vi utbildade en modell till sammanfatta böcker. Att utvärdera boksammanfattningar tar lång tid för människor om de inte är bekanta med boken, men vår modell kan hjälpa människans utvärdering genom att skriva kapitelsammanfattningar.
Vi utbildade en modell till hjälpa människor att utvärdera den faktiska riktigheten genom att surfa på webben och ge offerter och länkar. På enkla frågor är denna modells utdata redan att föredra framför svar skrivna av människor.
Vi utbildade en modell till skriva kritiska kommentarer om sina egna resultat: På en frågebaserad sammanfattningsuppgift ökar hjälp med kritiska kommentarer de brister som människor hittar i modellutdata med i genomsnitt 50 %. Detta gäller även om vi ber människor att skriva rimliga men felaktiga sammanfattningar.
Vi skapar en uppsättning kodningsuppgifter som är utvalda för att vara mycket svåra att utvärdera på ett tillförlitligt sätt för människor utan hjälp. Vi hoppas kunna släppa denna datamängd snart.

Våra inriktningstekniker måste fungera även om våra AI-system föreslår väldigt kreativa lösningar (som AlphaGos drag 37), därför är vi särskilt intresserade av att träna modeller för att hjälpa människor att skilja korrekta från vilseledande eller vilseledande lösningar. Vi tror att det bästa sättet att lära sig så mycket som möjligt om hur man får AI-assisterad utvärdering att fungera i praktiken är att bygga AI-assistenter.

Utbilda AI-system för att göra anpassningsforskning

Det finns för närvarande ingen känd på obestämd tid skalbar lösning på anpassningsproblemet. När AI-utvecklingen fortsätter förväntar vi oss att stöta på ett antal nya inriktningsproblem som vi ännu inte observerar i nuvarande system. Vissa av dessa problem förutser vi nu och några av dem kommer att vara helt nya.

Vi tror att det sannolikt är mycket svårt att hitta en skalbar lösning på obestämd tid. Istället siktar vi på ett mer pragmatiskt tillvägagångssätt: att bygga och anpassa ett system som kan göra snabbare och bättre framsteg inom anpassningsforskningen än vad människor kan.

När vi gör framsteg på detta kan våra AI-system ta över mer och mer av vårt anpassningsarbete och i slutändan utforma, implementera, studera och utveckla bättre anpassningstekniker än vi har nu. De kommer att arbeta tillsammans med människor för att säkerställa att deras egna efterträdare är mer i linje med människor.

Vi tror att det är betydligt enklare att utvärdera anpassningsforskning än att producera den, särskilt när det ges hjälp med utvärdering. Därför kommer mänskliga forskare att fokusera mer och mer av sin ansträngning på att granska anpassningsforskning gjord av AI-system istället för att generera denna forskning själva. Vårt mål är att träna modeller så att de blir så anpassade att vi kan avlasta nästan allt kognitiva arbete som krävs för anpassningsforskning.

Viktigt är att vi bara behöver "smalare" AI-system som har kapacitet på mänsklig nivå i de relevanta domänerna för att göra lika bra som människor på anpassningsforskning. Vi förväntar oss att dessa AI-system är lättare att anpassa än generella system eller system som är mycket smartare än människor.

Språkmodeller är särskilt väl lämpade för att automatisera anpassningsforskning eftersom de kommer "förladdade" med mycket kunskap och information om mänskliga värden från att läsa internet. Utanför boxen är de inte oberoende agenter och strävar därför inte efter sina egna mål i världen. För att göra anpassningsforskning behöver de inte obegränsad tillgång till internet. Ändå kan många anpassningsforskningsuppgifter formuleras som naturligt språk eller kodningsuppgifter.

Framtida versioner av WebGPT, Instruera GPToch Codex kan ge en grund som forskningsassistenter för inriktning, men de är inte tillräckligt kapabla ännu. Även om vi inte vet när våra modeller kommer att vara kapabla nog att på ett meningsfullt sätt bidra till anpassningsforskning, tycker vi att det är viktigt att komma igång i förväg. När vi har tränat en modell som kan vara användbar planerar vi att göra den tillgänglig för den externa anpassningsforskaren.

Begränsningar

Vi är mycket glada över detta tillvägagångssätt för att anpassa AGI, men vi förväntar oss att det behöver anpassas och förbättras när vi lär oss mer om hur AI-tekniken utvecklas. Vårt tillvägagångssätt har också ett antal viktiga begränsningar:

Vägen som anges här understryker vikten av forskning om robusthet och tolkning, två områden som OpenAI för närvarande är underinvesterade i. Om detta passar din profil, vänligen ansök till våra forskartjänster!
Att använda AI-hjälp för utvärdering har potential att skala upp eller förstärka även subtila inkonsekvenser, fördomar eller sårbarheter som finns i AI-assistenten.
Att anpassa AGI innebär sannolikt att lösa helt andra problem än att anpassa dagens AI-system. Vi förväntar oss att övergången kommer att vara något kontinuerlig, men om det finns stora diskontinuiteter eller paradigmskiften, kanske de flesta lärdomar från att anpassa modeller som InstructGPT inte är direkt användbara.
De svåraste delarna av anpassningsproblemet är kanske inte relaterade till att konstruera en skalbar och anpassad träningssignal för våra AI-system. Även om detta är sant kommer en sådan träningssignal att vara nödvändig.
Det kanske inte är fundamentalt lättare att anpassa modeller som på ett meningsfullt sätt kan påskynda anpassningsforskningen än att anpassa AGI. Med andra ord kan de minst kapabla modellerna som kan hjälpa till med anpassningsforskning redan vara för farliga om de inte är korrekt anpassade. Om detta är sant kommer vi inte att få mycket hjälp av våra egna system för att lösa uppriktningsproblem.

Vi vill anställa fler begåvade personer för denna forskning! Om detta intresserar dig anställer vi Forskningsingenjörer och Forskningsforskare!

Tidsstämpel: Augusti 24, 2022Augusti 24, 2022

ChatGPT-plugins

Källkluster:

OpenAI

Källnod: 1817781

Tidsstämpel: Mar 23, 2023

Vårt förhållningssätt till anpassningsforskning

Återutgiven av Platon

Utbildning av AI-system med hjälp av mänsklig feedback

Utbildningsmodeller för att underlätta mänsklig utvärdering

Utbilda AI-system för att göra anpassningsforskning

Begränsningar

Mer från OpenAI

Vi tar med Financial Times journalistik i världsklass till ChatGPT

Vi presenterar OpenAI London

Använder GPT-4 för innehållsmoderering

Vi presenterar Whisper

DALL·E nu tillgänglig utan väntelista

Vi presenterar ChatGPT Team

Funktionsanrop och andra API-uppdateringar

OpenAI tillkännager ledarskapsövergång

Språkmodeller kan förklara neuroner i språkmodeller

ChatGPT-plugins

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto

Beskrivning

Utbildning av AI-system med hjälp av mänsklig feedback

Utbildningsmodeller för att underlätta mänsklig utvärdering

Utbilda AI-system för att göra anpassningsforskning

Begränsningar

Mer från OpenAI

Om Oss

Vertikal sökning och Ai

plattform

Håll kontakten

Konto