Sammanfatta böcker med mänsklig feedback PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Sammanfatta böcker med mänsklig feedback

Läs papperBläddra bland prover

Sammanfatta böcker med mänsklig feedback

To säkert distribuera kraftfull artificiell intelligens för allmänt bruk i framtiden måste vi se till att maskininlärningsmodeller agerar i enlighet med mänskliga avsikter. Denna utmaning har blivit känd som justeringsproblem.

En skalbar lösning på anpassningsproblemet måste fungera på uppgifter där modellutdata är svåra eller tidskrävande för människor att utvärdera. För att testa skalbara anpassningstekniker tränade vi en modell för att sammanfatta hela böcker, som visas i följande exempel.[1] Vår modell fungerar genom att först sammanfatta små delar av en bok, sedan sammanfatta dessa sammanfattningar till en sammanfattning på högre nivå, och så vidare.

Utforska fler prover

Vår bästa modell är finjusterad från GPT-3 och genererar vettiga sammanfattningar av hela böcker, som ibland till och med matchar den genomsnittliga kvaliteten på sammanfattningar som är skrivna av människor: den uppnår ett betyg på 6/7 (liknande den genomsnittliga sammanfattningen som är skriven av människor) från människor som har läst boken 5% av gångerna och 5/7 betyg 15% av gångerna. Vår modell uppnår också toppmoderna resultat på BookSum dataset för en sammanfattning av bokens längd. En frågesvarsmodell med noll skott kan använda vår modells sammanfattningar för att få konkurrenskraftiga resultat på NarrativeQA dataset för att svara på frågor i boklängd.[2]

Vårt tillvägagångssätt: Att kombinera förstärkningsinlärning från mänsklig feedback och rekursiv uppgiftsupplösning

Överväg uppgiften att sammanfatta ett stycke text. Stor förtränade modeller är inte särskilt bra på att sammanfatta. Tidigare hittade vi att träna en modell med förstärkande lärande från mänsklig feedback hjälpte till att anpassa modellsammanfattningar till mänskliga preferenser i korta inlägg och artiklar. Men att bedöma sammanfattningar av hela böcker kräver mycket ansträngning att göra direkt eftersom en människa skulle behöva läsa hela boken, vilket tar många timmar.

För att lösa detta problem använder vi oss dessutom av rekursiv uppgiftsupplösning: vi delar upp en svår uppgift procedurmässigt i enklare. I det här fallet delar vi upp en sammanfattning av ett långt stycke text till att sammanfatta flera kortare stycken. Jämfört med en end-to-end-utbildningsprocedur har rekursiv uppgiftsupplösning följande fördelar:

  1. Nedbrytning gör att människor kan utvärdera modellsammanfattningar snabbare genom att använda sammanfattningar av mindre delar av boken snarare än att läsa källtexten.
  2. Det är lättare att spåra sammanfattning-skrivprocessen. Du kan till exempel spåra för att hitta var i originaltexten vissa händelser från sammanfattningen inträffar. Se själv på vår sammanfattningsutforskare!
  3. Vår metod kan användas för att sammanfatta böcker med obegränsad längd, obegränsad av kontextlängden för transformatormodellerna vi använder.

Varför vi arbetar med detta

Thans arbetet är en del av vårt pågående forskning till att anpassa avancerade AI-system, vilket är nyckeln till vårt uppdrag. När vi tränar våra modeller för att utföra allt mer komplexa uppgifter kommer det att bli allt svårare för människor att göra välgrundade utvärderingar av modellernas resultat. Detta gör det svårare att upptäcka subtila problem i modellutdata som kan leda till negativa konsekvenser när dessa modeller används. Därför vill vi att vår förmåga att utvärdera våra modeller ökar när deras förmåga ökar.

Vår nuvarande inställning till detta problem är att ge människor möjlighet att utvärdera maskininlärningsmodeller med hjälp av andra modeller. I det här fallet, för att utvärdera boksammanfattningar, ger vi människor individuella kapitelsammanfattningar skrivna av vår modell, vilket sparar tid när de utvärderar dessa sammanfattningar i förhållande till att läsa källtexten. Våra framsteg när det gäller boksammanfattning är det första storskaliga empiriska arbetet med skalningsanpassningstekniker.

Framöver undersöker vi bättre sätt att hjälpa människor att utvärdera modellbeteende, med målet att hitta tekniker som kan skalas för att anpassa artificiell allmän intelligens.

Vi letar alltid efter fler begåvade personer som vill gå med oss; så om detta arbete intresserar dig, snälla ansöka om att bli medlem i vårt team!


Erkännanden

Vi skulle vilja tacka våra medförfattare till tidningen: Long Ouyang, Daniel Ziegler, Nisan Stiennon och Paul Christiano.

Tack till följande för feedback på denna release: Steve Dowling, Hannah Wong, Miles Brundage, Gretchen Krueger, Ilya Sutskever och Sam Altman.


Designa
Justin Jay Wang


Bokomslagskonstverk


fotnoter

  1. Dessa prover valdes från verk i allmängods, och är en del av GPT-3:s förträningsdata. För att kontrollera för denna effekt, och rent för forskningsändamål, vår papper utvärderar sammanfattningar av böcker som modellen aldrig sett förut. ↩︎

  2. Vi har ändrat vårt ursprungliga påstående om resultat på NarrativeQA efter att ha blivit medvetna om tidigare arbete med bättre resultat än vårt. ↩︎

Tidsstämpel:

Mer från OpenAI