การสรุปหนังสือด้วย Human Feedback PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

การสรุปหนังสือด้วยคำติชมของมนุษย์

อ่านกระดาษเรียกดูตัวอย่าง

การสรุปหนังสือด้วยคำติชมของมนุษย์

To อย่างปลอดภัย ปรับใช้ปัญญาประดิษฐ์เอนกประสงค์ที่ทรงพลังในอนาคต เราต้องแน่ใจว่าโมเดลการเรียนรู้ของเครื่องจะปฏิบัติตามความตั้งใจของมนุษย์ ความท้าทายนี้กลายเป็นที่รู้จักในนาม ปัญหาการจัดตำแหน่ง.

โซลูชันที่ปรับขนาดได้สำหรับปัญหาการจัดตำแหน่งต้องทำงานที่ผลลัพธ์ของแบบจำลองยากหรือใช้เวลานานสำหรับมนุษย์ในการประเมิน เพื่อทดสอบเทคนิคการจัดตำแหน่งที่ปรับขนาดได้ เราได้ฝึกแบบจำลองเพื่อสรุปหนังสือทั้งเล่ม ดังแสดงในตัวอย่างต่อไปนี้[1] โมเดลของเราทำงานโดยการสรุปส่วนเล็กๆ ของหนังสือก่อน จากนั้นจึงสรุปผลสรุปเหล่านั้นเป็นสรุประดับที่สูงกว่า และอื่นๆ

สำรวจตัวอย่างเพิ่มเติม

โมเดลที่ดีที่สุดของเราได้รับการปรับแต่งอย่างละเอียดจาก GPT-3 และสร้างบทสรุปที่สมเหตุสมผลของหนังสือทั้งเล่ม บางครั้งถึงกับตรงกับคุณภาพโดยเฉลี่ยของบทสรุปที่เขียนโดยมนุษย์ โดยได้คะแนน 6/7 (คล้ายกับการสรุปโดยมนุษย์โดยเฉลี่ย) จากมนุษย์ ที่ได้อ่านหนังสือ 5% ของเวลาและ 5/7 เรตติ้ง 15% ของเวลา โมเดลของเรายังบรรลุผลลัพธ์ที่ล้ำสมัยบน ชุดข้อมูล BookSum สำหรับการสรุปความยาวหนังสือ โมเดลการตอบคำถามแบบ Zero-shot สามารถใช้บทสรุปของแบบจำลองของเราเพื่อให้ได้ผลลัพธ์การแข่งขันบน ชุดข้อมูล NarrativeQA สำหรับการตอบคำถามความยาวหนังสือ[2]

แนวทางของเรา: การรวมการเรียนรู้การเสริมแรงจากคำติชมของมนุษย์และการสลายตัวของงานแบบเรียกซ้ำ

พิจารณางานของการสรุปข้อความ ใหญ่ โมเดลที่ฝึกไว้ล่วงหน้าไม่ค่อยดีในการสรุป. ในอดีตเราพบว่าการฝึกโมเดลด้วย การเรียนรู้การเสริมแรงจากคำติชมของมนุษย์ ช่วยจัดข้อมูลสรุปแบบจำลองให้สอดคล้องกับความชอบของมนุษย์ในโพสต์และบทความสั้นๆ แต่การสรุปผลการตัดสินหนังสือทั้งเล่มต้องใช้ความพยายามอย่างมากในการดำเนินการโดยตรง เนื่องจากมนุษย์จะต้องอ่านหนังสือทั้งเล่ม ซึ่งใช้เวลาหลายชั่วโมง

เพื่อแก้ไขปัญหานี้ เรายังใช้ประโยชน์จาก การสลายตัวของงานแบบเรียกซ้ำ: เราแบ่งงานที่ยากออกเป็นขั้นตอนที่ง่ายกว่า ในกรณีนี้ เราจะแยกการสรุปข้อความยาวๆ ออกเป็นสรุปส่วนที่สั้นกว่าหลายๆ ส่วน เมื่อเทียบกับขั้นตอนการฝึกอบรมตั้งแต่ต้นจนจบ การแบ่งงานแบบเรียกซ้ำมีข้อดีดังต่อไปนี้:

  1. การสลายตัวทำให้มนุษย์สามารถประเมินผลสรุปแบบจำลองได้รวดเร็วขึ้นโดยใช้การสรุปส่วนเล็กๆ ของหนังสือ แทนที่จะอ่านข้อความต้นฉบับ
  2. ง่ายต่อการติดตามกระบวนการเขียนสรุป ตัวอย่างเช่น คุณสามารถติดตามเพื่อค้นหาว่าเหตุการณ์บางอย่างจากการสรุปเกิดขึ้นที่ใดในข้อความต้นฉบับ ดูเอาเองได้ที่ นักสำรวจสรุปของเรา!
  3. วิธีการของเราสามารถใช้เพื่อสรุปหนังสือที่มีความยาวไม่จำกัด ไม่จำกัดความยาวตามบริบทของรุ่นหม้อแปลงที่เราใช้

ทำไมเราถึงทำงานเกี่ยวกับเรื่องนี้

Tของเขา งานเป็นส่วนหนึ่งของเรา ต่อเนื่อง การวิจัย สู่การปรับระบบ AI ขั้นสูงซึ่งเป็นกุญแจสำคัญในการ ภารกิจของเรา. เมื่อเราฝึกแบบจำลองของเราเพื่อทำงานที่ซับซ้อนมากขึ้น การประเมินอย่างมีข้อมูลสำหรับผลลัพธ์ของแบบจำลองจะกลายเป็นเรื่องยากขึ้นสำหรับมนุษย์ ซึ่งทำให้ยากต่อการตรวจจับปัญหาที่ละเอียดอ่อนในผลลัพธ์ของแบบจำลองที่อาจนำไปสู่ผลกระทบด้านลบเมื่อมีการปรับใช้แบบจำลองเหล่านี้ ดังนั้นเราจึงต้องการให้ความสามารถของเราในการประเมินแบบจำลองของเราเพิ่มขึ้นตามความสามารถที่เพิ่มขึ้น

แนวทางปัจจุบันของเราในการแก้ไขปัญหานี้คือ ให้อำนาจมนุษย์ประเมินผลลัพธ์ของโมเดลการเรียนรู้ของเครื่องโดยใช้ความช่วยเหลือจากโมเดลอื่น. ในกรณีนี้ ในการประเมินบทสรุปของหนังสือ เราให้อำนาจมนุษย์ด้วยบทสรุปแต่ละบทที่เขียนโดยแบบจำลองของเรา ซึ่งช่วยประหยัดเวลาในการประเมินบทสรุปเหล่านี้เมื่อเทียบกับการอ่านข้อความต้นฉบับ ความก้าวหน้าของเราในการสรุปหนังสือเป็นงานเชิงประจักษ์ขนาดใหญ่ชิ้นแรกเกี่ยวกับเทคนิคการจัดแนวมาตราส่วน

ในอนาคต เรากำลังค้นคว้าวิธีที่ดีกว่าในการช่วยเหลือมนุษย์ในการประเมินพฤติกรรมของแบบจำลอง โดยมีเป้าหมายในการค้นหาเทคนิคที่ปรับขนาดให้สอดคล้องกับปัญญาประดิษฐ์ทั่วไป

เรามองหาคนที่มีความสามารถมากกว่ามาร่วมงานกับเราอยู่เสมอ ดังนั้นหากงานนี้สนใจคุณ ได้โปรด สมัครร่วมทีมกับเรา!


กิตติกรรมประกาศ

เราขอขอบคุณผู้ร่วมเขียนบทความของเรา ได้แก่ Long Ouyang, Daniel Ziegler, Nisan Stiennon และ Paul Christiano

ขอขอบคุณสำหรับความคิดเห็นเกี่ยวกับรุ่นนี้: Steve Dowling, Hannah Wong, Miles Brundage, Gretchen Krueger, Ilya Sutskever และ Sam Altman


ออกแบบ
จัสติน เจ หวาง


งานปกหนังสือ


เชิงอรรถ

  1. ตัวอย่างเหล่านี้ได้รับการคัดเลือกจากผลงานใน โดเมนสาธารณะและเป็นส่วนหนึ่งของข้อมูลการฝึกสอนของ GPT-3 เพื่อควบคุมผลกระทบนี้และเพื่อวัตถุประสงค์ในการวิจัยเท่านั้น กระดาษ ประเมินบทสรุปของหนังสือที่แบบจำลองไม่เคยเห็นมาก่อน ↩︎

  2. เราได้แก้ไขการอ้างสิทธิ์เดิมของเราเกี่ยวกับผลลัพธ์ใน NarrativeQA หลังจากที่รับทราบถึงงานก่อนหน้านี้ที่มีผลลัพธ์ที่ดีกว่าของเรา ↩︎

ประทับเวลา:

เพิ่มเติมจาก OpenAI