تلخيص الكتب مع ردود فعل الإنسان ذكاء بيانات PlatoBlockchain. البحث العمودي. عاي.

تلخيص الكتب مع ردود الفعل البشرية

اقرأ الورقةتصفح العينات

تلخيص الكتب مع ردود الفعل البشرية

Tس بأمان ومع نشر ذكاء اصطناعي قوي متعدد الأغراض في المستقبل، يتعين علينا أن نضمن أن نماذج التعلم الآلي تعمل وفقا للنوايا البشرية. أصبح هذا التحدي معروفًا باسم مشكلة المحاذاة.

يحتاج الحل القابل للتطوير لمشكلة المحاذاة إلى العمل على المهام التي يكون فيها تقييم مخرجات النموذج صعبًا أو يستغرق وقتًا طويلاً بالنسبة للبشر. ولاختبار تقنيات المحاذاة القابلة للتطوير، قمنا بتدريب نموذج لتلخيص كتب بأكملها، كما هو موضح في العينات التالية.[1] يعمل نموذجنا من خلال تلخيص أقسام صغيرة من الكتاب أولاً، ثم تلخيص تلك الملخصات في ملخص ذي مستوى أعلى، وهكذا.

استكشف المزيد من العينات

أفضل نموذج لدينا تم ضبطه بدقة من GPT-3 وينتج ملخصات معقولة لكتب بأكملها، بل ويطابق في بعض الأحيان متوسط ​​جودة الملخصات المكتوبة بواسطة الإنسان: فهو يحقق تصنيف 6/7 (مشابه لمتوسط ​​الملخص المكتوب بواسطة الإنسان) من البشر الذين قرأوا الكتاب 5% من الوقت وحصلوا على تقييم 5/7 15% من الوقت. يحقق نموذجنا أيضًا أحدث النتائج على مجموعة بيانات BookSum لتلخيص طول الكتاب. يمكن لنموذج الإجابة على الأسئلة الصفرية استخدام ملخصات نموذجنا للحصول على نتائج تنافسية على مجموعة بيانات السردQA للإجابة على الأسئلة بطول الكتاب.[2]

نهجنا: الجمع بين التعلم المعزز من ردود الفعل البشرية وتحليل المهام المتكررة

النظر في مهمة تلخيص جزء من النص. كبير النماذج المُدربة مسبقًا ليست جيدة جدًا في التلخيص. في الماضي وجدنا أن تدريب نموذج مع التعزيز التعلم من ردود الفعل البشرية ساعد في مواءمة الملخصات النموذجية مع التفضيلات البشرية في المشاركات والمقالات القصيرة. لكن الحكم على ملخصات الكتب بأكملها يتطلب الكثير من الجهد للقيام به بشكل مباشر، حيث سيحتاج الإنسان إلى قراءة الكتاب بأكمله، الأمر الذي يستغرق عدة ساعات.

ولمعالجة هذه المشكلة، نستخدم أيضًا تحلل المهام العودية: نقوم بتقسيم المهمة الصعبة من الناحية الإجرائية إلى مهام أسهل. في هذه الحالة، نقوم بتقسيم تلخيص جزء طويل من النص إلى تلخيص عدة أجزاء أقصر. بالمقارنة مع إجراء التدريب الشامل، فإن تحليل المهام العودية له المزايا التالية:

  1. يسمح التحليل للبشر بتقييم ملخصات النماذج بسرعة أكبر باستخدام ملخصات لأجزاء أصغر من الكتاب بدلاً من قراءة النص المصدر.
  2. من الأسهل تتبع عملية كتابة الملخص. على سبيل المثال، يمكنك التتبع للعثور على مكان حدوث أحداث معينة من الملخص في النص الأصلي. انظر بنفسك على مستكشفنا الموجز!
  3. يمكن استخدام طريقتنا لتلخيص الكتب ذات الطول غير المحدود، وغير المقيدة بطول سياق نماذج المحولات التي نستخدمها.

لماذا نعمل على هذا

Tله العمل جزء من عملنا جارية بحث في مواءمة أنظمة الذكاء الاصطناعي المتقدمة، وهو أمر أساسي مهمتنا. وبينما نقوم بتدريب نماذجنا على القيام بمهام متزايدة التعقيد، فإن إجراء تقييمات مستنيرة لمخرجات النماذج سوف يصبح أكثر صعوبة بالنسبة للبشر. وهذا يجعل من الصعب اكتشاف المشكلات الدقيقة في مخرجات النموذج والتي قد تؤدي إلى عواقب سلبية عند نشر هذه النماذج. لذلك نريد أن تزداد قدرتنا على تقييم نماذجنا مع زيادة قدراتها.

نهجنا الحالي لهذه المشكلة هو تمكين البشر من تقييم مخرجات نموذج التعلم الآلي باستخدام المساعدة من النماذج الأخرى. في هذه الحالة، لتقييم ملخصات الكتب، نقوم بتمكين البشر بملخصات فصول فردية مكتوبة بواسطة نموذجنا، مما يوفر لهم الوقت عند تقييم هذه الملخصات بالنسبة لقراءة النص المصدر. إن التقدم الذي أحرزناه في تلخيص الكتب هو أول عمل تجريبي واسع النطاق حول قياس تقنيات المحاذاة.

ومن الآن فصاعدا، نحن نبحث عن طرق أفضل لمساعدة البشر في تقييم السلوك النموذجي، بهدف إيجاد تقنيات تتناسب مع الذكاء العام الاصطناعي.

نحن نبحث دائمًا عن المزيد من الأشخاص الموهوبين للانضمام إلينا؛ لذا إذا كان هذا العمل يثير اهتمامك، من فضلك تقدم بطلب للانضمام إلى فريقنا!


شكر وتقدير

نود أن نعرب عن شكرنا للمؤلفين المشاركين في ورقتنا البحثية: لونج أويانج، ودانيال زيجلر، ونيسان ستينون، وبول كريستيانو.

نشكر الأشخاص التالين على تعليقاتهم على هذا الإصدار: ستيف داولينج، وهانا وونج، ومايلز بروندج، وجريتشين كروجر، وإيليا سوتسكيفر، وسام ألتمان.


تصميم
جاستن جاي وانج


غلاف الكتاب الفني


الحواشي

  1. تم اختيار هذه العينات من الأعمال في المجال العام، وهي جزء من بيانات التدريب المسبق لـ GPT-3. للتحكم في هذا التأثير، ولأغراض بحثية بحتة، لدينا ورقة يقوم بتقييم ملخصات الكتب التي لم يشاهدها النموذج من قبل. ↩︎

  2. لقد قمنا بتعديل مطالبتنا الأصلية بشأن النتائج في NarratedQA بعد أن علمنا بالعمل السابق الذي حقق نتائج أفضل من نتائجنا. ↩︎

الطابع الزمني:

اكثر من OpenAI