تلخيص الكتب مع ردود الفعل البشرية

أعاد نشره أفلاطون

المتابعون: 0

تلخيص الكتب مع ردود الفعل البشرية

Tس بأمان ومع نشر ذكاء اصطناعي قوي متعدد الأغراض في المستقبل، يتعين علينا أن نضمن أن نماذج التعلم الآلي تعمل وفقا للنوايا البشرية. أصبح هذا التحدي معروفًا باسم مشكلة المحاذاة.

يحتاج الحل القابل للتطوير لمشكلة المحاذاة إلى العمل على المهام التي يكون فيها تقييم مخرجات النموذج صعبًا أو يستغرق وقتًا طويلاً بالنسبة للبشر. ولاختبار تقنيات المحاذاة القابلة للتطوير، قمنا بتدريب نموذج لتلخيص كتب بأكملها، كما هو موضح في العينات التالية.^[1] يعمل نموذجنا من خلال تلخيص أقسام صغيرة من الكتاب أولاً، ثم تلخيص تلك الملخصات في ملخص ذي مستوى أعلى، وهكذا.

استكشف المزيد من العينات

أفضل نموذج لدينا تم ضبطه بدقة من GPT-3 وينتج ملخصات معقولة لكتب بأكملها، بل ويطابق في بعض الأحيان متوسط جودة الملخصات المكتوبة بواسطة الإنسان: فهو يحقق تصنيف 6/7 (مشابه لمتوسط الملخص المكتوب بواسطة الإنسان) من البشر الذين قرأوا الكتاب 5% من الوقت وحصلوا على تقييم 5/7 15% من الوقت. يحقق نموذجنا أيضًا أحدث النتائج على مجموعة بيانات BookSum لتلخيص طول الكتاب. يمكن لنموذج الإجابة على الأسئلة الصفرية استخدام ملخصات نموذجنا للحصول على نتائج تنافسية على مجموعة بيانات السردQA للإجابة على الأسئلة بطول الكتاب.^[2]

نهجنا: الجمع بين التعلم المعزز من ردود الفعل البشرية وتحليل المهام المتكررة

النظر في مهمة تلخيص جزء من النص. كبير النماذج المُدربة مسبقًا ليست جيدة جدًا في التلخيص. في الماضي وجدنا أن تدريب نموذج مع التعزيز التعلم من ردود الفعل البشرية ساعد في مواءمة الملخصات النموذجية مع التفضيلات البشرية في المشاركات والمقالات القصيرة. لكن الحكم على ملخصات الكتب بأكملها يتطلب الكثير من الجهد للقيام به بشكل مباشر، حيث سيحتاج الإنسان إلى قراءة الكتاب بأكمله، الأمر الذي يستغرق عدة ساعات.

ولمعالجة هذه المشكلة، نستخدم أيضًا تحلل المهام العودية: نقوم بتقسيم المهمة الصعبة من الناحية الإجرائية إلى مهام أسهل. في هذه الحالة، نقوم بتقسيم تلخيص جزء طويل من النص إلى تلخيص عدة أجزاء أقصر. بالمقارنة مع إجراء التدريب الشامل، فإن تحليل المهام العودية له المزايا التالية:

يسمح التحليل للبشر بتقييم ملخصات النماذج بسرعة أكبر باستخدام ملخصات لأجزاء أصغر من الكتاب بدلاً من قراءة النص المصدر.
من الأسهل تتبع عملية كتابة الملخص. على سبيل المثال، يمكنك التتبع للعثور على مكان حدوث أحداث معينة من الملخص في النص الأصلي. انظر بنفسك على مستكشفنا الموجز!
يمكن استخدام طريقتنا لتلخيص الكتب ذات الطول غير المحدود، وغير المقيدة بطول سياق نماذج المحولات التي نستخدمها.

لماذا نعمل على هذا

Tله العمل جزء من عملنا جارية بحث في مواءمة أنظمة الذكاء الاصطناعي المتقدمة، وهو أمر أساسي مهمتنا. وبينما نقوم بتدريب نماذجنا على القيام بمهام متزايدة التعقيد، فإن إجراء تقييمات مستنيرة لمخرجات النماذج سوف يصبح أكثر صعوبة بالنسبة للبشر. وهذا يجعل من الصعب اكتشاف المشكلات الدقيقة في مخرجات النموذج والتي قد تؤدي إلى عواقب سلبية عند نشر هذه النماذج. لذلك نريد أن تزداد قدرتنا على تقييم نماذجنا مع زيادة قدراتها.

نهجنا الحالي لهذه المشكلة هو تمكين البشر من تقييم مخرجات نموذج التعلم الآلي باستخدام المساعدة من النماذج الأخرى. في هذه الحالة، لتقييم ملخصات الكتب، نقوم بتمكين البشر بملخصات فصول فردية مكتوبة بواسطة نموذجنا، مما يوفر لهم الوقت عند تقييم هذه الملخصات بالنسبة لقراءة النص المصدر. إن التقدم الذي أحرزناه في تلخيص الكتب هو أول عمل تجريبي واسع النطاق حول قياس تقنيات المحاذاة.

ومن الآن فصاعدا، نحن نبحث عن طرق أفضل لمساعدة البشر في تقييم السلوك النموذجي، بهدف إيجاد تقنيات تتناسب مع الذكاء العام الاصطناعي.

نحن نبحث دائمًا عن المزيد من الأشخاص الموهوبين للانضمام إلينا؛ لذا إذا كان هذا العمل يثير اهتمامك، من فضلك تقدم بطلب للانضمام إلى فريقنا!

الطابع الزمني: 23 سبتمبر 2021

الطابع الزمني: ديسمبر 14،

تلخيص الكتب مع ردود الفعل البشرية

أعاد نشره أفلاطون

نهجنا: الجمع بين التعلم المعزز من ردود الفعل البشرية وتحليل المهام المتكررة

لماذا نعمل على هذا

اكثر من OpenAI

DALL · E متوفر الآن بدون قائمة انتظار

قياس قانون جودهارت

Point-E: نظام لتوليد السحب النقطية ثلاثية الأبعاد من المطالبات المعقدة

استدعاء الوظيفة وتحديثات API الأخرى

تخصيص GPT-3 لتطبيقك

المنح السريعة للمحاذاة الفائقة

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي