جمع بندی کتاب ها با بازخورد انسانی

بازنشر افلاطون

دنبال: 0

جمع بندی کتاب ها با بازخورد انسانی

To با خیال راحت با استقرار هوش مصنوعی قدرتمند و همه منظوره در آینده، باید اطمینان حاصل کنیم که مدل‌های یادگیری ماشینی مطابق با نیات انسان عمل می‌کنند. این چالش به نام معروف شده است مشکل هم ترازی.

یک راه حل مقیاس پذیر برای مشکل هم ترازی باید روی کارهایی کار کند که ارزیابی خروجی های مدل برای انسان دشوار یا وقت گیر است. برای آزمایش تکنیک های تراز مقیاس پذیر، مدلی را برای خلاصه کردن کل کتاب ها، همانطور که در نمونه های زیر نشان داده شده است، آموزش دادیم.^[1] مدل ما بدین ترتیب کار می کند که ابتدا بخش های کوچکی از یک کتاب را خلاصه می کند، سپس آن خلاصه ها را در یک خلاصه سطح بالاتر و غیره خلاصه می کند.

نمونه های بیشتری را کاوش کنید

بهترین مدل ما از GPT-3 به‌خوبی تنظیم شده است و خلاصه‌های معقولی از کل کتاب‌ها را تولید می‌کند، حتی گاهی اوقات با کیفیت متوسط خلاصه‌های نوشته‌شده توسط انسان مطابقت دارد: امتیاز ۶/۷ (مشابه میانگین خلاصه‌های نوشته‌شده توسط انسان) را از انسان‌ها کسب می‌کند. که 6% مواقع کتاب را خوانده اند و 7% مواقع امتیاز 5/5 را خوانده اند. مدل ما همچنین به نتایج پیشرفته‌ای در زمینه دست می‌یابد مجموعه داده BookSum برای خلاصه کردن کتاب یک مدل پرسش‌پاسخ صفر شات می‌تواند از خلاصه‌های مدل ما برای به دست آوردن نتایج رقابتی در این زمینه استفاده کند مجموعه داده NarrativeQA برای پاسخگویی به سوالات کتاب^[2]

رویکرد ما: ترکیب یادگیری تقویتی از بازخورد انسانی و تجزیه وظایف بازگشتی

وظیفه خلاصه کردن یک متن را در نظر بگیرید. بزرگ مدل های از پیش آموزش دیده در خلاصه سازی خیلی خوب نیستند. در گذشته متوجه شدیم که آموزش یک مدل با یادگیری تقویتی از بازخورد انسانی به تراز کردن خلاصه‌های مدل با ترجیحات انسانی در پست‌ها و مقالات کوتاه کمک کرد. اما قضاوت در مورد خلاصه‌های کل کتاب‌ها مستلزم تلاش زیادی برای انجام مستقیم است، زیرا انسان باید کل کتاب را بخواند، که ساعت‌ها طول می‌کشد.

برای رفع این مشکل، ما علاوه بر این از آن استفاده می کنیم تجزیه تکلیف بازگشتی: ما از نظر رویه ای یک کار دشوار را به ساده تر تقسیم می کنیم. در این مورد، خلاصه کردن یک قطعه طولانی از متن را به خلاصه کردن چند قطعه کوتاهتر تقسیم می کنیم. در مقایسه با یک روش آموزشی انتها به انتها، تجزیه وظایف بازگشتی دارای مزایای زیر است:

تجزیه به انسان اجازه می دهد تا با استفاده از خلاصه بخش های کوچکتر کتاب به جای خواندن متن منبع، خلاصه های مدل را سریعتر ارزیابی کند.
ردیابی فرآیند خلاصه نویسی آسان تر است. برای مثال، می‌توانید ردیابی کنید تا ببینید در کجای متن اصلی رویدادهای خاصی از خلاصه اتفاق می‌افتد. خودتان ببینید خلاصه کاوشگر ما!
روش ما می‌تواند برای خلاصه کردن کتاب‌هایی با طول نامحدود، بدون محدودیت با طول بافت مدل‌های ترانسفورماتور که استفاده می‌کنیم، استفاده شود.

چرا ما روی این کار می کنیم

Tخود را کار بخشی از ماست مداوم تحقیق به همراستایی سیستم های پیشرفته هوش مصنوعی، که کلید آن است ماموریت ما. همانطور که ما مدل های خود را برای انجام وظایف پیچیده تر آموزش می دهیم، ارزیابی آگاهانه از خروجی های مدل ها برای انسان ها به طور فزاینده ای دشوار می شود. این امر تشخیص مشکلات ظریف در خروجی های مدل را که می تواند منجر به پیامدهای منفی در هنگام استقرار این مدل ها شود، دشوارتر می کند. بنابراین ما می خواهیم توانایی ما در ارزیابی مدل هایمان با افزایش قابلیت های آنها افزایش یابد.

رویکرد فعلی ما به این مشکل این است که به انسان ها برای ارزیابی خروجی های مدل یادگیری ماشین با استفاده از کمک مدل های دیگر توانمند می شود. در این مورد، برای ارزیابی خلاصه‌های کتاب، ما انسان‌ها را با خلاصه‌های فصلی که توسط مدلمان نوشته شده است، توانمند می‌سازیم، که در زمان ارزیابی این خلاصه‌ها نسبت به خواندن متن منبع، صرفه‌جویی می‌کند. پیشرفت ما در خلاصه‌سازی کتاب، اولین کار تجربی در مقیاس بزرگ در مورد تکنیک‌های تراز مقیاس‌بندی است.

در ادامه، ما در حال تحقیق در مورد راه‌های بهتری برای کمک به انسان‌ها در ارزیابی رفتار مدل هستیم، با هدف یافتن تکنیک‌هایی که برای همسوسازی هوش عمومی مصنوعی مقیاس می‌شوند.

ما همیشه به دنبال افراد با استعداد بیشتری هستیم تا به ما بپیوندند. بنابراین اگر این کار به شما علاقه مند است، لطفا برای پیوستن به تیم ما درخواست دهید!

تمبر زمان: سپتامبر 23، 2021

تمبر زمان: دسامبر 14، 2023

جمع بندی کتاب ها با بازخورد انسانی

بازنشر افلاطون

رویکرد ما: ترکیب یادگیری تقویتی از بازخورد انسانی و تجزیه وظایف بازگشتی

چرا ما روی این کار می کنیم

بیشتر از OpenAI

DALL·E اکنون بدون فهرست انتظار در دسترس است

اندازه گیری قانون گودهارت

Point-E: سیستمی برای تولید ابرهای نقطه سه بعدی از اعلان های پیچیده

فراخوانی تابع و سایر به‌روزرسانی‌های API

سفارشی کردن GPT-3 برای برنامه شما

کمک هزینه های سریع Superalignment

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب