Підведення підсумків книг із відгуками людини PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Резюме книг із людським відгуком

Читати папірПерегляньте зразки

Резюме книг із людським відгуком

To безпечно Щоб розгорнути в майбутньому потужний штучний інтелект загального призначення, нам потрібно переконатися, що моделі машинного навчання діють відповідно до намірів людини. Цей виклик став відомий як проблема вирівнювання.

Масштабоване рішення проблеми вирівнювання має працювати над завданнями, оцінка яких результатів моделі складна або потребує багато часу. Щоб перевірити методи масштабованого вирівнювання, ми навчили модель підсумовувати цілі книги, як показано в наступних зразках.[1] Наша модель працює так, що спочатку підсумовуються невеликі розділи книги, потім узагальнюються ці резюме в резюме вищого рівня тощо.

Дослідіть більше зразків

Наша найкраща модель налаштована на основі GPT-3 і генерує розумні резюме цілих книг, іноді навіть відповідаючи середній якості резюме, написаних людиною: вона отримує оцінку 6/7 (подібно до середнього резюме, написаного людиною) від людей які прочитали книгу 5% часу та оцінку 5/7 15% часу. Наша модель також досягає найсучасніших результатів на Набір даних BookSum для конспектування книги. Модель нульових запитань і відповідей може використовувати підсумки нашої моделі для отримання конкурентних результатів на Набір даних NarrativeQA для відповіді на питання довжини книги.[2]

Наш підхід: поєднання навчання за допомогою зворотного зв’язку людини та рекурсивної декомпозиції завдань

Розглянемо завдання на конспектування фрагмента тексту. Великий попередньо підготовлені моделі не дуже добре підводять підсумки. У минулому ми виявили, що навчання моделі з навчання з підкріпленням на основі зворотного зв’язку людини допоміг узгодити модель резюме з уподобаннями людини щодо коротких дописів і статей. Але оцінка коротких викладів цілих книг потребує багато зусиль, оскільки людині потрібно буде прочитати всю книгу, що займає багато годин.

Для вирішення цієї проблеми ми додатково використовуємо рекурсивна декомпозиція задачі: ми процедурно розбиваємо складне завдання на легше. У цьому випадку ми розбиваємо резюме довгого фрагмента тексту на кілька коротших фрагментів. Порівняно з наскрізною процедурою навчання, рекурсивна декомпозиція завдання має такі переваги:

  1. Декомпозиція дозволяє людям швидше оцінювати резюме моделі, використовуючи резюме менших частин книги, а не читаючи вихідний текст.
  2. Легше простежити процес написання конспекту. Наприклад, ви можете простежити, щоб знайти, де в оригінальному тексті відбуваються певні події зі зведення. Дивіться самі на наш провідник підсумків!
  3. Наш метод можна використовувати для підсумовування книг необмеженої довжини, необмеженої довжиною контексту моделей трансформаторів, які ми використовуємо.

Чому ми працюємо над цим

Tйого робота є частиною нашої постійний дослідження у вирівнювання передових систем ШІ, що є ключовим для Наша місія. Оскільки ми навчаємо наші моделі виконувати дедалі складніші завдання, робити обґрунтовані оцінки результатів моделей ставатиме все важче для людей. Це ускладнює виявлення тонких проблем у вихідних даних моделі, які можуть призвести до негативних наслідків під час розгортання цих моделей. Тому ми хочемо, щоб наша здатність оцінювати наші моделі зростала разом із зростанням їхніх можливостей.

Наш поточний підхід до цієї проблеми полягає в тому надати людям можливість оцінювати результати моделі машинного навчання за допомогою інших моделей. У цьому випадку для оцінки резюме книг ми надаємо людям можливість отримувати окремі підсумки розділів, написані нашою моделлю, що економить їхній час під час оцінки цих резюме порівняно з читанням вихідного тексту. Наш прогрес у підсумковуванні книги є першою широкомасштабною емпіричною роботою з методів вирівнювання масштабу.

У майбутньому ми досліджуємо кращі способи допомогти людям оцінювати поведінку моделі з метою пошуку методів, які масштабуються для вирівнювання загального штучного інтелекту.

Ми завжди шукаємо більше талановитих людей, щоб приєднатися до нас; тому, якщо ця робота вас зацікавила, будь ласка подати заявку на приєднання до нашої команди!


Подяки

Ми хотіли б висловити подяку нашим співавторам статті: Лонгу Оянгу, Даніелю Зіглеру, Нісану Стіннону та Полу Крістіано.

Дякуємо за відгуки щодо цього випуску: Стіву Доулінгу, Ханні Вонг, Майлзу Брандейджу, Гретхен Крюгер, Іллі Сацкеверу та Сему Альтману.


дизайн
Джастін Джей Ван


Обкладинка книги


Виноски

  1. Ці зразки були відібрані з робіт в публічний домен, і є частиною даних попереднього навчання GPT-3. Щоб контролювати цей ефект і суто в дослідницьких цілях, наш папір оцінює резюме книг, які модель ніколи раніше не бачила. ↩︎

  2. Ми змінили нашу початкову заяву щодо результатів на NarrativeQA після того, як нам стало відомо про попередню роботу з кращими результатами, ніж наші. ↩︎

Часова мітка:

Більше від OpenAI