Маленькі мовні моделі процвітають із GPT-4 як викладач | Журнал Quanta

Маленькі мовні моделі процвітають із GPT-4 як викладач | Журнал Quanta

Маленькі мовні моделі процвітають із GPT-4 як викладач | Журнал Quanta PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Вступ

Вивчення англійської мови нелегке завдання, як це добре знають численні студенти. Але коли учень є комп’ютером, один підхід працює напрочуд добре: просто передайте гори тексту з Інтернету до гігантської математичної моделі під назвою нейронна мережа. Це принцип роботи генеративних мовних моделей, таких як ChatGPT OpenAI, чия здатність узгоджено (якщо не завжди правдиво) спілкуватися на широкий спектр тем здивувала дослідників і громадськість протягом останнього року.

Але цей підхід має свої недоліки. По-перше, процедура «навчання», необхідна для перетворення величезних текстових архівів на найсучасніші мовні моделі, є дорогою та займає багато часу. З іншого боку, навіть людям, які тренують великі мовні моделі, важко зрозуміти їхню внутрішню роботу; це, у свою чергу, ускладнює прогнозування багатьох способів, які вони можуть зазнати невдачі.

Зіткнувшись із цими труднощами, деякі дослідники вирішили навчатися менші моделі на менших наборах даних, а потім вивчати їх поведінку. «Це як послідовність Дрозофіла геному проти секвенування геному людини», – сказав Еллі Павлік, дослідник мовної моделі в Університеті Брауна.

Тепер, в а папір Нещодавно опублікований на науковому сервері препринтів arxiv.org, пара дослідників Microsoft запровадила новий метод навчання маленьких мовних моделей: виховуйте їх на суворій дієті з дитячих історій.

Дослідники машинного навчання взяли на озброєння цей урок. GPT-3.5, велика мовна модель, яка підтримує інтерфейс ChatGPT, має майже 200 мільярдів параметрів, і її було навчено на наборі даних, що складається з сотень мільярдів слів. (OpenAI не оприлюднив відповідних цифр для свого наступника, GPT-4.) Навчання таких великих моделей зазвичай вимагає щонайменше 1,000 спеціалізованих процесорів, які називаються GPU, які працюють паралельно протягом тижнів. Лише кілька компаній можуть зібрати необхідні ресурси, не кажучи вже про навчання та порівняння різних моделей.

Двоє дослідників показали, що мовні моделі, які в тисячі разів менші за сучасні найсучасніші системи, швидко навчилися розповідати послідовні та граматичні історії, коли їх навчали таким чином. Їхні результати вказують на нові напрямки досліджень, які можуть бути корисними для навчання більших моделей і розуміння їхньої поведінки.

«Я вважаю цей документ дуже інформативним», — сказав Чандра Бхагаватула, дослідник мовної моделі в Інституті штучного інтелекту Аллена в Сіетлі. «Сама концепція надзвичайно цікава».

Одного разу

Нейронні мережі в основі мовних моделей — це математичні структури, частково натхненні людським мозком. Кожен з них містить багато штучних нейронів, розташованих шарами, із зв’язками між нейронами в сусідніх шарах. Поведінка нейронної мережі регулюється міцністю цих зв’язків, які називаються параметрами. У мовній моделі параметри контролюють, які слова модель може викинути наступними, враховуючи початкову підказку та слова, які вона вже згенерувала.

Модель по-справжньому оживає лише під час навчання, коли вона неодноразово порівнює власний результат із текстом у своєму наборі навчальних даних і коригує свої параметри, щоб збільшити схожість. Ненавчену мережу з випадковими параметрами тривіально легко зібрати з кількох рядків коду, але вона створить лише тарабарщину. Після навчання він часто може правдоподібно продовжувати незнайомий текст. Великі моделі часто піддаються додатковому доопрацюванню, яке вчить їх відповідати на запитання та виконувати інструкції, але основна частина навчання полягає в освоєнні передбачення слів.

Для успішного передбачення слів потрібна мовна модель для оволодіння багатьма різними навичками. Наприклад, правила англійської граматики припускають, що наступним словом після слова «їду» буде «до», незалежно від теми тексту. Крім того, системі потрібні фактичні знання, щоб завершити «столиця Франції» та завершити уривок, що містить слово «не» вимагає елементарного розуміння логіки.

«Необроблена мова дуже складна», — сказав Тімоті Нгуєн, дослідник машинного навчання в DeepMind. «Для того, щоб виникли цікаві лінгвістичні можливості, люди вдаються до «більше даних, тим краще».

Вступ

Ронен Елдан, математик, який приєднався до Microsoft Research у 2022 році для вивчення генеративних мовних моделей, хотів розробити дешевший і швидший спосіб дослідити свої здібності. Природним способом зробити це було використання невеликого набору даних, а це, у свою чергу, означало, що йому доведеться навчити моделей спеціалізуватися на конкретному завданні, щоб вони не розповсюджувалися надто рідко. Спочатку він хотів навчити моделей розв’язувати певний клас математичних задач, але одного дня, провівши час зі своєю 5-річною донькою, він зрозумів, що дитячі історії ідеально підходять.

«Це прийшло до мене буквально після того, як я прочитав їй оповідання», — сказав він.

Щоб генерувати зв’язні дитячі історії, мовна модель повинна вивчати факти про світ, стежити за героями та подіями та дотримуватися правил граматики — простіших версій проблем, з якими стикаються великі моделі. Але великі моделі, навчені на масивних наборах даних, вивчають незліченну кількість нерелевантних деталей разом із правилами, які дійсно важливі. Елдан сподівався, що стислість і обмежений словниковий запас дитячих історій можуть зробити навчання більш керованим для маленьких моделей — полегшить їх навчання та розуміння.

Однак у світі мовних моделей «маленький» є відносним: набір даних, у тисячу разів менший, ніж той, який використовується для навчання GPT-3.5, усе одно повинен містити мільйони історій. «Я не знаю, скільки грошей ви хочете витратити, але я припускаю, що ви не збираєтеся наймати професіоналів для написання [пари мільйонів] оповідань», — сказав Нгуєн.

Щоб задовольнити таких ненажерливих читачів, потрібен був надзвичайно плідний автор, але Елдан мав на увазі кількох кандидатів. Хто краще напише для аудиторії малих мовних моделей, ніж великі?

Історії іграшок

Елдан негайно вирішив створити бібліотеку синтетичних дитячих історій, згенерованих великими мовними моделями. Але незабаром він виявив, що навіть найсучасніші моделі від природи не надто креативні. Якщо ви просто скажете GPT-4 написати розповіді для 4-річних дітей, сказав Елдан, «приблизно одна п’ята оповідань буде про дітей, які йдуть у парк і бояться гірок». Мабуть, це квінтесенція дошкільної історії, що стосується Інтернету.

Рішенням було додати трохи випадковості в підказку. Спочатку Елдан використовував GPT-4 для створення списку з 1,500 іменників, дієслів і прикметників, які може знати 4-річна дитина — достатньо короткого, щоб він міг легко перевірити його самостійно. Потім він написав просту комп’ютерну програму, яка неодноразово спонукала GPT-3.5 або GPT-4 створити історію, що відповідає віку, яка включала б три випадкові слова зі списку разом із додатковою випадково вибраною деталлю, як-от щасливий кінець чи поворот сюжету. Отримані історії, на щастя, були менше зосереджені на страшних слайдах.

Тепер у Елдана була процедура створення навчальних даних на вимогу, але він не мав уявлення, скільки історій йому знадобиться для навчання функціональної моделі або наскільки великою має бути ця модель. Саме тоді він об’єднався з Юаньчжи Лі, досліднику машинного навчання в Microsoft та Університеті Карнегі-Меллона, щоб спробувати різні можливості, скориставшись тим фактом, що малі моделі можна навчити дуже швидко. На першому етапі було прийнято рішення про те, як оцінювати їхні моделі.

Вступ

У дослідженні мовної моделі, як і в кожній класній кімнаті, оцінювання є важкою темою. Є немає ідеальної рубрики який охоплює все, що дослідники хочуть знати, а моделі, які чудово справляються з одними завданнями, часто зазнають невдачі з іншими. Згодом дослідники розробили різні стандартні тести на основі запитань із однозначними відповідями, що є хорошим підходом, якщо ви намагаєтеся оцінити конкретні навички. Але Елдан і Лі цікавилися дещо більш туманним: наскільки великими повинні бути мовні моделі, якщо ви максимально спрощуєте мову?

«Для того, щоб безпосередньо перевірити, чи розмовляє модель англійською, я вважаю, що єдине, що ви можете зробити, — це дозволити моделі генерувати англійську у відкритий спосіб», — сказав Елдан.

Є лише два способи виміряти продуктивність моделі в таких якісних питаннях: покластися на людські оцінювачі або знову звернутися до GPT-4. Двоє дослідників обрали останній шлях, фактично дозволивши великим моделям і писати підручники, і оцінювати есе.

Бхагаватула сказав, що йому хотілося б побачити, як оцінки GPT-4 порівнюють з оцінками рецензентів — GPT-4 може бути упередженим до моделей, які він допоміг навчити, а непрозорість мовних моделей ускладнює кількісну оцінку таких упереджень. Але він не думає, що такі тонкощі вплинуть на порівняння між різними моделями, навченими на схожих наборах синтетичних історій — головному фокусі роботи Елдана та Лі.

Елдан і Лі використовували двоетапну процедуру для оцінки кожної зі своїх маленьких моделей після навчання. Спочатку вони підказали невеликій моделі першу половину історії, відмінну від тих, що були в наборі навчальних даних, щоб створити нову кінцівку, повторивши цей процес із 50 різними тестовими історіями. По-друге, вони доручили GPT-4 оцінити кожну кінцівку маленької моделі на основі трьох категорій — креативність, граматика та узгодженість із початком історії. Потім вони усереднювали бали в кожній категорії, в результаті одержуючи три остаточні оцінки для кожної моделі.

З цією процедурою Елдан і Лі нарешті були готові порівняти різні моделі та з’ясувати, хто з них був найкращим студентом.

Результати тестування

Після деякого попереднього дослідження двоє дослідників зупинилися на навчальному наборі даних, який містив приблизно 2 мільйони історій. Потім вони використали цей набір даних, який отримав назву TinyStories, для навчання моделей розміром від 1 мільйона до 30 мільйонів параметрів із різною кількістю шарів. Це була швидка робота: використовуючи лише чотири графічні процесори, навчання найбільшої з цих моделей зайняло не більше дня.

Найменші моделі мали труднощі. Наприклад, одна тестова історія починається з того, що злий на вигляд чоловік каже дівчині, що візьме її кота. Модель із мільйонними параметрами застрягла в петлі, коли дівчина неодноразово говорила чоловікові, що хоче бути друзями. Але більші — все ще в тисячі разів менші за GPT-3.5 — показали напрочуд добре. Версія з 28 мільйонами параметрів розповідала послідовну історію, хоча кінець був похмурим: «Кейті почала плакати, але чоловікові було байдуже. Він забрав кота, і Кеті більше ніколи не бачила свого кота. Кінець."

Окрім тестування власних моделей, Елдан і Лі поставили той самий виклик OpenAI GPT-2, моделі з 1.5 мільярда параметрів, випущеній у 2019 році. Вона виявилася набагато гіршою — перед раптовим закінченням історії чоловік погрожує забрати дівчину. до суду, в'язниці, лікарні, моргу і, нарешті, крематорію.

Вступ

Нгуєн сказав, що це захоплююче, що такі крихітні моделі працювали так вільно, але, мабуть, не дивно, що GPT-2 важко впорався із завданням: це більша модель, але далека від найсучаснішого, і вона була навчена на зовсім іншому наборі даних. «Малюк, який навчається лише дитячим завданням, як-от грати з іграшками, може впоратися краще, ніж ви чи я», — зазначив він. «Ми не спеціалізувалися на цій простій речі».

Порівняння між різними моделями TinyStories не залежать від однакових факторів. Елдан і Лі помітили натяки на те, що мережі з меншою кількістю шарів, але більшою кількістю нейронів на шар краще відповідають на запитання, які потребують фактичних знань; і навпаки, мережі з більшою кількістю шарів і меншою кількістю нейронів на шар краще відстежували персонажів і сюжетні моменти з ранніх етапів історії. Бхагаватула знайшов цей результат особливо інтригуючим. Якщо це можна буде відтворити у більших моделях, сказав він, «це був би дійсно чудовий результат, який міг би вийти з цієї роботи».

Елдан і Лі також вивчали, як здібності їхніх маленьких моделей залежать від тривалості періоду навчання. У кожному випадку моделі спочатку опанували граматику, а потім послідовність. На думку Елдана, ця модель ілюструє, як відмінності в структурах винагороди призводять до відмінностей у моделях засвоєння мови між нейронними мережами та дітьми. Для мовних моделей, які навчаються шляхом передбачення слів, «стимул для слів «я хочу мати» такий же великий, як і для слів «морозиво», — сказав він. З іншого боку, дітям «байдуже, чи скажуть вони: «Я хотів би морозива» чи просто «морозиво, морозиво, морозиво».

Якість проти кількості

Елдан і Лі сподіваються, що дослідження спонукає інших дослідників навчатися на різних моделях набір даних TinyStories і порівняти їхні можливості. Але часто важко передбачити, які характеристики малих моделей також з’являться у більших.

«Можливо, мишачі моделі зору є справді хорошими проксі людського зору, але чи мишачі моделі депресії є хорошими моделями людської депресії?» – сказав Павлік. «У кожному випадку це трохи по-різному».

Успіх моделей TinyStories також свідчить про ширший урок. Стандартний підхід до складання навчальних наборів даних передбачає збирання тексту з Інтернету, а потім фільтрування сміття. Синтетичний текст, створений великими моделями, може запропонувати альтернативний спосіб зібрати високоякісні набори даних, які не повинні бути такими великими.

«У нас є все більше і більше доказів того, що це дуже ефективно, не лише в моделях розміром з TinyStories, але й у більших моделях», — сказав Елдан. Ці докази походять від двох наступних статей про моделі мільярдів параметрів Елдана, Лі та інших дослідників Microsoft. В перший папір, вони навчили модель вивчати мову програмування Python за допомогою фрагментів коду, згенерованого GPT-3.5, а також ретельно підібраного коду з Інтернету. В другий, вони доповнили набір навчальних даних синтетичними «підручниками», які охоплюють широкий спектр тем, щоб навчати мовну модель загального призначення. У своїх тестах обидві моделі були вигідніші порівняно з більшими моделями, навченими на більших наборах даних. Але оцінка мовних моделей завжди складна, а підхід до даних синтетичного навчання все ще перебуває в зародковому стані — потрібні додаткові незалежні тести.

Оскільки найсучасніші мовні моделі стають все більшими, дивовижні знахідки їхніх крихітних двоюрідних братів є нагадуванням про те, що ми ще багато чого не розуміємо навіть у найпростіших моделях. Нгуєн очікує побачити ще багато статей, присвячених дослідженню підходу, започаткованого TinyStories.

«Виникає питання: де і чому розмір має значення?» він сказав. «Про це має бути наука, і, сподіваюся, ця стаття є початком багатої історії».

Часова мітка:

Більше від Квантамагазин