Маленькие языковые модели процветают благодаря GPT-4 в качестве учителя | Журнал Кванта

Маленькие языковые модели процветают благодаря GPT-4 в качестве учителя | Журнал Кванта

Маленькие языковые модели процветают благодаря GPT-4 в качестве учителя | Журнал Quanta PlatoРазведка данных на основе блокчейна. Вертикальный поиск. Ай.

Введение

Изучение английского языка – непростая задача, и это хорошо известно бесчисленному количеству студентов. Но когда студентом является компьютер, один подход работает на удивление хорошо: просто кормить горы текста из Интернета гигантской математической моделью, называемой нейронной сетью. Это принцип работы моделей генеративного языка, таких как ChatGPT от OpenAI, чья способность связно (хотя и не всегда правдиво) общаться по широкому кругу тем удивила исследователей и общественность за последний год.

Но у этого подхода есть свои недостатки. Во-первых, процедура «обучения», необходимая для преобразования обширных текстовых архивов в современные языковые модели, является дорогостоящей и требует много времени. С другой стороны, даже людям, обучающим большие языковые модели, трудно понять их внутреннюю работу; это, в свою очередь, затрудняет прогнозирование множества причин, по которым они могут потерпеть неудачу.

Столкнувшись с этими трудностями, некоторые исследователи решили обучить меньшие модели на меньших наборах данных, а затем изучить их поведение. «Это похоже на секвенирование Дрозофила генома по сравнению с секвенированием человеческого генома», — сказал Элли Павлик, исследователь языковой модели в Университете Брауна.

Теперь в бумаги Недавно опубликованная на сервере научных препринтов arxiv.org пара исследователей Microsoft представила новый метод обучения крошечных языковых моделей: выращивайте их на строгой диете из детских рассказов.

Исследователи машинного обучения усвоили этот урок. GPT-3.5, большая языковая модель, лежащая в основе интерфейса ChatGPT, имеет почти 200 миллиардов параметров и была обучена на наборе данных, содержащем сотни миллиардов слов. (OpenAI не опубликовала соответствующие цифры для своего преемника GPT-4.) Для обучения таких больших моделей обычно требуется как минимум 1,000 специализированных процессоров, называемых графическими процессорами, работающих параллельно в течение нескольких недель. Лишь немногие компании могут собрать необходимые ресурсы, не говоря уже о обучении и сравнении различных моделей.

Два исследователя показали, что языковые модели, в тысячи раз меньшие, чем современные системы, быстро научились рассказывать последовательные и грамматические истории при таком обучении. Их результаты намекают на новые направления исследований, которые могут быть полезны для обучения более крупных моделей и понимания их поведения.

«Я нашел эту статью очень информативной», — сказал Чандра Бхагаватула, исследователь языковой модели в Институте искусственного интеллекта Аллена в Сиэтле. «Сама концепция очень интересна».

Давным-давно

Нейронные сети, лежащие в основе языковых моделей, представляют собой математические структуры, вдохновленные человеческим мозгом. Каждый из них содержит множество искусственных нейронов, расположенных слоями, со связями между нейронами в соседних слоях. Поведение нейронной сети определяется силой этих связей, называемых параметрами. В языковой модели параметры определяют, какие слова модель может выдать следующими, учитывая начальное приглашение и уже сгенерированные слова.

Модель по-настоящему оживает только во время обучения, когда она неоднократно сравнивает свои выходные данные с текстом в наборе обучающих данных и корректирует свои параметры для увеличения сходства. Необученную сеть со случайными параметрами тривиально легко собрать из нескольких строк кода, но это будет просто тарабарщина. После обучения он часто может правдоподобно продолжить незнакомый текст. Более крупные модели часто подвергаются дальнейшей тонкой настройке, которая учит их отвечать на вопросы и следовать инструкциям, но основная часть обучения заключается в отработке предсказания слов.

Для успеха в предсказании слов необходима языковая модель, позволяющая овладеть множеством различных навыков. Например, правила английской грамматики предполагают, что следующим словом после слова «going», скорее всего, будет слово «to», независимо от темы текста. Кроме того, системе необходимы фактические знания для завершения фразы «столица Франции» и завершения отрывка, содержащего слово «нет» требует элементарного понимания логики.

«Сырой язык очень сложен», — сказал Тимоти Нгуен, исследователь машинного обучения в DeepMind. «Для того чтобы появились интересные лингвистические возможности, люди прибегают к принципу: «чем больше данных, тем лучше»».

Введение

Ронен Элдан, математик, который присоединился к Microsoft Research в 2022 году для изучения моделей генеративного языка, хотел разработать более дешевый и быстрый способ исследовать свои способности. Естественным способом сделать это было использование небольшого набора данных, а это, в свою очередь, означало, что ему придется обучать модели специализации на конкретной задаче, чтобы они не распылялись слишком сильно. Первоначально он хотел обучить модели решать определенный класс математических задач, но однажды днем, проведя время со своей 5-летней дочерью, он понял, что детские истории идеально подходят для этого.

«Это буквально пришло ко мне после того, как я прочитал ей рассказ», — сказал он.

Чтобы создавать связные детские истории, языковая модель должна будет изучать факты о мире, отслеживать персонажей и события и соблюдать правила грамматики — более простые версии задач, с которыми сталкиваются большие модели. Но большие модели, обученные на огромных наборах данных, изучают бесчисленные несущественные детали наряду с действительно важными правилами. Элдан надеялся, что краткость и ограниченный словарный запас детских рассказов сделают обучение маленьких моделей более управляемым, что облегчит их обучение и понимание.

Однако в мире языковых моделей слово «маленький» относительно: набор данных в тысячу раз меньший, чем тот, который использовался для обучения GPT-3.5, все равно должен содержать миллионы историй. «Я не знаю, сколько денег вы готовы потратить, но предполагаю, что вы не собираетесь нанимать профессионалов для написания [пары миллионов] рассказов», — сказал Нгуен.

Чтобы удовлетворить столь ненасытных читателей, потребовался бы чрезвычайно плодовитый автор, но у Элдана было несколько кандидатов на примете. Кому лучше писать для аудитории с маленькими языковыми моделями, чем для большой?

История игрушек

Элдан немедленно приступил к созданию библиотеки синтетических детских рассказов, созданных на основе больших языковых моделей. Но вскоре он обнаружил, что даже самые современные модели по своей природе не очень креативны. Если вы просто попросите GPT-4 написать истории, подходящие для четырехлетних детей, говорит Элдан, «около одной пятой историй будет о детях, идущих в парк и боящихся горок». Это, очевидно, типичная дошкольная история, если говорить об Интернете.

Решение заключалось в том, чтобы добавить в подсказку немного случайности. Во-первых, Элдан использовал GPT-4 для создания списка из 1,500 существительных, глаголов и прилагательных, которые может знать четырехлетний ребенок, — достаточно короткого, чтобы он мог легко проверить его сам. Затем он написал простую компьютерную программу, которая неоднократно предлагала GPT-4 или GPT-3.5 генерировать соответствующую возрасту историю, включающую три случайных слова из списка, а также дополнительную случайно выбранную деталь, такую ​​​​как счастливый конец или поворот сюжета. К счастью, полученные истории были менее сосредоточены на пугающих слайдах.

Теперь у Элдана была процедура создания обучающих данных по запросу, но он понятия не имел, сколько историй ему понадобится для обучения функциональной модели или насколько большой должна быть эта модель. Именно тогда он объединился с Юаньчжи Ли, исследователю машинного обучения из Microsoft и Университета Карнеги-Меллон, чтобы опробовать различные возможности, воспользовавшись тем фактом, что небольшие модели можно обучать очень быстро. Шаг 1 заключался в том, чтобы решить, как оценивать их модели.

Введение

В исследовании языковой модели, как и в любом классе, выставление оценок является непростой темой. Есть нет идеальной рубрики это включает в себя все, что хотят знать исследователи, а модели, которые превосходно справляются с одними задачами, часто совершенно терпят неудачу в других. Со временем исследователи разработали различные стандартные критерии, основанные на вопросах с однозначными ответами, что является хорошим подходом, если вы пытаетесь оценить конкретные навыки. Но Элдана и Ли интересовало нечто более туманное: насколько большими на самом деле должны быть языковые модели, если вы максимально упрощаете язык?

«Для того, чтобы напрямую проверить, говорит ли модель по-английски, я думаю, единственное, что вы можете сделать, — это позволить модели генерировать английский открытым способом», — сказал Элдан.

Есть только два способа измерить производительность модели по таким качественным вопросам: положиться на людей-оценщиков или снова обратиться к GPT-4. Два исследователя выбрали последний путь, фактически позволив крупным моделям и писать учебники, и оценивать эссе.

Бхагаватула сказал, что ему хотелось бы посмотреть, как оценки GPT-4 сравниваются с оценками рецензентов-людей: GPT-4 может быть предвзятым в отношении моделей, которые он помогал обучать, а непрозрачность языковых моделей затрудняет количественную оценку таких предубеждений. Но он не думает, что такие тонкости повлияют на сравнения между различными моделями, обученными на схожих наборах синтетических историй — основной цели работы Элдана и Ли.

Элдан и Ли использовали двухэтапную процедуру для оценки каждой из своих небольших моделей после обучения. Во-первых, они предложили небольшой модели первую половину истории, отличающуюся от тех, что были в наборе обучающих данных, чтобы она сгенерировала новый финал, повторив этот процесс с 50 различными тестовыми историями. Во-вторых, они поручили GPT-4 оценить каждую концовку маленькой модели по трем категориям — креативность, грамматика и соответствие началу истории. Затем они усреднили баллы в каждой категории, в результате чего получили по три итоговые оценки для каждой модели.

Имея в виду эту процедуру, Элдан и Ли наконец были готовы сравнить разные модели и выяснить, какие ученики являются лучшими.

Результаты тестирования

После некоторых предварительных исследований два исследователя остановились на наборе обучающих данных, содержащем примерно 2 миллиона историй. Затем они использовали этот набор данных, получивший название TinyStories, для обучения моделей размером от 1 до 30 миллионов параметров с различным количеством слоев. Работа была быстрой: при использовании всего четырех графических процессоров обучение самой крупной из этих моделей занимало не более дня.

Самые маленькие модели испытывали трудности. Например, одна тестовая история начинается с того, что злобный мужчина говорит девушке, что заберет ее кошку. Модель с миллионом параметров застряла в петле: девушка неоднократно говорила мужчине, что хочет подружиться. Но более крупные — все равно в тысячи раз меньшие, чем GPT-3.5 — показали себя на удивление хорошо. Версия с 28 миллионами параметров рассказывала связную историю, хотя финал был мрачным: «Кэти начала плакать, но мужчине было все равно. Он забрал кота, и Кэти больше никогда не видела своего кота. Конец."

В дополнение к тестированию своих собственных моделей Элдан и Ли поставили ту же задачу OpenAI GPT-2, модели с 1.5 миллиардами параметров, выпущенной в 2019 году. в суд, тюрьму, больницу, морг и, наконец, крематорий.

Введение

Нгуен сказал, что удивительно, что такие крошечные модели так бегло управляются, но, возможно, неудивительно, что GPT-2 с трудом справился с этой задачей: это более крупная модель, но далекая от современного состояния, и она обучалась на совершенно другом наборе данных. «Малыш, который тренируется только с такими задачами, как игра с игрушками, может добиться большего успеха, чем вы или я», — отметил он. «Мы не специализировались на этой простой вещи».

Сравнения между различными моделями TinyStories не страдают от одних и тех же мешающих факторов. Элдан и Ли заметили намеки на то, что сети с меньшим количеством слоев, но с большим количеством нейронов на слое лучше отвечают на вопросы, требующие фактических знаний; и наоборот, сети с большим количеством слоев и меньшим количеством нейронов на слое лучше отслеживали персонажей и сюжетные моменты из предыдущих частей истории. Бхагаватула нашел этот результат особенно интригующим. Если это можно будет воспроизвести в более крупных моделях, сказал он, «это будет действительно крутой результат, который можно получить в результате этой работы».

Элдан и Ли также изучали, как способности их маленьких моделей зависят от продолжительности периода обучения. В каждом случае модели сначала осваивали грамматику, а потом последовательность. По мнению Элдана, эта закономерность иллюстрирует, как различия в структурах вознаграждения приводят к различиям в моделях овладения языком между нейронными сетями и детьми. Для языковых моделей, которые учатся путем предсказания слов, «стимул слов «я хочу иметь» такой же большой, как и стимул слов «мороженое», — сказал он. Детей, с другой стороны, «не волнует, скажут ли они: «Я бы хотел съесть немного мороженого» или просто «мороженое, мороженое, мороженое».

Качество по сравнению с количеством

Элдан и Ли надеются, что исследование побудит других исследователей обучать различные модели на набор данных TinyStories и сравнить их возможности. Но зачастую трудно предсказать, какие характеристики маленьких моделей проявятся и в более крупных.

«Может быть, мышиные модели зрения действительно являются хорошими аналогами человеческого зрения, но являются ли мышиные модели депрессии хорошими моделями человеческой депрессии?» - сказал Павлик. «Для каждого случая это немного отличается».

Успех моделей TinyStories также предполагает более широкий урок. Стандартный подход к составлению наборов обучающих данных включает в себя очистку текста из Интернета и последующую фильтрацию мусора. Синтетический текст, генерируемый большими моделями, может предложить альтернативный способ сбора высококачественных наборов данных, которые не должны быть такими большими.

«У нас появляется все больше и больше доказательств того, что это очень эффективно не только для моделей размером с TinyStories, но и для более крупных моделей», — сказал Элдан. Эти доказательства взяты из пары последующих статей о моделях с миллиардом параметров, написанных Элданом, Ли и другими исследователями Microsoft. в первая статьяОни обучили модель изучению языка программирования Python, используя фрагменты кода, сгенерированные GPT-3.5, а также тщательно подобранный код из Интернета. в второйОни дополнили набор обучающих данных синтетическими «учебниками», охватывающими широкий круг тем, для обучения языковой модели общего назначения. В своих тестах обе модели выгодно отличались от более крупных моделей, обученных на более крупных наборах данных. Но оценивать языковые модели всегда сложно, а подход к использованию синтетических обучающих данных все еще находится в зачаточном состоянии — необходимы более независимые тесты.

По мере того, как современные языковые модели становятся все крупнее, удивительные открытия их крошечных собратьев служат напоминанием о том, что мы все еще многого не понимаем даже в самых простых моделях. Нгуен ожидает увидеть еще много статей, исследующих подход, впервые предложенный TinyStories.

«Вопрос в том, где и почему размер имеет значение?» он сказал. «Это должна быть наука, и эта статья, надеюсь, станет началом богатой истории».

Отметка времени:

Больше от Квантовый журнал