Введение
Ваш школьный учитель, вероятно, не показал вам, как складывать 20-значные числа. Но если вы умеете складывать меньшие числа, все, что вам нужно, — это бумага, карандаш и немного терпения. Начните с единицы и двигайтесь влево шаг за шагом, и вскоре вы с легкостью будете складывать квинтиллионы.
Подобные проблемы несложны для людей, но только если мы подходим к ним правильно. «Мы, люди, решаем эти проблемы, а не просто смотрим на них, а затем записываем ответ», — сказал он. Эран Малах, исследователь машинного обучения в Гарвардском университете. «На самом деле мы идем по ступенькам».
Это понимание вдохновило исследователей на изучение больших языковых моделей, на которых работают чат-боты, такие как ChatGPT. Хотя эти системы могут решать вопросы, включающие несколько шагов арифметики, они часто проваливают задачи, состоящие из многих шагов, например, вычисление суммы двух больших чисел. Но в 2022 году команда исследователей Google показал что требование к языковым моделям генерировать пошаговые решения позволило моделям решать проблемы, которые раньше казались им недоступными. Их метод, называемый подсказкой по цепочке мыслей, вскоре получил широкое распространение, хотя исследователи изо всех сил пытались понять, что заставляет его работать.
Теперь несколько команд исследовали силу цепочки мыслей, используя методы из загадочной отрасли теоретической информатики, называемой теорией сложности вычислений. Это последняя глава в линии исследований, в которых теория сложности используется для изучения внутренних возможностей и ограничений языковых моделей. Эти усилия проясняют, где нам следует ожидать неудачи моделей, и могут указать на новые подходы к их построению.
«Они удаляют часть магии», — сказал Димитрис Папалиопулос, исследователь машинного обучения из Университета Висконсина, Мэдисон. "Это хорошая вещь."
Тренировочные трансформеры
Большие языковые модели строятся на основе математических структур, называемых искусственными нейронными сетями. Множество «нейронов» внутри этих сетей выполняют простые математические операции над длинными строками чисел, представляющими отдельные слова, преобразуя каждое слово, проходящее через сеть, в другое. Детали этой математической алхимии зависят от другого набора чисел, называемого параметрами сети, которые количественно определяют силу связей между нейронами.
Чтобы обучить языковую модель выдавать последовательные выходные данные, исследователи обычно начинают с нейронной сети, все параметры которой имеют случайные значения, а затем загружают в нее массивы данных со всего Интернета. Каждый раз, когда модель видит новый блок текста, она пытается предсказать каждое слово по очереди: второе слово угадывается на основе первого, третье на основе первых двух и так далее. Он сравнивает каждое предсказание с реальным текстом, а затем настраивает его параметры, чтобы уменьшить разницу. Каждая настройка лишь немного меняет прогнозы модели, но каким-то образом их коллективный эффект позволяет модели согласованно реагировать на входные данные, которых она никогда не видела.
Исследователи обучают нейронные сети обработке речи уже 20 лет. Но по-настоящему работа пошла в гору в 2017 году, когда исследователи из Google представили новый вид сети называется трансформатором.
«Это было предложено семь лет назад, и это кажется предысторией», — сказал Пабло Барсело, исследователь машинного обучения в Папском католическом университете Чили.
Что сделало преобразователи такими революционными, так это то, что их легко масштабировать — увеличить количество параметров и объем обучающих данных — без того, чтобы обучение было непомерно дорогим. До появления трансформаторов нейронные сети имели максимум несколько сотен миллионов параметров; сегодня крупнейших моделей на базе трансформаторов насчитывается более триллиона. Значительная часть улучшения производительности языковых моделей за последние пять лет связана с простым масштабированием.
Трансформеры сделали это возможным благодаря использованию специальных математических структур, называемых «головами внимания», которые дают им вид текста, который они читают, с высоты птичьего полета. Когда преобразователь читает новый блок текста, его центры внимания быстро сканируют весь текст и определяют соответствующие связи между словами — возможно, отмечая, что четвертое и восьмое слова, вероятно, будут наиболее полезны для предсказания 10-го. Затем центры внимания передают слова огромной сети нейронов, называемой сетью прямой связи, которая выполняет тяжелую обработку чисел, необходимую для генерации прогнозов, которые помогают ей учиться.
Настоящие преобразователи имеют несколько уровней «головок внимания», разделенных сетями прямой связи, и выдают предсказания только после последнего уровня. Но на каждом уровне центры внимания уже определили наиболее релевантный контекст для каждого слова, поэтому этап прямой связи с интенсивными вычислениями может выполняться одновременно для каждого слова в тексте. Это ускоряет процесс обучения и позволяет обучать преобразователей на все более больших наборах данных. Что еще более важно, это позволяет исследователям распределить огромную вычислительную нагрузку по обучению огромной нейронной сети на множество процессоров, работающих в тандеме.
Чтобы получить максимальную отдачу от огромных наборов данных, «необходимо делать модели действительно большими», — сказал он. Дэвид Чан, исследователь машинного обучения в Университете Нотр-Дам. «Обучать их без распараллеливания будет просто нецелесообразно».
Однако параллельная структура, которая позволяет так легко обучать трансформеров, не помогает после обучения — на этом этапе нет необходимости предсказывать уже существующие слова. В обычном режиме работы преобразователи выводят по одному слову, прикрепляя каждый выходной сигнал обратно к входному, прежде чем генерировать следующее слово, но они по-прежнему придерживаются архитектуры, оптимизированной для параллельной обработки.
По мере роста моделей, основанных на трансформаторах, и некоторых задач по-прежнему возникали проблемы, некоторые исследователи начали задаваться вопросом, не стоило ли движение к более распараллеливаемым моделям дорогое удовольствие. Был ли способ теоретически понять поведение трансформаторов?
Сложность трансформаторов
Теоретические исследования нейронных сетей сталкиваются со многими трудностями, особенно когда они пытаются учесть обучение. Нейронные сети используют хорошо известную процедуру для настройки своих параметров на каждом этапе процесса обучения. Но может быть трудно понять, почему эта простая процедура сходится при хорошем наборе параметров.
Вместо того, чтобы рассматривать то, что происходит во время обучения, некоторые исследователи изучают внутренние возможности трансформаторов, воображая, что их параметры можно настроить на любые произвольные значения. Это равносильно рассмотрению трансформатора как особого типа программируемого компьютера.
«У вас есть какое-то вычислительное устройство, и вы хотите знать: «Ну, а что оно может сделать?» Какие функции он может вычислять?», — сказал Чан.
Это центральные вопросы формального изучения вычислений. Эта область возникла в 1936 году, когда Алан Тьюринг впервые представил себе причудливое устройство, теперь называемая машиной Тьюринга, которая могла выполнять любые вычисления, считывая и записывая символы на бесконечную ленту. Теоретики вычислительной сложности позже будут опираться на работу Тьюринга, доказывая, что вычислительные задачи естественным образом делятся на разные категории. классы сложности определяются ресурсами, необходимыми для их решения.
В 2019 году Барсело и двое других исследователей доказанный что идеализированная версия трансформатора с фиксированным числом параметров может быть такой же мощной, как машина Тьюринга. Если вы настроите преобразователь так, чтобы его выходной сигнал неоднократно подавался обратно в качестве входного, и установите для параметров соответствующие значения для конкретной проблемы, которую вы хотите решить, он в конечном итоге выдаст правильный ответ.
Этот результат стал отправной точкой, но он основывался на некоторых нереалистичных предположениях, которые, вероятно, привели бы к переоценке мощности трансформаторов. В последующие годы исследователи работали над разработкой более реалистичных теоретических основ.
Одна из таких попыток началась в 2021 году, когда Уильям Меррилл, ныне аспирант Нью-Йоркского университета, заканчивал двухлетнюю стажировку в Институте искусственного интеллекта Аллена в Сиэтле. Там он анализировал другие виды нейронных сетей, используя методы, которые, казалось, плохо подходили для параллельной архитектуры трансформаторов. Незадолго до отъезда он завязал разговор с исследователем Алленовского института искусственного интеллекта. Ашиш Сабхарвал, который изучал теорию сложности, прежде чем заняться исследованиями в области ИИ. Они начали подозревать, что теория сложности может помочь им понять пределы возможностей преобразователей.
«Просто казалось, что это простая модель; должны быть некоторые ограничения, которые можно просто зафиксировать», — сказал Сабхарвал.
Пара проанализировала трансформаторы, используя раздел теории сложности вычислений, называемый сложностью схемы, который часто используется для изучения параллельных вычислений и имел недавно был применен к упрощенным вариантам трансформаторов. В течение следующего года они уточнили несколько нереалистичных предположений, сделанных в предыдущей работе. Чтобы изучить, как параллельная структура трансформаторов может ограничить их возможности, пара рассмотрела случай, когда трансформаторы не передают свой выход обратно на вход — вместо этого их первый выход должен быть окончательным ответом. Они доказанный что преобразователи в этой теоретической системе не могут решить никакие вычислительные задачи, выходящие за рамки определенного класса сложности. Считается, что многие математические задачи, в том числе относительно простые, такие как решение линейных уравнений, лежат за пределами этого класса.
По сути, они показали, что за параллелизм приходится платить — по крайней мере, когда преобразователям приходилось сразу же выдавать ответ. «Трансформеры довольно слабы, если вы используете их так, что вводите данные и просто ожидаете немедленного ответа», — сказал Меррилл.
Мысленные эксперименты
Результаты Меррилла и Сабхарвала подняли естественный вопрос: насколько мощнее становятся трансформаторы, когда им разрешено перерабатывать свою продукцию? Барсело и его соавторы изучали этот случай в своем анализе идеализированных трансформаторов в 2019 году, но при более реалистичных предположениях вопрос оставался открытым. А за прошедшие годы исследователи обнаружили подсказку по цепочке мыслей, что придало этому вопросу новую актуальность.
Меррилл и Сабхарвал знали, что их чисто математический подход не может охватить все аспекты цепочки мыслей в реальных языковых моделях, где формулировки в подсказке может быть очень важным. Но независимо от того, как сформулировано приглашение, если оно заставляет языковую модель выводить пошаговые решения, модель в принципе может повторно использовать результаты промежуточных шагов при последующих проходах через преобразователь. Это может дать возможность обойти ограничения параллельных вычислений.
Тем временем команда из Пекинского университета размышляла в том же направлении, и их предварительные результаты были положительными. В статье, опубликованной в мае 2023 года, они определили некоторые математические задачи, которые должны быть невыполнимы для обычных преобразователей в рамках структуры Меррилла и Сабхарвала, и показал что промежуточные шаги позволили трансформаторам решить эти проблемы.
В октябре Меррилл и Сабхарвал продолжили свою предыдущую работу, выпустив подробное теоретическое исследование вычислительной мощности цепочки мыслей. Они количественно оценили, как эта дополнительная вычислительная мощность зависит от количества промежуточных шагов, которые преобразователю разрешено использовать, прежде чем он должен выдать окончательный ответ. В целом исследователи ожидают, что подходящее количество промежуточных шагов для решения любой проблемы будет зависеть от размера входных данных для решения проблемы. Например, простейшая стратегия сложения двух 20-значных чисел требует вдвое больше промежуточных шагов сложения, чем тот же подход сложения двух 10-значных чисел.
Подобные примеры позволяют предположить, что трансформаторы не получат особой выгоды от использования всего лишь нескольких промежуточных этапов. Действительно, Меррилл и Сабхарвал доказали, что цепочка мыслей начинает действительно помогать только тогда, когда количество промежуточных шагов растет пропорционально размеру входных данных, а многие проблемы требуют, чтобы количество промежуточных шагов выросло еще больше.
Тщательность результата впечатлила исследователей. «Они действительно это зафиксировали», — сказал Дэниел Хсу, исследователь машинного обучения в Колумбийском университете.
Недавняя работа Меррилла и Сабхарвала показывает, что цепочка мыслей не является панацеей: в принципе, она может помочь преобразователям решать более сложные проблемы, но только ценой больших вычислительных усилий.
«Мы заинтересованы в различных способах обойти ограничения трансформаторов одним шагом», — сказал Меррилл. «Цепочка размышлений — это один из способов, но эта статья показывает, что это может быть не самый экономичный путь».
Обратно в реальность
Тем не менее, исследователи предупреждают, что такого рода теоретический анализ может раскрыть лишь очень многое о реальных языковых моделях. Положительные результаты — доказательства того, что преобразователи в принципе могут решать определенные проблемы — не означают, что языковая модель действительно выучит эти решения во время обучения.
И даже результаты, касающиеся ограничений трансформаторов, сопровождаются оговорками: они указывают на то, что ни один трансформатор не может идеально решить определенные проблемы во всех случаях. Конечно, это довольно высокая планка. «Могут быть особые случаи проблемы, с которыми он прекрасно справится», — сказал Сюй.
Несмотря на эти предостережения, новая работа предлагает шаблон для анализа различных типов архитектур нейронных сетей, которые в конечном итоге могут заменить трансформаторы. Если анализ теории сложности покажет, что некоторые типы сетей более мощны, чем другие, это будет свидетельством того, что эти сети могут работать лучше и в реальном мире.
Чан также подчеркнул, что исследования ограничений преобразователей тем более ценны, поскольку языковые модели все чаще используются в широком спектре реальных приложений, что позволяет легко переоценить их возможности.
«На самом деле есть много вещей, которые они делают не очень хорошо, и нам нужно очень, очень хорошо осознавать, в чем заключаются ограничения», — сказал Чан. «Вот почему такая работа действительно важна».
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://www.quantamagazine.org/how-chain-of-thought-reasoning-helps-neural-networks-compute-20240321/
- :имеет
- :является
- :нет
- :куда
- ][п
- $UP
- 10
- 20
- 20 лет
- 2017
- 2019
- 2021
- 2022
- 2023
- a
- способности
- О нас
- Учетная запись
- через
- фактического соединения
- на самом деле
- Добавить
- добавить
- дополнение
- адрес
- регулировать
- После
- тому назад
- AI
- ай исследование
- Алан
- Алан Тьюринг
- алхимия
- Все
- Аллен
- разрешено
- позволяет
- вдоль
- уже
- причислены
- количество
- суммы
- an
- анализ
- проанализированы
- анализ
- и
- Другой
- ответ
- любой
- Приложения
- подхода
- подходы
- соответствующий
- произвольный
- Arcane
- архитектура
- архитектуры
- МЫ
- около
- искусственный
- искусственный интеллект
- AS
- спрашивающий
- аспекты
- предположения
- At
- внимание
- прочь
- назад
- бар
- основанный
- BE
- стали
- становиться
- было
- до
- начал
- начинается
- поведение
- Лучшая
- между
- Beyond
- Немного
- Заблокировать
- Филиал
- строить
- Строительство
- построенный
- но
- by
- расчет
- под названием
- CAN
- возможности
- захватить
- случаев
- случаев
- Причины
- осторожность
- центральный
- определенный
- цепь
- изменения
- Глава
- chatbots
- ChatGPT
- Чили
- класс
- ПОСЛЕДОВАТЕЛЬНЫЙ
- собирательный
- COLUMBIA
- как
- выходит
- сложность
- вычисление
- вычислительный
- вычислительная мощность
- вычислительно
- Вычисление
- компьютер
- Информатика
- вычисление
- Коммутация
- Рассматривать
- считается
- контекст
- продолжающийся
- Разговор
- исправить
- Цена
- может
- "Курс"
- данным
- наборы данных
- Финики
- определенный
- зависеть
- зависит
- подробнее
- развивать
- устройство
- DID
- разница
- различный
- трудный
- затруднения
- открытый
- do
- приносит
- не
- Dont
- вниз
- в течение
- каждый
- Ранее
- простота
- легко
- эффект
- усилие
- усилия
- восьмой
- включен
- позволяет
- огромный
- уравнения
- особенно
- Evade
- Даже
- со временем
- Каждая
- , поскольку большинство сенаторов
- пример
- существовать
- ожидать
- дорогим
- Разведанный
- дополнительно
- Face
- FAIL
- Осень
- несколько
- поле
- окончательный
- конец
- First
- соответствовать
- 5
- фиксированной
- следует
- после
- Что касается
- формальный
- Четвертый
- Рамки
- каркасы
- от
- Функции
- Gain
- Общие
- порождать
- порождающий
- получить
- получающий
- Дайте
- Отдаете
- будет
- хорошо
- есть
- класс
- выпускник
- выросли
- Расти
- Растет
- было
- обрабатывать
- происходить
- происходит
- Сильнее
- Гарвардский
- Гарвардский университет
- Есть
- he
- главы
- тяжелый
- помощь
- помогает
- High
- его
- Как
- How To
- HTTP
- HTTPS
- Людей
- сто
- идентифицированный
- определения
- if
- представить
- немедленная
- важную
- что она
- впечатленный
- улучшение
- in
- В том числе
- Увеличение
- все больше и больше
- действительно
- указывать
- указывает
- individual
- Бесконечный
- ING
- вход
- затраты
- внутри
- понимание
- вдохновленный
- вместо
- Институт
- Интеллекта
- заинтересованный
- Интернет
- вмешиваясь
- в
- внутренний
- выпустили
- с участием
- IT
- ЕГО
- всего
- Вид
- виды
- Знать
- язык
- большой
- больше
- крупнейших
- Фамилия
- новее
- последний
- слой
- слоев
- УЧИТЬСЯ
- изучение
- наименее
- уход
- ложь
- такое как
- Вероятно
- ОГРАНИЧЕНИЯ
- недостатки
- рамки
- линия
- линейный
- линий
- загрузка
- Длинное
- серия
- машина
- обучение с помощью машины
- сделанный
- журнал
- магия
- сделать
- ДЕЛАЕТ
- Создание
- многих
- массивный
- математике
- математический
- Вопрос
- Май..
- Merrill
- может быть
- миллиона
- модель
- Модели
- БОЛЕЕ
- самых
- перемещение
- много
- с разными
- должен
- натуральный
- Необходимость
- необходимый
- сеть
- сетей
- нервный
- нейронной сети
- нейронные сети
- Нейроны
- никогда
- Новые
- New York
- следующий
- нет
- отметив,
- сейчас
- номер
- номера
- октябрь
- of
- от
- Предложения
- .
- on
- ONE
- те,
- только
- на
- открытый
- операция
- Операционный отдел
- оптимизированный
- обычный
- Другое
- Другое
- внешний
- выходной
- выходы
- внешнюю
- за
- пара
- панацея
- бумага & картон
- Параллельные
- параметры
- pass
- проходит
- мимо
- Терпение
- Пекин
- в совершенстве
- Выполнять
- производительность
- возможно
- Часть
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Точка
- состояния потока
- положительный
- возможное
- мощностью
- мощный
- практическое
- предсказывать
- прогнозирования
- прогноз
- Predictions
- предварительный
- довольно
- предыдущий
- предварительно
- принцип
- вероятно
- Проблема
- проблемам
- процедуры
- процесс
- обработка
- процессоры
- производит
- программируемый
- доказательства
- доля
- предложило
- доказанный
- обеспечивать
- доказывания
- чисто
- Push
- Квантовый журнал
- количественно
- вопрос
- Вопросы
- быстро
- вполне
- поднятый
- случайный
- ассортимент
- достигать
- Reading
- реальные
- реальный мир
- реалистичный
- Реальность
- на самом деле
- последний
- уменьшить
- рафинированный
- относительно
- актуальность
- соответствующие
- остались
- удаление
- НЕОДНОКРАТНО
- замещать
- представляющий
- требовать
- обязательный
- требуется
- исследованиям
- исследователь
- исследователи
- Полезные ресурсы
- Реагируйте
- результат
- Итоги
- снова использовать
- показывать
- правую
- Сказал
- то же
- Шкала
- масштабирование
- сканирование
- Школа
- Наука
- Сиэтл
- Во-вторых
- казалось
- кажется
- видел
- видит
- набор
- Наборы
- семь
- несколько
- вскоре
- должен
- показывать
- показал
- Шоу
- аналогичный
- просто
- упрощенный
- просто
- одновременно
- с
- Размер
- меньше
- So
- Решения
- РЕШАТЬ
- Решение
- некоторые
- как-то
- скоро
- особый
- конкретный
- скорость
- распространение
- штабелирования
- Начало
- Начало
- Шаг
- Шаги
- По-прежнему
- Стратегия
- прочность
- Структура
- структур
- "Студент"
- учился
- исследования
- Кабинет
- изучение
- последующее
- такие
- предлагать
- Предлагает
- системы
- Тандем
- задачи
- команда
- команды
- техника
- снижения вреда
- шаблон
- текст
- чем
- который
- Ассоциация
- их
- Их
- тогда
- теоретический
- теория
- Там.
- Эти
- они
- задача
- вещи
- мышление
- В третьих
- этой
- те
- мысль
- Через
- время
- в
- сегодня
- приняли
- к
- Train
- Обучение
- преобразующей
- трансформатор
- трансформеры
- лечения
- Триллион
- беда
- стараться
- Тьюринга
- ОЧЕРЕДЬ
- щипать
- твики
- Дважды
- два
- напишите
- Типы
- типично
- понимать
- Университет
- если не
- использование
- используемый
- полезный
- использования
- через
- ценный
- Наши ценности
- версия
- версии
- очень
- Вид
- от
- хотеть
- законопроект
- Путь..
- способы
- we
- слабый
- Web
- WebP
- ЧТО Ж
- известный
- были
- Что
- когда
- будь то
- который
- в то время как
- все
- чья
- зачем
- широкий
- Широкий диапазон
- широко распространена
- будете
- без
- удивляться
- Word
- формулировка
- слова
- Работа
- работавший
- работает
- Мир
- бы
- записывать
- письмо
- год
- лет
- йорк
- Ты
- зефирнет