Як ланцюжок думок допомагає нейронним мережам обчислювати

Перевидано Платоном

читають: 0

Як ланцюжок думок допомагає нейронним мережам обчислювати | Журнал Quanta PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Можливо, ваш учитель початкової школи не показував вам, як складати 20-значні числа. Але якщо ви знаєте, як складати менші числа, вам знадобляться лише папір, олівець і трохи терпіння. Почніть з місця одиниць і крок за кроком рухайтеся ліворуч, і незабаром ви з легкістю накопичуватимете квінтильйони.

Такі проблеми легко вирішуються для людей, але тільки якщо ми підходимо до них правильно. «Те, як ми, люди, вирішуємо ці проблеми, — це не «дивитися на це, а потім записувати відповідь», — сказав він Еран Малах, дослідник машинного навчання в Гарвардському університеті. «Ми фактично проходимо по сходах».

Це розуміння надихнуло дослідників, які вивчають великі мовні моделі, на яких працюють такі чат-боти, як ChatGPT. Хоча ці системи можуть справлятися із запитаннями, які включають кілька кроків арифметики, вони часто помиляються проблемами, які включають багато кроків, як-от обчислення суми двох великих чисел. Але в 2022 році команда дослідників Google показав що звернення до мовних моделей для створення покрокових рішень дозволило моделям вирішити проблеми, які раніше здавалися поза їхньою досяжністю. Їхня техніка, яка називається спонуканням за ланцюжком думок, незабаром набула широкого поширення, хоча дослідники намагалися зрозуміти, чому вона працює.

Тепер кілька команд дослідили силу ланцюжка думок, використовуючи прийоми таємничої галузі теоретичної інформатики під назвою теорія обчислювальної складності. Це останній розділ у дослідженні, яке використовує теорію складності для вивчення внутрішніх можливостей і обмежень мовних моделей. Ці зусилля пояснюють, де ми повинні очікувати невдачі моделей, і вони можуть вказувати на нові підходи до їх створення.

"Вони знімають частину магії", - сказав Дімітріс Папайліопулос, дослідник машинного навчання в Університеті Вісконсіна, Медісон. «Це добре».

Тренувальні трансформери

Великі мовні моделі будуються навколо математичних структур, які називаються штучними нейронними мережами. Багато «нейронів» у цих мережах виконують прості математичні операції над довгими рядками чисел, що представляють окремі слова, перетворюючи кожне слово, яке проходить через мережу, в інше. Деталі цієї математичної алхімії залежать від іншого набору чисел, званих параметрами мережі, які кількісно визначають міцність зв’язків між нейронами.

Щоб навчити мовну модель створювати узгоджені результати, дослідники зазвичай починають із нейронної мережі, усі параметри якої мають випадкові значення, а потім передають їй масиви даних з Інтернету. Щоразу, коли модель бачить новий блок тексту, вона намагається передбачити кожне слово по черзі: вона вгадує друге слово на основі першого, третє на основі перших двох і так далі. Він порівнює кожне передбачення з фактичним текстом, а потім налаштовує його параметри, щоб зменшити різницю. Кожне налаштування лише трохи змінює прогнози моделі, але якимось чином їх сукупний ефект дозволяє моделі узгоджено реагувати на вхідні дані, які вона ніколи не бачила.

Дослідники навчали нейронні мережі обробляти мову протягом 20 років. Але робота по-справжньому почалася в 2017 році, коли дослідники з Google представили a новий вид мережі називають трансформатором.

«Це було запропоновано сім років тому, що здається передісторією», — сказав він Пабло Барсело, дослідник машинного навчання в Папському католицькому університеті Чилі.

Що зробило трансформатори настільки трансформаційними, так це те, що їх легко масштабувати — щоб збільшити кількість параметрів і обсяг даних для навчання — без того, щоб навчання було надмірно дорогим. До трансформаторів нейронні мережі мали щонайбільше кілька сотень мільйонів параметрів; сьогодні найбільші моделі на основі трансформаторів нараховують понад трильйон. Значна частина покращення продуктивності мовної моделі за останні п’ять років походить від простого розширення.

Трансформери зробили це можливим завдяки використанню спеціальних математичних структур, які називаються головками уваги, які дають їм щось на зразок висоти пташиного польоту на текст, який вони читають. Коли трансформатор читає новий блок тексту, його концентраційні головки швидко сканують весь текст і визначають відповідні зв’язки між словами — можливо, зауважуючи, що четверте та восьме слова, ймовірно, будуть найбільш корисними для передбачення 10-го. Потім голови уваги передають слова до величезної мережі нейронів, що називається мережею прямого зв’язку, яка виконує інтенсивну обробку чисел, необхідну для створення прогнозів, які допомагають їй навчатися.

Справжні трансформатори мають кілька рівнів головок уваги, розділених мережами прямого зв’язку, і видають прогнози лише після останнього шару. Але на кожному рівні головки уваги вже визначили найбільш релевантний контекст для кожного слова, тому етап, що вимагає інтенсивних обчислень, може відбуватися одночасно для кожного слова в тексті. Це прискорює процес навчання, роблячи можливим навчання трансформаторів на все більших наборах даних. Що ще важливіше, це дозволяє дослідникам розподілити величезне обчислювальне навантаження навчання масивної нейронної мережі між багатьма процесорами, що працюють у тандемі.

Щоб отримати максимальну віддачу від масивних наборів даних, «ви повинні зробити моделі дійсно великими», — сказав він Девід Чіанг, дослідник машинного навчання в Університеті Нотр-Дам. «Просто буде непрактично навчати їх, якщо це не паралельно».

Однак паралельна структура, завдяки якій так легко навчати трансформаторів, не допомагає після навчання — на цьому етапі немає потреби передбачати слова, які вже існують. Під час звичайної роботи трансформатори виводять одне слово за раз, прикріплюючи кожен вихідний сигнал назад до входу перед тим, як генерувати наступне слово, але вони все ще застрягли в архітектурі, оптимізованій для паралельної обробки.

У міру того як моделі на основі трансформаторів зростали, а певні завдання продовжували створювати їм проблеми, деякі дослідники почали замислюватися, чи поштовх до моделей, які можна розпаралелювати, коштував. Чи був спосіб теоретично зрозуміти поведінку трансформаторів?

Складність трансформерів

Теоретичні дослідження нейронних мереж стикаються з багатьма труднощами, особливо коли вони намагаються врахувати навчання. Нейронні мережі використовують добре відому процедуру для налаштування своїх параметрів на кожному кроці процесу навчання. Але може бути важко зрозуміти, чому ця проста процедура збігається на хорошому наборі параметрів.

Замість того, щоб розглядати, що відбувається під час навчання, деякі дослідники вивчають внутрішні можливості трансформаторів, уявляючи, що їх параметри можна налаштувати на будь-які довільні значення. Це означає розглядати трансформатор як особливий тип програмованого комп'ютера.

«У вас є якийсь обчислювальний пристрій, і ви хочете знати: «Ну, що він може?» Які функції він може обчислювати?», — сказав Чіанг.

Це центральні питання формального вивчення обчислень. Поле бере свій початок з 1936 року, коли Алан Тьюринг вперше уявив a химерний пристрій, яку тепер називають машиною Тьюрінга, яка могла виконувати будь-які обчислення, читаючи та записуючи символи на нескінченній стрічці. Теоретики обчислювальної складності пізніше спиралися на роботу Тюрінга, доводячи, що обчислювальні проблеми природно розпадаються на різні класи складності визначається ресурсами, необхідними для їх вирішення.

У 2019 році Барсело та двоє інших дослідників доведений що ідеалізована версія трансформатора з фіксованою кількістю параметрів може бути такою ж потужною, як машина Тьюрінга. Якщо ви налаштуєте трансформатор на повторну подачу вихідного сигналу як вхідного сигналу та встановите параметри на відповідні значення для конкретної проблеми, яку ви хочете вирішити, він зрештою видасть правильну відповідь.

Цей результат був відправною точкою, але він спирався на деякі нереалістичні припущення, які, ймовірно, переоцінюють потужність трансформаторів. З тих пір дослідники працювали над розробкою більш реалістичних теоретичних основ.

Одна з таких спроб розпочалася у 2021 році, коли Вільям Меррілл, тепер аспірант Нью-Йоркського університету, залишав дворічну стипендію в Інституті штучного інтелекту Аллена в Сіетлі. Перебуваючи там, він аналізував інші типи нейронних мереж, використовуючи методи, які, здавалося, погано підходили для паралельної архітектури трансформаторів. Незадовго до від'їзду він зав'язав розмову з дослідником Інституту Аллена для ШІ Ашиш Сабхарвал, який вивчав теорію складності, перш ніж перейти до досліджень ШІ. Вони почали підозрювати, що теорія складності може допомогти їм зрозуміти межі трансформаторів.

«Просто здавалося, що це проста модель; повинні бути деякі обмеження, які можна просто встановити», – сказав Сабхарвал.

Пара проаналізувала трансформатори за допомогою розділу теорії обчислювальної складності, який називається складністю схем, який часто використовується для вивчення паралельних обчислень і мав нещодавно застосовано до спрощених варіантів трансформерів. Протягом наступного року вони уточнили кілька нереалістичних припущень у попередній роботі. Щоб вивчити, як паралельна структура трансформаторів може обмежити їхні можливості, пара розглянула випадок, коли трансформатори не повертають вихідний сигнал назад на вхід — натомість їхній перший вихід має бути остаточною відповіддю. Вони доведений що трансформатори в цій теоретичній структурі не можуть вирішити жодних обчислювальних проблем, які лежать за межами певного класу складності. Вважається, що багато математичних завдань, у тому числі відносно прості, такі як розв’язування лінійних рівнянь, не належать до цього класу.

По суті, вони показали, що паралелізм коштує дорого — принаймні, коли трансформатори повинні були негайно дати відповідь. «Трансформери досить слабкі, якщо ви їх використовуєте, якщо ви надаєте вхід, і ви просто очікуєте негайної відповіді», — сказав Меррілл.

Мистецькі досліди

Результати Меррілла та Сабхарвала викликали природне запитання — наскільки потужнішими стають трансформатори, коли їм дозволяється переробляти свою продукцію? Барсело та його співавтори вивчали цей випадок у своєму аналізі ідеалізованих трансформаторів 2019 року, але з більш реалістичними припущеннями питання залишалося відкритим. А в наступні роки дослідники виявили спонукання до ланцюга думок, надавши питанню нової актуальності.

Меррілл і Сабхарвал знали, що їхній суто математичний підхід не може охопити всі аспекти ланцюжка думок у реальних мовних моделях, де формулювання в підказці може бути дуже важливим. Але незалежно від того, як сформульовано підказку, якщо вона змушує мовну модель виводити покрокові рішення, модель, в принципі, може повторно використовувати результати проміжних кроків під час наступних проходів через трансформатор. Це може забезпечити спосіб уникнути обмежень паралельних обчислень.

Тим часом команда з Пекінського університету думала подібним чином, і їхні попередні результати були позитивними. У документі від травня 2023 року вони визначили деякі математичні проблеми, які повинні бути неможливими для звичайних трансформаторів у системі Меррілла та Сабхарвала, і показав що проміжні кроки дозволили трансформаторам вирішити ці проблеми.

У жовтні Merrill і Sabharwal продовжили свою попередню роботу з a детальне теоретичне дослідження обчислювальної потужності ланцюга думок. Вони кількісно визначили, як ця додаткова обчислювальна потужність залежить від кількості проміжних кроків, які трансформатору дозволено використовувати, перш ніж він повинен буде видати остаточну відповідь. Загалом дослідники очікують, що відповідна кількість проміжних кроків для вирішення будь-якої проблеми залежатиме від розміру вхідних даних для проблеми. Наприклад, найпростіша стратегія додавання двох 20-значних чисел вимагає вдвічі більше проміжних кроків додавання, ніж той самий підхід до додавання двох 10-значних чисел.

Подібні приклади свідчать про те, що трансформатори не виграють від використання лише кількох проміжних кроків. Дійсно, Меррілл і Сабхарвал довели, що ланцюжок думок починає справді допомагати лише тоді, коли кількість проміжних кроків зростає пропорційно розміру вхідних даних, а для багатьох проблем кількість проміжних кроків ще збільшується.

Ретельність результату вразила дослідників. «Вони справді закріпили це», — сказав Даніель Хсу, дослідник машинного навчання в Колумбійському університеті.

Нещодавня робота Меррілла та Сабхарвала показує, що ланцюг думок не є панацеєю — в принципі, він може допомогти трансформаторам вирішити складніші проблеми, але лише ціною великих обчислювальних зусиль.

«Ми зацікавлені в різних способах обійти обмеження трансформаторів одним кроком», — сказав Меррілл. «Ланцюжок думок — це один із способів, але ця стаття показує, що це може бути не найекономічнішим».

Повернутися до реальності

Проте дослідники попереджають, що такий теоретичний аналіз може розкрити лише дуже багато про реальні мовні моделі. Позитивні результати — докази того, що трансформатори в принципі можуть вирішувати певні проблеми — не означають, що мовна модель дійсно вивчатиме ці рішення під час навчання.

І навіть результати, які стосуються обмежень трансформаторів, мають застереження: вони вказують на те, що жоден трансформатор не може ідеально вирішити певні проблеми в усіх випадках. Звичайно, це досить висока планка. «Можуть бути окремі випадки проблеми, з якими він міг би впоратися цілком», — сказав Хсу.

Незважаючи на ці застереження, нова робота пропонує шаблон для аналізу різних типів архітектур нейронних мереж, які з часом можуть замінити трансформатори. Якщо аналіз теорії складності припускає, що певні типи мереж потужніші за інші, це буде доказом того, що ці мережі також можуть працювати краще в реальному світі.

Чіанг також підкреслив, що дослідження обмежень трансформаторів є тим більш цінним, оскільки мовні моделі все частіше використовуються в широкому діапазоні реальних додатків, що дозволяє легко переоцінити їхні можливості.

«Насправді є багато речей, які вони роблять не дуже добре, і ми повинні дуже, дуже усвідомлювати обмеження», — сказав Чіанг. «Ось чому така робота дійсно важлива».

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
ПлатонЕСГ. вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
джерело: https://www.quantamagazine.org/how-chain-of-thought-reasoning-helps-neural-networks-compute-20240321/

Часова мітка: Березня 21, 2024

Часова мітка: Серпень 17, 2023

Як ланцюжок думок допомагає нейронним мережам обчислювати | Журнал Quanta

Перевидано Платоном

Тренувальні трансформери

Складність трансформерів

Мистецькі досліди

Повернутися до реальності

Більше від Квантамагазин

Що таке квантова теорія поля і чому вона неповна?

Усередині стародавніх астероїдів гамма-промені створили будівельні блоки життя

Машини навчаються краще, якщо ми навчимо їх основам

Експериментальний космолог у пошуках першого сходу сонця | Журнал Quanta

Конфлікт космічних чисел кидає виклик нашій найкращій теорії Всесвіту | Журнал Quanta

Математична «Гра життя» розкриває довго шукані повторювані шаблони | Журнал Quanta

Комп’ютерний доказ «підриває» багатовікові рівняння рідини

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки

Вступ

Тренувальні трансформери

Складність трансформерів

Мистецькі досліди

Повернутися до реальності

Більше від Квантамагазин

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки