Нова теорія передбачає, що чат-боти можуть розуміти текст | Журнал Quanta

Нова теорія передбачає, що чат-боти можуть розуміти текст | Журнал Quanta

Нова теорія передбачає, що чат-боти можуть розуміти текст | Журнал Quanta PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Вступ

Штучний інтелект здається потужнішим, ніж будь-коли, з такими чат-ботами, як Bard і ChatGPT, які здатні створювати неймовірно людський текст. Але, незважаючи на всі свої таланти, ці боти все ще змушують дослідників дивуватися: створювати такі моделі насправді розуміти що вони говорять? «Очевидно, що деякі люди вірять у це», — сказав піонер ШІ Джефф Гінтон В нещодавня розмова з Ендрю Нґом, «і деякі люди вважають, що вони просто стохастичні папуги».

Ця яскрава фраза походить із 2021 року папір у співавторстві Емілі Бендер, комп’ютерний лінгвіст у Вашингтонському університеті. Це припускає, що великі мовні моделі (LLM), які складають основу сучасних чат-ботів, генерують текст лише шляхом поєднання інформації, яку вони вже бачили, «без будь-якого посилання на значення», пишуть автори, що робить LLM «стохастичним папугою».

Ці моделі використовують багато найбільших і найкращих сучасних чат-ботів, тож Хінтон стверджував, що настав час визначити, наскільки вони розуміються. Питання, на його думку, більш ніж академічне. «Поки у нас є розбіжності в думках, — сказав він Нґу, — ми не зможемо прийти до консенсусу щодо небезпек».

Нове дослідження може мати натяки на відповідь. Теорія, розроблена Санджив Арора Прінстонського університету та Аніруд Гоял, науковий співробітник Google DeepMind, припускає, що найбільші з сучасних LLM не є стохастичними папугами. Автори стверджують, що коли ці моделі стають більшими та навчаються на більшій кількості даних, вони покращують індивідуальні мовні здібності, а також розвивають нові, комбінуючи навички таким чином, щоб натякати на розуміння — комбінації, які навряд чи існували в навчальних даних. .

Цей теоретичний підхід, який надає математично підтверджені аргументи щодо того, як і чому магістр права може розвинути стільки здібностей, переконав таких експертів, як Хінтон та інші. І коли Арора та його команда перевірили деякі прогнози, вони виявили, що ці моделі поводяться майже так, як очікувалося. З усіх сторін вони зробили переконливі аргументи, що найбільші LLM не просто повторюють те, що бачили раніше.

«[Вони] не можуть просто імітувати те, що було видно в тренувальних даних», — сказав Себастьян Бубек, математик і комп’ютерний науковець із Microsoft Research, який не брав участі в роботі. «Це основне розуміння».

Більше даних, більше потужності

Виникнення несподівані та різноманітні здібності в магістратурі, чесно кажучи, стало несподіванкою. Ці здібності не є очевидним наслідком того, як системи побудовані та навчені. LLM — це масивна штучна нейронна мережа, яка з’єднує окремі штучні нейрони. Ці з'єднання відомі як параметри моделі, і їх кількість вказує на розмір LLM. Навчання передбачає надання LLM речення з прикритим останнім словом, наприклад, «Паливо коштує руку і ___». LLM передбачає розподіл ймовірностей по всьому своєму словниковому запасу, тому якщо він знає, скажімо, тисячу слів, він передбачає тисячу ймовірностей. Потім він вибирає найбільш імовірне слово для завершення речення — імовірно, «нога».

Спочатку магістр права може погано підбирати слова. Потім навчальний алгоритм обчислює втрату — відстань у деякому високовимірному математичному просторі між відповіддю магістра та фактичним словом у вихідному реченні — і використовує цю втрату для налаштування параметрів. Тепер, враховуючи те саме речення, LLM обчислить кращий розподіл ймовірностей, і його втрати будуть трохи нижчими. Алгоритм робить це для кожного речення в навчальних даних (можливо, мільярдів речень), доки загальні втрати LLM не впадуть до прийнятного рівня. Подібний процес використовується для перевірки LLM на реченнях, які не були частиною навчальних даних.

Навчений і перевірений LLM, отримавши нову текстову підказку, згенерує найбільш вірогідне наступне слово, додасть його до підказки, згенерує наступне слово та продовжить таким чином, створюючи, здавалося б, послідовну відповідь. Ніщо в навчальному процесі не свідчить про те, що більші LLM, побудовані з використанням більшої кількості параметрів і навчальних даних, також повинні вдосконалюватися у завданнях, для відповіді на які потрібне міркування.

Але вони роблять. Достатньо великі магістратури демонструють здібності — від вирішення елементарних математичних задач до відповідей на запитання про те, що відбувається в головах інших — яких не мають менші моделі, хоча всі вони навчаються подібним чином.

«Звідки ця [здатність] виникла?» — здивувалася Арора. «І чи може це випливати лише з передбачення наступного слова?»

Підключення навичок до тексту

Арора об’єдналася з Гоялем, щоб аналітично відповісти на такі запитання. «Ми намагалися створити теоретичну основу, щоб зрозуміти, як відбувається поява», — сказав Арора.

Дует звернувся до математичних об’єктів, які називаються випадковими графами. Граф — це сукупність точок (або вузлів), з’єднаних лініями (або ребрами), а у випадковому графі наявність ребра між будь-якими двома вузлами визначається випадковим чином — скажімо, підкиданням монети. Монета може бути упередженою, так що вона з певною ймовірністю випадає вгору p. Якщо монета піднімається головами для заданої пари вузлів, між цими двома вузлами утворюється край; інакше вони залишаються незв'язаними. Як значення p зміни, графіки можуть показувати раптові переходи в їхніх властивостях. Наприклад, коли p перевищує певний поріг, ізольовані вузли — ті, що не пов’язані з жодним іншим вузлом — раптово зникають.

Арора та Гойал зрозуміли, що випадкові графіки, які викликають несподівану поведінку після досягнення певних порогів, можуть бути способом моделювання поведінки LLM. Нейронні мережі стали надто складними для аналізу, але математики вже давно вивчають випадкові графіки та розробили різні інструменти для їх аналізу. Можливо, теорія випадкових графів може дати дослідникам спосіб зрозуміти та передбачити, очевидно, несподівану поведінку великих LLM.

Дослідники вирішили зосередитися на «дводольних» графах, які містять два типи вузлів. У їхній моделі один тип вузлів представляє фрагменти тексту — не окремі слова, а шматки, які можуть бути абзацами до кількох сторінок. Ці вузли розташовані по прямій лінії. Під ними, в іншому рядку, є інший набір вузлів. Вони представляють навички, необхідні для розуміння певного фрагмента тексту. Кожен навик може бути майже чим завгодно. Можливо, один вузол представляє здатність LLM розуміти слово «тому що», яке включає певне поняття причинності; інший може означати можливість розділити два числа; ще один може представляти здатність виявляти іронію. «Якщо ви розумієте, що фрагмент тексту іронічний, багато речей перевертається», — сказав Арора. «Це має відношення до передбачення слів».

Щоб було зрозуміло, LLM не навчають і не перевіряють навички; вони створені лише для покращення передбачення наступного слова. Але Арора та Гойял хотіли зрозуміти LLM з точки зору навичок, які можуть знадобитися для розуміння окремого тексту. Зв’язок між вузлом навичок і текстовим вузлом або між кількома вузлами навичок і текстовим вузлом означає, що LLM потребує цих навичок для розуміння тексту в цьому вузлі. Крім того, кілька фрагментів тексту можуть випливати з однієї навички або набору навичок; наприклад, набір вузлів навичок, що представляють здатність розуміти іронію, підключатиметься до численних текстових вузлів, де виникає іронія.

Зараз завдання полягало в тому, щоб зв’язати ці дводольні графи з фактичними LLM і побачити, чи можуть графіки розкрити щось про появу потужних здібностей. Але дослідники не могли покладатися на будь-яку інформацію про навчання чи тестування справжніх LLM — такі компанії, як OpenAI чи DeepMind, не оприлюднюють дані про навчання чи тестування. Крім того, Арора та Гоял хотіли спрогнозувати, як LLM поводитимуться, коли вони стануть ще більшими, а для майбутніх чат-ботів такої інформації немає. Проте була одна важлива інформація, до якої дослідники могли отримати доступ.

З 2021 року дослідники, які вивчають продуктивність LLM та інших нейронних мереж, помітили появу універсальної риси. Вони помітили, що в міру того, як модель стає більшою, чи то за розміром, чи за кількістю навчальних даних, її втрати на тестових даних (різниця між прогнозованими та правильними відповідями на нові тексти після навчання) зменшуються дуже специфічним чином. Ці спостереження були закодовані в рівняння, які називаються законами нейронного масштабування. Тож Арора та Гоял розробили свою теорію так, щоб вона залежала не від даних будь-якого окремого LLM, чат-бота чи набору навчальних і тестових даних, а від універсального закону, якому всі ці системи повинні підкорятися: втрати, передбачені законами масштабування.

Можливо, міркували вони, покращення продуктивності — як вимірюється законами нейронного масштабування — пов’язане з покращенням навичок. І ці вдосконалені навички можуть бути визначені в їхніх дводольних графах за допомогою з’єднання вузлів навичок із текстовими вузлами. Встановлення цього зв’язку — між законами нейронного масштабування та дводольними графами — було ключем, який дозволив їм продовжити роботу.

Підвищення навичок

Дослідники почали з припущення, що існує гіпотетичний дводольний граф, який відповідає поведінці LLM на тестових даних. Щоб пояснити зміну втрат LLM на тестових даних, вони придумали спосіб використовувати графік, щоб описати, як LLM отримує навички.

Візьмемо, наприклад, навичку «розуміти іронію». Ця ідея представлена ​​у вигляді вузла навичок, тому дослідники дивляться, до яких текстових вузлів підключається цей вузол навичок. Якщо майже всі ці пов’язані текстові вузли є успішними — це означає, що прогнози LLM щодо тексту, представленого цими вузлами, є дуже точними — тоді LLM є компетентним у цій конкретній навичці. Але якщо більш ніж певна частка з’єднань вузла навичок спрямована на невдалі текстові вузли, тоді LLM не справляється з цим навиком.

Цей зв’язок між цими дводольними графами та LLM дозволив Арорі та Гоялу використовувати інструменти теорії випадкових графів для аналізу поведінки LLM через проксі. Вивчення цих графіків виявило певні зв'язки між вузлами. Ці зв’язки, у свою чергу, перетворилися на логічний і перевірений спосіб пояснити, як великі моделі отримали навички, необхідні для досягнення своїх несподіваних здібностей.

Арора та Гойял спершу пояснили одну ключову поведінку: чому більші LLM стають більш досвідченими, ніж їхні менші колеги щодо окремих навичок. Вони почали з нижчих тестових втрат, передбачених законами нейронного масштабування. На графіку ця менша втрата тесту представлена ​​падінням частки невдалих тестових вузлів. Тож загалом менше невдалих тестових вузлів. І якщо є менше невдалих тестових вузлів, то буде менше зв’язків між невдалими тестовими вузлами та вузлами навичок. Таким чином, більша кількість вузлів навичок пов’язана з успішними тестовими вузлами, що свідчить про зростаючу компетентність у навичках для моделі. «Дуже незначне зменшення втрат призводить до того, що машина набуває компетенції цих навичок», — сказав Гоял.

Потім пара знайшла спосіб пояснити несподівані здібності більшої моделі. У міру збільшення розміру LLM і зменшення втрат на тестування випадкові комбінації вузлів навичок створюють зв’язки з окремими текстовими вузлами. Це свідчить про те, що LLM також покращує використання кількох навичок одночасно та починає генерувати текст за допомогою кількох навичок — поєднуючи, скажімо, здатність використовувати іронію з розумінням слова «тому що» — навіть якщо ці точні комбінації навички не були присутні в жодному фрагменті тексту в навчальних даних.

Уявіть собі, наприклад, LLM, який уже може використовувати одну навичку для створення тексту. Якщо ви збільшите кількість параметрів або навчальних даних LLM на порядок, він стане таким же компетентним у створенні тексту, який вимагає двох навичок. Підніміться ще на один порядок, і LLM тепер зможе виконувати завдання, які потребують чотирьох навичок одночасно, знову ж таки з тим самим рівнем компетентності. Більші LLM мають більше способів поєднання навичок, що призводить до комбінаторного вибуху здібностей.

І в міру того, як LLM розширюється, можливість того, що він зіткнувся з усіма цими комбінаціями навичок у навчальних даних, стає все менш імовірною. Згідно з правилами теорії випадкових графів, кожна комбінація виникає на основі випадкової вибірки можливих навичок. Отже, якщо на графіку є приблизно 1,000 базових окремих вузлів навичок, і ви хочете поєднати чотири навички, то існує приблизно 1,000 у четвертому ступені, тобто 1 трильйон, можливих способів їх поєднання.

Арора та Гойял бачать у цьому доказ того, що найбільші магістратури не просто покладаються на комбінації навичок, які вони бачили в своїх тренувальних даних. Бубек погоджується. «Якщо LLM справді здатний виконувати ці завдання, поєднуючи чотири з цих тисяч навичок, тоді він, мабуть, займається узагальненням», — сказав він. Це означає, що це, швидше за все, не стохастичний папуга.

Справжня творчість?

Але Арора та Гойял хотіли вийти за рамки теорії та перевірити своє твердження про те, що LLM стають кращими в поєднанні більшої кількості навичок і, отже, в узагальненні зі збільшенням їх розміру та даних про навчання. Разом з іншими колегами вони розроблений метод називається «комбінацією навичок», щоб оцінити здатність LLM використовувати кілька навичок для створення тексту.

Щоб перевірити LLM, команда попросила його створити три речення на випадково вибрану тему, які ілюструють деякі випадково вибрані навички. Наприклад, вони попросили GPT-4 (LLM, який підтримує найпотужнішу версію ChatGPT) написати про дуелі — по суті, бої на мечах. Крім того, вони попросили його продемонструвати навички в чотирьох сферах: корисливе упередження, метафора, статистичний силогізм і загальна фізика.. GPT-4 відповів: «Моя перемога в цьому танці зі сталлю [метафора] така ж вірна, як падіння об'єкта на землю [фізика]. Як відомий дуелянт, я за своєю природою спритний, як і більшість інших [статистичного силогізму] з моєї репутації. Поразка? Це можливо лише через нерівне поле бою, а не через мою неадекватність [корисливе упередження]». Коли його попросили перевірити його результат, GPT-4 скоротив його до трьох речень.

Вступ

«Це не Хемінгуей і не Шекспір», — сказала Арора, але команда впевнена, що це підтверджує їхню точку зору: модель може генерувати текст, який вона ніяк не могла побачити в навчальних даних, демонструючи навички, які доповнюють те, що деякі стверджували б. це розуміння. За його словами, GPT-4 навіть проходить тести на змішування навичок, які вимагають шість навичок приблизно в 10-15% випадків, створюючи фрагменти тексту, існування яких у навчальних даних статистично неможливо.

Команда також автоматизувала процес, змусивши GPT-4 оцінювати свій власний результат разом із результатами інших LLM. Арора сказав, що для моделі справедливо самооцінюватися, оскільки вона не має пам’яті, тому вона не пам’ятає, що її попросили згенерувати саме той текст, який її просять оцінити. Ясаман Бахрі, дослідник Google DeepMind, який працює над основами ШІ, вважає автоматизований підхід «дуже простим і елегантним».

Що стосується теорії, то це правда, що вона робить кілька припущень, сказав Бубек, але «ці припущення в жодному разі не божевільні». Його теж вразили експерименти. «Те, що [команда] доводить теоретично, а також підтверджує емпірично, полягає в тому, що існує композиційне узагальнення, тобто [LLM] здатні складати будівельні блоки, які ніколи не збиралися разом», — сказав він. «Це, як на мене, суть творчості».

Арора додає, що в роботі нічого не сказано про точність того, що пишуть магістри права. «Насправді, це суперечка за оригінальність», – сказав він. «Цих речей ніколи не було у світовому навчальному корпусі. Цього ніхто ніколи не писав. Це має бути галюцинація».

Тим не менш, Хінтон вважає, що ця робота ставить питання про те, чи є LLM стохастичними папугами. «Це найсуворіший метод, який я бачив, щоб показати, що GPT-4 — це набагато більше, ніж просто стохастичний папуга», — сказав він. «Вони переконливо демонструють, що GPT-4 може генерувати текст, який поєднує навички та теми у спосіб, який майже напевно не зустрічався в навчальних даних». (Ми зв’язалися з Бендер щодо її точки зору на нову роботу, але вона відмовилася від коментарів, посилаючись на брак часу.)

І справді, як передбачають математики, продуктивність GPT-4 набагато перевершує продуктивність його меншого попередника, GPT-3.5 — до такої міри, що налякала Arora. «Це, мабуть, не тільки я», — сказав він. «Багатьом людям здалося трохи моторошним, наскільки GPT-4 кращий за GPT-3.5, і це сталося протягом року. Чи означає це, що наступного року ми матимемо подібні зміни такого масштабу? Не знаю. Лише OpenAI знає».

Часова мітка:

Більше від Квантамагазин