Новий генеративний штучний інтелект, натхненний фізикою, перевершує очікування | Журнал Quanta

Новий генеративний штучний інтелект, натхненний фізикою, перевершує очікування | Журнал Quanta

Новий генеративний штучний інтелект, натхненний фізикою, перевершує очікування | Журнал Quanta PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Вступ

Інструменти штучного інтелекту — зокрема нейронні мережі — припали фізикам на користь. Протягом багатьох років ця технологія допомагала дослідникам реконструювати траєкторії частинок в експериментах на прискорювачах, шукати докази існування нових частинок і виявляти гравітаційні хвилі та екзопланети. Хоча інструменти штучного інтелекту, безумовно, можуть багато чого зробити для фізиків, на думку Макса Тегмарка, фізика з Массачусетського технологічного інституту, виникає питання: «Чи можемо ми щось повернути?»

Тегмарк вважає, що його колеги-фізики можуть зробити значний внесок у науку про штучний інтелект, і він зробив це своїм головним пріоритетом дослідження. За його словами, одним із способів, якими фізики могли б допомогти розвинути технологію штучного інтелекту, було б замінити алгоритми «чорної скриньки» нейронних мереж, робота яких значною мірою незбагненна, на добре зрозумілі рівняння фізичних процесів.

Ідея не нова. Генеративні моделі ШІ на основі дифузії — процес, який, наприклад, змушує молоко, налите в чашку кави, рівномірно розподілятися — вперше з’явився в 2015 році, і з тих пір якість зображень, які вони генерують, значно покращилася. Ця технологія підтримує популярне програмне забезпечення для створення зображень, таке як DALL·E 2 і Midjourney. Тепер Тегмарк і його колеги вивчають, чи можуть інші генеративні моделі, засновані на фізиці, працювати так само добре, як моделі на основі дифузії, або навіть краще.

Наприкінці минулого року команда Tegmark представила багатообіцяючий новий метод створення зображень під назвою Генеруюча модель потоку Пуассона (PFGM). У ньому дані представлені зарядженими частинками, які об’єднуються, створюючи електричне поле, властивості якого залежать від розподілу зарядів у будь-який момент. Її називають моделлю потоку Пуассона, оскільки рух зарядів регулюється рівнянням Пуассона, яке випливає з принципу, згідно з яким електростатична сила між двома зарядами змінюється обернено пропорційно квадрату відстані між ними (подібно до формулювання ньютонівської гравітації) .

Цей фізичний процес лежить в основі PFGM. «Нашу модель можна майже повністю охарактеризувати силою та напрямком електричного поля в кожній точці простору», — сказав він Ілун Сюй, аспірант Массачусетського технологічного інституту та співавтор статті. «Те, що нейронна мережа вивчає під час процесу навчання, — це те, як оцінити це електричне поле». І, роблячи це, він може навчитися створювати зображення, оскільки зображення в цій моделі можна коротко описати електричним полем.

Вступ

PFGM може створювати зображення такої ж якості, що й ті, що створюються за допомогою підходів на основі дифузії, і робити це в 10-20 разів швидше. «Він використовує фізичну конструкцію, електричне поле, у спосіб, який ми ніколи раніше не бачили», — сказав Хананель Хазан, фахівець з інформатики в Університеті Тафтса. «Це відкриває двері для можливості використання інших фізичних явищ для покращення наших нейронних мереж».

Моделі дифузії та моделі потоку Пуассона мають багато спільного, окрім того, що вони базуються на рівняннях, імпортованих із фізики. Під час навчання дифузійна модель, призначена для генерації зображення, зазвичай починається із зображення — скажімо, собаки — а потім додає візуальний шум, змінюючи кожен піксель випадковим чином, доки його характеристики не стануть повністю приховані (хоча й не повністю усунені). Потім модель намагається звернути процес і створити собаку, яка близька до оригіналу. Після навчання модель може успішно створювати собак — та інші зображення — починаючи з, здавалося б, чистого полотна.

Моделі потоку Пуассона працюють приблизно так само. Під час навчання існує прямий процес, який передбачає поступове додавання шуму до колись чіткого зображення, і зворотний процес, у якому модель намагається видалити цей шум крок за кроком, доки початкова версія не буде в основному відновлена. Як і у випадку з генерацією на основі дифузії, система з часом навчиться створювати зображення, яких вона ніколи не бачила під час навчання.

Але фізика, що лежить в основі моделей Пуассона, зовсім інша. Дифузія зумовлена ​​термодинамічними силами, тоді як потік Пуассона — електростатичними силами. Останній являє собою детальне зображення з використанням розташування зарядів, які можуть створити дуже складне електричне поле. Однак це поле спричиняє більш рівномірний розподіл зарядів з часом — так само, як молоко природним чином розсіюється в чашці кави. В результаті саме поле стає більш простим і однорідним. Але це шумове однорідне поле не є чистим аркушем; він все ще містить зерна інформації, з яких можна легко зібрати зображення.

На початку 2023 року команда оновила свою модель Пуассона, подовжуючи його щоб охопити цілу сімейство моделей. Доповнена версія, PFGM++, включає новий параметр, D, що дозволяє дослідникам регулювати розмірність системи. Це може мати велике значення: у звичному тривимірному просторі сила електричного поля, створюваного зарядом, обернено пропорційна квадрату відстані від цього заряду. Але в чотирьох вимірах напруженість поля відповідає закону зворотного куба. І для кожного виміру простору, і для кожного значення D, це співвідношення дещо інше.

Вступ

Ця єдина інновація дала моделям потоку Пуассона набагато більшу варіабельність, при цьому екстремальні випадки пропонують різні переваги. Коли D низька, наприклад, модель більш надійна, тобто більш терпима до помилок, допущених при оцінці електричного поля. «Модель не може точно передбачити електричне поле», — сказав він Цімін Лю, інший аспірант Массачусетського технологічного інституту та співавтор обох робіт. «Завжди є якесь відхилення. Але надійність означає, що навіть якщо ваша похибка оцінки висока, ви все одно можете створювати хороші зображення». Тож ви можете не отримати собаку своєї мрії, але все одно отримаєте щось схоже на собаку.

З іншого боку, коли D високий, нейронну мережу стає легше навчати, вимагаючи менше даних для оволодіння своїми художніми навичками. Точну причину пояснити нелегко, але вона пов’язана з тим фактом, що коли є більше вимірів, модель має менше електричних полів, які потрібно відстежувати — і, отже, менше даних для асиміляції.

Удосконалена модель PFGM++ «дає вам гнучкість для інтерполяції між цими двома крайнощами». Роза Ю, комп’ютерний науковець з Каліфорнійського університету в Сан-Дієго.

І десь у цьому діапазоні знаходиться ідеальне значення для D який забезпечує правильний баланс між надійністю та легкістю навчання, сказав Сюй. «Одна з цілей майбутньої роботи полягатиме в тому, щоб з’ясувати систематичний спосіб пошуку найкращої точки, щоб ми могли вибрати найкраще D для певної ситуації, не вдаючись до методу проб і помилок».

Інша мета дослідників Массачусетського технологічного інституту полягає в тому, щоб знайти більше фізичних процесів, які можуть стати основою для нових сімейств генеративних моделей. Через проект під назвою GenPhys, команда вже визначила одного багатообіцяючого кандидата: потенціал Юкави, який пов’язаний зі слабкою ядерною силою. «Це відрізняється від моделей потоку Пуассона та дифузії, де кількість частинок завжди зберігається», — сказав Лю. «Потенціал Юкави дозволяє анігілювати частинки або розділити частинку на дві частини. Така модель може, наприклад, імітувати біологічні системи, де кількість клітин не повинна залишатися незмінною».

Це може бути плідним напрямком дослідження, сказав Ю. «Це може призвести до нових алгоритмів і нових генеративних моделей із потенційними застосуваннями, що виходять за межі створення зображень».

І сам по собі PFGM++ вже перевершив початкові очікування своїх винахідників. Вони спочатку не зрозуміли, що коли D встановлено на нескінченність, їх модель потоку Пуассона з посиленням стає невідрізною від моделі дифузії. Лю виявив це в розрахунках, які він провів на початку цього року.

Мерт Піланчі, комп’ютерний науковець зі Стенфордського університету, вважає це «об’єднання» найважливішим результатом роботи групи MIT. «Документ PFGM++, — сказав він, — показує, що обидві ці моделі є частиною ширшого класу, [який] піднімає інтригуюче запитання: чи можуть існувати інші фізичні моделі для генеративного штучного інтелекту, які очікують на відкриття, натякаючи на ще більшу уніфікацію? »

Часова мітка:

Більше від Квантамагазин