Новый «вдохновленный физикой» генеративный искусственный интеллект превосходит ожидания | Журнал Кванта

Новый «вдохновленный физикой» генеративный искусственный интеллект превосходит ожидания | Журнал Кванта

Новый генеративный искусственный интеллект, вдохновленный физикой, превосходит ожидания | Журнал Quanta PlatoРазведка данных на основе блокчейна. Вертикальный поиск. Ай.

Введение

Инструменты искусственного интеллекта, в частности нейронные сети, принесли пользу физикам. В течение многих лет эта технология помогала исследователям реконструировать траектории частиц в экспериментах на ускорителях, искать доказательства существования новых частиц и обнаруживать гравитационные волны и экзопланеты. Хотя инструменты искусственного интеллекта явно могут многое сделать для физиков, сейчас, по мнению Макса Тегмарка, физика из Массачусетского технологического института, вопрос заключается в следующем: «Можем ли мы что-нибудь вернуть?»

Тегмарк считает, что его коллеги-физики могут внести значительный вклад в науку об искусственном интеллекте, и он сделал это своим главным исследовательским приоритетом. По его словам, одним из способов, которым физики могли бы способствовать развитию технологии искусственного интеллекта, была бы замена алгоритмов «черного ящика» нейронных сетей, работа которых в значительной степени непостижима, на хорошо понятные уравнения физических процессов.

Идея не нова. Генеративные модели ИИ на основе диффузии — процесс, который, например, заставляет молоко, налитое в чашку кофе, равномерно растекаться — впервые появился в 2015 году, и с тех пор качество генерируемых ими изображений значительно улучшилось. Эта технология лежит в основе популярных программ для создания изображений, таких как DALL·E 2 и Midjourney. Теперь Тегмарк и его коллеги изучают, могут ли другие генеративные модели, основанные на физике, работать так же хорошо, как модели, основанные на диффузии, или даже лучше.

В конце прошлого года команда Тегмарка представила новый многообещающий метод создания изображений, названный Генеративная модель потока Пуассона (ПФГМ). В нем данные представлены заряженными частицами, которые объединяются, чтобы создать электрическое поле, свойства которого зависят от распределения зарядов в любой данный момент. Это называется моделью потока Пуассона, потому что движение зарядов определяется уравнением Пуассона, которое вытекает из принципа, утверждающего, что электростатическая сила между двумя зарядами изменяется обратно пропорционально квадрату расстояния между ними (аналогично формулировке ньютоновской гравитации). .

Этот физический процесс лежит в основе PFGM. «Нашу модель можно практически полностью охарактеризовать силой и направлением электрического поля в каждой точке пространства», — сказал он. Илунь Сюй, аспирант Массачусетского технологического института и соавтор статьи. «В процессе обучения нейронная сеть узнает, как оценить это электрическое поле». И при этом он может научиться создавать изображения, поскольку изображение в этой модели можно кратко описать электрическим полем.

Введение

PFGM может создавать изображения того же качества, что и изображения, полученные с помощью диффузионных подходов, и делать это в 10–20 раз быстрее. «Он использует физическую конструкцию, электрическое поле, таким способом, который мы никогда раньше не видели», — сказал он. Хананель Хазан, ученый-компьютерщик из Университета Тафтса. «Это открывает двери для возможности использования других физических явлений для улучшения наших нейронных сетей».

Модели диффузионного и пуассоновского потоков имеют много общего, помимо того, что они основаны на уравнениях, импортированных из физики. Во время обучения диффузионная модель, предназначенная для генерации изображений, обычно начинается с изображения — скажем, собаки — а затем добавляется визуальный шум, изменяя каждый пиксель случайным образом, пока его особенности не станут полностью скрытыми (хотя и не исчезнут полностью). Затем модель пытается обратить процесс вспять и создать собаку, близкую к оригиналу. После обучения модель может успешно создавать собак и другие изображения, начиная с, казалось бы, чистого холста.

Модели потока Пуассона работают примерно таким же образом. Во время обучения существует прямой процесс, который включает постепенное добавление шума к некогда четкому изображению, и обратный процесс, в котором модель пытается шаг за шагом удалить этот шум, пока исходная версия не будет в основном восстановлена. Как и в случае с генерацией на основе диффузии, система в конечном итоге учится создавать изображения, которые она никогда не видела при обучении.

Но физика, лежащая в основе моделей Пуассона, совершенно иная. Диффузия обусловлена ​​термодинамическими силами, тогда как пуассоновский поток обусловлен электростатическими силами. Последний представляет собой детальное изображение с использованием расположения зарядов, способных создавать очень сложное электрическое поле. Однако это поле приводит к тому, что заряды со временем распределяются более равномерно — точно так же, как молоко естественным образом рассеивается в чашке кофе. В результате само поле становится более простым и однородным. Но это зашумленное однородное поле — не чистый лист; он все еще содержит зародыши информации, из которых можно легко собрать изображения.

В начале 2023 года команда модернизировала свою модель Пуассона. расширяя это охватить целое семейство моделей. Расширенная версия PFGM++ включает новый параметр: D, что позволяет исследователям регулировать размерность системы. Это может иметь большое значение: в привычном трехмерном пространстве сила электрического поля, создаваемого зарядом, обратно пропорциональна квадрату расстояния до этого заряда. Но в четырех измерениях напряженность поля подчиняется закону обратных кубов. И для каждого измерения пространства и каждого значения D, это соотношение несколько иное.

Введение

Это единственное нововведение дало моделям потока Пуассона гораздо большую изменчивость, при этом крайние случаи давали разные преимущества. Когда D Например, если значение низкое, модель более устойчива, то есть она более терпима к ошибкам, допущенным при оценке электрического поля. «Модель не может точно предсказать электрическое поле», — сказал Зиминг Лю, еще один аспирант Массачусетского технологического института и соавтор обеих статей. «Всегда есть какие-то отклонения. Но надежность означает, что даже если ваша ошибка оценки высока, вы все равно сможете создавать хорошие изображения». Так что, возможно, у вас и не получится собака вашей мечты, но что-то похожее на собаку у вас все равно получится.

Другая крайность, когда D высока, нейронную сеть становится легче обучать, и ей требуется меньше данных для овладения ее художественными навыками. Точную причину нелегко объяснить, но она связана с тем, что чем больше измерений, тем меньше у модели электрических полей, которые нужно отслеживать, и, следовательно, меньше данных для усвоения.

Усовершенствованная модель PFGM++ «дает вам гибкость в интерполяции между этими двумя крайностями», — сказал он. Роуз Ю, ученый-компьютерщик из Калифорнийского университета в Сан-Диего.

И где-то в этом диапазоне находится идеальное значение для D «Это обеспечивает правильный баланс между надежностью и простотой обучения», — сказал Сюй. «Одна из целей будущей работы будет заключаться в том, чтобы найти систематический способ найти эту золотую середину, чтобы мы могли выбрать наилучшее из возможных решений. D для конкретной ситуации, не прибегая к методу проб и ошибок».

Другая цель исследователей Массачусетского технологического института заключается в поиске большего количества физических процессов, которые могут стать основой для новых семейств генеративных моделей. Благодаря проекту под названием ГенФиз, команда уже определила одного многообещающего кандидата: потенциал Юкавы, который связан со слабым ядерным взаимодействием. «Это отличается от моделей потока Пуассона и диффузии, где количество частиц всегда сохраняется», — сказал Лю. «Потенциал Юкавы позволяет аннигилировать частицы или разделить частицу на две части. Такая модель могла бы, например, моделировать биологические системы, в которых количество клеток не обязательно должно оставаться неизменным».

Это может оказаться плодотворным направлением расследования, сказал Ю. «Это может привести к созданию новых алгоритмов и новых генеративных моделей, потенциальные применения которых выходят за рамки генерации изображений».

И один только PFGM++ уже превзошел первоначальные ожидания своих изобретателей. Сначала они не осознавали, что когда D установлено на бесконечность, их усиленная модель пуассоновского потока становится неотличимой от модели диффузии. Лю обнаружил это в ходе расчетов, которые он провел ранее в этом году.

Мерт Пиланчи, ученый-компьютерщик из Стэнфордского университета, считает это «объединение» наиболее важным результатом работы группы MIT. «Документ PFGM++, — сказал он, — показывает, что обе эти модели являются частью более широкого класса, [что] поднимает интригующий вопрос: могут ли существовать другие физические модели генеративного ИИ, ожидающие открытия, намекающие на еще более грандиозное объединение? »

Отметка времени:

Больше от Квантовый журнал