Агенты ИИ с «множественными личностями» учатся быстро адаптироваться в меняющемся мире

Агенты ИИ с «множественными личностями» учатся быстро адаптироваться в меняющемся мире

Агенты искусственного интеллекта с «множественными личностями» учатся быстро адаптироваться в меняющемся мире. Разведка данных PlatoBlockchain. Вертикальный поиск. Ай.

Каждый день мы жонглируем разными потребностями. я голоден, но истощен; мне рухнуть на диван или приготовить ужин? Я перегреваюсь при опасных температурах, но также очень хочу пить; Должен ли я пить прохладную воду, нагретую на солнце, или засунуть голову в морозильник, пока у меня не появится умственная способность делать лед?

Столкнувшись с дилеммой, мы часто следуем нашим основным инстинктам, не задумываясь. Но под капотом несколько нейронных сетей соревнуются, чтобы в любой момент принять «лучшее» решение. Спать над едой. Морозильная камера над теплой водой. Оглядываясь назад, они могут оказаться ужасными решениями, но в следующий раз мы будем учиться на своих прошлых ошибках.

Наша способность приспосабливаться к постоянно меняющемуся миру — это сверхспособность, которая в настоящее время ускользает от большинства агентов ИИ. Даже самые сложные агенты ИИ ломаются — или требуют непомерного количества вычислительного времени — когда они жонглируют противоречивыми целями.

Для команды под руководством доктора Джонатана Коэна из Принстонского института неврологии причина проста: системы машинного обучения обычно действуют как единое целое, вынужденное оценивать, вычислять и выполнять одну цель за раз. Хотя ИИ способен учиться на своих ошибках, он изо всех сил пытается найти правильный баланс, когда одновременно сталкивается с несколькими противоположными целями.

Так почему бы не разбить ИИ на части?

In нового исследования опубликованной в PNAS, команда взяла пример из когнитивной нейробиологии и создала модульного ИИ-агента.

Идея вроде бы простая. Вместо монолитного ИИ — единой сети, охватывающей все «я», — команда создала модульного агента, каждая часть которого имеет собственную «мотивацию» и цели, но управляет единым «телом». Подобно демократическому обществу, система ИИ спорит сама с собой, чтобы выбрать наилучший ответ, а следующий шаг определяет действие, которое с наибольшей вероятностью приведет к наибольшему выигрышному результату.

В нескольких симуляциях модульный ИИ превзошел своего классического монолитного аналога. Его приспособляемость особенно проявилась, когда исследователи искусственно увеличили количество целей, которые он должен был одновременно поддерживать. ИИ в стиле Lego быстро адаптировался, тогда как его монолитный аналог изо всех сил пытался догнать.

«Один из самых фундаментальных вопросов о свободе действий — это то, как человек справляется с конфликтующими потребностями», — заявила команда. Деконструируя агента ИИ, исследование не просто дает представление о более умных агентах машинного обучения. Это также «прокладывает путь к пониманию психологических конфликтов, присущих человеческой психике». писал Доктор Робер Бошра из Принстонского университета, который не участвовал в работе.

Видеоигра жизни

Как разумные существа учатся уравновешивать конфликтующие потребности в сложном, меняющемся мире?

Философский вопрос преследует несколько областей — неврологию, психологию, экономику, — которые углубляются в человеческую природу. У нас пока нет четких ответов. Но поскольку ИИ все чаще сталкивается с подобными проблемами по мере того, как он входит в реальный мир, пришло время заняться вековой проблемой.

Новое исследование приняло вызов в виде простой RPG (ролевой игры). Есть два персонажа, которые путешествуют по миру, похожему на сетку, каждый пытается найти ресурсы, чтобы выжить.

Первый участник: монолитный агент, также известный как «я», обученный с использованием глубокого Q-обучения (DQL). Алгоритм, популяризированный DeepMind, особенно эффективен при определении следующего оптимального шага в зависимости от его текущего состояния. Например, как в видеоигре, мне нужно идти влево или вправо? Какую фигуру в шахматах или го переместить и куда? Здесь алгоритм исследует всю среду, следуя одному сигналу вознаграждения, то есть своей конечной цели. В некотором смысле монолитный агент представляет собой единый мозг, который пытается максимизировать наилучший результат после одновременной обработки всех ресурсов в тандеме.

Противник: модульный ИИ. Подобно осьминогу с полуавтономными конечностями, агент ИИ разбит на подагенты, каждый со своими целями и обратной связью. Чтобы борьба была честной, каждый модуль также обучается с помощью DQL. Отдельные «мозги» наблюдают за своим окружением и учатся выбирать лучший вариант, но только с учетом своих собственных целей. Затем прогнозируемые результаты суммируются. Затем выбирается решение с потенциальным оптимальным результатом, подталкивая агента ИИ к следующему выбору.

А игровое поле?

Игра представляет собой чрезвычайно урезанную версию игры на выживание. Каждый агент ИИ бродит по двумерной сетке, в некоторых регионах которой скрыты различные типы ресурсов. Цель состоит в том, чтобы удерживать четыре характеристики агента на заданном уровне, при этом каждая из них постепенно уменьшается с течением времени. Когда несколько показателей падают, ИИ должен решить, какой из них отдать предпочтение.

Для видеогеймеров испытание можно представить как брошенное на новую игровую карту и пытающееся найти ресурсы для повышения, например, здоровья, магии, выносливости и силы атаки. Для нашей повседневной жизни это уравновешивание голода, температуры, сна и других основных физиологических потребностей.

«Например, если у агента был низкий показатель «голода», он мог собирать ресурс «еда», перемещаясь к месту нахождения этого ресурса», — объяснила команда.

Лес для деревьев

Первый тест начался с относительно простой среды. Место для каждой ресурсной цели было зафиксировано в углу игровой арены. Монолитный агент с готовностью сохранил свои четыре характеристики после 30,000 5,000 шагов обучения, хотя он прошел через период превышения и недостижения, пока не достиг намеченных целей. Напротив, модульный агент обучался гораздо быстрее. К XNUMX шагам обучения агент уже понял «состояние мира».

По словам авторов, часть мастерства модульного ИИ исходит из внутреннего чувства свободы исследования. В отличие от предыдущих методов для модульных систем, которые разделяют и властвуют для достижения конечной цели, здесь ИИ представляет собой более целостные социальные отношения, в которых одни модули выигрывают, а другие проигрывают из-за постоянного состояния внутренней конкуренции.

Поскольку «тело» ИИ-агента руководствуется только модулем-победителем, проигравшим приходится соглашаться с решением, с которым они не согласны, и вынуждены жить в новой реальности. Затем они должны быстро адаптироваться и пересчитать лучшее решение для следующего шага. Другими словами, модули часто оказываются за пределами своей зоны комфорта. Это тяжелая любовь, но неожиданные результаты заставляют их обдумывать новые решения, иногда приводящие к лучшим результатам, о которых они и не подумали бы, если бы решали проблему в одиночку.

В целом, модульная система образует «эффективный цикл с исследованиями» для дальнейшего улучшения действий ИИ, сказал автор исследования Зак Дульберг.

Эта адаптивность еще больше проявилась, когда команда бросила вызов обоим агентам ИИ в изменяющихся условиях. В одном тесте целевые позиции ресурсов перемещались в случайное место на сетке в спорадических масштабах времени. Модульный ИИ быстро уловил изменения и адаптировался к ним, тогда как монолитный агент работал гораздо хуже.

В другом тесте команда увеличила шкалу, требуя, чтобы агенты ИИ одновременно поддерживали восемь факторов, а не первоначальные четыре. Тест решил проблему, заключающуюся в том, что вычисления становятся все менее вероятными с точки зрения затрат времени и энергии по мере увеличения числа переменных, что было названо «проклятием размерности».

Модульный агент быстро адаптировался к поиску ресурсов для достижения своих целей. Напротив, монолитный агент снова боролся, и ему потребовалось гораздо больше времени, чтобы вернуться к желаемым уровням для каждой из его характеристик.

Один против многих

Модульный подход — еще один пример использования нейронауки для разработки ИИ, который дает представление о том, как работают наши мозги.

Как и в предыдущей работе, модульные модули показывают, что один агент ИИ может параллельно изучать отдельные и более простые подзадачи таким образом, чтобы это было относительно децентрализовано с точки зрения обработки данных. По словам авторов, добавление модели с иерархической системой управления может укрепить ИИ, потому что обе структуры существуют в естественном мире.

На данный момент каждый модуль запрограммирован на собственную выгоду — кратность «я». Но наши жизненные цели часто взаимосвязаны; например, облегчение жажды и борьба с жаром не исключают друг друга. Команда подчеркивает необходимость интеграции этих кроссоверов — и изучения того, унаследованы они или изучены — в будущих тестах.

В Дюльберг, неизвестность является частью волнения. «Как развиваются модули? Какие особенности среды разработки влияют на различные решения?» он спросил. «И объясняют ли преимущества модульности, почему внутренний психологический конфликт кажется столь важным для человеческого существования?»

Изображение Фото: Анестиев/Pixabay

Отметка времени:

Больше от Singularity Hub