Агенти штучного інтелекту з «кількома я» вчаться швидко адаптуватися в мінливому світі

Агенти штучного інтелекту з «кількома я» вчаться швидко адаптуватися в мінливому світі

Агенти штучного інтелекту з «кількома я» вчаться швидко адаптуватися в мінливому світі PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Щодня ми жонглюємо різними потребами. Я голодний, але виснажений; мені впасти на диван чи приготувати вечерю? Я перегріваюся за небезпечних температур, але також відчуваю сильну спрагу; чи варто мені пити теплу воду, що нагрілася на сонці, чи засовувати голову в морозильну камеру, доки не вистачить розумової здатності робити лід?

Коли ми стикаємося з дилемами, ми часто слідуємо своїм основним інстинктам, не замислюючись. Але під капотом численні нейронні мережі змагаються, щоб прийняти «найкраще» рішення в будь-який момент. Спати над їжею. Морозильник над теплою водою. Заднім числом вони можуть бути жахливими рішеннями, але наступного разу ми вчимося на своїх минулих помилках.

Наша здатність до адаптації до світу, що постійно змінюється, — це суперсила, яка зараз не доступна більшості агентів ШІ. Навіть найдосконаліші агенти штучного інтелекту виходять з ладу або вимагають непомірної кількості обчислювального часу, оскільки вони жонглюють суперечливими цілями.

Для команди під керівництвом доктора Джонатана Коена з Прінстонського інституту нейронауки причина проста: системи машинного навчання зазвичай діють як єдине ціле, змушене оцінювати, обчислювати та виконувати одну мету за раз. Незважаючи на здатність вчитися на своїх помилках, штучний інтелект намагається знайти правильний баланс, коли йому доводиться одночасно кидати кілька протилежних цілей.

То чому б не розбити ШІ на частини?

In Нове дослідження опубліковані в PNAS, команда взяла сторінку з когнітивної нейронауки та створила модульний агент ШІ.

Ідея, здавалося б, проста. Замість монолітного штучного інтелекту — єдиної мережі, яка охоплює все «я» — команда створила модульного агента, кожна частина якого має власну «мотивацію» та цілі, але керує одним «тілом». Подібно до демократичного суспільства, система штучного інтелекту сперечається всередині себе, щоб визначити найкращу відповідь, де дія, яка, швидше за все, принесе найбільший виграшний результат, керує її наступним кроком.

У кількох симуляціях модульний ШІ перевершив класичного монолітного аналога. Його здатність до адаптації особливо сяяла, коли дослідники штучно збільшили кількість цілей, які він мав підтримувати одночасно. Штучний інтелект у стилі Lego швидко адаптувався, тоді як його монолітний аналог намагався наздогнати.

«Одне з найбільш фундаментальних питань про свободу волі полягає в тому, як людина справляється з суперечливими потребами», — сказала команда. Деконструюючи агента штучного інтелекту, дослідження не просто дає розуміння розумніших агентів машинного навчання. Це також «прокладає шлях до розуміння психологічних конфліктів, властивих людській психіці», пише Доктор Робер Бошра з Прінстонського університету, який не брав участі в роботі.

Відеогра життя

Як розумні істоти вчаться балансувати суперечливі потреби в складному, мінливому світі?

Філософське питання хвилює багато галузей — нейронауку, психологію, економіку — які заглиблюються в людську природу. Ми ще не маємо чітких відповідей. Але оскільки штучний інтелект дедалі частіше стикається з подібними проблемами, коли він входить у реальний світ, настав час безпосередньо впоратися з давньою проблемою.

Нове дослідження прийняло цей виклик у формі простої RPG (рольової гри). У світі, схожому на сітку, пересуваються два персонажі, кожен з яких намагається знайти ресурси, щоб вижити.

Перший учасник: монолітний агент, інакше відомий як «я», навчений за допомогою глибокого Q-навчання (DQL). Популяризований DeepMind, алгоритм особливо потужний у визначенні наступного оптимального кроку залежно від його поточного стану. Наприклад, як у відеогрі, йти ліворуч чи праворуч? Перемістіть яку шахову фігуру чи фігуру Го і куди? Тут алгоритм досліджує все середовище, дотримуючись єдиного сигналу винагороди, тобто своєї кінцевої мети. У певному сенсі монолітний агент — це єдиний мозок, який намагається максимізувати найкращий результат після одночасної обробки всіх ресурсів у тандемі.

Противник: модульний ШІ. Подібно до восьминога з напівавтономними кінцівками, агент штучного інтелекту розбитий на субагентів, кожен зі своїми цілями та відгуками. Щоб боротьба була чесною, кожен модуль також навчається за допомогою DQL. Окремі «мізки» спостерігають за навколишнім середовищем і вчаться вибирати найкращий варіант, але лише з урахуванням своїх власних цілей. Потім прогнозовані результати підсумовуються. Потім вибирається рішення з потенційно оптимальним результатом, а агент ШІ направляється до наступного вибору.

А ігрове поле?

Гра є надзвичайно скороченою версією гри на виживання. Кожен агент ШІ блукає по двовимірній сітці, яка містить різні типи ресурсів, прихованих у деяких регіонах. Мета полягає в тому, щоб підтримувати чотири характеристики агента на встановленому рівні, з поступовим зниженням кожної з часом. Коли кілька статистичних даних падає, штучний інтелект вирішує, якій з них віддати пріоритет.

Гравці відеоігор подумають про тестування як про спробу знайти ресурси для підвищення, наприклад, здоров’я, магії, витривалості та сили атаки. Для нашого повсякденного життя це збалансування голоду, температури, сну та інших основних фізіологічних потреб.

«Наприклад, якщо агент мав низький показник «голоду», він міг би отримати ресурс «їжа», перемістившись до місця розташування цього ресурсу», — пояснила команда.

Ліс для дерев

Перший тест почався з відносно простого середовища. Розташування кожної ресурсної цілі було зафіксовано в кутку ігрової арени. Монолітний агент легко зберіг свої чотири характеристики після 30,000 5,000 кроків навчання, хоча він пройшов через період перевищення та недорозвинення, поки не досяг цільових цілей. Навпаки, модульний агент навчався набагато швидше. Через XNUMX кроків навчання агент уже зрозумів «стан світу».

Частково майстерність модульного штучного інтелекту походить від внутрішнього почуття вільного дослідження, кажуть автори. На відміну від попередніх методів для модульних систем, які розділяй і володарюй для досягнення кінцевої мети, тут штучний інтелект представляє більш цілісні соціальні відносини, в яких деякі модулі виграють, а деякі програють через постійну внутрішню конкуренцію.

Оскільки «тіло» агента штучного інтелекту керується лише модулем-переможцем, ті, хто програв, змушені погодитися з рішенням, з яким вони не погоджувалися, і змушені перейти до нової реальності. Потім вони повинні швидко адаптуватися та перерахувати найкраще рішення для наступного кроку. Іншими словами, модулі часто опиняються поза зоною комфорту. Це важке кохання, але несподівані результати змушують їх думати про нові рішення — іноді вони дають кращі результати, які вони б не подумали, якби вирішували проблему поодинці.

Загалом, модульна система формує «віртуозний цикл із дослідженням» для подальшого вдосконалення дій ШІ, сказав автор дослідження Зак Дулберг.

Ця адаптивність ще більше проявилася, коли команда кинула виклик обом агентам штучного інтелекту в мінливих середовищах. В одному тесті цільові позиції ресурсів переміщувалися до випадкового розташування сітки в спорадичних часових масштабах. Модульний ШІ швидко вловив зміни та адаптувався до них, тоді як монолітний агент показав набагато гірші результати.

В іншому тесті команда збільшила циферблат, вимагаючи, щоб агенти штучного інтелекту одночасно підтримували вісім факторів, а не початкові чотири. У тесті було вирішено проблему, пов’язану з тим, що обчислення стають дедалі більш неймовірними з точки зору споживання часу та енергії, оскільки кількість змінних зростає, що отримало назву «прокляття розмірності».

Модульний агент швидко адаптувався для пошуку ресурсів для досягнення своїх цілей. На відміну від цього, монолітний агент знову боровся, потребуючи набагато більше часу, щоб повернутися до бажаних рівнів для кожної зі своїх характеристик.

Один проти багатьох

Модульний підхід є ще одним прикладом використання нейронауки для розробки штучного інтелекту, надаючи при цьому розуміння того, як працюють наші голови.

Подібно до попередньої роботи, модульні модулі показують, що можливо мати одного агента штучного інтелекту паралельно вивчати окремі та прості підпроблеми у спосіб, який є відносно децентралізованим з точки зору обробки даних. За словами авторів, додавання моделі з ієрархічною системою управління могло б посилити ШІ, оскільки обидві структури існують у природному світі.

Наразі кожен модуль запрограмований на власні переваги — кратні собі. Але наші цілі в житті часто взаємопов’язані; наприклад, вгамування спраги та боротьба зі спекою не виключають одне одного. Команда підкреслює необхідність інтегрувати ці кросовери — і дізнатися, чи є вони успадкованими чи навченими — у майбутніх тестах.

До Дульберга, невідомість є частиною хвилювання. «Як розвиваються модулі? Які особливості середовища розвитку тиснуть на різні рішення?» запитав він. «І чи переваги модульності пояснюють, чому внутрішній психологічний конфлікт здається таким центральним для життя людини?»

Зображення Фото: Анєстєв/Pixabay

Часова мітка:

Більше від Хаб сингулярності