Искусственный интеллект DeepMind быстро осваивает новые навыки, просто наблюдая за людьми

Искусственный интеллект DeepMind быстро осваивает новые навыки, просто наблюдая за людьми

Искусственный интеллект DeepMind быстро осваивает новые навыки, просто наблюдая за людьми. Платоблокчейн-аналитика данных. Вертикальный поиск. Ай.

Обучение алгоритмам, способным имитировать людей, обычно требует сотен или тысяч примеров. Но новый ИИ от Google DeepMind может на лету перенимать новые навыки у людей-демонстраторов.

Одна из величайших хитростей человечества – это наша способность быстро и эффективно получать знания друг от друга. Этот вид социального обучения, часто называемый культурной передачей, позволяет нам показать коллеге, как использовать новый инструмент, или научить наших детей детским стишкам.

Неудивительно, что исследователи попытались воспроизвести этот процесс на машинах. Обучение с имитацией, при котором ИИ наблюдает, как человек выполняет задание, а затем пытается имитировать его поведение, уже давно стало популярным подходом к обучению роботов. Но даже самым продвинутым сегодня алгоритмам глубокого обучения обычно необходимо увидеть множество примеров, прежде чем они смогут успешно скопировать свои тренеры.

Когда люди учатся посредством подражания, они часто могут решать новые задачи после нескольких демонстраций. Теперь исследователи Google DeepMind сделали шаг к быстрому социальному обучению в области искусственного интеллекта с помощью агентов, которые учатся ориентироваться в виртуальном мире у людей в реальном времени.

«Нашим агентам удается в режиме реального времени имитировать человека в новых контекстах без использования каких-либо заранее собранных данных о человеке», — пишут исследователи в статье. бумага в Природа связи. Мы идентифицируем удивительно простой набор ингредиентов, достаточный для создания культурной передачи».

Исследователи обучали своих агентов на специально разработанном симуляторе GoalCycle3D. Симулятор использует алгоритм для создания почти бесконечного количества различных сред на основе правил о том, как должна работать симуляция и какие ее аспекты должны различаться.

В каждой среде небольшие капли, похожие на AI-агенты должен перемещаться по неровной местности и различным препятствиям, чтобы пройти через ряд цветных сфер в определенном порядке. Неровность местности, плотность препятствий и конфигурация сфер различаются в зависимости от среды.

Агенты обучены ориентироваться с помощью усиление обучения. Они получают награду за прохождение сфер в правильном порядке и используют этот сигнал для улучшения своих результатов во многих испытаниях. Но кроме того, в среде также присутствует экспертный агент, который либо жестко запрограммирован, либо контролируется человеком, который уже знает правильный маршрут прохождения курса.

В ходе множества тренировок агенты ИИ изучают не только основы работы окружающей среды, но и то, что самый быстрый способ решить каждую проблему — подражать эксперту. Чтобы гарантировать, что агенты учились подражать, а не просто запоминать курсы, команда обучала их в одном наборе сред, а затем тестировала в другом. Важно отметить, что после обучения команда показала, что их агенты могут имитировать эксперта и продолжать следовать по маршруту даже без эксперта.

Это потребовало некоторых изменений в стандартных подходах к обучению с подкреплением.

Исследователи заставили алгоритм сосредоточиться на эксперте, заставив его предсказать местоположение другого агента. Еще дали модуль памяти. Во время обучения эксперт входил и выходил из окружающей среды, заставляя агента запоминать свои действия на случай, если его больше не будет. ИИ также обучался в широком наборе сред, что позволяло ему решать широкий спектр возможных задач.

Однако, возможно, будет сложно применить этот подход к более практическим областям. Ключевым ограничением является то, что когда исследователи проверяли, может ли ИИ учиться на человеческих демонстрациях, во время всех тренировок экспертным агентом управлял один человек. Из-за этого трудно понять, могут ли агенты учиться у разных людей.

Что еще важнее, возможность произвольного изменения условий обучения будет трудно воссоздать в реальном мире. Основная задача была простой, не требовала мелкого моторного контроля и выполнялась в строго контролируемой виртуальной среде.

Тем не менее, прогресс социального обучения в области ИИ можно только приветствовать. Если мы хотим жить в мире интеллектуальных машин, решающее значение будет иметь поиск эффективных и интуитивно понятных способов поделиться с ними своим опытом и знаниями.

Изображение Фото: Джулиана и Мариана Аморим / Unsplash

Отметка времени:

Больше от Singularity Hub