Обучение алгоритмам, способным имитировать людей, обычно требует сотен или тысяч примеров. Но новый ИИ от Google DeepMind может на лету перенимать новые навыки у людей-демонстраторов.
Одна из величайших хитростей человечества – это наша способность быстро и эффективно получать знания друг от друга. Этот вид социального обучения, часто называемый культурной передачей, позволяет нам показать коллеге, как использовать новый инструмент, или научить наших детей детским стишкам.
Неудивительно, что исследователи попытались воспроизвести этот процесс на машинах. Обучение с имитацией, при котором ИИ наблюдает, как человек выполняет задание, а затем пытается имитировать его поведение, уже давно стало популярным подходом к обучению роботов. Но даже самым продвинутым сегодня алгоритмам глубокого обучения обычно необходимо увидеть множество примеров, прежде чем они смогут успешно скопировать свои тренеры.
Когда люди учатся посредством подражания, они часто могут решать новые задачи после нескольких демонстраций. Теперь исследователи Google DeepMind сделали шаг к быстрому социальному обучению в области искусственного интеллекта с помощью агентов, которые учатся ориентироваться в виртуальном мире у людей в реальном времени.
«Нашим агентам удается в режиме реального времени имитировать человека в новых контекстах без использования каких-либо заранее собранных данных о человеке», — пишут исследователи в статье. бумага в Природа связи. Мы идентифицируем удивительно простой набор ингредиентов, достаточный для создания культурной передачи».
Исследователи обучали своих агентов на специально разработанном симуляторе GoalCycle3D. Симулятор использует алгоритм для создания почти бесконечного количества различных сред на основе правил о том, как должна работать симуляция и какие ее аспекты должны различаться.
В каждой среде небольшие капли, похожие на AI-агенты должен перемещаться по неровной местности и различным препятствиям, чтобы пройти через ряд цветных сфер в определенном порядке. Неровность местности, плотность препятствий и конфигурация сфер различаются в зависимости от среды.
Агенты обучены ориентироваться с помощью усиление обучения. Они получают награду за прохождение сфер в правильном порядке и используют этот сигнал для улучшения своих результатов во многих испытаниях. Но кроме того, в среде также присутствует экспертный агент, который либо жестко запрограммирован, либо контролируется человеком, который уже знает правильный маршрут прохождения курса.
В ходе множества тренировок агенты ИИ изучают не только основы работы окружающей среды, но и то, что самый быстрый способ решить каждую проблему — подражать эксперту. Чтобы гарантировать, что агенты учились подражать, а не просто запоминать курсы, команда обучала их в одном наборе сред, а затем тестировала в другом. Важно отметить, что после обучения команда показала, что их агенты могут имитировать эксперта и продолжать следовать по маршруту даже без эксперта.
Это потребовало некоторых изменений в стандартных подходах к обучению с подкреплением.
Исследователи заставили алгоритм сосредоточиться на эксперте, заставив его предсказать местоположение другого агента. Еще дали модуль памяти. Во время обучения эксперт входил и выходил из окружающей среды, заставляя агента запоминать свои действия на случай, если его больше не будет. ИИ также обучался в широком наборе сред, что позволяло ему решать широкий спектр возможных задач.
Однако, возможно, будет сложно применить этот подход к более практическим областям. Ключевым ограничением является то, что когда исследователи проверяли, может ли ИИ учиться на человеческих демонстрациях, во время всех тренировок экспертным агентом управлял один человек. Из-за этого трудно понять, могут ли агенты учиться у разных людей.
Что еще важнее, возможность произвольного изменения условий обучения будет трудно воссоздать в реальном мире. Основная задача была простой, не требовала мелкого моторного контроля и выполнялась в строго контролируемой виртуальной среде.
Тем не менее, прогресс социального обучения в области ИИ можно только приветствовать. Если мы хотим жить в мире интеллектуальных машин, решающее значение будет иметь поиск эффективных и интуитивно понятных способов поделиться с ними своим опытом и знаниями.
Изображение Фото: Джулиана и Мариана Аморим / Unsplash
- SEO-контент и PR-распределение. Получите усиление сегодня.
- PlatoData.Network Вертикальный генеративный ИИ. Расширьте возможности себя. Доступ здесь.
- ПлатонАйСтрим. Интеллект Web3. Расширение знаний. Доступ здесь.
- ПлатонЭСГ. Углерод, чистые технологии, Энергия, Окружающая среда, Солнечная, Управление отходами. Доступ здесь.
- ПлатонЗдоровье. Биотехнологии и клинические исследования. Доступ здесь.
- Источник: https://singularityhub.com/2023/12/01/this-deepmind-ai-rapidly-learns-new-skills-just-by-watching-humans/
- :имеет
- :является
- :нет
- $UP
- a
- способность
- О нас
- приобретать
- действия
- дополнение
- продвинутый
- После
- Агент
- агенты
- AI
- алгоритм
- алгоритмы
- Все
- позволяет
- почти
- уже
- причислены
- an
- и
- Другой
- любой
- подхода
- подходы
- МЫ
- AS
- аспекты
- At
- основанный
- BE
- было
- до
- поведение
- между
- широкий
- но
- by
- под названием
- CAN
- Дети
- коллега
- полный
- Конфигурация
- контексты
- продолжать
- контроль
- контроль
- исправить
- может
- "Курс"
- курсы
- кредит
- решающее значение
- в решающей степени
- культурный
- данным
- глубоко
- глубокое обучение
- DeepMind
- предназначенный
- различный
- трудный
- доменов
- Падение
- в течение
- e
- каждый
- зарабатывать
- эффективный
- эффективно
- или
- Бесконечный
- обеспечивать
- обеспечивается
- Окружающая среда
- средах
- Даже
- Примеры
- опыт
- эксперту
- опыта
- Особенность
- несколько
- обнаружение
- конец
- Фокус
- следовать
- Что касается
- принуждение
- от
- Основы
- дал
- порождать
- порождающий
- величайший
- горсть
- Жесткий
- Есть
- имеющий
- очень
- Как
- How To
- HTTPS
- человек
- Людей
- Сотни
- определения
- if
- улучшать
- in
- Умный
- интуитивный
- IT
- ЕГО
- всего
- Основные
- Вид
- Знать
- знания
- знает
- УЧИТЬСЯ
- изучение
- узнает
- ограничение
- жить
- расположение
- Длинное
- дольше
- Продукция
- сделанный
- ДЕЛАЕТ
- многих
- Память
- может быть
- Модули
- БОЛЕЕ
- самых
- Мотор
- должен
- природа
- Откройте
- Необходимость
- Новые
- нет
- роман
- сейчас
- номер
- препятствиями
- происходящий
- of
- .
- on
- ONE
- только
- работать
- or
- заказ
- Другое
- наши
- внешний
- за
- pass
- Прохождение
- Люди
- производительность
- человек
- выбирать
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Популярное
- возможное
- практическое
- предсказывать
- представить
- Проблема
- процесс
- Прогресс
- самый быстрый
- ассортимент
- быстро
- быстро
- скорее
- реальные
- реальный мир
- реального времени
- назвало
- обязательный
- требуется
- исследователи
- Предложение
- Роботы
- дорога
- условиями,
- работает
- видел
- посмотреть
- Серии
- набор
- Поделиться
- должен
- показывать
- показал
- сигнал
- просто
- моделирование
- имитатор
- навыки
- небольшой
- Соцсети
- РЕШАТЬ
- специально
- конкретный
- стандарт
- Шаг
- быть успешными
- Успешно
- достаточный
- сюрприз
- приняты
- Сложность задачи
- задачи
- команда
- местность
- проверенный
- чем
- который
- Ассоциация
- их
- Их
- тогда
- они
- этой
- хоть?
- тысячи
- Через
- время
- в
- Сегодняшних
- инструментом
- к
- специалистов
- Обучение
- переведите
- испытания
- пыталась
- твики
- типично
- лежащий в основе
- us
- использование
- использования
- через
- разнообразие
- различный
- Виртуальный
- Виртуальный мир
- законопроект
- часы
- наблюдение
- Путь..
- способы
- добро пожаловать
- были
- Что
- когда
- будь то
- , которые
- широкий
- Широкий диапазон
- будете
- без
- Мир
- бы
- записывать
- зефирнет