Видео Яйцеголовые из Google DeepMind разработали учебную программу глубокого обучения, которая может научить роботов плохо играть в футбол — и на это приятно смотреть.
В отличие от отточенная акробатика робота Atlas от Boston Dynamics, пара роботов Robotis OP3 под опекой DeepMind спотыкается и шлепается по футбольному полю размером 5 на 4 метра меньше нормы, как измученные малыши. Судите сами по видео ниже.
Они делают это с очевидной целью и умудряются, несмотря на неоднократные падения, выправляться и иногда забивать голы. В детских спотыканиях этих гуманоидных машин легко увидеть что-то похожее на решимость, которую мы ценим и поощряем друг в друге, даже если это просто неуместный антропоморфизм. Трудно не болеть за них, хотя они вызывали бы другие эмоции, если бы были увеличены и вооружены.
28 исследователей, участвующих в этом проекте, описывают свою работу в бумага [PDF] под названием «Изучение навыков гибкого футбола для двуногого робота с помощью глубокого обучения с подкреплением».
«Мы использовали глубокое [обучение с подкреплением], чтобы обучить робота-гуманоида с 20 активируемыми суставами играть в упрощенную футбольную игру один на один (1 на 1)», — объясняют авторы. «Сначала мы тренировали отдельные навыки в изоляции, а затем дополняли эти навыки в условиях самостоятельной игры.
«Полученный в результате полис демонстрирует надежные и динамичные двигательные навыки, такие как быстрое восстановление после падения, ходьба, повороты, удары ногами и многое другое; и переходы между ними плавными, стабильными и эффективными — намного выше того, что интуитивно ожидается от робота».
Проект DeepMind менее амбициозен по своим масштабам, чем усилия по подготовке машин к конкурсу передовых технологий RoboCup, который продолжается уже много лет. Тем не менее, последняя версия RoboCup определенно менее весело смотреть на из-за сдержанного поведения участников. Где боты RoboCup обладают жесткостью Riverdance исполнители с прижатыми к бокам руками, игроки DeepMind машут руками как маньяки - по общему признанию, не идеальный вариант, когда вы пытаетесь избежать вызова рукой, но лучший способ вызвать сочувствие.
Глубокое обучение с подкреплением — это способ обучения нейронной сети, в котором агенты (программные или аппаратные объекты) учатся делать что-то (моделируемое или в реальном мире) методом проб и ошибок. И это стало обычным методом обучения роботов тому, как передвигаться в различных средах, как видно из проницательность Кэсси, что-то вроде меха-страусиного туловища, которое, как вы надеетесь, никогда не увидит преследующим вас.
Цель команды DeepMind заключалась в том, чтобы научить агента играть в футбол, что требует различных навыков, включая ходьбу, удары ногами, вставание, забивание и защиту, и все это необходимо координировать, чтобы забивать голы и побеждать в игре.
Для обучения агента — в данном случае программного обеспечения, управляющего роботом, — недостаточно вознаграждать систему за забитые голы, которая не дает всех необходимых навыков. Вместо этого исследователи подошли к наборам навыков отдельно, сосредоточившись на разработке того, что они называют политикой учителей. Эти правила регулируют такие вещи, как вставание с земли и забивание голов против неподготовленного соперника, который сразу же падает на землю, поведение мало чем отличается от настоящего футбольного ныряния.
Исследователи должны были быть осторожны, чтобы остановить обучение подсчета очков, когда агенты падали на землю, чтобы предотвратить нежелательное, но явно функциональное поведение: «Без этого прекращения агенты находят локальный минимум и учатся катиться по земле к мячу, чтобы сбить его. в ворота, а не ходить и бить ногами», — объясняют они в своей статье.
В конце концов, политика подготовки и политика забитых голов объединились. А благодаря процессу глубокого обучения с подкреплением и наградам за достижение определенных целей программное обеспечение развило сносные футбольные навыки.
Переместить обученного программного агента в тело робота оказалось несложно. По словам авторов, это был нулевой процесс, то есть им не нужно было проходить дополнительное обучение.
«Мы сократили разрыв между симуляцией и реальностью за счет простой идентификации системы, повысили надежность наших политик за счет рандомизации доменов и возмущений во время обучения, а также включили формирование условий вознаграждения, чтобы получить поведение, которое с меньшей вероятностью нанесет вред роботу», — объясняют они.
Другими словами, они удостоверились, что параметры симулятора сопоставлены с настройками аппаратного привода, рандомизированными характеристиками, такими как трение о пол и ориентация суставов, масса частей робота, задержка контура управления и случайные возмущения, все для того, чтобы программное обеспечение могло обрабатывать различные Силы, действующие на тело робота. В одной корректировке они добавили компонент вознаграждения, который поощрял ботов меньше нагружать коленные суставы, которые в противном случае имели тенденцию к повреждению.
Подготовка учителей экипировки и футбола заняла 14 часов и 158 часов (6.5 дней) соответственно, после чего последовали 68 часов дистилляции и самостоятельной игры. И результат был лучше, чем преднамеренная попытка запрограммировать эти навыки, сказали ученые.
«Политика обучения с подкреплением показала себя лучше, чем специализированные навыки, разработанные вручную: она шла на 156% быстрее и требовала на 63% меньше времени, чтобы встать», — говорится в документе.
«При инициализации рядом с мячом он ударил по мячу со скоростью на 5 процентов меньше; оба достигли скорости мяча около 2 м / с. Однако с дополнительным подходом к мячу с разбегом средняя скорость удара ногой по выученной политике составила 2.6 м/с (на 24% быстрее, чем запрограммированный навык), а максимальная скорость удара ногой по эпизодам составила 3.4 м/с».
Специалисты DeepMind продемонстрировали, что глубокое обучение с подкреплением можно применять для эффективного и недорогого обучения роботов-гуманоидов. Это еще один неуверенный шаг к будущему, в котором двуногие роботы будут ходить среди нас, хорошо это или плохо. ®
- SEO-контент и PR-распределение. Получите усиление сегодня.
- ПлатонАйСтрим. Анализ данных Web3. Расширение знаний. Доступ здесь.
- Чеканка будущего с Эдриенн Эшли. Доступ здесь.
- Покупайте и продавайте акции компаний PREIPO® с помощью PREIPO®. Доступ здесь.
- Источник: https://go.theregister.com/feed/www.theregister.com/2023/05/09/ai_robot_soccer/
- :имеет
- :является
- :нет
- :куда
- $UP
- 14
- 20
- 24
- 28
- 7
- a
- О нас
- По
- достигнутый
- достижение
- через
- фактического соединения
- сообразительность
- добавленный
- дополнительный
- Регулировка
- против
- Агент
- агенты
- проворный
- цель
- Все
- честолюбивый
- среди
- среди нас
- an
- и
- Другой
- очевидный
- прикладной
- подхода
- оружие
- около
- AS
- At
- Авторы
- избежать
- плохо
- мяч
- BE
- становиться
- было
- ниже
- Лучшая
- между
- Beyond
- тело
- Бостон
- изоферменты печени
- боты
- запинаться
- но
- by
- призывают
- CAN
- тщательный
- случаев
- характеристика
- CO
- сочетании
- Общий
- конкурс
- компонент
- состоящие
- контраст
- контроль
- управление
- согласованный
- может
- Учебный план
- Дней
- глубоко
- глубокое обучение
- DeepMind
- Защита
- убивают
- описывать
- Несмотря на
- определение
- развитый
- развивающийся
- трудный
- do
- домен
- два
- в течение
- динамический
- динамика
- легко
- фактически
- эффективный
- усилия
- эмоции
- поощрять
- поощрять
- впритык
- достаточно
- обеспечивать
- лиц
- средах
- ошибка
- Даже
- со временем
- Экспонаты
- ожидаемый
- Объяснять
- Осень
- Водопад
- быстрее
- поле
- Найдите
- Во-первых,
- фиксированной
- Этаж
- фокусировка
- следует
- футбол
- Что касается
- Войска
- трение
- от
- fun
- функциональная
- будущее
- игра
- разрыв
- получить
- получающий
- цель
- Цели
- будет
- земля
- было
- запинающийся
- обрабатывать
- Аппаратные средства
- Есть
- надежды
- ЧАСЫ
- Как
- How To
- Однако
- HTTPS
- гуманоид
- идеальный
- Идентификация
- if
- немедленно
- улучшенный
- in
- включены
- В том числе
- individual
- внушать
- вместо
- в
- вовлеченный
- изоляция
- IT
- итерация
- совместная
- JPG
- судья
- всего
- этикетка
- Задержка
- последний
- УЧИТЬСЯ
- узнали
- изучение
- Меньше
- такое как
- Вероятно
- локальным
- посмотреть
- бюджетный
- Продукция
- сделанный
- управлять
- способ
- Масса
- максимальный
- значить
- смысл
- минимальный
- неуместны
- БОЛЕЕ
- двигаться
- движение
- Возле
- необходимо
- Необходимость
- сеть
- нейронной сети
- никогда
- целей
- получать
- of
- от
- on
- ONE
- or
- Другое
- в противном случае
- наши
- Результат
- пара
- бумага & картон
- параметры
- новыми участниками
- части
- процент
- исполнители
- Pitch
- Платон
- Платон Интеллектуальные данные
- ПлатонДанные
- Играть
- игроки
- сборах
- политика
- Подготовить
- предотвращать
- процесс
- производит
- FitPartner™
- Проект
- доказанный
- цель
- положил
- случайный
- Рандомизированное
- быстро
- скорее
- реальные
- реальный мир
- выздоровление
- Цена снижена
- повторный
- требуется
- исследователи
- соответственно
- в результате
- Предложение
- Награды
- правую
- робот
- Роботы
- надежный
- прочность
- Катить
- корень
- s
- Сказал
- сообщили
- говорит
- сфера
- Гол
- счет
- посмотреть
- видел
- Наборы
- установка
- настройки
- формирование
- Стороны
- просто
- упрощенный
- имитатор
- умение
- навыки
- So
- Футбольный
- Software
- домогательство
- удалось
- специализированный
- указанный
- скорость
- стабильный
- Шаг
- Stop
- стресс
- спотыкаясь
- такие
- система
- учителя
- Обучение
- команда
- terms
- чем
- который
- Ассоциация
- их
- Их
- сами
- тогда
- Эти
- они
- вещи
- этой
- те
- хоть?
- Через
- время
- титулованный
- в
- слишком
- приняли
- к
- к
- Train
- специалистов
- Обучение
- поезда
- переходы
- суд
- Поворот
- под
- В отличие от
- на
- us
- используемый
- ценностное
- разнообразие
- различный
- с помощью
- Видео
- ходил
- ходьба
- законопроект
- Путь..
- we
- ЧТО Ж
- были
- Что
- Что такое
- когда
- , которые
- КТО
- выиграть
- без
- замечательный
- Работа
- Мир
- хуже
- лет
- Ты
- себя
- YouTube
- зефирнет