DeepMind обучает роботов-футболистов плохо забивать

DeepMind обучает роботов-футболистов плохо забивать

DeepMind обучает роботов-футболистов забивать голы, в отличие от PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Видео Яйцеголовые из Google DeepMind разработали учебную программу глубокого обучения, которая может научить роботов плохо играть в футбол — и на это приятно смотреть.

В отличие от отточенная акробатика робота Atlas от Boston Dynamics, пара роботов Robotis OP3 под опекой DeepMind спотыкается и шлепается по футбольному полю размером 5 на 4 метра меньше нормы, как измученные малыши. Судите сами по видео ниже.

Youtube Video

Они делают это с очевидной целью и умудряются, несмотря на неоднократные падения, выправляться и иногда забивать голы. В детских спотыканиях этих гуманоидных машин легко увидеть что-то похожее на решимость, которую мы ценим и поощряем друг в друге, даже если это просто неуместный антропоморфизм. Трудно не болеть за них, хотя они вызывали бы другие эмоции, если бы были увеличены и вооружены.

28 исследователей, участвующих в этом проекте, описывают свою работу в бумага [PDF] под названием «Изучение навыков гибкого футбола для двуногого робота с помощью глубокого обучения с подкреплением».

«Мы использовали глубокое [обучение с подкреплением], чтобы обучить робота-гуманоида с 20 активируемыми суставами играть в упрощенную футбольную игру один на один (1 на 1)», — объясняют авторы. «Сначала мы тренировали отдельные навыки в изоляции, а затем дополняли эти навыки в условиях самостоятельной игры.

«Полученный в результате полис демонстрирует надежные и динамичные двигательные навыки, такие как быстрое восстановление после падения, ходьба, повороты, удары ногами и многое другое; и переходы между ними плавными, стабильными и эффективными — намного выше того, что интуитивно ожидается от робота».

Проект DeepMind менее амбициозен по своим масштабам, чем усилия по подготовке машин к конкурсу передовых технологий RoboCup, который продолжается уже много лет. Тем не менее, последняя версия RoboCup определенно менее весело смотреть на из-за сдержанного поведения участников. Где боты RoboCup обладают жесткостью Riverdance исполнители с прижатыми к бокам руками, игроки DeepMind машут руками как маньяки - по общему признанию, не идеальный вариант, когда вы пытаетесь избежать вызова рукой, но лучший способ вызвать сочувствие.

Глубокое обучение с подкреплением — это способ обучения нейронной сети, в котором агенты (программные или аппаратные объекты) учатся делать что-то (моделируемое или в реальном мире) методом проб и ошибок. И это стало обычным методом обучения роботов тому, как передвигаться в различных средах, как видно из проницательность Кэсси, что-то вроде меха-страусиного туловища, которое, как вы надеетесь, никогда не увидит преследующим вас.

Цель команды DeepMind заключалась в том, чтобы научить агента играть в футбол, что требует различных навыков, включая ходьбу, удары ногами, вставание, забивание и защиту, и все это необходимо координировать, чтобы забивать голы и побеждать в игре.

Для обучения агента — в данном случае программного обеспечения, управляющего роботом, — недостаточно вознаграждать систему за забитые голы, которая не дает всех необходимых навыков. Вместо этого исследователи подошли к наборам навыков отдельно, сосредоточившись на разработке того, что они называют политикой учителей. Эти правила регулируют такие вещи, как вставание с земли и забивание голов против неподготовленного соперника, который сразу же падает на землю, поведение мало чем отличается от настоящего футбольного ныряния.

Исследователи должны были быть осторожны, чтобы остановить обучение подсчета очков, когда агенты падали на землю, чтобы предотвратить нежелательное, но явно функциональное поведение: «Без этого прекращения агенты находят локальный минимум и учатся катиться по земле к мячу, чтобы сбить его. в ворота, а не ходить и бить ногами», — объясняют они в своей статье.

В конце концов, политика подготовки и политика забитых голов объединились. А благодаря процессу глубокого обучения с подкреплением и наградам за достижение определенных целей программное обеспечение развило сносные футбольные навыки.

Переместить обученного программного агента в тело робота оказалось несложно. По словам авторов, это был нулевой процесс, то есть им не нужно было проходить дополнительное обучение.

«Мы сократили разрыв между симуляцией и реальностью за счет простой идентификации системы, повысили надежность наших политик за счет рандомизации доменов и возмущений во время обучения, а также включили формирование условий вознаграждения, чтобы получить поведение, которое с меньшей вероятностью нанесет вред роботу», — объясняют они.

Другими словами, они удостоверились, что параметры симулятора сопоставлены с настройками аппаратного привода, рандомизированными характеристиками, такими как трение о пол и ориентация суставов, масса частей робота, задержка контура управления и случайные возмущения, все для того, чтобы программное обеспечение могло обрабатывать различные Силы, действующие на тело робота. В одной корректировке они добавили компонент вознаграждения, который поощрял ботов меньше нагружать коленные суставы, которые в противном случае имели тенденцию к повреждению.

Подготовка учителей экипировки и футбола заняла 14 часов и 158 часов (6.5 дней) соответственно, после чего последовали 68 часов дистилляции и самостоятельной игры. И результат был лучше, чем преднамеренная попытка запрограммировать эти навыки, сказали ученые.

«Политика обучения с подкреплением показала себя лучше, чем специализированные навыки, разработанные вручную: она шла на 156% быстрее и требовала на 63% меньше времени, чтобы встать», — говорится в документе.

«При инициализации рядом с мячом он ударил по мячу со скоростью на 5 процентов меньше; оба достигли скорости мяча около 2 м / с. Однако с дополнительным подходом к мячу с разбегом средняя скорость удара ногой по выученной политике составила 2.6 м/с (на 24% быстрее, чем запрограммированный навык), а максимальная скорость удара ногой по эпизодам составила 3.4 м/с».

Специалисты DeepMind продемонстрировали, что глубокое обучение с подкреплением можно применять для эффективного и недорогого обучения роботов-гуманоидов. Это еще один неуверенный шаг к будущему, в котором двуногие роботы будут ходить среди нас, хорошо это или плохо. ®

Отметка времени:

Больше от Регистр