DeepMind træner robotfodboldspillere til at score, dårligt

DeepMind træner robotfodboldspillere til at score, dårligt

DeepMind trains robot soccer players to score, badly PlatoBlockchain Data Intelligence. Vertical Search. Ai.

video Eggheads hos Googles DeepMind har udviklet en deep learning-pensum, der kan lære robotter at spille fodbold dårligt – og det er vidunderligt at se.

I modsætning til poleret akrobatik af Boston Dynamics' Atlas-robot, parret af Robotis OP3-robotter under opsyn af DeepMind bumler og flopper omkring en mindre end regulativ 5 meter gange 4 meter fodboldbane eller fodboldbane, som udmattede småbørn. Døm selv i videoen nedenfor.

Youtube Video

De gør det med tilsyneladende formål og formår, trods gentagne fald, at rette op på sig selv og indimellem score mål. I disse humanoide maskiners barnlige snublen er det let at se noget, der ligner den beslutsomhed, som vi værdsætter og opmuntrer hos hinanden, selvom det bare er malplaceret antropomorfisme. Det er svært ikke at rodfæste dem, selvom de ville inspirere andre følelser, hvis de forstørrede og bevæbnede dem.

De 28 forskere, der er involveret i dette projekt, beskriver deres arbejde i et papir [PDF] med titlen, "Lær agile fodboldfærdigheder for en bipedal robot med dyb forstærkningslæring."

"Vi brugte Deep [Reinforcement Learning] til at træne en humanoid robot med 20 aktiverede led til at spille en forenklet en-mod-en (1v1) fodboldkamp," forklarer forfatterne. "Vi trænede først individuelle færdigheder isoleret og komponerede derefter disse færdigheder fra ende til anden i en selv-leg-setting.

"Den resulterende politik udviser robuste og dynamiske bevægelsesfærdigheder såsom hurtig faldrestitution, gang, drejning, spark og mere; og overgange mellem dem på en jævn, stabil og effektiv måde - langt ud over, hvad der intuitivt forventes af robotten."

DeepMind-projektet er mindre ambitiøst i omfang end bestræbelserne på at forberede maskiner til RoboCup-konkurrencen om avanceret teknologi, som har stået på i årevis. Den seneste iteration af RoboCup er dog afgjort mindre sjov at se på på grund af deltagernes tilbageholdende adfærd. Hvor RoboCup bots har stivheden af floddans performere med armene fastgjort til siden, DeepMind-spillerne vifter med armene som galninger – ganske vist ikke ideelt, når man forsøger at undgå et håndboldopkald, men en bedre opfordring til sympati.

Dyb forstærkningslæring er en måde at træne et neuralt netværk på, hvor agenter (software- eller hardwarebaserede enheder) lærer at gøre ting (simuleret eller i den virkelige verden) gennem forsøg og fejl. Og det er blevet en almindelig teknik til at lære robotter at bevæge sig rundt i forskellige miljøer, som det kan ses af Cassie's løbende skarpsindighed, en slags meka-Strudse-torso, som du håber aldrig at se jagte dig.

DeepMind-holdets mål var at træne en agent til at spille fodbold, hvilket kræver en række forskellige færdigheder, herunder at gå, sparke, stå op, score og forsvare, som alle skal koordineres for at score mål og vinde kampen.

For at træne agenten – i dette tilfælde software, der styrer robotten – var det ikke nok at belønne systemet for at score mål, som ikke ville producere alle de nødvendige færdigheder. I stedet henvendte forskerne sig til færdighedssættene separat og fokuserede på at udvikle, hvad de kalder lærerpolitikker. Disse politikker styrer ting som at rejse sig fra jorden og score mål mod en utrænet modstander - en der straks falder til jorden, adfærd ikke ulig faktisk fodbolddykning.

Forskerne måtte passe på med at stoppe målscoringstræningen, når agenter faldt på jorden for at forhindre uønsket, men åbenbart funktionel adfærd: "Uden denne afslutning finder agenterne et lokalt minimum og lærer at rulle på jorden mod bolden for at banke den. ind i målet, frem for at gå og sparke,” forklarer de i deres papir.

Stigningspolitikken og målsætningspolitikken blev til sidst kombineret. Og gennem en proces med dyb forstærkende læring og belønninger for at nå bestemte mål, udviklede softwaren acceptabel fodboldfærdigheder.

At flytte den trænede softwareagent ind i en robotkrop viste sig ikke at være alt for svært. Det var en nul-skudsproces, ifølge forfatterne, hvilket betyder, at de ikke behøvede at lave yderligere træning.

"Vi reducerede mellemrum til virkelighed via simpel systemidentifikation, forbedrede robustheden af ​​vores politikker via domænerandomisering og forstyrrelser under træning og inkluderede udformning af belønningsvilkår for at opnå adfærd, der er mindre tilbøjelig til at skade robotten," forklarer de.

Det vil sige, at de sørgede for, at simulatorparametrene blev kortlagt til hardwareaktuatorindstillinger, randomiserede karakteristika som gulvfriktion og ledorientering, massen af ​​robotdele, kontrolsløjfeforsinkelse og tilfældige forstyrrelser, alt sammen for at sikre, at softwaren kunne håndtere en række forskellige kræfter, der virker på robottens krop. I en justering tilføjede de en belønningskomponent, der tilskyndede bots til at lægge mindre stress på deres knæled, som ellers havde en tendens til at blive beskadiget.

Træningen af ​​opstarts- og fodboldlærerne tog henholdsvis 14 timer og 158 timer (6.5 dage), efterfulgt af 68 timers destillation og selvspil. Og resultatet var bedre end bevidst at prøve at programmere disse færdigheder, sagde boffinerne.

"Forstærkningslæringspolitikken fungerede bedre end de specialiserede manuelt designede færdigheder: den gik 156 procent hurtigere og tog 63 procent mindre tid at rejse sig," siger avisen.

“Når den blev initialiseret nær bolden, sparkede den bolden med 5 procent mindre hastighed; begge opnåede en boldhastighed på omkring 2 m/s. Men med en yderligere opløbstilgang til bolden var den lærte politiks gennemsnitlige sparkehastighed 2.6 m/s (24 procent hurtigere end den scriptede færdighed), og den maksimale sparkehastighed på tværs af episoder var 3.4 m/s."

DeepMinds boffins demonstrerede, at dyb forstærkningslæring kan anvendes til at undervise humanoide robotter effektivt og til en lav pris. Det er endnu et stoppende skridt mod en fremtid, hvor tobenede robotter går blandt os, på godt og ondt. ®

Tidsstempel:

Mere fra Registret