DeepMind kouluttaa robottijalkapalloilijoita tekemään maalin, huonosti

DeepMind kouluttaa robottijalkapalloilijoita tekemään maalin, huonosti

DeepMind kouluttaa robottijalkapalloilijoita tekemään maalin, huonosti PlatoBlockchain Data Intelligencen. Pystysuuntainen haku. Ai.

Video Googlen DeepMindin munapäät ovat kehittäneet syvän oppimissuunnitelman, joka voi opettaa roboteille pelaamaan jalkapalloa huonosti – ja se on upeaa katsoa.

Toisin kuin hiottu akrobatia Boston Dynamicsin Atlas-robotin Robotis OP3 -robotin pari DeepMindin ohjauksessa bumble and floppaa alle säännönmukaisella 5 metriä x 4 metriä jalkapallokentällä tai jalkapallokentällä, kuten uupuneet taaperot. Arvioi itse alla olevasta videosta.

Youtube Video

He tekevät sen ilmeisellä tarkoituksella ja onnistuvat toistuvista kaatumisista huolimatta korjaamaan itsensä ja tekemään toisinaan maaleja. Näiden humanoidikoneiden lapsellisessa kompastelussa on helppo nähdä jotain päättäväisyyden kaltaista, jota arvostamme ja rohkaisemme toisissamme, vaikka se olisikin vain väärässä paikassa olevaa antropomorfismia. Niitä on vaikea olla juurruttamatta, vaikka ne herättäisivät muita tunteita, jos niitä kasvatettaisiin ja asetettaisiin.

Projektissa mukana olevat 28 tutkijaa kuvaavat työtään paperi [PDF], jonka otsikko on "Kettereiden jalkapallotaitojen oppiminen kaksijalkaiselle robotille syvällä vahvistusoppimisella".

"Käytimme Deep [Reinforcement Learning] -ohjelmalla humanoidirobotin, jossa on 20 aktivoitua niveltä, pelaamaan yksinkertaistettua yksi vastaan ​​yksi (1v1) jalkapallopeliä", kirjoittajat selittävät. ”Harjoitimme ensin yksilöllisiä taitoja eristyksissä ja sitten kokosimme ne taidot päästä päähän itse leikkimisympäristössä.

"Tulostettu politiikka osoittaa vankat ja dynaamiset liiketaidot, kuten nopea pudotuksen palautuminen, kävely, kääntyminen, potkiminen ja paljon muuta; ja siirtyy niiden välillä sujuvasti, vakaasti ja tehokkaasti – paljon enemmän kuin mitä robotilta intuitiivisesti odotetaan."

DeepMind-projekti on laajuudeltaan vähemmän kunnianhimoinen kuin pyrkimys valmistaa koneita RoboCup-kehittyneen teknologian kilpailuun, joka on jatkunut vuosia. RoboCupin uusin iteraatio on kuitenkin selvästi vähemmän hauskaa katsottavaa osallistujien maltillisen käytöksen vuoksi. Missä RoboCup-bottien jäykkyys on Jokitanssi kädet kyljelleen kiinnittäneet esiintyjät, DeepMind-pelaajat heiluttavat käsiään kuin hulluja – ei tosin ole ihanteellinen, kun yritetään välttää käsipallopuhelua, mutta parempi sympatian pyyntö.

Syvävahvistusoppiminen on tapa kouluttaa hermoverkkoa, jossa agentit (ohjelmisto- tai laitteistopohjaiset entiteetit) oppivat tekemään asioita (simuloituna tai todellisessa maailmassa) yrityksen ja erehdyksen kautta. Ja siitä on tullut yleinen tekniikka opettaa robotteja liikkumaan eri ympäristöissä, kuten voidaan nähdä Cassien juoksukyky, eräänlainen meka-strutsivartalo, jota et toivo koskaan näkevän sinua jahtaavan.

DeepMind-tiimin tavoitteena oli kouluttaa agentti pelaamaan jalkapalloa, joka vaatii erilaisia ​​taitoja, kuten kävelyä, potkimista, seisomista, maalintekoa ja puolustamista, jotka kaikki on koordinoitava maalintekoa ja pelin voittamista varten.

Agentin – tässä tapauksessa robottia ohjaavan ohjelmiston – kouluttamiseen ei riittänyt järjestelmän palkitseminen maalinteosta, joka ei tuottaisi kaikkia tarvittavia taitoja. Sen sijaan tutkijat lähestyivät osaamiskokonaisuuksia erikseen ja keskittyivät opettajapolitiikan kehittämiseen. Nämä käytännöt säätelevät asioita, kuten maasta nousemista ja maalien tekemistä kouluttamatonta vastustajaa vastaan ​​– sellaista, joka putoaa välittömästi maahan, käyttäytymistä ei toisin kuin varsinaisessa jalkapallosukelluksessa.

Tutkijoiden piti olla varovainen lopettaessaan maalintekoharjoittelun agenttien kaatuessa maahan estääkseen ei-toivotun mutta ilmeisen toimivan käytöksen: "Ilman tätä lopettamista agentit löytävät paikallisen minimin ja oppivat vierimään maassa palloa kohti lyödäkseen sitä. maaliin kävelemisen ja potkimisen sijaan”, he selittävät lehdessään.

Nousupolitiikka ja maalintekopolitiikka lopulta yhdistyivät. Ohjelmisto kehitti kelvollisia jalkapallotaitoja syvällisesti vahvistavan oppimisen ja palkitsemisen kautta tiettyjen tavoitteiden saavuttamisesta.

Koulutetun ohjelmistoagentin muuttaminen robottirungoksi ei osoittautunut liian vaikeaksi. Se oli tekijöiden mukaan nolla-shot-prosessi, mikä tarkoittaa, että heidän ei tarvinnut tehdä lisäkoulutusta.

"Pienensimme sim-to-real -eroa yksinkertaisella järjestelmän tunnistamisella, paransimme käytäntöjemme kestävyyttä verkkotunnusten satunnaistamisen ja koulutuksen aikana tapahtuneiden häiriöiden avulla ja sisällytimme palkkioehtojen muotoiluun, jotta voimme saavuttaa käyttäytymisen, joka ei todennäköisesti vahingoita robottia", he selittävät.

Toisin sanoen he varmistivat, että simulaattorin parametrit on kartoitettu laitteiston toimilaitteen asetuksiin, satunnaistetut ominaisuudet, kuten lattiakitka ja nivelten suunta, robotin osien massa, ohjaussilmukan latenssi ja satunnaiset häiriöt, kaikki varmistaakseen, että ohjelmisto pystyy käsittelemään erilaisia voimat, jotka vaikuttavat robotin vartaloon. Yhdessä säädössä he lisäsivät palkkiokomponentin, joka kannusti botteja rasittamaan vähemmän polviniveliä, joilla muuten oli taipumus vaurioitua.

Herätys- ja jalkapallonopettajien koulutus kesti 14 tuntia ja 158 tuntia (6.5 päivää), mitä seurasi 68 tuntia tislausta ja itsepeliä. Ja lopputulos oli parempi kuin tietoinen yrittäminen ohjelmoida näitä taitoja, boffins sanoi.

"Vahvistusoppimispolitiikka suoriutui paremmin kuin erikoistuneet manuaalisesti suunnitellut taidot: se käveli 156 prosenttia nopeammin ja vei 63 prosenttia vähemmän aikaa nousta ylös", lehdessä kerrotaan.

”Kun se alustettiin lähellä palloa, se potkaisi palloa 5 prosenttia pienemmällä nopeudella; molemmat saavuttivat pallon nopeuden noin 2 m/s. Kuitenkin, kun palloa lähestyttiin lisäajalla, opitun politiikan keskimääräinen potkunopeus oli 2.6 m/s (24 prosenttia nopeampi kuin käsikirjoitettu taito) ja suurin potkunopeus jaksoissa oli 3.4 m/s.

DeepMindin boffinit osoittivat, että syvää vahvistavaa oppimista voidaan soveltaa humanoidirobottien opettamiseen tehokkaasti ja edullisesti. Se on yksi pysäyttävä askel kohti tulevaisuutta, jossa kaksijalkaiset robotit kävelevät keskuudessamme, hyvässä tai pahassa. ®

Aikaleima:

Lisää aiheesta Rekisteri