A DeepMind rosszul képezi ki a robotfocistákat gólszerzésre

A DeepMind rosszul képezi ki a robotfocistákat gólszerzésre

DeepMind trains robot soccer players to score, badly PlatoBlockchain Data Intelligence. Vertical Search. Ai.

videó A Google DeepMind Eggheads munkatársai egy mély tanulási tantervet dolgoztak ki, amely megtanítja a robotokat, hogyan kell rosszul focizni – és ez csodálatos látni.

Ellentétben a csiszolt akrobatika A Boston Dynamics Atlas robotja, a Robotis OP3 robot párja a DeepMind felügyelete alatt bukdácsol és floppol a szabályosnál kisebb 5 méter 4 méteres futballpályán vagy futballpályán, mint a kimerült kisgyermekek. Ítélje meg Ön az alábbi videóban.

Youtube Video

Ezt látszólagos célzattal teszik, és az ismételt esések ellenére sikerül helyrehozniuk magukat, és alkalmanként gólt szerezni. Ezeknek a humanoid gépeknek a gyermeki botladozásában könnyű észrevenni, hogy valami hasonló ahhoz az eltökéltséghez, amelyet értékelünk és bátorítunk egymásban, még akkor is, ha ez csak elhibázott antropomorfizmus. Nehéz nem szurkolni nekik, bár más érzelmeket inspirálnának, ha felnagyítanák és fegyvereznék őket.

A projektben részt vevő 28 kutató ismerteti munkáját egy papír [PDF] címe: „Agilis focikészségek tanulása kétlábú robot számára mélyen megerősített tanulással”.

„A Deep [Reinforcement Learning] segítségével megtanítottunk egy humanoid robotot 20 működtetett csuklóval, hogy leegyszerűsített egy-egy (1v1) focijátékot játsszon” – magyarázzák a szerzők. „Először izoláltan képeztük ki az egyéni készségeket, majd ezeket a készségeket végponttól végéig összeállítottuk egy önálló játékkörnyezetben.

„Az így létrejött politika olyan robusztus és dinamikus mozgáskészségeket mutat, mint a gyors esés, járás, fordulás, rúgás és még sok más; és zökkenőmentesen, stabilan és hatékonyan vált át közöttük – jóval meghaladja a robottól intuitív elvárásokat.”

A DeepMind projekt kevésbé ambiciózus, mint a gépek felkészítése a RoboCup fejlett technológiai versenyére, amely évek óta tart. A RoboCup legújabb iterációja azonban az határozottan kevésbé szórakoztató nézni a résztvevők visszafogott viselkedése miatt. Ahol a RoboCup botoknak megvan a merevsége folyó tánc oldalukra rögzített karral előadók, a DeepMind játékosok hadonászik a karjukkal, mint a mániákusok – bevallottan nem ideális, amikor megpróbáljuk elkerülni a kézilabda-hívást, de jobb szimpátia kiváltása.

A mélyreható tanulás a neurális hálózat képzésének egyik módja, ahol az ágensek (szoftver- vagy hardveralapú entitások) megpróbálják és hibázva megtanulják, hogyan kell dolgokat (szimulálva vagy a valós világban) csinálni. És általános technikává vált a robotok különféle környezetekben való mozgásának megtanításában, amint az a Cassie futó érzéke, egyfajta mecha-strucctorzó, amelyről azt remélné, hogy soha nem fogja üldözni.

A DeepMind csapatának célja az volt, hogy egy ügynököt focizni tanítsanak, amihez sokféle készségre van szükség, beleértve a járást, rúgást, felállást, gólszerzést és védekezést, és mindezt koordinálni kell a gólszerzéshez és a meccs megnyeréséhez.

Az ügynök – jelen esetben a robotot irányító szoftver – betanításához nem volt elég a rendszer jutalma a gólszerzésért, amely nem produkálja a szükséges képességeket. Ehelyett a kutatók külön-külön közelítették meg a készségkészleteket, és az úgynevezett tanári politikákra összpontosítottak. Ezek az irányelvek olyan dolgokat szabályoznak, mint a földről való felkelés és a gólok szerzése egy edzetlen ellenféllel szemben – aki azonnal a földre esik, a viselkedés nem különbözik a tényleges futballugrástól.

A kutatóknak ügyelniük kellett arra, hogy leállítsák a góllövő tréninget, amikor az ügynökök a földre estek, hogy megakadályozzák a nemkívánatos, de nyilvánvalóan működőképes viselkedést: „E megszakítás nélkül az ügynökök megtalálják a helyi minimumot, és megtanulnak a földön gurulni a labda felé, hogy eltalálják. a kapuba, nem pedig járkálni és rúgni” – magyarázzák lapjukban.

A feljutás és a góllövés politika végül egyesült. A mélyreható tanulási folyamat és a meghatározott célok eléréséért jutalmazó folyamat révén a szoftver kielégítő futballkészségeket fejlesztett ki.

A képzett szoftverügynök robot testté alakítása nem bizonyult túl nehéznek. A szerzők szerint ez egy nulla-lövés folyamat volt, vagyis nem kellett további képzést végezniük.

„Csökkentettük a szim- és valós közötti különbséget az egyszerű rendszerazonosítással, javítottuk irányelveink robusztusságát a domain véletlenszerűsítésével és a képzés során fellépő perturbációkkal, és beépítettük a jutalmazási feltételek kialakítását, hogy olyan viselkedést érjünk el, amely kisebb valószínűséggel károsítja a robotot” – magyarázzák.

Vagyis gondoskodtak arról, hogy a szimulátor paraméterei a hardveres működtetőelemek beállításaihoz legyenek leképezve, a véletlenszerű jellemzők, például a padlósúrlódás és a csukló orientációja, a robotrészek tömege, a vezérlőhurok késleltetése és a véletlenszerű perturbációk, mindezt annak biztosítása érdekében, hogy a szoftver kezelni tudja a különféle problémákat. a robot testére ható erők. Az egyik módosítás során hozzáadtak egy jutalomkomponenst, amely arra ösztönözte a robotokat, hogy kevésbé terheljék térdízületeiket, amelyek egyébként hajlamosak voltak megsérülni.

A felkészítő és a futballtanárok képzése 14 órát, illetve 158 órát (6.5 napot) vett igénybe, ezt követte 68 óra lepárlás és önálló játék. És az eredmény jobb volt, mintha szándékosan próbáltuk volna programozni ezeket a készségeket – mondták a boffins.

„A megerősített tanulási politika jobban teljesített, mint a speciális, kézzel megtervezett készségek: 156 százalékkal gyorsabban járt, és 63 százalékkal kevesebb időbe telt, amíg felkelt” – írja a lap.

„A labda közelében inicializálva 5 százalékkal kisebb sebességgel rúgta a labdát; mindkettő 2 m/s körüli labdasebességet ért el. Azonban a labda további felfutásával a tanult irányelv átlagos rúgási sebessége 2.6 m/s volt (24 százalékkal gyorsabb, mint a forgatókönyv szerinti képesség), és a maximális rúgási sebesség az epizódok között 3.4 m/s volt.”

A DeepMind boffinjai bebizonyították, hogy a mélyen megerősített tanulás alkalmazható humanoid robotok hatékony és alacsony költségű tanítására. Ez egy újabb megállító lépés a jövő felé, ahol a kétlábú robotok jóban-rosszban járnak közöttünk. ®

Időbélyeg:

Még több A regisztráció