DeepMind traint robotvoetballers om slecht te scoren

DeepMind traint robotvoetballers om slecht te scoren

DeepMind traint robotvoetballers om te scoren, slecht PlatoBlockchain Data Intelligence. Verticaal zoeken. Ai.

Video Eggheads bij DeepMind van Google hebben een deep learning-curriculum ontwikkeld waarmee robots slecht kunnen leren voetballen – en het is prachtig om te zien.

In tegenstelling tot gepolijste acrobatiek van de Atlas-robot van Boston Dynamics, stuntelt en flopt het tweetal Robotis OP3-robots onder de voogdij van DeepMind over een minder dan gereglementeerd voetbalveld van 5 bij 4 meter, of voetbalveld, als uitgeputte peuters. Oordeel zelf in onderstaande video.

Youtube Video

Ze doen dit met een duidelijk doel en slagen erin, ondanks herhaalde valpartijen, zichzelf weer op te richten en zo nu en dan doelpunten te scoren. In het kinderlijke struikelen van deze mensachtige machines is het gemakkelijk om iets te zien dat lijkt op de vastberadenheid die we in elkaar waarderen en aanmoedigen, ook al is dat gewoon misplaatst antropomorfisme. Het is moeilijk om er niet achter te staan, hoewel ze andere emoties zouden oproepen als ze zouden worden vergroot en bewapend.

De 28 bij dit project betrokken onderzoekers beschrijven hun werk in een krant [PDF] getiteld: "Agile voetbalvaardigheden leren voor een tweevoetige robot met diepgaand versterkend leren."

“We hebben Deep [Reinforcement Learning] gebruikt om een ​​humanoïde robot met twintig bediende gewrichten te trainen om een ​​vereenvoudigd één-tegen-één (20v1) voetbalspel te spelen”, leggen de auteurs uit. “We trainden eerst de individuele vaardigheden afzonderlijk en stelden die vaardigheden vervolgens end-to-end samen in een zelfspelomgeving.

“Het resulterende beleid vertoont robuuste en dynamische bewegingsvaardigheden zoals snel valherstel, lopen, draaien, trappen en meer; en de overgangen daartussen op een soepele, stabiele en efficiënte manier – veel verder dan wat intuïtief van de robot wordt verwacht.”

Het DeepMind-project is minder ambitieus van opzet dan de inspanningen om machines voor te bereiden op de RoboCup-competitie voor geavanceerde technologie, die al jaren aan de gang is. De nieuwste versie van de RoboCup is dat echter wel beslist minder leuk om naar te kijken vanwege het terughoudende gedrag van de deelnemers. Waar RoboCup-bots de stijfheid van hebben Riverdance artiesten met hun armen langs hun lichaam, de DeepMind-spelers zwaaien met hun armen als maniakken – weliswaar niet ideaal als je een handsbal-oproep probeert te vermijden, maar een betere uitnodiging tot sympathie.

Diep versterkend leren is een manier om een ​​neuraal netwerk te trainen waarin agenten (op software of hardware gebaseerde entiteiten) met vallen en opstaan ​​leren hoe ze dingen moeten doen (gesimuleerd of in de echte wereld). En het is een veelgebruikte techniek geworden om robots te leren hoe ze zich in verschillende omgevingen moeten verplaatsen, zoals blijkt uit de loopvaardigheid van Cassie, een soort mecha-struisvogeltorso waarvan je hoopte dat hij je nooit zou achtervolgen.

Het doel van het DeepMind-team was om een ​​agent te trainen in het voetballen, waarvoor een verscheidenheid aan vaardigheden vereist is, waaronder lopen, trappen, opstaan, scoren en verdedigen, die allemaal moeten worden gecoördineerd om doelpunten te scoren en de wedstrijd te winnen.

Om de agent te trainen – in dit geval software die de robot bestuurt – was het niet voldoende om het systeem te belonen voor het scoren van doelpunten, omdat dat niet alle benodigde vaardigheden zou opleveren. In plaats daarvan benaderden de onderzoekers de vaardigheden afzonderlijk en concentreerden ze zich op het ontwikkelen van wat zij lerarenbeleid noemen. Dit beleid regelt zaken als het opstaan ​​van de grond en het scoren van doelpunten tegen een ongetrainde tegenstander – iemand die onmiddellijk op de grond valt, een gedrag dat lijkt op echt voetbalduiken.

De onderzoekers moesten voorzichtig zijn met het stoppen van de doelpuntentraining wanneer agenten op de grond vielen om ongewenst maar duidelijk functioneel gedrag te voorkomen: “Zonder deze beëindiging vinden agenten een lokaal minimum en leren ze over de grond naar de bal te rollen om deze te kloppen. in het doel, in plaats van te lopen en te trappen”, leggen ze uit in hun paper.

Het opstabeleid en het doelpuntenbeleid werden uiteindelijk gecombineerd. En door een proces van diep versterkend leren en beloningen voor het bereiken van specifieke doelstellingen, ontwikkelde de software redelijke voetbalvaardigheden.

Het bleek niet zo moeilijk om de getrainde softwareagent in een robotlichaam te veranderen. Volgens de auteurs was het een zero-shot-proces, wat betekent dat ze geen aanvullende training hoefden te volgen.

“We hebben de kloof tussen simulatie en werkelijkheid verkleind via eenvoudige systeemidentificatie, de robuustheid van ons beleid verbeterd via domeinrandomisatie en verstoringen tijdens training, en het vormgeven van beloningsvoorwaarden om gedrag te verkrijgen dat de robot minder snel zal beschadigen”, leggen ze uit.

Dat wil zeggen dat ze ervoor zorgden dat de simulatorparameters werden toegewezen aan hardware-actuatorinstellingen, gerandomiseerde kenmerken zoals vloerwrijving en gewrichtsoriëntatie, de massa van robotonderdelen, de latentie van de regellus en willekeurige verstoringen, allemaal om ervoor te zorgen dat de software een verscheidenheid aan krachten die op het lichaam van de robot inwerken. In één aanpassing voegden ze een beloningscomponent toe die de bots aanmoedigde minder druk uit te oefenen op hun kniegewrichten, die anders de neiging hadden beschadigd te raken.

Het trainen van de opsta- en voetballeraren duurde respectievelijk 14 uur en 158 uur (6.5 dagen), gevolgd door 68 uur distillatie en zelfspel. En de uitkomst was beter dan het opzettelijk proberen deze vaardigheden te programmeren, zeiden de techneuten.

“Het versterkende leerbeleid presteerde beter dan de gespecialiseerde, handmatig ontworpen vaardigheden: het liep 156 procent sneller en het kostte 63 procent minder tijd om op te staan”, zegt de krant.

“Wanneer het in de buurt van de bal werd geïnitialiseerd, schopte het de bal met 5 procent minder snelheid; beiden behaalden een balsnelheid van ongeveer 2 m/s. Met een extra aanloopbenadering van de bal was de gemiddelde trapsnelheid van het geleerde beleid echter 2.6 m/s (24 procent sneller dan de scriptvaardigheid) en de maximale trapsnelheid over de afleveringen heen was 3.4 m/s.”

De techneuten van DeepMind hebben aangetoond dat diepgaand versterkend leren kan worden toegepast om humanoïde robots effectief en tegen lage kosten te onderwijzen. Dat is nog een aarzelende stap in de richting van een toekomst waarin tweevoetige robots onder ons rondlopen, ten goede of ten kwade. ®

Tijdstempel:

Meer van Het register