DeepMind tränar robotfotbollsspelare att göra mål, dåligt

DeepMind tränar robotfotbollsspelare att göra mål, dåligt

DeepMind tränar robotfotbollsspelare att göra mål, dåligt PlatoBlockchain Data Intelligence. Vertikal sökning. Ai.

Video Eggheads på Googles DeepMind har utvecklat en läroplan för djupinlärning som kan lära robotar hur man spelar fotboll dåligt – och det är underbart att se.

I motsats till polerad akrobatik av Boston Dynamics Atlas-robot, paret Robotis OP3-robotar under ledning av DeepMind bråkar och floppar om en mindre än reglerad 5 meter gånger 4 meter fotbollsplan, eller fotbollsplan, som utmattade småbarn. Bedöm själv i videon nedan.

Youtube Video

De gör det med ett uppenbart syfte och lyckas, trots upprepade fall, rätta till sig och ibland göra mål. I det barnsliga snubblande av dessa humanoida maskiner är det lätt att se något som liknar beslutsamheten som vi värdesätter och uppmuntrar hos varandra, även om det bara är felplacerad antropomorfism. Det är svårt att inte rota för dem, även om de skulle inspirera andra känslor om de förstorade och beväpnade.

De 28 forskarna som är involverade i detta projekt beskriver sitt arbete i ett papper [PDF] med titeln "Lära sig smidiga fotbollsfärdigheter för en tvåfotad robot med djup förstärkningsinlärning."

"Vi använde Deep [Reinforcement Learning] för att träna en humanoid robot med 20 manövrerade leder för att spela ett förenklat en-mot-en-fotbollsspel (1v1)", förklarar författarna. "Vi tränade först individuella färdigheter isolerat och komponerade sedan dessa färdigheter från början till slut i en självspelsmiljö.

"Den resulterande policyn uppvisar robusta och dynamiska rörelsefärdigheter som snabb fallåterhämtning, gång, vändning, sparkar och mer; och övergångar mellan dem på ett smidigt, stabilt och effektivt sätt – långt utöver vad som intuitivt förväntas av roboten.”

DeepMind-projektet är mindre ambitiöst till sin omfattning än ansträngningarna att förbereda maskiner för RoboCup-tävlingen för avancerad teknik, som har pågått i flera år. Den senaste versionen av RoboCup är dock avgjort mindre kul att titta på på grund av deltagarnas återhållsamma beteende. Där RoboCup bots har styvheten av floddans artister med armarna fästa vid sidan, DeepMind-spelarna vifta med armarna som galningar – visserligen inte idealiskt när man försöker undvika ett handbollssamtal, men en bättre uppmaning om sympati.

Djup förstärkningsinlärning är ett sätt att träna ett neuralt nätverk där agenter (mjukvaru- eller hårdvarubaserade enheter) lär sig hur man gör saker (simulerat eller i den verkliga världen) genom försök och misstag. Och det har blivit en vanlig teknik för att lära robotar hur man rör sig i olika miljöer, vilket kan ses av Cassie's löpsinne, en sorts meka-Struts-torso som du hoppas aldrig att se jaga dig.

DeepMind-lagets mål var att träna en agent att spela fotboll, vilket kräver en mängd olika färdigheter, inklusive att gå, sparka, stå upp, göra mål och försvara, som alla måste koordineras för att göra mål och vinna matchen.

För att träna agenten – i det här fallet mjukvara som styr roboten – räckte det inte att belöna systemet för att göra mål, vilket inte skulle producera alla nödvändiga färdigheter. Istället närmade forskarna kompetensuppsättningarna separat, med fokus på att utveckla vad de kallar lärarpolicy. Dessa policyer styr saker som att resa sig från marken och göra mål mot en otränad motståndare – en som omedelbart faller till marken, ett beteende som inte är olik faktisk fotbollsdykning.

Forskarna var tvungna att vara försiktiga med att stoppa målträningen när agenter föll på marken för att förhindra oönskat men uppenbarligen funktionellt beteende: "Utan denna avslutning hittar agenterna ett lokalt minimum och lär sig att rulla på marken mot bollen för att slå den in i målet, snarare än att gå och sparka”, förklarar de i sin tidning.

Stig-up-policyn och målsättningspolicyn kom så småningom att kombineras. Och genom en process av djupgående förstärkningsinlärning och belöningar för att uppnå specificerade mål, utvecklade mjukvaran acceptabel fotbollsfärdigheter.

Att flytta den utbildade mjukvaruagenten till en robotkropp visade sig inte vara alltför svårt. Det var en noll-shot process, enligt författarna, vilket innebär att de inte behövde göra ytterligare utbildning.

"Vi minskade skillnaden mellan sim och verklighet genom enkel systemidentifiering, förbättrade robustheten i våra policyer via domänrandomisering och störningar under träning, och inkluderade att forma belöningstermer för att få beteende som är mindre sannolikt att skada roboten", förklarar de.

Det vill säga, de såg till att simulatorparametrarna mappades till hårdvaruställdonets inställningar, slumpmässiga egenskaper som golvfriktion och ledorientering, massan av robotdelar, kontrolllooplatens och slumpmässiga störningar, allt för att säkerställa att programvaran kunde hantera en mängd olika krafter som verkar på robotens kropp. I en justering lade de till en belöningskomponent som uppmuntrade robotarna att belasta sina knäleder mindre, som annars hade en tendens att skadas.

Utbildningen av uppstarts- och fotbollslärarna tog 14 timmar respektive 158 timmar (6.5 dagar), följt av 68 timmars destillation och självspel. Och resultatet var bättre än att medvetet försöka programmera dessa färdigheter, sa boffins.

"Policyn för förstärkning av lärande presterade bättre än de specialiserade manuellt utformade färdigheterna: den gick 156 procent snabbare och tog 63 procent kortare tid att resa sig", säger tidningen.

"När den initierades nära bollen sparkade den bollen med 5 procent mindre hastighet; båda uppnådde en bollhastighet på cirka 2 m/s. Men med en ytterligare uppkörningsinställning till bollen var den inlärda policyns genomsnittliga sparkhastighet 2.6 m/s (24 procent snabbare än manuset) och den maximala sparkhastigheten över episoder var 3.4 m/s."

DeepMinds boffins visade att djup förstärkningsinlärning kan användas för att lära ut humanoida robotar effektivt och till låg kostnad. Det är ytterligare ett stoppande steg mot en framtid där tvåbenta robotar går bland oss, på gott och ont. ®

Tidsstämpel:

Mer från Registret