DeepMind antrenează jucătorii roboti de fotbal să marcheze, prost

DeepMind antrenează jucătorii roboti de fotbal să marcheze, prost

DeepMind trains robot soccer players to score, badly PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Video Eggheads de la Google DeepMind au dezvoltat un program de învățare profundă care îi poate învăța pe roboți cum să joace fotbal prost – și este minunat de privit.

În contrast cu acrobații lustruite a robotului Atlas de la Boston Dynamics, perechea de roboți Robotis OP3 sub tutela lui DeepMind bubuie și scapă pe un teren de fotbal de 5 metri pe 4 metri, sau un teren de fotbal, ca niște copii epuizați. Judecă singur în videoclipul de mai jos.

Youtube Video

O fac cu un scop aparent și reușesc, în ciuda căderilor repetate, să se îndrepte și să marcheze ocazional goluri. În poticnirea copilărească a acestor mașini umanoide, este ușor să vedem ceva asemănător cu determinarea pe care o prețuim și o încurajăm unul în celălalt, chiar dacă acesta este doar un antropomorfism deplasat. Este dificil să nu-i rădăcini, deși ar inspira alte emoții dacă ar fi măriți și ar fi armați.

Cei 28 de cercetători implicați în acest proiect își descriu munca în o hartie [PDF] intitulat „Învățarea abilităților de fotbal agile pentru un robot biped cu învățare de întărire profundă.”

„Am folosit Deep [Reinforcement Learning] pentru a antrena un robot umanoid cu 20 de articulații acționate pentru a juca un joc de fotbal simplificat unul contra unu (1v1)”, explică autorii. „Am antrenat mai întâi abilitățile individuale în mod izolat și apoi am compus acele abilități de la capăt la capăt într-un cadru de joc individual.

„Politica rezultată prezintă abilități de mișcare robuste și dinamice, cum ar fi recuperarea rapidă la cădere, mersul pe jos, întoarcerea, lovirea și multe altele; și tranzițiile între ele într-o manieră lină, stabilă și eficientă – cu mult peste ceea ce se așteaptă intuitiv de la robot.”

Proiectul DeepMind are o amploare mai puțin ambițioasă decât eforturile de a pregăti mașinile pentru competiția de tehnologie avansată RoboCup, care se desfășoară de ani de zile. Cu toate acestea, cea mai recentă iterație a RoboCup este hotărât mai puțin distractiv de privit datorită comportamentului reținut al participanților. Unde roboții RoboCup au rigiditatea dansul fluviului interpreți cu brațele fixate în lateral, jucătorii DeepMind flutură brațele ca niște maniaci – desigur, nu este ideal atunci când se încearcă evitarea unui apel de handbal, dar o mai bună solicitare de simpatie.

Învățarea prin consolidare profundă este o modalitate de antrenare a unei rețele neuronale în care agenții (entități bazate pe software sau hardware) învață cum să facă lucruri (simulate sau în lumea reală) prin încercare și eroare. Și a devenit o tehnică comună pentru predarea roboților cum să se miște în diferite medii, așa cum se poate vedea din perspicacitatea de alergare a lui Cassie, un fel de trunchi de struț meca pe care ai spera să nu-l vezi niciodată urmărindu-te.

Scopul echipei DeepMind a fost să antreneze un agent să joace fotbal, ceea ce necesită o varietate de abilități, inclusiv mersul pe jos, lovirea cu piciorul, ridicarea în picioare, marcarea și apărarea, toate acestea trebuind să fie coordonate pentru a marca goluri și a câștiga jocul.

Pentru a antrena agentul – în acest caz software care controlează robotul – nu a fost suficient să răsplătească sistemul pentru marcarea de goluri, ceea ce nu ar produce toate abilitățile necesare. În schimb, cercetătorii au abordat seturile de abilități separat, concentrându-se pe dezvoltarea a ceea ce ei numesc politici pentru profesori. Aceste politici guvernează lucruri precum ridicarea de la sol și marcarea de goluri împotriva unui adversar neantrenat – unul care cade imediat la pământ, comportament nu spre deosebire de scufundarea în fotbal.

Cercetătorii au trebuit să fie atenți să oprească antrenamentul de marcare atunci când agenții au căzut la pământ pentru a preveni comportamentul nedorit, dar evident funcțional: „Fără această încetare, agenții găsesc un minim local și învață să se rostogolească pe sol spre minge pentru a o lovi. în poartă, mai degrabă decât să meargă și să lovească cu piciorul”, explică ei în lucrarea lor.

Politica de ridicare și politica de marcare a golurilor s-au combinat în cele din urmă. Și printr-un proces de învățare profundă de consolidare și recompense pentru atingerea obiectivelor specificate, software-ul a dezvoltat abilități acceptabile de fotbal.

Schimbarea agentului software instruit într-un corp de robot nu s-a dovedit deloc dificilă. A fost un proces zero-shot, conform autorilor, ceea ce înseamnă că nu au fost nevoiți să facă antrenament suplimentar.

„Am redus decalajul dintre sim și real prin identificarea simplă a sistemului, am îmbunătățit robustețea politicilor noastre prin randomizarea domeniului și perturbările în timpul antrenamentului și am inclus modelarea termenilor de recompensă pentru a obține un comportament care este mai puțin probabil să deterioreze robotul”, explică ei.

Adică, s-au asigurat că parametrii simulatorului sunt mapați la setările actuatorului hardware, caracteristici aleatorii precum frecarea podelei și orientarea articulațiilor, masa pieselor robotului, latența buclei de control și perturbațiile aleatorii, toate pentru a se asigura că software-ul ar putea gestiona o varietate de forțele care acționează asupra corpului robotului. Într-o ajustare, au adăugat o componentă de recompensă care i-a încurajat pe roboții să pună mai puțin stres pe articulațiile genunchilor, care altfel aveau tendința de a se deteriora.

Pregătirea profesorilor de pregătire și de fotbal a durat 14 ore, respectiv 158 de ore (6.5 zile), urmate de 68 de ore de distilare și auto-joc. Iar rezultatul a fost mai bun decât încercarea deliberată de a programa acele abilități, au spus boffins.

„Politica de învățare prin întărire a funcționat mai bine decât abilitățile specializate concepute manual: a mers cu 156 la sută mai repede și a luat cu 63 la sută mai puțin timp pentru a se ridica”, se spune în lucrare.

„Când a fost inițializată lângă minge, a lovit mingea cu 5% mai puțină viteză; ambele au atins o viteză a mingii de aproximativ 2 m/s. Cu toate acestea, cu o abordare suplimentară a mingii, viteza medie de lovire a politicii învățate a fost de 2.6 m/s (cu 24 la sută mai rapidă decât îndemânarea scrisă) și viteza maximă de lovire în episoade a fost de 3.4 m/s.”

Boffins-urile lui DeepMind au demonstrat că învățarea prin întărire profundă poate fi aplicată pentru a preda roboții umanoizi în mod eficient și la costuri reduse. Acesta este încă un pas opritor către un viitor în care roboții bipezi merg printre noi, la bine și la rău. ®

Timestamp-ul:

Mai mult de la Registrul