DeepMind allena i giocatori di calcio robot a segnare, male

DeepMind allena i giocatori di calcio robot a segnare, male

DeepMind addestra i giocatori di calcio robot a segnare, male PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Video Gli Eggheads di DeepMind di Google hanno sviluppato un programma di deep learning in grado di insegnare ai robot come giocare male a calcio – ed è meraviglioso da vedere.

In contrasto con il acrobazie raffinate del robot Atlas di Boston Dynamics, la coppia di robot Robotis OP3 sotto la tutela di DeepMind balza e flop su un campo da calcio di 5 metri per 4 non regolamentato, o un campo da calcio, come bambini esausti. Giudicate voi stessi nel video qui sotto.

Youtube Video

Lo fanno con uno scopo apparente e riescono, nonostante le ripetute cadute, a raddrizzarsi e occasionalmente a segnare gol. Nell'inciampo infantile di queste macchine umanoidi, è facile vedere qualcosa di simile alla determinazione che apprezziamo e incoraggiamo l'uno nell'altro, anche se si tratta solo di antropomorfismo fuori luogo. È difficile non fare il tifo per loro, anche se ispirerebbero altre emozioni se fossero potenziati e trasformati in armi.

I 28 ricercatori coinvolti in questo progetto descrivono il loro lavoro in un documento [PDF] intitolato "Apprendimento di abilità calcistiche agili per un robot bipede con apprendimento rinforzato profondo".

"Abbiamo utilizzato il Deep [Reinforcement Learning] per addestrare un robot umanoide con 20 articolazioni azionate per giocare una partita di calcio semplificata uno contro uno (1v1)", spiegano gli autori. “Abbiamo prima allenato le abilità individuali in modo isolato e poi le abbiamo composte end-to-end in un ambiente di gioco autonomo.

“La politica risultante mostra capacità di movimento robuste e dinamiche come il rapido recupero dalla caduta, la camminata, la rotazione, il calcio e altro ancora; e le transizioni tra loro in modo fluido, stabile ed efficiente, ben oltre ciò che ci si aspetta intuitivamente dal robot.

Il progetto DeepMind ha una portata meno ambiziosa rispetto agli sforzi per preparare le macchine per la competizione tecnologica avanzata RoboCup, che va avanti da anni. Tuttavia, l'ultima iterazione della RoboCup è decisamente meno divertente da guardare a causa del comportamento moderato dei partecipanti. Dove i robot RoboCup hanno la rigidità di Riverdance artisti con le braccia fisse lungo i fianchi, i giocatori di DeepMind agitano le braccia come dei maniaci – certamente non ideale quando si cerca di evitare una chiamata di pallamano, ma una migliore sollecitazione alla simpatia.

L'apprendimento per rinforzo profondo è un modo di addestrare una rete neurale in cui gli agenti (entità basate su software o hardware) imparano come fare le cose (simulate o nel mondo reale) attraverso prove ed errori. Ed è diventata una tecnica comune per insegnare ai robot come muoversi in vari ambienti, come si può vedere dal l'acume di corsa di Cassie, una sorta di torso di struzzo mecha che speri di non vedere mai inseguirti.

L'obiettivo del team di DeepMind era quello di addestrare un agente a giocare a calcio, che richiede una varietà di abilità, tra cui camminare, calciare, alzarsi, segnare e difendere, che devono essere tutte coordinate per segnare gol e vincere la partita.

Per addestrare l'agente – in questo caso il software che controlla il robot – non era sufficiente premiare il sistema per segnare gol, che non avrebbe prodotto tutte le competenze necessarie. Invece, i ricercatori hanno affrontato le competenze separatamente, concentrandosi sullo sviluppo di quelle che chiamano politiche degli insegnanti. Queste politiche governano cose come alzarsi da terra e segnare gol contro un avversario non allenato, uno che cade immediatamente a terra, un comportamento non dissimile dai veri tuffi nel calcio.

I ricercatori hanno dovuto fare attenzione a interrompere l’allenamento da goal quando gli agenti cadevano a terra per evitare comportamenti indesiderati ma evidentemente funzionali: “Senza questa interruzione, gli agenti trovano un minimo locale e imparano a rotolare a terra verso la palla per farla cadere”. in porta, invece di camminare e calciare”, spiegano nel loro articolo.

La politica del get-up e quella del goal alla fine furono combinate. E attraverso un processo di profondo apprendimento per rinforzo e premi per il raggiungimento di obiettivi specifici, il software ha sviluppato abilità calcistiche accettabili.

Trasferire l'agente software addestrato nel corpo di un robot non si è rivelato troppo difficile. Si è trattato di un processo zero-shot, secondo gli autori, nel senso che non è stato necessario effettuare ulteriore formazione.

"Abbiamo ridotto il divario tra simulazione e realtà tramite una semplice identificazione del sistema, migliorato la robustezza delle nostre politiche tramite la randomizzazione dei domini e perturbazioni durante l'addestramento e abbiamo incluso la definizione dei termini di ricompensa per ottenere un comportamento che abbia meno probabilità di danneggiare il robot", spiegano.

Vale a dire, si sono assicurati che i parametri del simulatore fossero mappati sulle impostazioni dell'attuatore hardware, sulle caratteristiche casuali come l'attrito del pavimento e l'orientamento del giunto, la massa delle parti del robot, la latenza del circuito di controllo e le perturbazioni casuali, il tutto per garantire che il software potesse gestire una varietà di forze che agiscono sul corpo del robot. In una modifica, hanno aggiunto una componente di ricompensa che incoraggiava i robot a sottoporre meno stress alle articolazioni del ginocchio, che altrimenti avrebbero avuto la tendenza a danneggiarsi.

La formazione degli insegnanti di preparazione e di calcio ha richiesto rispettivamente 14 e 158 ore (6.5 giorni), seguite da 68 ore di distillazione e gioco personale. E il risultato è stato migliore rispetto al tentativo deliberato di programmare quelle abilità, hanno detto gli esperti.

"La politica di apprendimento per rinforzo ha funzionato meglio delle abilità specializzate progettate manualmente: ha camminato il 156% più velocemente e ha impiegato il 63% in meno di tempo per alzarsi", afferma il documento.

“Quando inizializzato vicino alla palla, calciava la palla con una velocità inferiore del 5%; entrambi hanno raggiunto una velocità della palla di circa 2 m/s. Tuttavia, con un ulteriore approccio di rincorsa alla palla, la velocità media del calcio appresa è stata di 2.6 m/s (il 24% più veloce dell'abilità programmata) e la velocità massima del calcio tra gli episodi è stata di 3.4 m/s.

Gli esperti di DeepMind hanno dimostrato che l'apprendimento per rinforzo profondo può essere applicato per insegnare ai robot umanoidi in modo efficace e a basso costo. Questo è un ulteriore passo incerto verso un futuro in cui i robot bipedi cammineranno tra noi, nel bene e nel male. ®

Timestamp:

Di più da Il registro