DeepMind melatih pemain sepak bola robot untuk mencetak gol, dengan buruk

DeepMind melatih pemain sepak bola robot untuk mencetak gol, dengan buruk

DeepMind melatih pemain robot sepak bola untuk mencetak gol, yang sangat buruk bagi Intelijen Data PlatoBlockchain. Pencarian Vertikal. Ai.

Video Eggheads di Google's DeepMind telah mengembangkan kurikulum pembelajaran mendalam yang dapat mengajari robot cara bermain sepak bola yang buruk – dan ini luar biasa untuk dilihat.

Berbeda dengan akrobat yang dipoles robot Atlas Boston Dynamics, sepasang robot Robotis OP3 di bawah pengawasan DeepMind gagal dan gagal di lapangan sepak bola berukuran 5 meter kali 4 meter yang kurang dari regulasi, atau lapangan sepak bola, seperti balita yang kelelahan. Nilai sendiri dalam video di bawah ini.

Youtube Video

Mereka melakukannya dengan tujuan yang jelas dan berhasil, meski berulang kali jatuh, untuk memperbaiki diri dan sesekali mencetak gol. Dalam sandungan kekanak-kanakan dari mesin humanoid ini, mudah untuk melihat sesuatu yang mirip dengan tekad yang kita hargai dan dorong satu sama lain, bahkan jika itu hanya antropomorfisme yang salah tempat. Sulit untuk tidak mendukung mereka, meskipun mereka akan menginspirasi emosi lain jika mereka diperbesar dan dipersenjatai.

28 peneliti yang terlibat dalam proyek ini menggambarkan pekerjaan mereka di kertas [PDF] berjudul, "Mempelajari Keterampilan Sepak Bola Tangkas untuk Robot Bipedal dengan Pembelajaran Penguatan Mendalam."

“Kami menggunakan Deep [Reinforcement Learning] untuk melatih robot humanoid dengan 20 sendi yang digerakkan untuk memainkan permainan sepak bola satu lawan satu (1v1) yang disederhanakan,” jelas para penulis. “Kami pertama-tama melatih keterampilan individu secara terpisah dan kemudian menyusun keterampilan tersebut secara menyeluruh dalam pengaturan permainan mandiri.

“Kebijakan yang dihasilkan menunjukkan keterampilan gerakan yang kuat dan dinamis seperti pemulihan jatuh yang cepat, berjalan, berputar, menendang, dan lainnya; dan transisi di antara mereka dengan cara yang mulus, stabil, dan efisien – jauh melampaui apa yang diharapkan secara intuitif dari robot.”

Proyek DeepMind memiliki cakupan yang kurang ambisius dibandingkan upaya menyiapkan mesin untuk kompetisi teknologi canggih RoboCup, yang telah berlangsung selama bertahun-tahun. Namun, iterasi terbaru dari RoboCup adalah jelas kurang menyenangkan untuk dilihat karena perilaku menahan diri dari peserta. Di mana bot RoboCup memiliki kekakuan tarian sungai pemain dengan tangan tetap di samping, para pemain DeepMind melambaikan tangan seperti orang gila – memang tidak ideal saat mencoba menghindari panggilan bola tangan, tetapi ajakan simpati yang lebih baik.

Pembelajaran penguatan mendalam adalah cara melatih jaringan saraf di mana agen (entitas berbasis perangkat lunak atau perangkat keras) belajar bagaimana melakukan sesuatu (simulasi atau di dunia nyata) melalui coba-coba. Dan itu telah menjadi teknik umum untuk mengajari robot cara bergerak di berbagai lingkungan, seperti yang bisa dilihat dari menjalankan kecerdasan Cassie, semacam mecha-Ostrich torso yang Anda harap tidak akan pernah Anda lihat mengejar Anda.

Tujuan tim DeepMind adalah untuk melatih agen bermain sepak bola, yang membutuhkan berbagai keterampilan, termasuk berjalan, menendang, berdiri, mencetak gol, dan bertahan, yang semuanya perlu dikoordinasikan untuk mencetak gol dan memenangkan permainan.

Untuk melatih agen – dalam hal ini perangkat lunak yang mengendalikan robot – tidak cukup untuk memberi penghargaan kepada sistem untuk mencetak gol, yang tidak akan menghasilkan semua keterampilan yang diperlukan. Sebaliknya, para peneliti mendekati perangkat keterampilan secara terpisah, berfokus pada pengembangan apa yang mereka sebut kebijakan guru. Kebijakan-kebijakan ini mengatur hal-hal seperti bangkit dari lapangan dan mencetak gol melawan lawan yang tidak terlatih – lawan yang langsung jatuh ke tanah, perilaku yang tidak berbeda dengan penyelaman sepak bola yang sebenarnya.

Para peneliti harus berhati-hati untuk menghentikan pelatihan mencetak gol ketika agen jatuh ke tanah untuk mencegah perilaku yang tidak diinginkan tetapi jelas fungsional: “Tanpa penghentian ini, agen menemukan minimum lokal dan belajar berguling di tanah menuju bola untuk menjatuhkannya. ke gawang, daripada berjalan dan menendang, ”mereka menjelaskan dalam makalah mereka.

Kebijakan bangun dan kebijakan mencetak gol akhirnya digabungkan. Dan melalui proses pembelajaran penguatan yang mendalam dan penghargaan untuk mencapai tujuan yang ditentukan, perangkat lunak tersebut mengembangkan keterampilan sepak bola yang lumayan.

Menggeser agen perangkat lunak terlatih menjadi tubuh robot ternyata tidak terlalu sulit. Itu adalah proses zero-shot, menurut penulis, yang berarti mereka tidak perlu melakukan pelatihan tambahan.

“Kami mengurangi kesenjangan sim-ke-nyata melalui identifikasi sistem yang sederhana, meningkatkan kekokohan kebijakan kami melalui pengacakan domain dan gangguan selama pelatihan, dan memasukkan ketentuan hadiah untuk mendapatkan perilaku yang cenderung tidak merusak robot,” jelas mereka.

Artinya, mereka memastikan parameter simulator dipetakan ke pengaturan aktuator perangkat keras, karakteristik acak seperti gesekan lantai dan orientasi sambungan, massa bagian robot, latensi loop kontrol, dan gangguan acak, semua untuk memastikan perangkat lunak dapat menangani berbagai kekuatan yang bekerja pada tubuh robot. Dalam satu penyesuaian, mereka menambahkan komponen hadiah yang mendorong bot untuk mengurangi tekanan pada sendi lutut mereka, yang cenderung rusak.

Pelatihan bangun dan guru sepak bola masing-masing memakan waktu 14 jam dan 158 jam (6.5 hari), diikuti dengan 68 jam penyulingan dan permainan mandiri. Dan hasilnya lebih baik daripada dengan sengaja mencoba memprogram keterampilan itu, kata para boffin.

“Kebijakan pembelajaran penguatan bekerja lebih baik daripada keterampilan khusus yang dirancang secara manual: berjalan 156 persen lebih cepat dan membutuhkan waktu 63 persen lebih sedikit untuk bangun,” kata makalah tersebut.

“Saat diinisialisasi di dekat bola, ia menendang bola dengan kecepatan 5 persen lebih sedikit; keduanya mencapai kecepatan bola sekitar 2 m/s. Namun, dengan pendekatan run-up tambahan pada bola, kecepatan tendangan rata-rata kebijakan yang dipelajari adalah 2.6 m/dtk (24 persen lebih cepat dari keterampilan tertulis) dan kecepatan tendangan maksimum di seluruh episode adalah 3.4 m/dtk.”

Boffin DeepMind menunjukkan bahwa pembelajaran penguatan mendalam dapat diterapkan untuk mengajar robot humanoid secara efektif dan dengan biaya rendah. Itu satu lagi langkah terhenti menuju masa depan di mana robot bipedal berjalan di antara kita, baik atau buruk. ®

Stempel Waktu:

Lebih dari Pendaftaran