DeepMind ฝึกผู้เล่นฟุตบอลหุ่นยนต์เพื่อทำคะแนน

DeepMind ฝึกผู้เล่นฟุตบอลหุ่นยนต์เพื่อทำคะแนน

DeepMind ฝึกผู้เล่นฟุตบอลหุ่นยนต์ให้ทำคะแนน ซึ่งเป็นข้อมูลอัจฉริยะของ PlatoBlockchain ที่ไม่ดี ค้นหาแนวตั้ง AI.

วีดีโอ Eggheads ที่ DeepMind ของ Google ได้พัฒนาหลักสูตรการเรียนรู้เชิงลึกที่สามารถสอนหุ่นยนต์ถึงวิธีการเล่นฟุตบอลที่ไม่ดี - และเป็นเรื่องที่ยอดเยี่ยมที่ได้เห็น

ในทางตรงกันข้ามกับ กายกรรมขัดเงา ของหุ่นยนต์ Atlas ของ Boston Dynamics หุ่นยนต์ Robotis OP3 คู่หนึ่งภายใต้การดูแลของ DeepMind พังพินาศในสนามฟุตบอลขนาด 5 x 4 เมตรที่ต่ำกว่าระเบียบ หรือสนามฟุตบอล เหมือนเด็กอ่อนล้า ตัดสินด้วยตัวคุณเองในวิดีโอด้านล่าง

วิดีโอ Youtube

พวกเขาทำได้โดยมีจุดประสงค์ที่ชัดเจนและจัดการแม้จะล้มซ้ำแล้วซ้ำเล่า เพื่อให้ตัวเองทำประตูได้ถูกต้องและบางครั้งก็ทำประตูได้ ในการสะดุดอย่างไร้เดียงสาของเครื่องจักรรูปร่างคล้ายมนุษย์เหล่านี้ มันเป็นเรื่องง่ายที่จะเห็นบางอย่างที่คล้ายกับความมุ่งมั่นที่เราให้ความสำคัญและสนับสนุนซึ่งกันและกัน แม้ว่านั่นจะเป็นเพียงการใส่ผิดที่ของมานุษยวิทยาก็ตาม มันยากที่จะไม่สนับสนุนพวกเขา แม้ว่าพวกเขาจะสร้างแรงบันดาลใจให้กับอารมณ์อื่นๆ

นักวิจัย 28 คนที่เกี่ยวข้องกับโครงการนี้บรรยายผลงานของพวกเขาใน กระดาษ [PDF] หัวข้อ “การเรียนรู้ทักษะฟุตบอลที่คล่องตัวสำหรับหุ่นยนต์สองขาด้วยการเรียนรู้การเสริมแรงเชิงลึก”

“เราใช้ Deep [Reinforcement Learning] เพื่อฝึกหุ่นยนต์ฮิวแมนนอยด์ที่มีข้อต่อ 20 ข้อเพื่อเล่นเกมฟุตบอลแบบหนึ่งต่อหนึ่ง (1 ต่อ 1) ที่เรียบง่าย” ผู้เขียนอธิบาย “ก่อนอื่นเราฝึกฝนทักษะส่วนบุคคลในการแยกตัวออกจากกัน แล้วจึงรวบรวมทักษะเหล่านั้นตั้งแต่ต้นจนจบในการตั้งค่าการเล่นด้วยตนเอง

“นโยบายที่ได้แสดงให้เห็นถึงทักษะการเคลื่อนไหวที่แข็งแกร่งและมีพลวัต เช่น การฟื้นตัวจากการล้มอย่างรวดเร็ว การเดิน การพลิกตัว การเตะ และอื่นๆ; และเปลี่ยนผ่านได้อย่างราบรื่น เสถียร และมีประสิทธิภาพ – เกินกว่าที่หุ่นยนต์จะคาดหวังได้”

โครงการ DeepMind มีความทะเยอทะยานน้อยกว่าความพยายามในการเตรียมเครื่องจักรสำหรับการแข่งขันเทคโนโลยีขั้นสูงของ RoboCup ซึ่งดำเนินมาหลายปีแล้ว อย่างไรก็ตาม การทำซ้ำครั้งล่าสุดของ RoboCup คือ สนุกน้อยลงอย่างแน่นอนที่จะดู เนื่องจากพฤติกรรมที่ จำกัด ของผู้เข้าร่วม โดยที่บอท RoboCup มีความแข็งแกร่ง ริเวอร์แดนซ์ นักแสดงโดยจับแขนไว้ข้างลำตัว ผู้เล่น DeepMind โบกมืออย่างบ้าคลั่ง – ยอมรับว่าไม่เหมาะเมื่อพยายามหลีกเลี่ยงการเรียกแฮนด์บอล แต่เป็นการร้องขอความเห็นอกเห็นใจที่ดีกว่า

การเรียนรู้แบบเสริมแรงเชิงลึกเป็นวิธีการฝึกอบรมโครงข่ายประสาทเทียมที่ตัวแทน (เอนทิตีที่ใช้ซอฟต์แวร์หรือฮาร์ดแวร์) เรียนรู้วิธีการทำสิ่งต่างๆ (จำลองหรือในโลกแห่งความเป็นจริง) ผ่านการลองผิดลองถูก และได้กลายเป็นเทคนิคทั่วไปในการสอนหุ่นยนต์ถึงวิธีการเคลื่อนที่ในสภาพแวดล้อมต่างๆ ดังจะเห็นได้จาก ความเฉียบแหลมของแคสซี่ลำตัวแบบจักรกล-นกกระจอกเทศที่คุณหวังว่าจะไม่เห็นการไล่ตามคุณ

เป้าหมายของทีม DeepMind คือการฝึกตัวแทนให้เล่นฟุตบอล ซึ่งต้องใช้ทักษะที่หลากหลาย เช่น การเดิน การเตะ การยืน การให้คะแนน และการป้องกัน ซึ่งทั้งหมดนี้จำเป็นต้องประสานงานกันเพื่อทำประตูและชนะเกม

ในการฝึกอบรมเจ้าหน้าที่ - ในกรณีนี้ ซอฟต์แวร์ควบคุมหุ่นยนต์ - การให้รางวัลแก่ระบบสำหรับการทำประตูนั้นไม่เพียงพอ ซึ่งไม่ได้สร้างทักษะที่จำเป็นทั้งหมด นักวิจัยเข้าหาชุดทักษะแยกกันโดยมุ่งเน้นที่การพัฒนาสิ่งที่พวกเขาเรียกว่านโยบายครู นโยบายเหล่านี้ควบคุมสิ่งต่าง ๆ เช่น การลุกขึ้นจากพื้นและการทำประตูกับคู่ต่อสู้ที่ไม่ผ่านการฝึกฝน - คนที่ล้มลงกับพื้นทันที พฤติกรรมไม่ต่างกับการพุ่งตัวของฟุตบอล

นักวิจัยต้องระมัดระวังที่จะหยุดการฝึกทำประตูเมื่อเอเย่นต์ล้มลงกับพื้นเพื่อป้องกันพฤติกรรมที่ไม่พึงประสงค์แต่เห็นได้ชัดว่าใช้งานได้จริง: “หากปราศจากการยุตินี้ เอเย่นต์จะพบจุดต่ำสุดในท้องถิ่นและเรียนรู้ที่จะกลิ้งตัวบนพื้นเข้าหาบอลเพื่อเคาะมัน เข้าประตูมากกว่าเดินเตะ” พวกเขาอธิบายในกระดาษ

ในที่สุดนโยบายรับและนโยบายการทำประตูก็รวมกัน และผ่านกระบวนการของการเรียนรู้เชิงลึกและรางวัลสำหรับการบรรลุวัตถุประสงค์ที่ระบุ ซอฟต์แวร์ได้พัฒนาทักษะฟุตบอลพอใช้

การเปลี่ยนตัวแทนซอฟต์แวร์ที่ผ่านการฝึกอบรมมาเป็นตัวหุ่นยนต์นั้นพิสูจน์แล้วว่าไม่ใช่เรื่องยากเกินไป ผู้เขียนกล่าวว่าเป็นกระบวนการแบบ Zero-shot ซึ่งหมายความว่าพวกเขาไม่ต้องฝึกฝนเพิ่มเติม

“เราลดช่องว่างระหว่างซิมกับของจริงด้วยการระบุระบบอย่างง่าย ปรับปรุงความทนทานของนโยบายของเราผ่านการสุ่มโดเมนและการก่อกวนระหว่างการฝึก และรวมถึงการกำหนดเงื่อนไขรางวัลเพื่อให้ได้พฤติกรรมที่มีโอกาสน้อยที่จะสร้างความเสียหายให้กับหุ่นยนต์” พวกเขาอธิบาย

กล่าวคือ พวกเขาทำให้แน่ใจว่าพารามิเตอร์จำลองถูกแมปกับการตั้งค่าแอคชูเอเตอร์ของฮาร์ดแวร์ ลักษณะสุ่ม เช่น แรงเสียดทานของพื้นและการวางแนวร่วม มวลของชิ้นส่วนหุ่นยนต์ เวลาแฝงของวงควบคุม และการก่อกวนแบบสุ่ม ทั้งหมดนี้เพื่อให้แน่ใจว่าซอฟต์แวร์สามารถจัดการได้หลากหลาย แรงที่กระทำต่อร่างกายของหุ่นยนต์ ในการปรับเปลี่ยนครั้งหนึ่ง พวกเขาได้เพิ่มองค์ประกอบรางวัลที่กระตุ้นให้บอทออกแรงกดที่ข้อเข่าน้อยลง ซึ่งมิฉะนั้นก็มีแนวโน้มที่จะได้รับความเสียหาย

การฝึกอบรมครูฝึกหัดและครูฟุตบอลใช้เวลา 14 ชั่วโมงและ 158 ชั่วโมง (6.5 วัน) ตามลำดับ ตามด้วยการกลั่นและเล่นเอง 68 ชั่วโมง และผลลัพธ์ก็ดีกว่าการพยายามตั้งโปรแกรมทักษะเหล่านั้นอย่างจงใจ บอฟฟินส์กล่าว

“นโยบายการเรียนรู้แบบเสริมแรงทำงานได้ดีกว่าทักษะพิเศษที่ออกแบบด้วยตนเอง: เดินเร็วขึ้น 156 เปอร์เซ็นต์ และใช้เวลาน้อยกว่า 63 เปอร์เซ็นต์ในการลุกขึ้น” บทความระบุ

“เมื่อเริ่มต้นใกล้กับลูกบอล มันจะเตะลูกบอลด้วยความเร็วน้อยลง 5 เปอร์เซ็นต์; ทั้งคู่ทำความเร็วลูกกอล์ฟได้ประมาณ 2 เมตร/วินาที อย่างไรก็ตาม ด้วยการวิ่งเข้าหาลูกบอลเพิ่มเติม ความเร็วเฉลี่ยในการเตะของนโยบายที่เรียนรู้คือ 2.6 ม./วินาที (เร็วกว่าทักษะตามสคริปต์ 24 เปอร์เซ็นต์) และความเร็วการเตะสูงสุดในตอนต่างๆ คือ 3.4 ม./วินาที”

พฤติกรรมของ DeepMind แสดงให้เห็นว่าการเรียนรู้แบบเสริมแรงเชิงลึกสามารถนำไปใช้ในการสอนหุ่นยนต์ฮิวแมนนอยด์ได้อย่างมีประสิทธิภาพและมีค่าใช้จ่ายต่ำ นั่นเป็นอีกก้าวหนึ่งที่จะหยุดยั้งอนาคตที่หุ่นยนต์สองเท้าจะเดินอยู่ท่ามกลางพวกเรา ไม่ว่าจะดีขึ้นหรือแย่ลง ®

ประทับเวลา:

เพิ่มเติมจาก ลงทะเบียน