วีดีโอ Eggheads ที่ DeepMind ของ Google ได้พัฒนาหลักสูตรการเรียนรู้เชิงลึกที่สามารถสอนหุ่นยนต์ถึงวิธีการเล่นฟุตบอลที่ไม่ดี - และเป็นเรื่องที่ยอดเยี่ยมที่ได้เห็น
ในทางตรงกันข้ามกับ กายกรรมขัดเงา ของหุ่นยนต์ Atlas ของ Boston Dynamics หุ่นยนต์ Robotis OP3 คู่หนึ่งภายใต้การดูแลของ DeepMind พังพินาศในสนามฟุตบอลขนาด 5 x 4 เมตรที่ต่ำกว่าระเบียบ หรือสนามฟุตบอล เหมือนเด็กอ่อนล้า ตัดสินด้วยตัวคุณเองในวิดีโอด้านล่าง
พวกเขาทำได้โดยมีจุดประสงค์ที่ชัดเจนและจัดการแม้จะล้มซ้ำแล้วซ้ำเล่า เพื่อให้ตัวเองทำประตูได้ถูกต้องและบางครั้งก็ทำประตูได้ ในการสะดุดอย่างไร้เดียงสาของเครื่องจักรรูปร่างคล้ายมนุษย์เหล่านี้ มันเป็นเรื่องง่ายที่จะเห็นบางอย่างที่คล้ายกับความมุ่งมั่นที่เราให้ความสำคัญและสนับสนุนซึ่งกันและกัน แม้ว่านั่นจะเป็นเพียงการใส่ผิดที่ของมานุษยวิทยาก็ตาม มันยากที่จะไม่สนับสนุนพวกเขา แม้ว่าพวกเขาจะสร้างแรงบันดาลใจให้กับอารมณ์อื่นๆ
นักวิจัย 28 คนที่เกี่ยวข้องกับโครงการนี้บรรยายผลงานของพวกเขาใน กระดาษ [PDF] หัวข้อ “การเรียนรู้ทักษะฟุตบอลที่คล่องตัวสำหรับหุ่นยนต์สองขาด้วยการเรียนรู้การเสริมแรงเชิงลึก”
“เราใช้ Deep [Reinforcement Learning] เพื่อฝึกหุ่นยนต์ฮิวแมนนอยด์ที่มีข้อต่อ 20 ข้อเพื่อเล่นเกมฟุตบอลแบบหนึ่งต่อหนึ่ง (1 ต่อ 1) ที่เรียบง่าย” ผู้เขียนอธิบาย “ก่อนอื่นเราฝึกฝนทักษะส่วนบุคคลในการแยกตัวออกจากกัน แล้วจึงรวบรวมทักษะเหล่านั้นตั้งแต่ต้นจนจบในการตั้งค่าการเล่นด้วยตนเอง
“นโยบายที่ได้แสดงให้เห็นถึงทักษะการเคลื่อนไหวที่แข็งแกร่งและมีพลวัต เช่น การฟื้นตัวจากการล้มอย่างรวดเร็ว การเดิน การพลิกตัว การเตะ และอื่นๆ; และเปลี่ยนผ่านได้อย่างราบรื่น เสถียร และมีประสิทธิภาพ – เกินกว่าที่หุ่นยนต์จะคาดหวังได้”
โครงการ DeepMind มีความทะเยอทะยานน้อยกว่าความพยายามในการเตรียมเครื่องจักรสำหรับการแข่งขันเทคโนโลยีขั้นสูงของ RoboCup ซึ่งดำเนินมาหลายปีแล้ว อย่างไรก็ตาม การทำซ้ำครั้งล่าสุดของ RoboCup คือ สนุกน้อยลงอย่างแน่นอนที่จะดู เนื่องจากพฤติกรรมที่ จำกัด ของผู้เข้าร่วม โดยที่บอท RoboCup มีความแข็งแกร่ง ริเวอร์แดนซ์ นักแสดงโดยจับแขนไว้ข้างลำตัว ผู้เล่น DeepMind โบกมืออย่างบ้าคลั่ง – ยอมรับว่าไม่เหมาะเมื่อพยายามหลีกเลี่ยงการเรียกแฮนด์บอล แต่เป็นการร้องขอความเห็นอกเห็นใจที่ดีกว่า
การเรียนรู้แบบเสริมแรงเชิงลึกเป็นวิธีการฝึกอบรมโครงข่ายประสาทเทียมที่ตัวแทน (เอนทิตีที่ใช้ซอฟต์แวร์หรือฮาร์ดแวร์) เรียนรู้วิธีการทำสิ่งต่างๆ (จำลองหรือในโลกแห่งความเป็นจริง) ผ่านการลองผิดลองถูก และได้กลายเป็นเทคนิคทั่วไปในการสอนหุ่นยนต์ถึงวิธีการเคลื่อนที่ในสภาพแวดล้อมต่างๆ ดังจะเห็นได้จาก ความเฉียบแหลมของแคสซี่ลำตัวแบบจักรกล-นกกระจอกเทศที่คุณหวังว่าจะไม่เห็นการไล่ตามคุณ
เป้าหมายของทีม DeepMind คือการฝึกตัวแทนให้เล่นฟุตบอล ซึ่งต้องใช้ทักษะที่หลากหลาย เช่น การเดิน การเตะ การยืน การให้คะแนน และการป้องกัน ซึ่งทั้งหมดนี้จำเป็นต้องประสานงานกันเพื่อทำประตูและชนะเกม
ในการฝึกอบรมเจ้าหน้าที่ - ในกรณีนี้ ซอฟต์แวร์ควบคุมหุ่นยนต์ - การให้รางวัลแก่ระบบสำหรับการทำประตูนั้นไม่เพียงพอ ซึ่งไม่ได้สร้างทักษะที่จำเป็นทั้งหมด นักวิจัยเข้าหาชุดทักษะแยกกันโดยมุ่งเน้นที่การพัฒนาสิ่งที่พวกเขาเรียกว่านโยบายครู นโยบายเหล่านี้ควบคุมสิ่งต่าง ๆ เช่น การลุกขึ้นจากพื้นและการทำประตูกับคู่ต่อสู้ที่ไม่ผ่านการฝึกฝน - คนที่ล้มลงกับพื้นทันที พฤติกรรมไม่ต่างกับการพุ่งตัวของฟุตบอล
นักวิจัยต้องระมัดระวังที่จะหยุดการฝึกทำประตูเมื่อเอเย่นต์ล้มลงกับพื้นเพื่อป้องกันพฤติกรรมที่ไม่พึงประสงค์แต่เห็นได้ชัดว่าใช้งานได้จริง: “หากปราศจากการยุตินี้ เอเย่นต์จะพบจุดต่ำสุดในท้องถิ่นและเรียนรู้ที่จะกลิ้งตัวบนพื้นเข้าหาบอลเพื่อเคาะมัน เข้าประตูมากกว่าเดินเตะ” พวกเขาอธิบายในกระดาษ
ในที่สุดนโยบายรับและนโยบายการทำประตูก็รวมกัน และผ่านกระบวนการของการเรียนรู้เชิงลึกและรางวัลสำหรับการบรรลุวัตถุประสงค์ที่ระบุ ซอฟต์แวร์ได้พัฒนาทักษะฟุตบอลพอใช้
การเปลี่ยนตัวแทนซอฟต์แวร์ที่ผ่านการฝึกอบรมมาเป็นตัวหุ่นยนต์นั้นพิสูจน์แล้วว่าไม่ใช่เรื่องยากเกินไป ผู้เขียนกล่าวว่าเป็นกระบวนการแบบ Zero-shot ซึ่งหมายความว่าพวกเขาไม่ต้องฝึกฝนเพิ่มเติม
“เราลดช่องว่างระหว่างซิมกับของจริงด้วยการระบุระบบอย่างง่าย ปรับปรุงความทนทานของนโยบายของเราผ่านการสุ่มโดเมนและการก่อกวนระหว่างการฝึก และรวมถึงการกำหนดเงื่อนไขรางวัลเพื่อให้ได้พฤติกรรมที่มีโอกาสน้อยที่จะสร้างความเสียหายให้กับหุ่นยนต์” พวกเขาอธิบาย
กล่าวคือ พวกเขาทำให้แน่ใจว่าพารามิเตอร์จำลองถูกแมปกับการตั้งค่าแอคชูเอเตอร์ของฮาร์ดแวร์ ลักษณะสุ่ม เช่น แรงเสียดทานของพื้นและการวางแนวร่วม มวลของชิ้นส่วนหุ่นยนต์ เวลาแฝงของวงควบคุม และการก่อกวนแบบสุ่ม ทั้งหมดนี้เพื่อให้แน่ใจว่าซอฟต์แวร์สามารถจัดการได้หลากหลาย แรงที่กระทำต่อร่างกายของหุ่นยนต์ ในการปรับเปลี่ยนครั้งหนึ่ง พวกเขาได้เพิ่มองค์ประกอบรางวัลที่กระตุ้นให้บอทออกแรงกดที่ข้อเข่าน้อยลง ซึ่งมิฉะนั้นก็มีแนวโน้มที่จะได้รับความเสียหาย
การฝึกอบรมครูฝึกหัดและครูฟุตบอลใช้เวลา 14 ชั่วโมงและ 158 ชั่วโมง (6.5 วัน) ตามลำดับ ตามด้วยการกลั่นและเล่นเอง 68 ชั่วโมง และผลลัพธ์ก็ดีกว่าการพยายามตั้งโปรแกรมทักษะเหล่านั้นอย่างจงใจ บอฟฟินส์กล่าว
“นโยบายการเรียนรู้แบบเสริมแรงทำงานได้ดีกว่าทักษะพิเศษที่ออกแบบด้วยตนเอง: เดินเร็วขึ้น 156 เปอร์เซ็นต์ และใช้เวลาน้อยกว่า 63 เปอร์เซ็นต์ในการลุกขึ้น” บทความระบุ
“เมื่อเริ่มต้นใกล้กับลูกบอล มันจะเตะลูกบอลด้วยความเร็วน้อยลง 5 เปอร์เซ็นต์; ทั้งคู่ทำความเร็วลูกกอล์ฟได้ประมาณ 2 เมตร/วินาที อย่างไรก็ตาม ด้วยการวิ่งเข้าหาลูกบอลเพิ่มเติม ความเร็วเฉลี่ยในการเตะของนโยบายที่เรียนรู้คือ 2.6 ม./วินาที (เร็วกว่าทักษะตามสคริปต์ 24 เปอร์เซ็นต์) และความเร็วการเตะสูงสุดในตอนต่างๆ คือ 3.4 ม./วินาที”
พฤติกรรมของ DeepMind แสดงให้เห็นว่าการเรียนรู้แบบเสริมแรงเชิงลึกสามารถนำไปใช้ในการสอนหุ่นยนต์ฮิวแมนนอยด์ได้อย่างมีประสิทธิภาพและมีค่าใช้จ่ายต่ำ นั่นเป็นอีกก้าวหนึ่งที่จะหยุดยั้งอนาคตที่หุ่นยนต์สองเท้าจะเดินอยู่ท่ามกลางพวกเรา ไม่ว่าจะดีขึ้นหรือแย่ลง ®
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- เพลโตไอสตรีม. ข้อมูลอัจฉริยะ Web3 ขยายความรู้ เข้าถึงได้ที่นี่.
- การสร้างอนาคตโดย Adryenn Ashley เข้าถึงได้ที่นี่.
- ซื้อและขายหุ้นในบริษัท PRE-IPO ด้วย PREIPO® เข้าถึงได้ที่นี่.
- ที่มา: https://go.theregister.com/feed/www.theregister.com/2023/05/09/ai_robot_soccer/
- :มี
- :เป็น
- :ไม่
- :ที่ไหน
- $ ขึ้น
- 14
- 20
- 24
- 28
- 7
- a
- เกี่ยวกับเรา
- ตาม
- ประสบความสำเร็จ
- การบรรลุ
- ข้าม
- ที่เกิดขึ้นจริง
- ความเฉียบแหลม
- ที่เพิ่ม
- เพิ่มเติม
- การปรับ
- กับ
- ตัวแทน
- ตัวแทน
- เปรียว
- จุดมุ่งหมาย
- ทั้งหมด
- ทะเยอทะยาน
- ในหมู่
- ในหมู่พวกเรา
- an
- และ
- อื่น
- เห็นได้ชัด
- ประยุกต์
- เข้าใกล้
- อาวุธ
- รอบ
- AS
- At
- ผู้เขียน
- หลีกเลี่ยง
- ไม่ดี
- ลูกบอล
- BE
- กลายเป็น
- รับ
- ด้านล่าง
- ดีกว่า
- ระหว่าง
- เกิน
- ร่างกาย
- บอสตัน
- ทั้งสอง
- บอท
- บัมเบิล
- แต่
- by
- โทรศัพท์
- CAN
- ระมัดระวัง
- กรณี
- ลักษณะ
- CO
- รวม
- ร่วมกัน
- การแข่งขัน
- ส่วนประกอบ
- สงบ
- ตรงกันข้าม
- ควบคุม
- การควบคุม
- การประสานงาน
- ได้
- หลักสูตร
- วัน
- ลึก
- การเรียนรู้ลึก ๆ
- Deepmind
- ปกป้อง
- แสดงให้เห็นถึง
- บรรยาย
- แม้จะมี
- การกำหนด
- พัฒนา
- ที่กำลังพัฒนา
- ยาก
- do
- โดเมน
- สอง
- ในระหว่าง
- พลวัต
- พลศาสตร์
- ง่าย
- มีประสิทธิภาพ
- ที่มีประสิทธิภาพ
- ความพยายาม
- อารมณ์
- ส่งเสริม
- สนับสนุนให้
- จบสิ้น
- พอ
- ทำให้มั่นใจ
- หน่วยงาน
- สภาพแวดล้อม
- ความผิดพลาด
- แม้
- ในที่สุด
- การจัดแสดงนิทรรศการ
- ที่คาดหวัง
- อธิบาย
- ตก
- ฟอลส์
- เร็วขึ้น
- สนาม
- หา
- ชื่อจริง
- การแก้ไข
- ชั้น
- โดยมุ่งเน้น
- ตาม
- ฟุตบอล
- สำหรับ
- กองกำลัง
- แรงเสียดทาน
- ราคาเริ่มต้นที่
- สนุก
- การทำงาน
- อนาคต
- เกม
- ช่องว่าง
- ได้รับ
- ได้รับ
- เป้าหมาย
- เป้าหมาย
- ไป
- พื้น
- มี
- ที่ลังเล
- จัดการ
- ฮาร์ดแวร์
- มี
- ความหวัง
- ชั่วโมง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- อย่างไรก็ตาม
- HTTPS
- humanoid
- ในอุดมคติ
- ประจำตัว
- if
- ทันที
- การปรับปรุง
- in
- รวม
- รวมทั้ง
- เป็นรายบุคคล
- สร้างแรงบันดาลใจ
- แทน
- เข้าไป
- ร่วมมือ
- ความเหงา
- IT
- การย้ำ
- ร่วมกัน
- jpg
- ผู้พิพากษา
- เพียงแค่
- ฉลาก
- ความแอบแฝง
- ล่าสุด
- เรียนรู้
- ได้เรียนรู้
- การเรียนรู้
- น้อยลง
- กดไลก์
- น่าจะ
- ในประเทศ
- ดู
- ที่มีราคาต่ำ
- เครื่อง
- ทำ
- จัดการ
- ลักษณะ
- มวล
- สูงสุด
- หมายความ
- ความหมาย
- ขั้นต่ำ
- ใส่ผิดที่
- ข้อมูลเพิ่มเติม
- ย้าย
- การเคลื่อนไหว
- ใกล้
- จำเป็น
- จำเป็นต้อง
- เครือข่าย
- เครือข่ายประสาท
- ไม่เคย
- วัตถุประสงค์
- ได้รับ
- of
- ปิด
- on
- ONE
- or
- อื่นๆ
- มิฉะนั้น
- ของเรา
- ผล
- คู่
- กระดาษ
- พารามิเตอร์
- ผู้เข้าร่วม
- ส่วน
- รูปแบบไฟล์ PDF
- เปอร์เซ็นต์
- นักแสดง
- ขว้าง
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- เล่น
- ผู้เล่น
- นโยบาย
- นโยบาย
- เตรียมการ
- ป้องกัน
- กระบวนการ
- ก่อ
- โครงการ
- โครงการ
- พิสูจน์แล้วว่า
- วัตถุประสงค์
- ใส่
- สุ่ม
- สุ่ม
- รวดเร็ว
- ค่อนข้าง
- จริง
- โลกแห่งความจริง
- การฟื้นตัว
- ลดลง
- ซ้ำแล้วซ้ำอีก
- ต้อง
- นักวิจัย
- ตามลำดับ
- ส่งผลให้
- รางวัล
- รางวัล
- ขวา
- หุ่นยนต์
- หุ่นยนต์
- แข็งแรง
- ความแข็งแรง
- ม้วน
- ราก
- s
- กล่าวว่า
- กล่าว
- พูดว่า
- ขอบเขต
- คะแนน
- คะแนน
- เห็น
- เห็น
- ชุดอุปกรณ์
- การตั้งค่า
- การตั้งค่า
- การสร้าง
- ด้านข้าง
- ง่าย
- ที่เรียบง่าย
- จำลอง
- ความสามารถ
- ทักษะ
- So
- ฟุตบอล
- ซอฟต์แวร์
- การชักชวน
- บางสิ่งบางอย่าง
- เฉพาะ
- ที่ระบุไว้
- ความเร็ว
- มั่นคง
- ขั้นตอน
- หยุด
- ความเครียด
- ที่สะดุด
- อย่างเช่น
- ระบบ
- ครูผู้สอน
- การเรียนการสอน
- ทีม
- เงื่อนไขการใช้บริการ
- กว่า
- ที่
- พื้นที่
- ของพวกเขา
- พวกเขา
- ตัวเอง
- แล้วก็
- ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน
- พวกเขา
- สิ่ง
- นี้
- เหล่านั้น
- แต่?
- ตลอด
- เวลา
- หัวข้อ
- ไปยัง
- เกินไป
- เอา
- ไปทาง
- ไปทาง
- รถไฟ
- ผ่านการฝึกอบรม
- การฝึกอบรม
- รถไฟ
- การเปลี่ยน
- การทดลอง
- การหมุน
- ภายใต้
- แตกต่าง
- เมื่อ
- us
- มือสอง
- ความคุ้มค่า
- ความหลากหลาย
- ต่างๆ
- ผ่านทาง
- วีดีโอ
- เดิน
- ที่เดิน
- คือ
- ทาง..
- we
- ดี
- คือ
- อะไร
- ความหมายของ
- เมื่อ
- ที่
- WHO
- ชนะ
- กับ
- ไม่มี
- ยอดเยี่ยม
- งาน
- โลก
- แย่ลง
- ปี
- คุณ
- ด้วยตัวคุณเอง
- YouTube
- ลมทะเล