สุนัขหุ่นยนต์ตัวนี้มีสมองของ AI และสอนตัวเองให้เดินได้ภายในเวลาเพียงหนึ่งชั่วโมง PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

สุนัขหุ่นยนต์ตัวนี้มีสมอง AI และสอนตัวเองให้เดินได้ภายในเวลาเพียงหนึ่งชั่วโมง

ภาพ

เคยเห็นลูกละมั่งหัดเดินไหม? กวางซึ่งโดยพื้นฐานแล้วเป็นพ่อของสัตว์เลี้ยงลูกด้วยนมที่มีขายาว ตะกายลงไปที่เท้า ตกลงมา ยืนแล้วล้มอีก ในที่สุด มันก็ยืนยาวพอที่จะฟาดขาที่เหมือนไม้จิ้มฟันลงไปในน้ำตกใกล้ๆ…อะแฮ่ม ขั้นบันได น่าแปลกที่เพียงไม่กี่นาทีหลังจากการแสดงที่น่ารักนี้ กวางตัวผู้ก็กระโดดไปมาราวกับมือโปรรุ่นเก่า

ตอนนี้เรามีเวอร์ชันหุ่นยนต์ของฉาก Serengeti สุดคลาสสิกแล้ว

กวางในกรณีนี้คือสุนัขหุ่นยนต์ที่มหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์ และยังเป็นผู้เรียนที่รวดเร็วอย่างน่าประหลาดใจอีกด้วย (เทียบกับประเภทหุ่นยนต์ที่เหลือ) หุ่นยนต์นี้ยังมีความพิเศษอีกด้วย เพราะไม่เหมือนกับหุ่นยนต์ที่ฉูดฉาดอื่นๆ ที่คุณอาจเคยเห็นทางออนไลน์ หุ่นยนต์ตัวนี้ใช้ปัญญาประดิษฐ์ในการสอนตัวเองให้เดิน

โดยเริ่มจากหลัง การโบกขา หุ่นยนต์เรียนรู้ที่จะพลิกตัวเอง ยืนขึ้น และเดินในหนึ่งชั่วโมง การข่มขู่ด้วยกระดาษแข็งอีกสิบนาทีก็เพียงพอที่จะสอนวิธีต้านทานและฟื้นฟูจากการถูกผู้ดูแลผลักไปมา

มันไม่ใช่ครั้งแรก หุ่นยนต์ใช้ปัญญาประดิษฐ์ในการเรียนรู้ที่จะเดิน. แต่ในขณะที่หุ่นยนต์รุ่นก่อนเรียนรู้ทักษะจากการลองผิดลองถูกมากกว่าการจำลองซ้ำนับไม่ถ้วนในการจำลอง บ็อต Berkeley ได้เรียนรู้ทั้งหมดในโลกแห่งความเป็นจริง

[เนื้อหาฝัง]

ใน กระดาษที่เผยแพร่ บนเซิร์ฟเวอร์ preprint ของ arXiv นักวิจัย Danijar Hafner, Alejandro Escontrela และ Philipp Wu บอกว่าการถ่ายโอนอัลกอริธึมที่เรียนรู้จากการจำลองไปยังโลกแห่งความเป็นจริงนั้นไม่ใช่เรื่องง่าย รายละเอียดเล็กน้อยและความแตกต่างระหว่างโลกแห่งความจริงกับการจำลองสามารถสะดุดหุ่นยนต์ที่เพิ่งเกิดใหม่ได้ ในทางกลับกัน อัลกอริธึมการฝึกอบรมในโลกแห่งความเป็นจริงนั้นทำไม่ได้ มันต้องใช้เวลาและการสึกหรอมากเกินไป

ตัวอย่างเช่น เมื่อ 100 ปีที่แล้ว OpenAI โชว์มือหุ่นยนต์ที่เปิดใช้งาน AI ซึ่งสามารถจัดการกับลูกบาศก์ได้ อัลกอริธึมการควบคุม Dactyl ต้องการประสบการณ์ 6,144 ปีในการจำลองที่ขับเคลื่อนโดย 8 CPU และ 100 Nvidia VXNUMX GPUs เพื่อทำงานที่ค่อนข้างง่ายนี้ให้สำเร็จ สิ่งต่าง ๆ ก้าวหน้าตั้งแต่นั้นมา แต่ปัญหาส่วนใหญ่ยังคงอยู่ อัลกอริธึมการเรียนรู้แบบเสริมกำลังล้วนต้องการการลองผิดลองถูกมากเกินไปในการเรียนรู้ทักษะเพื่อฝึกฝนในโลกแห่งความเป็นจริง พูดง่ายๆ ก็คือ กระบวนการเรียนรู้จะทำลายนักวิจัย และ หุ่นยนต์ก่อนที่จะดำเนินการใด ๆ ที่มีความหมาย

ทีม Berkeley ตั้งใจที่จะแก้ปัญหานี้ด้วยอัลกอริธึมที่เรียกว่า Dreamer การสร้างสิ่งที่เรียกว่า “โมเดลโลก” Dreamer สามารถคาดการณ์ความน่าจะเป็นที่การดำเนินการในอนาคตจะบรรลุเป้าหมาย ด้วยประสบการณ์ ความแม่นยำของการคาดคะเนจึงดีขึ้น ด้วยการกรองการกระทำที่ประสบความสำเร็จน้อยกว่าไว้ล่วงหน้า โมเดลโลกช่วยให้หุ่นยนต์ค้นหาสิ่งที่ได้ผลอย่างมีประสิทธิภาพมากขึ้น

นักวิจัยเขียนว่า "การเรียนรู้แบบจำลองโลกจากประสบการณ์ในอดีตช่วยให้หุ่นยนต์สามารถจินตนาการถึงผลลัพธ์ในอนาคตของการกระทำที่อาจเกิดขึ้นได้ โดยลดจำนวนการลองผิดลองถูกในสภาพแวดล้อมจริงที่จำเป็นในการเรียนรู้พฤติกรรมที่ประสบความสำเร็จ" นักวิจัยเขียน “ด้วยการคาดการณ์ผลลัพธ์ในอนาคต แบบจำลองโลกช่วยให้สามารถวางแผนและเรียนรู้พฤติกรรมได้จากการปฏิสัมพันธ์ในโลกแห่งความเป็นจริงเพียงเล็กน้อย”

กล่าวอีกนัยหนึ่ง โมเดลโลกสามารถลดเวลาการฝึกอบรมในการจำลองที่เทียบเท่ากับปีให้เหลือไม่เกินชั่วโมงที่น่าอึดอัดใจในโลกแห่งความเป็นจริง

วิธีการนี้อาจมีความเกี่ยวข้องมากกว่าสุนัขหุ่นยนต์ด้วย ทีมงานยังใช้ Dreamer กับแขนหุ่นยนต์หยิบและวางและหุ่นยนต์ล้อเลื่อน ในทั้งสองกรณี พวกเขาพบว่า Dreamer อนุญาตให้หุ่นยนต์ของพวกเขาเรียนรู้ทักษะที่เกี่ยวข้องอย่างมีประสิทธิภาพ โดยไม่ต้องใช้เวลาซิม แอปพลิเคชันในอนาคตที่มีความทะเยอทะยานมากขึ้นอาจรวมถึง รถตัวเองขับรถ.

แน่นอนว่ายังมีความท้าทายที่ต้องแก้ไข แม้ว่าการเรียนรู้แบบเสริมกำลังจะทำให้การเข้ารหัสด้วยมือที่ซับซ้อนบางส่วนเป็นไปโดยอัตโนมัติเบื้องหลังหุ่นยนต์ที่ล้ำสมัยที่สุดในปัจจุบัน แต่ก็ยังต้องการวิศวกรในการกำหนดเป้าหมายของหุ่นยนต์และสิ่งที่ก่อให้เกิดความสำเร็จ ซึ่งเป็นแบบฝึกหัดที่ใช้เวลานานและสิ้นสุดสำหรับสภาพแวดล้อมในโลกแห่งความเป็นจริง นอกจากนี้ แม้ว่าหุ่นยนต์จะรอดชีวิตจากการทดลองของทีมที่นี่ แต่การฝึกทักษะขั้นสูงที่นานขึ้นอาจพิสูจน์ได้ว่ามากเกินไปสำหรับบอทในอนาคตที่จะอยู่รอดได้โดยไม่มีความเสียหาย นักวิจัยกล่าวว่าการรวมการฝึกจำลองเข้ากับการเรียนรู้ในโลกแห่งความเป็นจริงอย่างรวดเร็วอาจเป็นประโยชน์

ถึงกระนั้น ผลลัพธ์ก็ทำให้ AI ในวิทยาการหุ่นยนต์ก้าวหน้าไปอีกขั้น Dreamer เสริมความแข็งแกร่งให้กับกรณีที่ "การเรียนรู้การเสริมกำลังจะเป็นเครื่องมือสำคัญในอนาคตของการควบคุมหุ่นยนต์" Jonathan Hurst ศาสตราจารย์ด้านวิทยาการหุ่นยนต์ที่ Oregon State University บอก จากเอ็มไอทีเทคโนโลยี. 

เครดิตภาพ: ดานิจาร์ ฮาฟเนอร์ / YouTube

ประทับเวลา:

เพิ่มเติมจาก Hub เอกพจน์