โดยทั่วไปแล้ว การสอนอัลกอริธึมเพื่อเลียนแบบมนุษย์ต้องใช้ตัวอย่างนับร้อยหรือหลายพันตัวอย่าง แต่ AI ใหม่จาก Google DeepMind สามารถรับทักษะใหม่ๆ จากผู้สาธิตที่เป็นมนุษย์ได้ทันที
เคล็ดลับที่ยิ่งใหญ่ที่สุดประการหนึ่งของมนุษยชาติคือความสามารถของเราในการรับความรู้จากกันและกันอย่างรวดเร็วและมีประสิทธิภาพ การเรียนรู้ทางสังคมประเภทนี้ ซึ่งมักเรียกว่าการถ่ายทอดวัฒนธรรม เป็นสิ่งที่ช่วยให้เราแสดงให้เพื่อนร่วมงานเห็นถึงวิธีการใช้เครื่องมือใหม่ หรือสอนเพลงกล่อมเด็กให้กับเด็กๆ ของเรา
ไม่น่าแปลกใจเลยที่นักวิจัยพยายามจำลองกระบวนการนี้ในเครื่องจักร การเรียนรู้ด้วยการเลียนแบบซึ่ง AI เฝ้าดูมนุษย์ทำงานให้เสร็จสิ้นแล้วพยายามเลียนแบบพฤติกรรมของพวกเขา เป็นแนวทางที่นิยมใช้ในการฝึกหุ่นยนต์มายาวนาน แต่แม้แต่อัลกอริธึมการเรียนรู้เชิงลึกที่ล้ำสมัยที่สุดในปัจจุบันก็ยังจำเป็นต้องดูตัวอย่างมากมายก่อนจึงจะสามารถคัดลอกเทรนเนอร์ได้สำเร็จ
เมื่อมนุษย์เรียนรู้ผ่านการเลียนแบบ พวกเขามักจะสามารถรับงานใหม่ได้หลังจากการสาธิตเพียงไม่กี่ครั้ง ขณะนี้ นักวิจัยของ Google DeepMind ได้ก้าวไปสู่การเรียนรู้ทางสังคมอย่างรวดเร็วใน AI ด้วยตัวแทนที่เรียนรู้การนำทางในโลกเสมือนจริงจากมนุษย์แบบเรียลไทม์
“ตัวแทนของเราประสบความสำเร็จในการเลียนแบบมนุษย์แบบเรียลไทม์ในบริบทใหม่โดยไม่ต้องใช้ข้อมูลของมนุษย์ที่รวบรวมไว้ล่วงหน้า” นักวิจัยเขียนใน กระดาษเข้า การสื่อสารธรรมชาติ. "เราระบุชุดส่วนผสมที่เรียบง่ายอย่างน่าประหลาดใจซึ่งเพียงพอต่อการถ่ายทอดวัฒนธรรม”
นักวิจัยได้ฝึกฝนตัวแทนของตนในเครื่องจำลองที่ออกแบบมาเป็นพิเศษที่เรียกว่า GoalCycle3D เครื่องจำลองใช้อัลกอริธึมเพื่อสร้างสภาพแวดล้อมที่แตกต่างกันจำนวนนับไม่ถ้วนตามกฎเกี่ยวกับวิธีการทำงานของการจำลองและแง่มุมใดที่ควรเปลี่ยนแปลง
ในแต่ละสภาพแวดล้อมมีลักษณะคล้ายหยดเล็กๆ ตัวแทน AI ต้องสำรวจภูมิประเทศที่ไม่เรียบและสิ่งกีดขวางต่าง ๆ เพื่อผ่านชุดทรงกลมสีตามลำดับเฉพาะ ความขรุขระของภูมิประเทศ ความหนาแน่นของสิ่งกีดขวาง และโครงสร้างของทรงกลมจะแตกต่างกันไปตามสภาพแวดล้อม
ตัวแทนได้รับการฝึกอบรมให้นำทางโดยใช้ การเรียนรู้การเสริมแรง. พวกเขาได้รับรางวัลจากการผ่านทรงกลมตามลำดับที่ถูกต้อง และใช้สัญญาณนี้เพื่อปรับปรุงประสิทธิภาพของพวกเขาในการทดลองหลายครั้ง นอกจากนี้ สภาพแวดล้อมยังมีตัวแทนผู้เชี่ยวชาญ ซึ่งไม่ว่าจะเขียนโค้ดตายตัวหรือควบคุมโดยมนุษย์ ซึ่งรู้เส้นทางที่ถูกต้องตลอดหลักสูตรแล้ว
จากการฝึกอบรมหลายครั้ง เจ้าหน้าที่ AI ไม่เพียงเรียนรู้พื้นฐานของวิธีการทำงานของสภาพแวดล้อมเท่านั้น แต่ยังเรียนรู้ว่าวิธีที่เร็วที่สุดในการแก้ปัญหาแต่ละข้อคือการเลียนแบบผู้เชี่ยวชาญ เพื่อให้แน่ใจว่าเจ้าหน้าที่เรียนรู้ที่จะเลียนแบบมากกว่าแค่ท่องจำหลักสูตร ทีมงานจึงฝึกอบรมพวกเขาในสภาพแวดล้อมชุดหนึ่งแล้วทดสอบในสภาพแวดล้อมอื่น สิ่งสำคัญอย่างยิ่งหลังการฝึกอบรม ทีมงานแสดงให้เห็นว่าตัวแทนของตนสามารถเลียนแบบผู้เชี่ยวชาญและปฏิบัติตามเส้นทางต่อไปได้แม้จะไม่มีผู้เชี่ยวชาญก็ตาม
จำเป็นต้องมีการปรับแต่งเล็กน้อยในแนวทางการเรียนรู้แบบเสริมกำลังแบบมาตรฐาน
นักวิจัยทำให้อัลกอริธึมมุ่งเน้นไปที่ผู้เชี่ยวชาญโดยทำนายตำแหน่งของเจ้าหน้าที่รายอื่น พวกเขายังให้โมดูลหน่วยความจำแก่มันด้วย ในระหว่างการฝึกอบรม ผู้เชี่ยวชาญจะเข้าและออกจากสภาพแวดล้อม เพื่อบังคับให้เจ้าหน้าที่จดจำการกระทำของตนเมื่อไม่อยู่อีกต่อไป นอกจากนี้ AI ยังได้รับการฝึกฝนในสภาพแวดล้อมที่หลากหลาย ซึ่งช่วยให้มั่นใจว่าจะได้เห็นงานที่เป็นไปได้ที่หลากหลาย
อาจเป็นเรื่องยากที่จะแปลแนวทางนี้ไปสู่โดเมนที่ใช้งานได้จริงมากขึ้น ข้อจำกัดที่สำคัญคือเมื่อผู้วิจัยทดสอบว่า AI สามารถเรียนรู้จากการสาธิตของมนุษย์ได้หรือไม่ เจ้าหน้าที่ผู้เชี่ยวชาญจะถูกควบคุมโดยบุคคลหนึ่งคนในระหว่างการฝึกซ้อมทั้งหมด ทำให้ยากที่จะทราบว่าตัวแทนสามารถเรียนรู้จากคนหลากหลายได้หรือไม่
ยิ่งไปกว่านั้น ความสามารถในการสุ่มเปลี่ยนสภาพแวดล้อมการฝึกอบรมเป็นเรื่องยากที่จะสร้างขึ้นมาใหม่ได้ในโลกแห่งความเป็นจริง และงานพื้นฐานนั้นเรียบง่าย ไม่ต้องมีการควบคุมมอเตอร์อย่างละเอียด และเกิดขึ้นในสภาพแวดล้อมเสมือนจริงที่มีการควบคุมสูง
อย่างไรก็ตาม ความก้าวหน้าในการเรียนรู้ทางสังคมใน AI ก็ยินดีต้อนรับ หากเราต้องอยู่ในโลกที่มีเครื่องจักรอัจฉริยะ การหาวิธีที่มีประสิทธิภาพและใช้งานง่ายในการแบ่งปันประสบการณ์และความเชี่ยวชาญของเรากับเครื่องจักรเหล่านั้นจะเป็นสิ่งสำคัญ
เครดิตภาพ: จูเลียนา อี มาเรียนา อโมริม / Unsplash
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
- ที่มา: https://singularityhub.com/2023/12/01/this-deepmind-ai-rapidly-learns-new-skills-just-by-watching-humans/
- :มี
- :เป็น
- :ไม่
- $ ขึ้น
- a
- ความสามารถ
- เกี่ยวกับเรา
- ได้รับ
- การปฏิบัติ
- นอกจากนี้
- สูง
- หลังจาก
- ตัวแทน
- ตัวแทน
- AI
- ขั้นตอนวิธี
- อัลกอริทึม
- ทั้งหมด
- ช่วยให้
- เกือบจะ
- แล้ว
- ด้วย
- an
- และ
- อื่น
- ใด
- เข้าใกล้
- วิธีการ
- เป็น
- AS
- ด้าน
- At
- ตาม
- BE
- รับ
- ก่อน
- พฤติกรรม
- ระหว่าง
- กว้าง
- แต่
- by
- ที่เรียกว่า
- CAN
- เด็ก
- เพื่อนร่วมงาน
- สมบูรณ์
- องค์ประกอบ
- บริบท
- ต่อ
- ควบคุม
- การควบคุม
- แก้ไข
- ได้
- คอร์ส
- หลักสูตร
- เครดิต
- สำคัญมาก
- ขับเคลื่อน
- ด้านวัฒนธรรม
- ข้อมูล
- ลึก
- การเรียนรู้ลึก ๆ
- Deepmind
- ได้รับการออกแบบ
- ต่าง
- ยาก
- โดเมน
- หล่น
- ในระหว่าง
- e
- แต่ละ
- ได้รับ
- ที่มีประสิทธิภาพ
- อย่างมีประสิทธิภาพ
- ทั้ง
- ไม่มีที่สิ้นสุด
- ทำให้มั่นใจ
- มั่นใจ
- สิ่งแวดล้อม
- สภาพแวดล้อม
- แม้
- ตัวอย่าง
- ประสบการณ์
- ชำนาญ
- ความชำนาญ
- ลักษณะ
- สองสาม
- หา
- ปลาย
- โฟกัส
- ปฏิบัติตาม
- สำหรับ
- พระเดช
- ราคาเริ่มต้นที่
- ความรู้พื้นฐาน
- ให้
- สร้าง
- การสร้าง
- ใหญ่ที่สุด
- กำมือ
- ยาก
- มี
- มี
- อย่างสูง
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- HTTPS
- เป็นมนุษย์
- มนุษย์
- ร้อย
- แยกแยะ
- if
- ปรับปรุง
- in
- ฉลาด
- ใช้งานง่าย
- IT
- ITS
- เพียงแค่
- คีย์
- ชนิด
- ทราบ
- ความรู้
- รู้
- เรียนรู้
- การเรียนรู้
- เรียนรู้
- การ จำกัด
- สด
- ที่ตั้ง
- นาน
- อีกต่อไป
- เครื่อง
- ทำ
- ทำให้
- หลาย
- หน่วยความจำ
- อาจ
- โมดูล
- ข้อมูลเพิ่มเติม
- มากที่สุด
- เครื่องยนต์
- ต้อง
- ธรรมชาติ
- นำทาง
- จำเป็นต้อง
- ใหม่
- ไม่
- นวนิยาย
- ตอนนี้
- จำนวน
- อุปสรรค
- ที่เกิดขึ้น
- of
- มักจะ
- on
- ONE
- เพียง
- ทำงาน
- or
- ใบสั่ง
- อื่นๆ
- ของเรา
- ออก
- เกิน
- ส่ง
- ที่ผ่านไป
- คน
- การปฏิบัติ
- คน
- เลือก
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- ยอดนิยม
- เป็นไปได้
- ประยุกต์
- คาดการณ์
- นำเสนอ
- ปัญหา
- กระบวนการ
- ความคืบหน้า
- ที่เร็วที่สุด
- พิสัย
- รวดเร็ว
- อย่างรวดเร็ว
- ค่อนข้าง
- จริง
- โลกแห่งความจริง
- เรียลไทม์
- เรียกว่า
- จำเป็นต้องใช้
- ต้อง
- นักวิจัย
- รางวัล
- หุ่นยนต์
- เส้นทาง
- กฎระเบียบ
- ทำงาน
- เห็น
- เห็น
- ชุด
- ชุด
- Share
- น่า
- โชว์
- แสดงให้เห็นว่า
- สัญญาณ
- ง่าย
- จำลอง
- จำลอง
- ทักษะ
- เล็ก
- สังคม
- แก้
- พิเศษ
- โดยเฉพาะ
- มาตรฐาน
- ขั้นตอน
- ประสบความสำเร็จ
- ประสบความสำเร็จ
- เพียงพอ
- แปลกใจ
- นำ
- งาน
- งาน
- ทีม
- ภูมิประเทศ
- การทดสอบ
- กว่า
- ที่
- พื้นที่
- ของพวกเขา
- พวกเขา
- แล้วก็
- พวกเขา
- นี้
- แต่?
- พัน
- ตลอด
- เวลา
- ไปยัง
- วันนี้
- เครื่องมือ
- ไปทาง
- ผ่านการฝึกอบรม
- การฝึกอบรม
- แปลความ
- การทดลอง
- พยายาม
- การปรับแต่ง
- เป็นปกติ
- พื้นฐาน
- us
- ใช้
- ใช้
- การใช้
- ความหลากหลาย
- ต่างๆ
- เสมือน
- โลกเสมือนจริง
- คือ
- นาฬิกา
- ชม
- ทาง..
- วิธี
- ยินดีต้อนรับ
- คือ
- อะไร
- เมื่อ
- ว่า
- ที่
- กว้าง
- ช่วงกว้าง
- จะ
- กับ
- ไม่มี
- โลก
- จะ
- เขียน
- ลมทะเล