AI DeepMind นี้เรียนรู้ทักษะใหม่อย่างรวดเร็วเพียงแค่เฝ้าดูมนุษย์

AI DeepMind นี้เรียนรู้ทักษะใหม่อย่างรวดเร็วเพียงแค่เฝ้าดูมนุษย์

AI DeepMind นี้เรียนรู้ทักษะใหม่อย่างรวดเร็วเพียงแค่ดูข้อมูลอัจฉริยะของ PlatoBlockchain ของมนุษย์ ค้นหาแนวตั้ง AI.

โดยทั่วไปแล้ว การสอนอัลกอริธึมเพื่อเลียนแบบมนุษย์ต้องใช้ตัวอย่างนับร้อยหรือหลายพันตัวอย่าง แต่ AI ใหม่จาก Google DeepMind สามารถรับทักษะใหม่ๆ จากผู้สาธิตที่เป็นมนุษย์ได้ทันที

เคล็ดลับที่ยิ่งใหญ่ที่สุดประการหนึ่งของมนุษยชาติคือความสามารถของเราในการรับความรู้จากกันและกันอย่างรวดเร็วและมีประสิทธิภาพ การเรียนรู้ทางสังคมประเภทนี้ ซึ่งมักเรียกว่าการถ่ายทอดวัฒนธรรม เป็นสิ่งที่ช่วยให้เราแสดงให้เพื่อนร่วมงานเห็นถึงวิธีการใช้เครื่องมือใหม่ หรือสอนเพลงกล่อมเด็กให้กับเด็กๆ ของเรา

ไม่น่าแปลกใจเลยที่นักวิจัยพยายามจำลองกระบวนการนี้ในเครื่องจักร การเรียนรู้ด้วยการเลียนแบบซึ่ง AI เฝ้าดูมนุษย์ทำงานให้เสร็จสิ้นแล้วพยายามเลียนแบบพฤติกรรมของพวกเขา เป็นแนวทางที่นิยมใช้ในการฝึกหุ่นยนต์มายาวนาน แต่แม้แต่อัลกอริธึมการเรียนรู้เชิงลึกที่ล้ำสมัยที่สุดในปัจจุบันก็ยังจำเป็นต้องดูตัวอย่างมากมายก่อนจึงจะสามารถคัดลอกเทรนเนอร์ได้สำเร็จ

เมื่อมนุษย์เรียนรู้ผ่านการเลียนแบบ พวกเขามักจะสามารถรับงานใหม่ได้หลังจากการสาธิตเพียงไม่กี่ครั้ง ขณะนี้ นักวิจัยของ Google DeepMind ได้ก้าวไปสู่การเรียนรู้ทางสังคมอย่างรวดเร็วใน AI ด้วยตัวแทนที่เรียนรู้การนำทางในโลกเสมือนจริงจากมนุษย์แบบเรียลไทม์

“ตัวแทนของเราประสบความสำเร็จในการเลียนแบบมนุษย์แบบเรียลไทม์ในบริบทใหม่โดยไม่ต้องใช้ข้อมูลของมนุษย์ที่รวบรวมไว้ล่วงหน้า” นักวิจัยเขียนใน กระดาษเข้า การสื่อสารธรรมชาติ. "เราระบุชุดส่วนผสมที่เรียบง่ายอย่างน่าประหลาดใจซึ่งเพียงพอต่อการถ่ายทอดวัฒนธรรม”

นักวิจัยได้ฝึกฝนตัวแทนของตนในเครื่องจำลองที่ออกแบบมาเป็นพิเศษที่เรียกว่า GoalCycle3D เครื่องจำลองใช้อัลกอริธึมเพื่อสร้างสภาพแวดล้อมที่แตกต่างกันจำนวนนับไม่ถ้วนตามกฎเกี่ยวกับวิธีการทำงานของการจำลองและแง่มุมใดที่ควรเปลี่ยนแปลง

ในแต่ละสภาพแวดล้อมมีลักษณะคล้ายหยดเล็กๆ ตัวแทน AI ต้องสำรวจภูมิประเทศที่ไม่เรียบและสิ่งกีดขวางต่าง ๆ เพื่อผ่านชุดทรงกลมสีตามลำดับเฉพาะ ความขรุขระของภูมิประเทศ ความหนาแน่นของสิ่งกีดขวาง และโครงสร้างของทรงกลมจะแตกต่างกันไปตามสภาพแวดล้อม

ตัวแทนได้รับการฝึกอบรมให้นำทางโดยใช้ การเรียนรู้การเสริมแรง. พวกเขาได้รับรางวัลจากการผ่านทรงกลมตามลำดับที่ถูกต้อง และใช้สัญญาณนี้เพื่อปรับปรุงประสิทธิภาพของพวกเขาในการทดลองหลายครั้ง นอกจากนี้ สภาพแวดล้อมยังมีตัวแทนผู้เชี่ยวชาญ ซึ่งไม่ว่าจะเขียนโค้ดตายตัวหรือควบคุมโดยมนุษย์ ซึ่งรู้เส้นทางที่ถูกต้องตลอดหลักสูตรแล้ว

จากการฝึกอบรมหลายครั้ง เจ้าหน้าที่ AI ไม่เพียงเรียนรู้พื้นฐานของวิธีการทำงานของสภาพแวดล้อมเท่านั้น แต่ยังเรียนรู้ว่าวิธีที่เร็วที่สุดในการแก้ปัญหาแต่ละข้อคือการเลียนแบบผู้เชี่ยวชาญ เพื่อให้แน่ใจว่าเจ้าหน้าที่เรียนรู้ที่จะเลียนแบบมากกว่าแค่ท่องจำหลักสูตร ทีมงานจึงฝึกอบรมพวกเขาในสภาพแวดล้อมชุดหนึ่งแล้วทดสอบในสภาพแวดล้อมอื่น สิ่งสำคัญอย่างยิ่งหลังการฝึกอบรม ทีมงานแสดงให้เห็นว่าตัวแทนของตนสามารถเลียนแบบผู้เชี่ยวชาญและปฏิบัติตามเส้นทางต่อไปได้แม้จะไม่มีผู้เชี่ยวชาญก็ตาม

จำเป็นต้องมีการปรับแต่งเล็กน้อยในแนวทางการเรียนรู้แบบเสริมกำลังแบบมาตรฐาน

นักวิจัยทำให้อัลกอริธึมมุ่งเน้นไปที่ผู้เชี่ยวชาญโดยทำนายตำแหน่งของเจ้าหน้าที่รายอื่น พวกเขายังให้โมดูลหน่วยความจำแก่มันด้วย ในระหว่างการฝึกอบรม ผู้เชี่ยวชาญจะเข้าและออกจากสภาพแวดล้อม เพื่อบังคับให้เจ้าหน้าที่จดจำการกระทำของตนเมื่อไม่อยู่อีกต่อไป นอกจากนี้ AI ยังได้รับการฝึกฝนในสภาพแวดล้อมที่หลากหลาย ซึ่งช่วยให้มั่นใจว่าจะได้เห็นงานที่เป็นไปได้ที่หลากหลาย

อาจเป็นเรื่องยากที่จะแปลแนวทางนี้ไปสู่โดเมนที่ใช้งานได้จริงมากขึ้น ข้อจำกัดที่สำคัญคือเมื่อผู้วิจัยทดสอบว่า AI สามารถเรียนรู้จากการสาธิตของมนุษย์ได้หรือไม่ เจ้าหน้าที่ผู้เชี่ยวชาญจะถูกควบคุมโดยบุคคลหนึ่งคนในระหว่างการฝึกซ้อมทั้งหมด ทำให้ยากที่จะทราบว่าตัวแทนสามารถเรียนรู้จากคนหลากหลายได้หรือไม่

ยิ่งไปกว่านั้น ความสามารถในการสุ่มเปลี่ยนสภาพแวดล้อมการฝึกอบรมเป็นเรื่องยากที่จะสร้างขึ้นมาใหม่ได้ในโลกแห่งความเป็นจริง และงานพื้นฐานนั้นเรียบง่าย ไม่ต้องมีการควบคุมมอเตอร์อย่างละเอียด และเกิดขึ้นในสภาพแวดล้อมเสมือนจริงที่มีการควบคุมสูง

อย่างไรก็ตาม ความก้าวหน้าในการเรียนรู้ทางสังคมใน AI ก็ยินดีต้อนรับ หากเราต้องอยู่ในโลกที่มีเครื่องจักรอัจฉริยะ การหาวิธีที่มีประสิทธิภาพและใช้งานง่ายในการแบ่งปันประสบการณ์และความเชี่ยวชาญของเรากับเครื่องจักรเหล่านั้นจะเป็นสิ่งสำคัญ

เครดิตภาพ: จูเลียนา อี มาเรียนา อโมริม / Unsplash

ประทับเวลา:

เพิ่มเติมจาก Hub เอกพจน์