การลืมแบบเลือกสรรสามารถช่วยให้ AI เรียนรู้ได้ดีขึ้นได้อย่างไร | นิตยสารควอนต้า

การลืมแบบเลือกสรรสามารถช่วยให้ AI เรียนรู้ได้ดีขึ้นได้อย่างไร | นิตยสารควอนต้า

การลืมแบบเลือกสรรสามารถช่วยให้ AI เรียนรู้ได้ดีขึ้นได้อย่างไร | นิตยสาร Quanta PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

บทนำ

ทีมนักวิทยาศาสตร์คอมพิวเตอร์ได้สร้าง ว่องไวกว่าและมีความยืดหยุ่นมากขึ้น ของโมเดลการเรียนรู้ของเครื่อง เคล็ดลับ: ต้องลืมสิ่งที่รู้เป็นระยะๆ และแม้ว่าแนวทางใหม่นี้จะไม่เข้ามาแทนที่โมเดลขนาดใหญ่ที่รองรับแอปที่ใหญ่ที่สุด แต่ก็สามารถเปิดเผยเพิ่มเติมเกี่ยวกับวิธีที่โปรแกรมเหล่านี้เข้าใจภาษาได้

การวิจัยครั้งใหม่นี้ถือเป็น "ความก้าวหน้าที่สำคัญในสาขานี้" กล่าว เจียควอนซึ่งเป็นวิศวกร AI จากสถาบันวิทยาศาสตร์พื้นฐานในประเทศเกาหลีใต้

เอ็นจิ้นภาษา AI ที่ใช้อยู่ในปัจจุบันส่วนใหญ่ขับเคลื่อนโดย โครงข่ายประสาทเทียม. “เซลล์ประสาท” แต่ละตัวในเครือข่ายเป็นฟังก์ชันทางคณิตศาสตร์ที่รับสัญญาณจากเซลล์ประสาทอื่นๆ ดำเนินการคำนวณ และส่งสัญญาณผ่านเซลล์ประสาทหลายชั้น ในตอนแรกการไหลของข้อมูลจะเป็นแบบสุ่มไม่มากก็น้อย แต่จากการฝึก การไหลของข้อมูลระหว่างเซลล์ประสาทจะดีขึ้นเมื่อเครือข่ายปรับให้เข้ากับข้อมูลการฝึก ตัวอย่างเช่น หากนักวิจัย AI ต้องการสร้างแบบจำลองสองภาษา เธอจะฝึกแบบจำลองด้วยกองข้อความขนาดใหญ่จากทั้งสองภาษา ซึ่งจะปรับการเชื่อมต่อระหว่างเซลล์ประสาทในลักษณะที่เกี่ยวข้องกับข้อความในภาษาเดียวที่เทียบเท่ากัน คำในอีกคำหนึ่ง

แต่กระบวนการฝึกอบรมนี้ต้องใช้พลังในการประมวลผลเป็นจำนวนมาก หากโมเดลทำงานได้ไม่ดีนัก หรือหากความต้องการของผู้ใช้เปลี่ยนแปลงในภายหลัง ก็ยากที่จะปรับเปลี่ยน “สมมติว่าคุณมีแบบจำลองที่มี 100 ภาษา แต่ลองจินตนาการว่าภาษาเดียวที่คุณต้องการไม่ครอบคลุม” กล่าว มิเกล อาร์เต็ตเซ่ผู้ร่วมเขียนงานวิจัยใหม่และผู้ก่อตั้ง Reka สตาร์ทอัพด้าน AI “คุณสามารถเริ่มต้นใหม่ได้ แต่มันไม่เหมาะ”

Artetxe และเพื่อนร่วมงานของเขาได้พยายามหลีกเลี่ยงข้อจำกัดเหล่านี้ ไม่กี่ปีที่ผ่านมาArtetxe และคนอื่นๆ ฝึกฝนโครงข่ายประสาทเทียมในภาษาเดียว จากนั้นจึงลบสิ่งที่รู้เกี่ยวกับกลุ่มคำที่เรียกว่าโทเค็น สิ่งเหล่านี้จะถูกจัดเก็บไว้ในเลเยอร์แรกของโครงข่ายประสาทเทียม เรียกว่าเลเยอร์การฝัง พวกเขาทิ้งเลเยอร์อื่นๆ ทั้งหมดของโมเดลไว้ตามลำพัง หลังจากลบโทเค็นของภาษาแรกแล้ว พวกเขาก็ฝึกโมเดลใหม่ในภาษาที่สอง ซึ่งเติมเต็มเลเยอร์ที่ฝังด้วยโทเค็นใหม่จากภาษานั้น

แม้ว่าแบบจำลองจะมีข้อมูลที่ไม่ตรงกัน แต่การฝึกอบรมใหม่ก็ใช้งานได้: โมเดลสามารถเรียนรู้และประมวลผลภาษาใหม่ได้ นักวิจัยคาดการณ์ว่าในขณะที่เลเยอร์ที่ฝังจะเก็บข้อมูลเฉพาะของคำที่ใช้ในภาษา แต่ระดับที่ลึกกว่าของเครือข่ายจะเก็บข้อมูลที่เป็นนามธรรมมากขึ้นเกี่ยวกับแนวคิดเบื้องหลังภาษาของมนุษย์ ซึ่งช่วยให้แบบจำลองเรียนรู้ภาษาที่สองได้

“เราอยู่ในโลกใบเดียวกัน เราสร้างแนวคิดสิ่งเดียวกันด้วยคำที่ต่างกัน” ในภาษาที่ต่างกันกล่าว อี้หง เฉินผู้เขียนนำรายงานล่าสุด “นั่นเป็นสาเหตุว่าทำไมคุณถึงมีเหตุผลระดับสูงแบบเดียวกันในแบบจำลองนี้ แอปเปิ้ลเป็นสิ่งที่หวานและชุ่มฉ่ำ แทนที่จะเป็นเพียงคำพูด”

บทนำ

แม้ว่าแนวทางการลืมนี้เป็นวิธีที่มีประสิทธิภาพในการเพิ่มภาษาใหม่ให้กับโมเดลที่ได้รับการฝึกอบรมแล้ว การฝึกอบรมขึ้นใหม่ยังคงมีความต้องการ เนื่องจากต้องใช้ข้อมูลทางภาษาและพลังในการประมวลผลจำนวนมาก Chen แนะนำให้ปรับแต่ง: แทนที่จะฝึก ลบเลเยอร์ที่ฝัง แล้วฝึกใหม่ พวกเขาควรรีเซ็ตเลเยอร์ที่ฝังเป็นระยะๆ ในระหว่างรอบแรกของการฝึก “ด้วยการทำเช่นนี้ โมเดลทั้งหมดจะคุ้นเคยกับการรีเซ็ต” Artetxe กล่าว “นั่นหมายความว่าเมื่อคุณต้องการขยายโมเดลไปยังภาษาอื่น มันจะง่ายกว่า เพราะนั่นคือสิ่งที่คุณกำลังทำอยู่”

นักวิจัยได้นำแบบจำลองภาษาที่ใช้กันทั่วไปเรียกว่า โรเบอร์ต้าฝึกฝนโดยใช้เทคนิคการลืมเป็นระยะ และเปรียบเทียบกับประสิทธิภาพของรุ่นเดียวกันเมื่อได้รับการฝึกด้วยวิธีมาตรฐานและไม่ลืม โมเดลการลืมทำได้แย่กว่าโมเดลทั่วไปเล็กน้อย โดยได้คะแนน 85.1 เทียบกับ 86.1 จากการวัดความแม่นยำของภาษาทั่วไป จากนั้นพวกเขาก็ฝึกโมเดลในภาษาอื่นอีกครั้ง โดยใช้ชุดข้อมูลที่เล็กกว่ามากเพียง 5 ล้านโทเค็น แทนที่จะเป็น 70 พันล้านที่ใช้ในการฝึกอบรมครั้งแรก ความแม่นยำของโมเดลมาตรฐานลดลงเหลือ 53.3 โดยเฉลี่ย แต่โมเดลลืมลดลงเหลือเพียง 62.7 เท่านั้น

โมเดลการลืมจะมีอาการดีขึ้นมากหากทีมกำหนดขีดจำกัดด้านการคำนวณระหว่างการฝึกขึ้นใหม่ เมื่อนักวิจัยลดระยะเวลาการฝึกจาก 125,000 ก้าวเหลือเพียง 5,000 ขั้น ความแม่นยำของแบบจำลองการลืมลดลงเหลือ 57.8 โดยเฉลี่ย ในขณะที่แบบจำลองมาตรฐานลดลงเหลือ 37.2 ซึ่งไม่ได้ดีไปกว่าการคาดเดาแบบสุ่ม

บทนำ

ทีมงานสรุปว่าการลืมเป็นระยะๆ ดูเหมือนจะทำให้รูปแบบการเรียนรู้ภาษาโดยทั่วไปดีขึ้น “เพราะ [พวกเขา] ลืมและเรียนรู้ใหม่ในระหว่างการฝึกอบรม การสอนสิ่งใหม่ ๆ บนเครือข่ายในภายหลังจึงง่ายขึ้น” กล่าว เยฟเจนี่ นิกิชินนักวิจัยจาก Mila ซึ่งเป็นศูนย์วิจัยการเรียนรู้เชิงลึกในควิเบก มันแสดงให้เห็นว่าเมื่อแบบจำลองภาษาเข้าใจภาษาหนึ่งๆ พวกเขาเข้าใจในระดับที่ลึกกว่าแค่ความหมายของคำแต่ละคำ

แนวทางนี้คล้ายกับวิธีการทำงานของสมองของเราเอง “โดยทั่วไปแล้วความจำของมนุษย์ไม่ค่อยดีนักในการจัดเก็บข้อมูลรายละเอียดจำนวนมากอย่างแม่นยำ แต่มนุษย์มักจะจดจำแก่นแท้ของประสบการณ์ของเรา โดยการสรุปและคาดการณ์” กล่าว เบนจามิน เลวี, นักประสาทวิทยาจากมหาวิทยาลัยซานฟรานซิสโก “การเปิดใช้งาน AI ด้วยกระบวนการที่เหมือนมนุษย์มากขึ้น เช่น การลืมแบบปรับตัว เป็นวิธีหนึ่งในการทำให้พวกเขาได้รับประสิทธิภาพที่ยืดหยุ่นมากขึ้น”

นอกเหนือจากสิ่งที่อาจกล่าวเกี่ยวกับวิธีการทำความเข้าใจแล้ว Artetxe หวังว่าโมเดลการลืมภาษาที่มีความยืดหยุ่นมากขึ้นยังสามารถช่วยนำความก้าวหน้าทาง AI ล่าสุดไปสู่ภาษาอื่น ๆ ได้มากขึ้น แม้ว่าโมเดล AI จะเก่งในการจัดการภาษาสเปนและอังกฤษ แต่ก็มีสองภาษาพร้อมสื่อการฝึกอบรมที่เพียงพอ แต่โมเดลดังกล่าวไม่ค่อยดีนักกับภาษาบาสก์ซึ่งเป็นภาษาท้องถิ่นเฉพาะทางตะวันออกเฉียงเหนือของสเปน “โมเดลส่วนใหญ่จากบริษัทเทคโนโลยีขนาดใหญ่ทำได้ไม่ดีนัก” เขากล่าว “การปรับโมเดลที่มีอยู่ให้เข้ากับ Basque คือหนทางไป”

เฉินยังตั้งตารอที่โลกจะมีดอกไม้ AI บานสะพรั่งมากขึ้น “ฉันกำลังคิดถึงสถานการณ์ที่โลกไม่ต้องการแบบจำลองภาษาขนาดใหญ่เพียงตัวเดียว เรามีมากมาย” เธอกล่าว “ถ้ามีโรงงานที่สร้างโมเดลภาษา คุณต้องมีเทคโนโลยีประเภทนี้ มีโมเดลพื้นฐานเดียวที่สามารถปรับให้เข้ากับโดเมนใหม่ได้อย่างรวดเร็ว”

ประทับเวลา:

เพิ่มเติมจาก ควอนทามากาซีน