โมเดลภาษาจิ๋วประสบความสำเร็จด้วย GPT-4 ในฐานะครู | นิตยสารควอนต้า

โมเดลภาษาจิ๋วประสบความสำเร็จด้วย GPT-4 ในฐานะครู | นิตยสารควอนต้า

โมเดลภาษาจิ๋วประสบความสำเร็จด้วย GPT-4 ในฐานะครู | นิตยสาร Quanta PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

บทนำ

การเรียนภาษาอังกฤษไม่ใช่เรื่องง่าย อย่างที่นักเรียนจำนวนนับไม่ถ้วนรู้ดี แต่เมื่อนักเรียนเป็นคอมพิวเตอร์ วิธีการหนึ่งก็ใช้ได้ผลดีอย่างน่าประหลาดใจ นั่นคือ เพียงป้อนข้อความจำนวนมากจากอินเทอร์เน็ตไปยังแบบจำลองทางคณิตศาสตร์ขนาดยักษ์ที่เรียกว่าโครงข่ายประสาทเทียม นั่นคือหลักการทำงานเบื้องหลังโมเดลภาษาเชิงกำเนิด เช่น ChatGPT ของ OpenAI ซึ่งความสามารถในการสนทนาอย่างสอดคล้องกัน (หากไม่ใช่ความจริงเสมอไป) ในหัวข้อต่างๆ มากมาย ทำให้นักวิจัยและสาธารณชนประหลาดใจในปีที่ผ่านมา

แต่วิธีการนี้มีข้อเสีย ประการหนึ่งคือ ขั้นตอน "การฝึกอบรม" ที่จำเป็นในการแปลงข้อความที่เก็บถาวรจำนวนมากให้กลายเป็นโมเดลภาษาที่ล้ำสมัยนั้นมีค่าใช้จ่ายสูงและใช้เวลามาก อีกประการหนึ่ง แม้แต่คนที่ฝึกโมเดลภาษาขนาดใหญ่ก็พบว่ามันยากที่จะเข้าใจการทำงานภายในของพวกเขา ในทางกลับกัน ทำให้ยากต่อการคาดเดาถึงวิธีที่พวกเขาจะล้มเหลวได้

เมื่อเผชิญกับความยากลำบากเหล่านี้ นักวิจัยบางคนจึงเลือกที่จะฝึกอบรม รุ่นเล็ก บนชุดข้อมูลขนาดเล็ก จากนั้นจึงศึกษาพฤติกรรมของข้อมูลเหล่านั้น “มันเหมือนกับการเรียงลำดับ แมลงหวี่ จีโนมกับการจัดลำดับจีโนมมนุษย์” กล่าว เอลลี่ พาฟลิคนักวิจัยแบบจำลองภาษาที่มหาวิทยาลัยบราวน์

ตอนนี้ใน กระดาษ โพสต์เมื่อเร็ว ๆ นี้บนเซิร์ฟเวอร์ preprint ทางวิทยาศาสตร์ arxiv.org นักวิจัยของ Microsoft คู่หนึ่งได้แนะนำวิธีการใหม่ในการฝึกอบรมโมเดลภาษาเล็ก ๆ: เลี้ยงพวกเขาด้วยอาหารที่เข้มงวดจากเรื่องราวของเด็ก

นักวิจัยด้านแมชชีนเลิร์นนิงยอมรับบทเรียนนี้ GPT-3.5 ซึ่งเป็นโมเดลภาษาขนาดใหญ่ที่ขับเคลื่อนอินเทอร์เฟซ ChatGPT มีพารามิเตอร์เกือบ 200 แสนล้านพารามิเตอร์ และได้รับการฝึกชุดข้อมูลที่ประกอบด้วยคำหลายแสนล้านคำ (OpenAI ยังไม่ได้เปิดเผยตัวเลขที่เกี่ยวข้องสำหรับผู้สืบทอด GPT-4) โดยทั่วไปแล้ว การฝึกอบรมโมเดลขนาดใหญ่ดังกล่าวต้องใช้โปรเซสเซอร์พิเศษอย่างน้อย 1,000 ตัวที่เรียกว่า GPU ที่ทำงานขนานกันเป็นเวลาหลายสัปดาห์ในแต่ละครั้ง มีเพียงไม่กี่บริษัทเท่านั้นที่สามารถรวบรวมทรัพยากรที่จำเป็น ไม่ต้องพูดถึงการฝึกอบรมและเปรียบเทียบรุ่นต่างๆ

นักวิจัยทั้งสองแสดงให้เห็นว่าแบบจำลองภาษาที่มีขนาดเล็กกว่าระบบที่ทันสมัยในปัจจุบันหลายพันเท่าเรียนรู้อย่างรวดเร็วในการบอกเล่าเรื่องราวที่สอดคล้องกันและไวยากรณ์เมื่อได้รับการฝึกฝนในลักษณะนี้ ผลลัพธ์ของพวกเขาบ่งบอกถึงแนวทางการวิจัยใหม่ที่อาจเป็นประโยชน์ในการฝึกโมเดลขนาดใหญ่และทำความเข้าใจพฤติกรรมของพวกเขา

“ฉันพบว่าบทความนี้มีข้อมูลมาก” กล่าว จันทรา ภะกะวะตุลานักวิจัยแบบจำลองภาษาที่ Allen Institute for Artificial Intelligence ในซีแอตเทิล “แนวคิดนี้น่าสนใจอย่างยิ่ง”

กาลครั้งหนึ่ง

โครงข่ายประสาทเทียมที่เป็นหัวใจของแบบจำลองภาษาเป็นโครงสร้างทางคณิตศาสตร์ที่ได้รับแรงบันดาลใจอย่างหลวมๆ จากสมองของมนุษย์ แต่ละอันประกอบด้วยเซลล์ประสาทเทียมจำนวนมากที่จัดเรียงเป็นชั้นๆ โดยมีการเชื่อมต่อระหว่างเซลล์ประสาทในชั้นที่อยู่ติดกัน พฤติกรรมของโครงข่ายประสาทเทียมนั้นควบคุมโดยความแรงของการเชื่อมต่อเหล่านี้ ซึ่งเรียกว่าพารามิเตอร์ ในโมเดลภาษา พารามิเตอร์จะควบคุมคำที่โมเดลอาจคายออกมาเป็นลำดับถัดไป โดยได้รับพร้อมท์เริ่มต้นและคำที่โมเดลนั้นได้สร้างขึ้นแล้ว

โมเดลจะมีชีวิตชีวาอย่างแท้จริงในระหว่างการฝึก เมื่อเปรียบเทียบเอาต์พุตของตัวเองกับข้อความในชุดข้อมูลการฝึกซ้ำๆ และปรับพารามิเตอร์เพื่อเพิ่มความคล้ายคลึง เครือข่ายที่ไม่ได้รับการฝึกฝนพร้อมพารามิเตอร์แบบสุ่มนั้นประกอบได้ง่ายเล็กน้อยโดยใช้โค้ดเพียงไม่กี่บรรทัด แต่มันจะทำให้เกิดคำพูดที่ไม่มีความหมาย หลังการฝึก มักจะสามารถอ่านข้อความที่ไม่คุ้นเคยต่อไปได้ โมเดลขนาดใหญ่มักจะได้รับการปรับแต่งเพิ่มเติมเพื่อสอนให้ตอบคำถามและปฏิบัติตามคำแนะนำ แต่การฝึกอบรมส่วนใหญ่คือการเชี่ยวชาญการคาดเดาคำ

ความสำเร็จในการทำนายคำต้องใช้แบบจำลองภาษาเพื่อฝึกฝนทักษะต่างๆ มากมาย ตัวอย่างเช่น กฎไวยากรณ์ภาษาอังกฤษแนะนำว่าคำถัดไปหลังคำว่า "going" มักจะเป็น "to" โดยไม่คำนึงถึงหัวข้อของข้อความ นอกจากนี้ ระบบยังต้องการความรู้เชิงข้อเท็จจริงเพื่อกรอก "เมืองหลวงของฝรั่งเศส" และกรอกข้อความที่มีเนื้อหาให้สมบูรณ์ คำว่า "ไม่" ต้องใช้ตรรกะเบื้องต้น

“ภาษาดิบมีความซับซ้อนมาก” กล่าว ทิโมธี เหงียนนักวิจัยด้านแมชชีนเลิร์นนิงที่ DeepMind “เพื่อให้ความสามารถทางภาษาที่น่าสนใจเกิดขึ้น ผู้คนจึงหันมาใช้ 'ข้อมูลมากขึ้นจะดีกว่า'”

บทนำ

โรเนน เอลดานนักคณิตศาสตร์ที่เข้าร่วม Microsoft Research ในปี 2022 เพื่อศึกษาโมเดลภาษาเชิงสร้างสรรค์ ต้องการพัฒนาวิธีที่ถูกกว่าและเร็วกว่าในการสำรวจความสามารถของพวกเขา วิธีธรรมชาติในการดำเนินการดังกล่าวคือการใช้ชุดข้อมูลขนาดเล็ก และในทางกลับกัน นั่นหมายความว่าเขาต้องฝึกโมเดลให้มีความเชี่ยวชาญเฉพาะด้าน เพื่อไม่ให้โมเดลกระจายตัวจนเกินไป ในตอนแรก เขาต้องการฝึกแบบจำลองเพื่อแก้ปัญหาคณิตศาสตร์บางชั้นเรียน แต่บ่ายวันหนึ่ง หลังจากใช้เวลากับลูกสาววัย 5 ขวบ เขาก็ตระหนักว่าเรื่องราวของเด็กๆ เหมาะสมอย่างยิ่ง

“มันเกิดขึ้นกับฉันจริงๆ หลังจากที่ฉันได้อ่านเรื่องราวของเธอ” เขากล่าว

เพื่อสร้างเรื่องราวของเด็กที่สอดคล้องกัน โมเดลภาษาจะต้องเรียนรู้ข้อเท็จจริงเกี่ยวกับโลก ติดตามตัวละครและเหตุการณ์ และปฏิบัติตามกฎของไวยากรณ์ ซึ่งเป็นความท้าทายที่ต้องเผชิญกับโมเดลขนาดใหญ่ในรูปแบบที่เรียบง่ายกว่า แต่โมเดลขนาดใหญ่ที่ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลขนาดใหญ่จะเรียนรู้รายละเอียดที่ไม่เกี่ยวข้องนับไม่ถ้วนพร้อมกับกฎที่สำคัญจริงๆ Eldan หวังว่าความสั้นและคำศัพท์ที่จำกัดของนิทานเด็กอาจทำให้การเรียนรู้สำหรับโมเดลขนาดเล็กจัดการได้ง่ายขึ้น ทำให้ทั้งฝึกและเข้าใจได้ง่ายขึ้น

อย่างไรก็ตาม ในโลกของแบบจำลองภาษา "เล็ก" มีความเกี่ยวข้องกัน โดยชุดข้อมูลที่มีขนาดเล็กกว่าชุดข้อมูลที่ใช้ในการฝึก GPT-3.5 ถึงพันเท่า ยังคงต้องมีเรื่องราวนับล้านเรื่อง “ฉันไม่รู้ว่าคุณต้องการใช้เงินเท่าไหร่ แต่ฉันเดาว่าคุณจะไม่จ้างมืออาชีพมาเขียนเรื่องสั้น [สองสามล้าน]” เหงียนกล่าว

ต้องใช้นักเขียนที่มีผลงานมากเป็นพิเศษจึงจะตอบสนองผู้อ่านที่คลั่งไคล้เช่นนี้ได้ แต่เอลดันมีผู้สมัครอยู่ในใจอยู่สองสามคน ใครจะเขียนให้ผู้ชมที่ใช้ภาษาขนาดเล็กได้ดีกว่าคนตัวใหญ่?

ทอยสตอรี่

เอลดานเริ่มสร้างห้องสมุดนิทานเด็กสังเคราะห์ที่สร้างจากแบบจำลองภาษาขนาดใหญ่ทันที แต่ในไม่ช้าเขาก็ค้นพบว่าแม้แต่โมเดลที่ล้ำสมัยก็ไม่มีความคิดสร้างสรรค์โดยธรรมชาติ หากคุณบอก GPT-4 ให้เขียนเรื่องราวที่เหมาะสมสำหรับเด็กอายุ 4 ขวบ Eldan กล่าวว่า “ประมาณหนึ่งในห้าของเรื่องราวจะเป็นเรื่องเกี่ยวกับเด็ก ๆ ที่ไปสวนสาธารณะเพราะกลัวสไลเดอร์” เห็นได้ชัดว่าเป็นเรื่องราวสำหรับเด็กก่อนวัยเรียนที่เป็นแก่นสาร เท่าที่เกี่ยวกับอินเทอร์เน็ต

วิธีแก้ไขคือเพิ่มการสุ่มเล็กน้อยลงในพรอมต์ ขั้นแรก Eldan ใช้ GPT-4 เพื่อสร้างรายการคำนาม กริยา และคำคุณศัพท์จำนวน 1,500 คำที่เด็กอายุ 4 ขวบอาจรู้ ซึ่งสั้นพอที่จะตรวจสอบด้วยตนเองได้อย่างง่ายดาย จากนั้นเขาก็เขียนโปรแกรมคอมพิวเตอร์ง่ายๆ ที่จะสั่งให้ GPT-3.5 หรือ GPT-4 ซ้ำๆ เพื่อสร้างเรื่องราวที่เหมาะสมกับวัยซึ่งมีคำสุ่มสามคำจากรายการ พร้อมด้วยรายละเอียดที่เลือกแบบสุ่มเพิ่มเติม เช่น ตอนจบที่มีความสุขหรือการหักมุมของโครงเรื่อง เรื่องราวที่เกิดขึ้นจะเน้นไปที่สไลด์ที่น่ากลัวน้อยลง

ตอนนี้เอลดันมีขั้นตอนในการปั่นข้อมูลการฝึกตามความต้องการ แต่เขาไม่รู้ว่าเขาต้องใช้เรื่องราวกี่เรื่องในการฝึกโมเดลเชิงฟังก์ชัน หรือโมเดลนั้นต้องใหญ่แค่ไหน นั่นคือตอนที่เขาร่วมทีมด้วย หยวนจือ ลี่ซึ่งเป็นนักวิจัยแมชชีนเลิร์นนิงที่ Microsoft และ Carnegie Mellon University ที่ต้องการลองความเป็นไปได้ต่างๆ โดยใช้ประโยชน์จากความจริงที่ว่าโมเดลขนาดเล็กสามารถฝึกได้เร็วมาก ขั้นตอนที่ 1 คือการตัดสินใจว่าจะประเมินแบบจำลองของตนอย่างไร

บทนำ

ในการวิจัยแบบจำลองภาษา เช่นเดียวกับในห้องเรียนทุกห้อง การให้เกรดเป็นหัวข้อที่เต็มไปด้วยปัญหา มี ไม่มีรูบริกที่สมบูรณ์แบบ ที่สรุปทุกสิ่งที่นักวิจัยต้องการทราบ และแบบจำลองที่เก่งในงานบางงานมักจะล้มเหลวอย่างน่าทึ่งที่งานอื่น เมื่อเวลาผ่านไป นักวิจัยได้พัฒนาเกณฑ์มาตรฐานต่างๆ โดยอิงจากคำถามที่มีคำตอบที่ชัดเจน ซึ่งเป็นแนวทางที่ดีหากคุณพยายามประเมินทักษะเฉพาะด้าน แต่ Eldan และ Li สนใจในสิ่งที่คลุมเครือกว่านี้: โมเดลภาษาจำเป็นต้องมีขนาดใหญ่แค่ไหนหากคุณทำให้ภาษาง่ายขึ้นมากที่สุด?

“เพื่อทดสอบโดยตรงว่าโมเดลพูดภาษาอังกฤษได้หรือไม่ ฉันคิดว่าสิ่งเดียวที่คุณทำได้คือปล่อยให้โมเดลสร้างภาษาอังกฤษด้วยวิธีปลายเปิด” Eldan กล่าว

มีเพียงสองวิธีในการวัดประสิทธิภาพของแบบจำลองสำหรับคำถามเชิงคุณภาพดังกล่าว: อาศัยผู้ให้คะแนนที่เป็นมนุษย์ หรือเปลี่ยนมาใช้ GPT-4 อีกครั้ง นักวิจัยทั้งสองเลือกเส้นทางหลัง โดยปล่อยให้แบบจำลองขนาดใหญ่ทั้งเขียนตำราเรียนและให้คะแนนเรียงความอย่างมีประสิทธิภาพ

Bhagavatula กล่าวว่าเขาอยากจะเห็นว่าการประเมินของ GPT-4 เป็นอย่างไรเมื่อเปรียบเทียบกับการประเมินของมนุษย์ GPT-4 อาจมีอคติต่อแบบจำลองที่ช่วยฝึกฝน และความทึบแสงของแบบจำลองภาษาทำให้ยากต่อการหาปริมาณของอคติดังกล่าว แต่เขาไม่คิดว่ารายละเอียดปลีกย่อยดังกล่าวจะส่งผลต่อการเปรียบเทียบระหว่างโมเดลต่างๆ ที่ได้รับการฝึกมาในชุดเรื่องราวสังเคราะห์ที่คล้ายคลึงกัน ซึ่งเป็นจุดสนใจหลักของงานของเอลดานและหลี่

เอลดันและหลี่ใช้ขั้นตอนสองขั้นตอนในการประเมินโมเดลขนาดเล็กแต่ละอันหลังการฝึก ขั้นแรก พวกเขาสร้างโมเดลขนาดเล็กโดยให้ครึ่งแรกของเรื่องราวแตกต่างจากที่อยู่ในชุดข้อมูลการฝึกอบรม เพื่อสร้างตอนจบใหม่ โดยทำซ้ำขั้นตอนนี้ด้วยเรื่องราวทดสอบที่แตกต่างกัน 50 เรื่อง ประการที่สอง พวกเขาสั่งให้ GPT-4 ให้คะแนนตอนจบของโมเดลขนาดเล็กแต่ละตอนตามสามประเภท ได้แก่ ความคิดสร้างสรรค์ ไวยากรณ์ และความสอดคล้องกับจุดเริ่มต้นของเรื่องราว จากนั้นพวกเขาก็เฉลี่ยคะแนนในแต่ละหมวดหมู่ และจบลงด้วยคะแนนสุดท้าย XNUMX คะแนนต่อรุ่น

ด้วยขั้นตอนนี้ ในที่สุดเอลดันและหลี่ก็พร้อมที่จะเปรียบเทียบโมเดลต่างๆ และค้นหาว่าใครคือนักเรียนดาวเด่น

ผลการทดสอบ

หลังจากการสำรวจเบื้องต้น นักวิจัยทั้งสองก็ตกลงกับชุดข้อมูลการฝึกอบรมที่มีเรื่องราวประมาณ 2 ล้านเรื่อง จากนั้นพวกเขาใช้ชุดข้อมูลนี้ซึ่งมีชื่อว่า TinyStories เพื่อฝึกโมเดลที่มีขนาดตั้งแต่ 1 ล้านถึง 30 ล้านพารามิเตอร์ โดยมีจำนวนเลเยอร์ที่แตกต่างกัน เป็นงานที่รวดเร็ว: ด้วยการใช้ GPU เพียงสี่ตัว โมเดลที่ใหญ่ที่สุดเหล่านี้ใช้เวลาฝึกอบรมไม่เกินหนึ่งวัน

รุ่นที่เล็กที่สุดต้องดิ้นรน ตัวอย่างเช่น เรื่องราวทดสอบเรื่องหนึ่งเริ่มต้นด้วยชายหน้าตาใจร้ายบอกหญิงสาวว่าเขาจะพาแมวของเธอไป แบบจำลองล้านพารามิเตอร์ติดอยู่กับการที่หญิงสาวบอกผู้ชายซ้ำแล้วซ้ำเล่าว่าเธออยากเป็นเพื่อน แต่อันที่ใหญ่กว่าซึ่งยังเล็กกว่า GPT-3.5 หลายพันเท่าก็ทำงานได้ดีอย่างน่าประหลาดใจ เวอร์ชัน 28 ล้านพารามิเตอร์บอกเล่าเรื่องราวที่สอดคล้องกัน แม้ว่าตอนจบจะดูน่ากลัว: “เคธี่เริ่มร้องไห้ แต่ผู้ชายคนนั้นไม่สนใจ เขาพาแมวตัวนั้นออกไป และ Katie ก็ไม่เคยเห็นแมวของเธออีกเลย ตอนจบ."

นอกเหนือจากการทดสอบโมเดลของตัวเองแล้ว Eldan และ Li ยังนำเสนอความท้าทายแบบเดียวกันกับ GPT-2 ของ OpenAI ซึ่งเป็นโมเดลพารามิเตอร์ 1.5 พันล้านที่เปิดตัวในปี 2019 ซึ่งแย่กว่านั้นมาก ก่อนที่เรื่องราวจะจบลงอย่างกะทันหัน ชายคนนั้นขู่ว่าจะพาเด็กผู้หญิงไป ไปยังศาล คุก โรงพยาบาล ห้องดับจิต และสุดท้ายคือโรงเผาศพ

บทนำ

เหงียนกล่าวว่าเป็นเรื่องน่าตื่นเต้นที่โมเดลขนาดเล็กดังกล่าวคล่องแคล่วมาก แต่อาจไม่น่าแปลกใจที่ GPT-2 ต้องดิ้นรนกับงานนี้ เนื่องจากเป็นโมเดลที่ใหญ่กว่าแต่ยังห่างไกลจากความทันสมัย ​​และได้รับการฝึกโดยใช้ชุดข้อมูลที่แตกต่างกันมาก “การฝึกเด็กวัยหัดเดินเฉพาะงานของเด็กวัยหัดเดิน เช่น การเล่นของเล่น อาจทำได้ดีกว่าคุณหรือฉัน” เขากล่าว “เราไม่ได้เชี่ยวชาญเรื่องง่ายๆ นี้”

การเปรียบเทียบระหว่างโมเดล TinyStories ต่างๆ จะไม่ได้รับผลกระทบจากปัจจัยที่ทำให้เกิดความสับสนเหมือนกัน เอลดันและหลี่สังเกตเห็นคำใบ้ว่าเครือข่ายที่มีเลเยอร์น้อยกว่าแต่มีจำนวนเซลล์ประสาทต่อเลเยอร์มากกว่า จะสามารถตอบคำถามที่ต้องใช้ความรู้เชิงข้อเท็จจริงได้ดีกว่า ในทางกลับกัน เครือข่ายที่มีเลเยอร์มากกว่าและมีเซลล์ประสาทต่อเลเยอร์น้อยลง จะสามารถติดตามตัวละครและจุดพล็อตเรื่องจากตอนต้นของเรื่องได้ดีกว่า ภควัตตุลาพบว่าผลลัพธ์นี้น่าสนใจเป็นอย่างยิ่ง หากสามารถจำลองแบบในโมเดลที่ใหญ่ขึ้นได้ เขากล่าวว่า "นั่นจะเป็นผลลัพธ์ที่ยอดเยี่ยมจริงๆ ที่อาจเกิดจากงานนี้"

เอลดันและหลี่ยังได้ศึกษาว่าความสามารถของโมเดลตัวเล็กของพวกเขานั้นขึ้นอยู่กับระยะเวลาการฝึกอย่างไร ในทุกกรณี โมเดลจะเชี่ยวชาญไวยากรณ์ก่อนแล้วจึงมีความสอดคล้องกันในภายหลัง สำหรับ Eldan รูปแบบนี้แสดงให้เห็นว่าความแตกต่างในโครงสร้างรางวัลนำไปสู่ความแตกต่างในรูปแบบการเรียนรู้ภาษาระหว่างโครงข่ายประสาทเทียมและเด็ก สำหรับโมเดลภาษาที่เรียนรู้โดยการทำนายคำศัพท์ “แรงจูงใจของคำว่า 'ฉันอยากมี' นั้นใหญ่พอๆ กับคำว่า 'ไอศกรีม'” เขากล่าว ในทางกลับกัน เด็กๆ “ไม่สนใจว่าพวกเขาจะพูดว่า 'ฉันอยากกินไอศกรีม' หรือแค่ 'ไอศกรีม ไอศกรีม ไอศกรีม'”

คุณภาพกับปริมาณ

Eldan และ Li หวังว่างานวิจัยนี้จะกระตุ้นให้นักวิจัยคนอื่นๆ ฝึกฝนโมเดลต่างๆ ชุดข้อมูล TinyStories และเปรียบเทียบความสามารถของพวกเขา แต่มักเป็นเรื่องยากที่จะคาดเดาได้ว่าคุณลักษณะใดของโมเดลขนาดเล็กที่จะปรากฏในโมเดลที่ใหญ่กว่าด้วย

“บางทีแบบจำลองการมองเห็นของเมาส์อาจเป็นตัวแทนการมองเห็นของมนุษย์ที่ดีจริงๆ แต่แบบจำลองเมาส์ของภาวะซึมเศร้านั้นเป็นแบบจำลองที่ดีของภาวะซึมเศร้าของมนุษย์หรือไม่” พาฟลิคกล่าว “สำหรับทุกๆ กรณี มันแตกต่างกันเล็กน้อย”

ความสำเร็จของโมเดล TinyStories ยังชี้ให้เห็นบทเรียนที่กว้างขึ้นอีกด้วย แนวทางมาตรฐานในการรวบรวมชุดข้อมูลการฝึกอบรมเกี่ยวข้องกับการดูดข้อความจากอินเทอร์เน็ตแล้วกรองขยะออก ข้อความสังเคราะห์ที่สร้างโดยแบบจำลองขนาดใหญ่อาจเป็นอีกทางเลือกหนึ่งในการรวบรวมชุดข้อมูลคุณภาพสูงที่ไม่จำเป็นต้องมีขนาดใหญ่มาก

“เรามีหลักฐานมากขึ้นเรื่อยๆ ว่าสิ่งนี้มีประสิทธิภาพมาก ไม่เพียงแต่ในโมเดลขนาด TinyStories เท่านั้น แต่ยังรวมถึงโมเดลที่ใหญ่กว่าด้วย” Eldan กล่าว หลักฐานดังกล่าวมาจากเอกสารติดตามผลสองฉบับเกี่ยวกับแบบจำลองพันล้านพารามิเตอร์โดย Eldan, Li และนักวิจัย Microsoft คนอื่นๆ ใน กระดาษแผ่นแรกพวกเขาฝึกโมเดลเพื่อเรียนรู้ภาษาการเขียนโปรแกรม Python โดยใช้ตัวอย่างโค้ดที่สร้างโดย GPT-3.5 พร้อมด้วยโค้ดที่ได้รับการดูแลจัดการอย่างระมัดระวังจากอินเทอร์เน็ต ใน ที่สองพวกเขาเพิ่มชุดข้อมูลการฝึกอบรมด้วย "หนังสือเรียน" สังเคราะห์ซึ่งครอบคลุมหัวข้อต่างๆ มากมาย เพื่อฝึกโมเดลภาษาสำหรับวัตถุประสงค์ทั่วไป ในการทดสอบ ทั้งสองโมเดลเปรียบเทียบได้ดีกับโมเดลขนาดใหญ่ที่ฝึกฝนกับชุดข้อมูลขนาดใหญ่ แต่การประเมินโมเดลภาษานั้นยุ่งยากอยู่เสมอ และวิธีการใช้ข้อมูลการฝึกอบรมแบบสังเคราะห์ยังอยู่ในช่วงเริ่มต้น — จำเป็นต้องมีการทดสอบอิสระเพิ่มเติม

ในขณะที่โมเดลภาษาที่ล้ำสมัยขยายใหญ่ขึ้นเรื่อยๆ การค้นพบที่น่าแปลกใจจากลูกพี่ลูกน้องตัวน้อยของพวกเขาเป็นสิ่งเตือนใจว่ายังมีอีกมากที่เราไม่เข้าใจแม้แต่โมเดลที่เรียบง่ายที่สุด เหงียนคาดหวังว่าจะได้เห็นเอกสารอื่นๆ อีกมากมายที่สำรวจแนวทางที่ TinyStories บุกเบิก

“คำถามคือ ขนาดมีความสำคัญที่ไหนและเพราะเหตุใด” เขาพูดว่า. “ควรมีวิทยาศาสตร์ในเรื่องนี้ และหวังว่าบทความนี้จะเป็นจุดเริ่มต้นของเรื่องราวอันเข้มข้น”

ประทับเวลา:

เพิ่มเติมจาก ควอนทามากาซีน