บทนำ
การเรียนภาษาอังกฤษไม่ใช่เรื่องง่าย อย่างที่นักเรียนจำนวนนับไม่ถ้วนรู้ดี แต่เมื่อนักเรียนเป็นคอมพิวเตอร์ วิธีการหนึ่งก็ใช้ได้ผลดีอย่างน่าประหลาดใจ นั่นคือ เพียงป้อนข้อความจำนวนมากจากอินเทอร์เน็ตไปยังแบบจำลองทางคณิตศาสตร์ขนาดยักษ์ที่เรียกว่าโครงข่ายประสาทเทียม นั่นคือหลักการทำงานเบื้องหลังโมเดลภาษาเชิงกำเนิด เช่น ChatGPT ของ OpenAI ซึ่งความสามารถในการสนทนาอย่างสอดคล้องกัน (หากไม่ใช่ความจริงเสมอไป) ในหัวข้อต่างๆ มากมาย ทำให้นักวิจัยและสาธารณชนประหลาดใจในปีที่ผ่านมา
แต่วิธีการนี้มีข้อเสีย ประการหนึ่งคือ ขั้นตอน "การฝึกอบรม" ที่จำเป็นในการแปลงข้อความที่เก็บถาวรจำนวนมากให้กลายเป็นโมเดลภาษาที่ล้ำสมัยนั้นมีค่าใช้จ่ายสูงและใช้เวลามาก อีกประการหนึ่ง แม้แต่คนที่ฝึกโมเดลภาษาขนาดใหญ่ก็พบว่ามันยากที่จะเข้าใจการทำงานภายในของพวกเขา ในทางกลับกัน ทำให้ยากต่อการคาดเดาถึงวิธีที่พวกเขาจะล้มเหลวได้
เมื่อเผชิญกับความยากลำบากเหล่านี้ นักวิจัยบางคนจึงเลือกที่จะฝึกอบรม รุ่นเล็ก บนชุดข้อมูลขนาดเล็ก จากนั้นจึงศึกษาพฤติกรรมของข้อมูลเหล่านั้น “มันเหมือนกับการเรียงลำดับ แมลงหวี่ จีโนมกับการจัดลำดับจีโนมมนุษย์” กล่าว เอลลี่ พาฟลิคนักวิจัยแบบจำลองภาษาที่มหาวิทยาลัยบราวน์
ตอนนี้ใน กระดาษ โพสต์เมื่อเร็ว ๆ นี้บนเซิร์ฟเวอร์ preprint ทางวิทยาศาสตร์ arxiv.org นักวิจัยของ Microsoft คู่หนึ่งได้แนะนำวิธีการใหม่ในการฝึกอบรมโมเดลภาษาเล็ก ๆ: เลี้ยงพวกเขาด้วยอาหารที่เข้มงวดจากเรื่องราวของเด็ก
นักวิจัยด้านแมชชีนเลิร์นนิงยอมรับบทเรียนนี้ GPT-3.5 ซึ่งเป็นโมเดลภาษาขนาดใหญ่ที่ขับเคลื่อนอินเทอร์เฟซ ChatGPT มีพารามิเตอร์เกือบ 200 แสนล้านพารามิเตอร์ และได้รับการฝึกชุดข้อมูลที่ประกอบด้วยคำหลายแสนล้านคำ (OpenAI ยังไม่ได้เปิดเผยตัวเลขที่เกี่ยวข้องสำหรับผู้สืบทอด GPT-4) โดยทั่วไปแล้ว การฝึกอบรมโมเดลขนาดใหญ่ดังกล่าวต้องใช้โปรเซสเซอร์พิเศษอย่างน้อย 1,000 ตัวที่เรียกว่า GPU ที่ทำงานขนานกันเป็นเวลาหลายสัปดาห์ในแต่ละครั้ง มีเพียงไม่กี่บริษัทเท่านั้นที่สามารถรวบรวมทรัพยากรที่จำเป็น ไม่ต้องพูดถึงการฝึกอบรมและเปรียบเทียบรุ่นต่างๆ
นักวิจัยทั้งสองแสดงให้เห็นว่าแบบจำลองภาษาที่มีขนาดเล็กกว่าระบบที่ทันสมัยในปัจจุบันหลายพันเท่าเรียนรู้อย่างรวดเร็วในการบอกเล่าเรื่องราวที่สอดคล้องกันและไวยากรณ์เมื่อได้รับการฝึกฝนในลักษณะนี้ ผลลัพธ์ของพวกเขาบ่งบอกถึงแนวทางการวิจัยใหม่ที่อาจเป็นประโยชน์ในการฝึกโมเดลขนาดใหญ่และทำความเข้าใจพฤติกรรมของพวกเขา
“ฉันพบว่าบทความนี้มีข้อมูลมาก” กล่าว จันทรา ภะกะวะตุลานักวิจัยแบบจำลองภาษาที่ Allen Institute for Artificial Intelligence ในซีแอตเทิล “แนวคิดนี้น่าสนใจอย่างยิ่ง”
กาลครั้งหนึ่ง
โครงข่ายประสาทเทียมที่เป็นหัวใจของแบบจำลองภาษาเป็นโครงสร้างทางคณิตศาสตร์ที่ได้รับแรงบันดาลใจอย่างหลวมๆ จากสมองของมนุษย์ แต่ละอันประกอบด้วยเซลล์ประสาทเทียมจำนวนมากที่จัดเรียงเป็นชั้นๆ โดยมีการเชื่อมต่อระหว่างเซลล์ประสาทในชั้นที่อยู่ติดกัน พฤติกรรมของโครงข่ายประสาทเทียมนั้นควบคุมโดยความแรงของการเชื่อมต่อเหล่านี้ ซึ่งเรียกว่าพารามิเตอร์ ในโมเดลภาษา พารามิเตอร์จะควบคุมคำที่โมเดลอาจคายออกมาเป็นลำดับถัดไป โดยได้รับพร้อมท์เริ่มต้นและคำที่โมเดลนั้นได้สร้างขึ้นแล้ว
โมเดลจะมีชีวิตชีวาอย่างแท้จริงในระหว่างการฝึก เมื่อเปรียบเทียบเอาต์พุตของตัวเองกับข้อความในชุดข้อมูลการฝึกซ้ำๆ และปรับพารามิเตอร์เพื่อเพิ่มความคล้ายคลึง เครือข่ายที่ไม่ได้รับการฝึกฝนพร้อมพารามิเตอร์แบบสุ่มนั้นประกอบได้ง่ายเล็กน้อยโดยใช้โค้ดเพียงไม่กี่บรรทัด แต่มันจะทำให้เกิดคำพูดที่ไม่มีความหมาย หลังการฝึก มักจะสามารถอ่านข้อความที่ไม่คุ้นเคยต่อไปได้ โมเดลขนาดใหญ่มักจะได้รับการปรับแต่งเพิ่มเติมเพื่อสอนให้ตอบคำถามและปฏิบัติตามคำแนะนำ แต่การฝึกอบรมส่วนใหญ่คือการเชี่ยวชาญการคาดเดาคำ
ความสำเร็จในการทำนายคำต้องใช้แบบจำลองภาษาเพื่อฝึกฝนทักษะต่างๆ มากมาย ตัวอย่างเช่น กฎไวยากรณ์ภาษาอังกฤษแนะนำว่าคำถัดไปหลังคำว่า "going" มักจะเป็น "to" โดยไม่คำนึงถึงหัวข้อของข้อความ นอกจากนี้ ระบบยังต้องการความรู้เชิงข้อเท็จจริงเพื่อกรอก "เมืองหลวงของฝรั่งเศส" และกรอกข้อความที่มีเนื้อหาให้สมบูรณ์ คำว่า "ไม่" ต้องใช้ตรรกะเบื้องต้น
“ภาษาดิบมีความซับซ้อนมาก” กล่าว ทิโมธี เหงียนนักวิจัยด้านแมชชีนเลิร์นนิงที่ DeepMind “เพื่อให้ความสามารถทางภาษาที่น่าสนใจเกิดขึ้น ผู้คนจึงหันมาใช้ 'ข้อมูลมากขึ้นจะดีกว่า'”
บทนำ
โรเนน เอลดานนักคณิตศาสตร์ที่เข้าร่วม Microsoft Research ในปี 2022 เพื่อศึกษาโมเดลภาษาเชิงสร้างสรรค์ ต้องการพัฒนาวิธีที่ถูกกว่าและเร็วกว่าในการสำรวจความสามารถของพวกเขา วิธีธรรมชาติในการดำเนินการดังกล่าวคือการใช้ชุดข้อมูลขนาดเล็ก และในทางกลับกัน นั่นหมายความว่าเขาต้องฝึกโมเดลให้มีความเชี่ยวชาญเฉพาะด้าน เพื่อไม่ให้โมเดลกระจายตัวจนเกินไป ในตอนแรก เขาต้องการฝึกแบบจำลองเพื่อแก้ปัญหาคณิตศาสตร์บางชั้นเรียน แต่บ่ายวันหนึ่ง หลังจากใช้เวลากับลูกสาววัย 5 ขวบ เขาก็ตระหนักว่าเรื่องราวของเด็กๆ เหมาะสมอย่างยิ่ง
“มันเกิดขึ้นกับฉันจริงๆ หลังจากที่ฉันได้อ่านเรื่องราวของเธอ” เขากล่าว
เพื่อสร้างเรื่องราวของเด็กที่สอดคล้องกัน โมเดลภาษาจะต้องเรียนรู้ข้อเท็จจริงเกี่ยวกับโลก ติดตามตัวละครและเหตุการณ์ และปฏิบัติตามกฎของไวยากรณ์ ซึ่งเป็นความท้าทายที่ต้องเผชิญกับโมเดลขนาดใหญ่ในรูปแบบที่เรียบง่ายกว่า แต่โมเดลขนาดใหญ่ที่ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลขนาดใหญ่จะเรียนรู้รายละเอียดที่ไม่เกี่ยวข้องนับไม่ถ้วนพร้อมกับกฎที่สำคัญจริงๆ Eldan หวังว่าความสั้นและคำศัพท์ที่จำกัดของนิทานเด็กอาจทำให้การเรียนรู้สำหรับโมเดลขนาดเล็กจัดการได้ง่ายขึ้น ทำให้ทั้งฝึกและเข้าใจได้ง่ายขึ้น
อย่างไรก็ตาม ในโลกของแบบจำลองภาษา "เล็ก" มีความเกี่ยวข้องกัน โดยชุดข้อมูลที่มีขนาดเล็กกว่าชุดข้อมูลที่ใช้ในการฝึก GPT-3.5 ถึงพันเท่า ยังคงต้องมีเรื่องราวนับล้านเรื่อง “ฉันไม่รู้ว่าคุณต้องการใช้เงินเท่าไหร่ แต่ฉันเดาว่าคุณจะไม่จ้างมืออาชีพมาเขียนเรื่องสั้น [สองสามล้าน]” เหงียนกล่าว
ต้องใช้นักเขียนที่มีผลงานมากเป็นพิเศษจึงจะตอบสนองผู้อ่านที่คลั่งไคล้เช่นนี้ได้ แต่เอลดันมีผู้สมัครอยู่ในใจอยู่สองสามคน ใครจะเขียนให้ผู้ชมที่ใช้ภาษาขนาดเล็กได้ดีกว่าคนตัวใหญ่?
ทอยสตอรี่
เอลดานเริ่มสร้างห้องสมุดนิทานเด็กสังเคราะห์ที่สร้างจากแบบจำลองภาษาขนาดใหญ่ทันที แต่ในไม่ช้าเขาก็ค้นพบว่าแม้แต่โมเดลที่ล้ำสมัยก็ไม่มีความคิดสร้างสรรค์โดยธรรมชาติ หากคุณบอก GPT-4 ให้เขียนเรื่องราวที่เหมาะสมสำหรับเด็กอายุ 4 ขวบ Eldan กล่าวว่า “ประมาณหนึ่งในห้าของเรื่องราวจะเป็นเรื่องเกี่ยวกับเด็ก ๆ ที่ไปสวนสาธารณะเพราะกลัวสไลเดอร์” เห็นได้ชัดว่าเป็นเรื่องราวสำหรับเด็กก่อนวัยเรียนที่เป็นแก่นสาร เท่าที่เกี่ยวกับอินเทอร์เน็ต
วิธีแก้ไขคือเพิ่มการสุ่มเล็กน้อยลงในพรอมต์ ขั้นแรก Eldan ใช้ GPT-4 เพื่อสร้างรายการคำนาม กริยา และคำคุณศัพท์จำนวน 1,500 คำที่เด็กอายุ 4 ขวบอาจรู้ ซึ่งสั้นพอที่จะตรวจสอบด้วยตนเองได้อย่างง่ายดาย จากนั้นเขาก็เขียนโปรแกรมคอมพิวเตอร์ง่ายๆ ที่จะสั่งให้ GPT-3.5 หรือ GPT-4 ซ้ำๆ เพื่อสร้างเรื่องราวที่เหมาะสมกับวัยซึ่งมีคำสุ่มสามคำจากรายการ พร้อมด้วยรายละเอียดที่เลือกแบบสุ่มเพิ่มเติม เช่น ตอนจบที่มีความสุขหรือการหักมุมของโครงเรื่อง เรื่องราวที่เกิดขึ้นจะเน้นไปที่สไลด์ที่น่ากลัวน้อยลง
ตอนนี้เอลดันมีขั้นตอนในการปั่นข้อมูลการฝึกตามความต้องการ แต่เขาไม่รู้ว่าเขาต้องใช้เรื่องราวกี่เรื่องในการฝึกโมเดลเชิงฟังก์ชัน หรือโมเดลนั้นต้องใหญ่แค่ไหน นั่นคือตอนที่เขาร่วมทีมด้วย หยวนจือ ลี่ซึ่งเป็นนักวิจัยแมชชีนเลิร์นนิงที่ Microsoft และ Carnegie Mellon University ที่ต้องการลองความเป็นไปได้ต่างๆ โดยใช้ประโยชน์จากความจริงที่ว่าโมเดลขนาดเล็กสามารถฝึกได้เร็วมาก ขั้นตอนที่ 1 คือการตัดสินใจว่าจะประเมินแบบจำลองของตนอย่างไร
บทนำ
ในการวิจัยแบบจำลองภาษา เช่นเดียวกับในห้องเรียนทุกห้อง การให้เกรดเป็นหัวข้อที่เต็มไปด้วยปัญหา มี ไม่มีรูบริกที่สมบูรณ์แบบ ที่สรุปทุกสิ่งที่นักวิจัยต้องการทราบ และแบบจำลองที่เก่งในงานบางงานมักจะล้มเหลวอย่างน่าทึ่งที่งานอื่น เมื่อเวลาผ่านไป นักวิจัยได้พัฒนาเกณฑ์มาตรฐานต่างๆ โดยอิงจากคำถามที่มีคำตอบที่ชัดเจน ซึ่งเป็นแนวทางที่ดีหากคุณพยายามประเมินทักษะเฉพาะด้าน แต่ Eldan และ Li สนใจในสิ่งที่คลุมเครือกว่านี้: โมเดลภาษาจำเป็นต้องมีขนาดใหญ่แค่ไหนหากคุณทำให้ภาษาง่ายขึ้นมากที่สุด?
“เพื่อทดสอบโดยตรงว่าโมเดลพูดภาษาอังกฤษได้หรือไม่ ฉันคิดว่าสิ่งเดียวที่คุณทำได้คือปล่อยให้โมเดลสร้างภาษาอังกฤษด้วยวิธีปลายเปิด” Eldan กล่าว
มีเพียงสองวิธีในการวัดประสิทธิภาพของแบบจำลองสำหรับคำถามเชิงคุณภาพดังกล่าว: อาศัยผู้ให้คะแนนที่เป็นมนุษย์ หรือเปลี่ยนมาใช้ GPT-4 อีกครั้ง นักวิจัยทั้งสองเลือกเส้นทางหลัง โดยปล่อยให้แบบจำลองขนาดใหญ่ทั้งเขียนตำราเรียนและให้คะแนนเรียงความอย่างมีประสิทธิภาพ
Bhagavatula กล่าวว่าเขาอยากจะเห็นว่าการประเมินของ GPT-4 เป็นอย่างไรเมื่อเปรียบเทียบกับการประเมินของมนุษย์ GPT-4 อาจมีอคติต่อแบบจำลองที่ช่วยฝึกฝน และความทึบแสงของแบบจำลองภาษาทำให้ยากต่อการหาปริมาณของอคติดังกล่าว แต่เขาไม่คิดว่ารายละเอียดปลีกย่อยดังกล่าวจะส่งผลต่อการเปรียบเทียบระหว่างโมเดลต่างๆ ที่ได้รับการฝึกมาในชุดเรื่องราวสังเคราะห์ที่คล้ายคลึงกัน ซึ่งเป็นจุดสนใจหลักของงานของเอลดานและหลี่
เอลดันและหลี่ใช้ขั้นตอนสองขั้นตอนในการประเมินโมเดลขนาดเล็กแต่ละอันหลังการฝึก ขั้นแรก พวกเขาสร้างโมเดลขนาดเล็กโดยให้ครึ่งแรกของเรื่องราวแตกต่างจากที่อยู่ในชุดข้อมูลการฝึกอบรม เพื่อสร้างตอนจบใหม่ โดยทำซ้ำขั้นตอนนี้ด้วยเรื่องราวทดสอบที่แตกต่างกัน 50 เรื่อง ประการที่สอง พวกเขาสั่งให้ GPT-4 ให้คะแนนตอนจบของโมเดลขนาดเล็กแต่ละตอนตามสามประเภท ได้แก่ ความคิดสร้างสรรค์ ไวยากรณ์ และความสอดคล้องกับจุดเริ่มต้นของเรื่องราว จากนั้นพวกเขาก็เฉลี่ยคะแนนในแต่ละหมวดหมู่ และจบลงด้วยคะแนนสุดท้าย XNUMX คะแนนต่อรุ่น
ด้วยขั้นตอนนี้ ในที่สุดเอลดันและหลี่ก็พร้อมที่จะเปรียบเทียบโมเดลต่างๆ และค้นหาว่าใครคือนักเรียนดาวเด่น
ผลการทดสอบ
หลังจากการสำรวจเบื้องต้น นักวิจัยทั้งสองก็ตกลงกับชุดข้อมูลการฝึกอบรมที่มีเรื่องราวประมาณ 2 ล้านเรื่อง จากนั้นพวกเขาใช้ชุดข้อมูลนี้ซึ่งมีชื่อว่า TinyStories เพื่อฝึกโมเดลที่มีขนาดตั้งแต่ 1 ล้านถึง 30 ล้านพารามิเตอร์ โดยมีจำนวนเลเยอร์ที่แตกต่างกัน เป็นงานที่รวดเร็ว: ด้วยการใช้ GPU เพียงสี่ตัว โมเดลที่ใหญ่ที่สุดเหล่านี้ใช้เวลาฝึกอบรมไม่เกินหนึ่งวัน
รุ่นที่เล็กที่สุดต้องดิ้นรน ตัวอย่างเช่น เรื่องราวทดสอบเรื่องหนึ่งเริ่มต้นด้วยชายหน้าตาใจร้ายบอกหญิงสาวว่าเขาจะพาแมวของเธอไป แบบจำลองล้านพารามิเตอร์ติดอยู่กับการที่หญิงสาวบอกผู้ชายซ้ำแล้วซ้ำเล่าว่าเธออยากเป็นเพื่อน แต่อันที่ใหญ่กว่าซึ่งยังเล็กกว่า GPT-3.5 หลายพันเท่าก็ทำงานได้ดีอย่างน่าประหลาดใจ เวอร์ชัน 28 ล้านพารามิเตอร์บอกเล่าเรื่องราวที่สอดคล้องกัน แม้ว่าตอนจบจะดูน่ากลัว: “เคธี่เริ่มร้องไห้ แต่ผู้ชายคนนั้นไม่สนใจ เขาพาแมวตัวนั้นออกไป และ Katie ก็ไม่เคยเห็นแมวของเธออีกเลย ตอนจบ."
นอกเหนือจากการทดสอบโมเดลของตัวเองแล้ว Eldan และ Li ยังนำเสนอความท้าทายแบบเดียวกันกับ GPT-2 ของ OpenAI ซึ่งเป็นโมเดลพารามิเตอร์ 1.5 พันล้านที่เปิดตัวในปี 2019 ซึ่งแย่กว่านั้นมาก ก่อนที่เรื่องราวจะจบลงอย่างกะทันหัน ชายคนนั้นขู่ว่าจะพาเด็กผู้หญิงไป ไปยังศาล คุก โรงพยาบาล ห้องดับจิต และสุดท้ายคือโรงเผาศพ
บทนำ
เหงียนกล่าวว่าเป็นเรื่องน่าตื่นเต้นที่โมเดลขนาดเล็กดังกล่าวคล่องแคล่วมาก แต่อาจไม่น่าแปลกใจที่ GPT-2 ต้องดิ้นรนกับงานนี้ เนื่องจากเป็นโมเดลที่ใหญ่กว่าแต่ยังห่างไกลจากความทันสมัย และได้รับการฝึกโดยใช้ชุดข้อมูลที่แตกต่างกันมาก “การฝึกเด็กวัยหัดเดินเฉพาะงานของเด็กวัยหัดเดิน เช่น การเล่นของเล่น อาจทำได้ดีกว่าคุณหรือฉัน” เขากล่าว “เราไม่ได้เชี่ยวชาญเรื่องง่ายๆ นี้”
การเปรียบเทียบระหว่างโมเดล TinyStories ต่างๆ จะไม่ได้รับผลกระทบจากปัจจัยที่ทำให้เกิดความสับสนเหมือนกัน เอลดันและหลี่สังเกตเห็นคำใบ้ว่าเครือข่ายที่มีเลเยอร์น้อยกว่าแต่มีจำนวนเซลล์ประสาทต่อเลเยอร์มากกว่า จะสามารถตอบคำถามที่ต้องใช้ความรู้เชิงข้อเท็จจริงได้ดีกว่า ในทางกลับกัน เครือข่ายที่มีเลเยอร์มากกว่าและมีเซลล์ประสาทต่อเลเยอร์น้อยลง จะสามารถติดตามตัวละครและจุดพล็อตเรื่องจากตอนต้นของเรื่องได้ดีกว่า ภควัตตุลาพบว่าผลลัพธ์นี้น่าสนใจเป็นอย่างยิ่ง หากสามารถจำลองแบบในโมเดลที่ใหญ่ขึ้นได้ เขากล่าวว่า "นั่นจะเป็นผลลัพธ์ที่ยอดเยี่ยมจริงๆ ที่อาจเกิดจากงานนี้"
เอลดันและหลี่ยังได้ศึกษาว่าความสามารถของโมเดลตัวเล็กของพวกเขานั้นขึ้นอยู่กับระยะเวลาการฝึกอย่างไร ในทุกกรณี โมเดลจะเชี่ยวชาญไวยากรณ์ก่อนแล้วจึงมีความสอดคล้องกันในภายหลัง สำหรับ Eldan รูปแบบนี้แสดงให้เห็นว่าความแตกต่างในโครงสร้างรางวัลนำไปสู่ความแตกต่างในรูปแบบการเรียนรู้ภาษาระหว่างโครงข่ายประสาทเทียมและเด็ก สำหรับโมเดลภาษาที่เรียนรู้โดยการทำนายคำศัพท์ “แรงจูงใจของคำว่า 'ฉันอยากมี' นั้นใหญ่พอๆ กับคำว่า 'ไอศกรีม'” เขากล่าว ในทางกลับกัน เด็กๆ “ไม่สนใจว่าพวกเขาจะพูดว่า 'ฉันอยากกินไอศกรีม' หรือแค่ 'ไอศกรีม ไอศกรีม ไอศกรีม'”
คุณภาพกับปริมาณ
Eldan และ Li หวังว่างานวิจัยนี้จะกระตุ้นให้นักวิจัยคนอื่นๆ ฝึกฝนโมเดลต่างๆ ชุดข้อมูล TinyStories และเปรียบเทียบความสามารถของพวกเขา แต่มักเป็นเรื่องยากที่จะคาดเดาได้ว่าคุณลักษณะใดของโมเดลขนาดเล็กที่จะปรากฏในโมเดลที่ใหญ่กว่าด้วย
“บางทีแบบจำลองการมองเห็นของเมาส์อาจเป็นตัวแทนการมองเห็นของมนุษย์ที่ดีจริงๆ แต่แบบจำลองเมาส์ของภาวะซึมเศร้านั้นเป็นแบบจำลองที่ดีของภาวะซึมเศร้าของมนุษย์หรือไม่” พาฟลิคกล่าว “สำหรับทุกๆ กรณี มันแตกต่างกันเล็กน้อย”
ความสำเร็จของโมเดล TinyStories ยังชี้ให้เห็นบทเรียนที่กว้างขึ้นอีกด้วย แนวทางมาตรฐานในการรวบรวมชุดข้อมูลการฝึกอบรมเกี่ยวข้องกับการดูดข้อความจากอินเทอร์เน็ตแล้วกรองขยะออก ข้อความสังเคราะห์ที่สร้างโดยแบบจำลองขนาดใหญ่อาจเป็นอีกทางเลือกหนึ่งในการรวบรวมชุดข้อมูลคุณภาพสูงที่ไม่จำเป็นต้องมีขนาดใหญ่มาก
“เรามีหลักฐานมากขึ้นเรื่อยๆ ว่าสิ่งนี้มีประสิทธิภาพมาก ไม่เพียงแต่ในโมเดลขนาด TinyStories เท่านั้น แต่ยังรวมถึงโมเดลที่ใหญ่กว่าด้วย” Eldan กล่าว หลักฐานดังกล่าวมาจากเอกสารติดตามผลสองฉบับเกี่ยวกับแบบจำลองพันล้านพารามิเตอร์โดย Eldan, Li และนักวิจัย Microsoft คนอื่นๆ ใน กระดาษแผ่นแรกพวกเขาฝึกโมเดลเพื่อเรียนรู้ภาษาการเขียนโปรแกรม Python โดยใช้ตัวอย่างโค้ดที่สร้างโดย GPT-3.5 พร้อมด้วยโค้ดที่ได้รับการดูแลจัดการอย่างระมัดระวังจากอินเทอร์เน็ต ใน ที่สองพวกเขาเพิ่มชุดข้อมูลการฝึกอบรมด้วย "หนังสือเรียน" สังเคราะห์ซึ่งครอบคลุมหัวข้อต่างๆ มากมาย เพื่อฝึกโมเดลภาษาสำหรับวัตถุประสงค์ทั่วไป ในการทดสอบ ทั้งสองโมเดลเปรียบเทียบได้ดีกับโมเดลขนาดใหญ่ที่ฝึกฝนกับชุดข้อมูลขนาดใหญ่ แต่การประเมินโมเดลภาษานั้นยุ่งยากอยู่เสมอ และวิธีการใช้ข้อมูลการฝึกอบรมแบบสังเคราะห์ยังอยู่ในช่วงเริ่มต้น — จำเป็นต้องมีการทดสอบอิสระเพิ่มเติม
ในขณะที่โมเดลภาษาที่ล้ำสมัยขยายใหญ่ขึ้นเรื่อยๆ การค้นพบที่น่าแปลกใจจากลูกพี่ลูกน้องตัวน้อยของพวกเขาเป็นสิ่งเตือนใจว่ายังมีอีกมากที่เราไม่เข้าใจแม้แต่โมเดลที่เรียบง่ายที่สุด เหงียนคาดหวังว่าจะได้เห็นเอกสารอื่นๆ อีกมากมายที่สำรวจแนวทางที่ TinyStories บุกเบิก
“คำถามคือ ขนาดมีความสำคัญที่ไหนและเพราะเหตุใด” เขาพูดว่า. “ควรมีวิทยาศาสตร์ในเรื่องนี้ และหวังว่าบทความนี้จะเป็นจุดเริ่มต้นของเรื่องราวอันเข้มข้น”
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
- ที่มา: https://www.quantamagazine.org/tiny-language-models-thrive-with-gpt-4-as-a-teacher-20231005/
- :มี
- :เป็น
- :ไม่
- :ที่ไหน
- ][หน้า
- $ ขึ้น
- 000
- 1
- 200
- 200 พันล้าน
- 2019
- 2022
- 30
- 50
- 500
- a
- ความสามารถ
- ความสามารถ
- เกี่ยวกับเรา
- การครอบครอง
- ข้าม
- เพิ่ม
- นอกจากนี้
- เพิ่มเติม
- ติดกัน
- ความได้เปรียบ
- มีผลต่อ
- หลังจาก
- อีกครั้ง
- อัลเลน
- คนเดียว
- ตาม
- แล้ว
- ด้วย
- ทางเลือก
- เสมอ
- an
- และ
- แอนดรู
- อื่น
- คำตอบ
- คำตอบ
- ปรากฏ
- เข้าใกล้
- เหมาะสม
- หอจดหมายเหตุ
- เป็น
- เกิดขึ้น
- จัด
- ศิลปะ
- เทียม
- ปัญญาประดิษฐ์
- AS
- At
- ผู้ฟัง
- เติม
- ผู้เขียน
- ไป
- ตาม
- BE
- ก่อน
- การเริ่มต้น
- พฤติกรรม
- หลัง
- กำลัง
- มาตรฐาน
- ดีกว่า
- ระหว่าง
- ลำเอียง
- อคติ
- ใหญ่
- พันล้าน
- พันล้าน
- บิต
- ทั้งสอง
- ของเล่นเพิ่มพัฒนาสมอง
- ที่กว้างขึ้น
- สีน้ำตาล
- แต่
- by
- ที่เรียกว่า
- มา
- CAN
- ผู้สมัคร
- ความสามารถในการ
- เมืองหลวง
- ซึ่ง
- รอบคอบ
- Carnegie Mellon
- กรณี
- แมว
- หมวดหมู่
- หมวดหมู่
- บาง
- ท้าทาย
- ความท้าทาย
- ลักษณะ
- อักขระ
- ChatGPT
- ราคาถูก
- ตรวจสอบ
- เด็ก
- เลือก
- เลือก
- ชั้น
- รหัส
- สอดคล้องกัน
- มา
- บริษัท
- เปรียบเทียบ
- เมื่อเทียบกับ
- เปรียบเทียบ
- สมบูรณ์
- เสร็จสิ้น
- ซับซ้อน
- ประกอบไปด้วย
- คอมพิวเตอร์
- แนวคิด
- เกี่ยวข้อง
- การเชื่อมต่อ
- คงเส้นคงวา
- บรรจุ
- มี
- ต่อ
- ควบคุม
- ตรงกันข้าม
- เย็น
- ตรงกัน
- แพง
- ได้
- คู่
- ศาล
- ครอบคลุม
- สร้าง
- ความคิดสร้างสรรค์
- ความคิดสร้างสรรค์
- curated
- ข้อมูล
- ชุดข้อมูล
- ชุดข้อมูล
- วัน
- กำลังตัดสินใจ
- Deepmind
- ความต้องการ
- ดีเปรสชัน
- รายละเอียด
- รายละเอียด
- พัฒนา
- พัฒนา
- อาหาร
- ความแตกต่าง
- ต่าง
- ความยากลำบาก
- โดยตรง
- ค้นพบ
- แตกต่าง
- do
- ทำ
- ไม่
- Dont
- ข้อเสีย
- ขนานนามว่า
- ระยะเวลา
- ในระหว่าง
- แต่ละ
- ก่อน
- ง่ายดาย
- อย่างง่ายดาย
- ง่าย
- มีประสิทธิภาพ
- มีประสิทธิภาพ
- กอด
- ห่อหุ้ม
- ปลาย
- สิ้นสุด
- ภาษาอังกฤษ
- พอ
- โดยเฉพาะอย่างยิ่ง
- ประเมินค่า
- การประเมินการ
- การประเมินผล
- แม้
- เหตุการณ์
- เคย
- ทุกๆ
- ทุกอย่าง
- หลักฐาน
- ตัวอย่าง
- Excel
- น่าตื่นเต้น
- คาดว่า
- การสำรวจ
- สำรวจ
- สำรวจ
- พิเศษ
- หันหน้าไปทาง
- ความจริง
- ปัจจัย
- ข้อเท็จจริง
- ล้มเหลว
- ไกล
- เร็วขึ้น
- สองสาม
- น้อยลง
- ตัวเลข
- กรอง
- สุดท้าย
- ในที่สุด
- หา
- ผลการวิจัย
- ชื่อจริง
- พอดี
- โฟกัส
- มุ่งเน้น
- ปฏิบัติตาม
- สำหรับ
- พบ
- สี่
- ฝรั่งเศส
- เพื่อน
- ราคาเริ่มต้นที่
- การทำงาน
- ต่อไป
- จุดประสงค์ทั่วไป
- สร้าง
- สร้าง
- กำเนิด
- ยักษ์
- สาว
- กำหนด
- ไป
- ดี
- ได้
- ปกครอง
- GPUs
- เกรด
- ไวยากรณ์
- เข้าใจ
- น่ากลัว
- ขึ้น
- มี
- ครึ่ง
- มือ
- มีความสุข
- ยาก
- มี
- he
- หัวใจสำคัญ
- ช่วย
- เป็นประโยชน์
- เธอ
- ที่มีคุณภาพสูง
- คำแนะนำ
- จ้าง
- ของเขา
- ความหวัง
- หวังว่า
- โรงพยาบาล
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- ทำอย่างไร
- HTTPS
- เป็นมนุษย์
- ร้อย
- i
- ICE
- ไอศครีม
- ความคิด
- if
- แสดงให้เห็นถึง
- ทันที
- in
- แรงจูงใจ
- รวม
- เพิ่ม
- อิสระ
- ให้ข้อมูล
- แรกเริ่ม
- ในขั้นต้น
- แรงบันดาลใจ
- สถาบัน
- คำแนะนำการใช้
- Intelligence
- สนใจ
- น่าสนใจ
- อินเตอร์เฟซ
- อินเทอร์เน็ต
- เข้าไป
- ที่น่าสนใจ
- แนะนำ
- IT
- ITS
- ตัวเอง
- คุก
- เข้าร่วม
- เพียงแค่
- เก็บ
- การเก็บรักษา
- ทราบ
- ความรู้
- ภาษา
- ใหญ่
- ที่มีขนาดใหญ่
- ใหญ่ที่สุด
- ต่อมา
- ชั้น
- ชั้น
- นำ
- เรียนรู้
- ได้เรียนรู้
- การเรียนรู้
- น้อยที่สุด
- น้อยลง
- บทเรียน
- ให้
- การให้
- Li
- ห้องสมุด
- ชีวิต
- กดไลก์
- น่าจะ
- ถูก จำกัด
- เส้น
- รายการ
- น้อย
- ตรรกะ
- เครื่อง
- เรียนรู้เครื่อง
- นิตยสาร
- หลัก
- ทำ
- ทำให้
- การทำ
- มนุษย์
- จัดการได้
- หลาย
- มาก
- เจ้านาย
- Mastering
- คณิตศาสตร์
- คณิตศาสตร์
- เรื่อง
- อาจ..
- me
- หมายความว่า
- วัด
- เมลลอน
- วิธี
- ไมโครซอฟท์
- อาจ
- ล้าน
- ล้าน
- ใจ
- แบบ
- โมเดล
- เงิน
- ข้อมูลเพิ่มเติม
- มาก
- โดยธรรมชาติ
- เกือบทั้งหมด
- จำเป็น
- จำเป็นต้อง
- ความต้องการ
- เครือข่าย
- เครือข่าย
- เกี่ยวกับประสาท
- เครือข่ายประสาท
- เครือข่ายประสาทเทียม
- เซลล์ประสาท
- ไม่เคย
- ใหม่
- ถัดไป
- เหงียน
- ไม่
- เด่น
- คำนาม
- ตอนนี้
- ตัวเลข
- สังเกต
- of
- เสนอ
- มักจะ
- on
- ครั้งเดียว
- ONE
- คน
- เพียง
- ความโอ่อ่า
- OpenAI
- การดำเนินงาน
- or
- ใบสั่ง
- อื่นๆ
- ผลิตภัณฑ์อื่นๆ
- ออก
- เอาท์พุต
- เกิน
- ของตนเอง
- คู่
- กระดาษ
- เอกสาร
- Parallel
- พารามิเตอร์
- สวนสาธารณะ
- ทางเดิน
- อดีต
- แบบแผน
- รูปแบบ
- คน
- ต่อ
- สมบูรณ์
- การปฏิบัติ
- ดำเนินการ
- บางที
- ระยะเวลา
- เป็นหัวหอก
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- เล่น
- จุด
- ความเป็นไปได้
- เป็นไปได้
- โพสต์
- อำนาจ
- คาดการณ์
- ทำนาย
- คำทำนาย
- เบื้องต้น
- นำเสนอ
- หลัก
- ปัญหาที่เกิดขึ้น
- ขั้นตอนการ
- กระบวนการ
- โปรเซสเซอร์
- ก่อ
- มืออาชีพ
- โครงการ
- การเขียนโปรแกรม
- สาธารณะ
- หลาม
- เชิงคุณภาพ
- ควอนทามากาซีน
- คำถาม
- คำถาม
- รวดเร็ว
- อย่างรวดเร็ว
- แก่นสาร
- ยก
- สุ่ม
- สุ่ม
- พิสัย
- ตั้งแต่
- อย่างรวดเร็ว
- อ่าน
- ผู้อ่าน
- พร้อม
- ตระหนัก
- จริงๆ
- เมื่อเร็ว ๆ นี้
- ไม่คำนึงถึง
- ญาติ
- การเผยแพร่
- วางใจ
- ซ้ำแล้วซ้ำเล่า
- การจำลองแบบ
- จำเป็นต้องใช้
- ต้อง
- จำเป็น
- การวิจัย
- นักวิจัย
- นักวิจัย
- แหล่งข้อมูล
- ผล
- ส่งผลให้
- ผลสอบ
- รางวัล
- รวย
- ลวก
- เส้นทาง
- กฎระเบียบ
- วิ่ง
- กล่าวว่า
- เดียวกัน
- เห็น
- กล่าว
- ตกใจ
- วิทยาศาสตร์
- วิทยาศาสตร์
- ซีแอตเทิ
- ที่สอง
- เห็น
- ลำดับ
- เซิร์ฟเวอร์
- ชุด
- ชุดอุปกรณ์
- ทรงตัว
- เธอ
- สั้น
- น่า
- แสดงให้เห็นว่า
- คล้ายคลึงกัน
- ง่าย
- ที่เรียบง่าย
- ลดความซับซ้อน
- ง่ายดาย
- ขนาด
- ทักษะ
- สไลด์
- เล็ก
- มีขนาดเล็กกว่า
- So
- ทางออก
- แก้
- บาง
- บางสิ่งบางอย่าง
- ในไม่ช้า
- พูด
- มีความเชี่ยวชาญ
- เฉพาะ
- โดยเฉพาะ
- ใช้จ่าย
- การใช้จ่าย
- กระจาย
- มาตรฐาน
- ดาว
- ข้อความที่เริ่ม
- สถานะ
- รัฐของศิลปะ
- ก้านดอก
- ขั้นตอน
- ยังคง
- จำนวนชั้น
- เรื่องราว
- ความแข็งแรง
- เข้มงวด
- โครงสร้าง
- นักเรียน
- นักเรียน
- มีการศึกษา
- ศึกษา
- หรือ
- ความสำเร็จ
- อย่างเช่น
- แนะนำ
- ชี้ให้เห็นถึง
- ยิ่งใหญ่
- ประหลาดใจ
- น่าแปลกใจ
- สังเคราะห์
- ระบบ
- ระบบ
- เอา
- การ
- งาน
- งาน
- ร่วม
- บอก
- บอก
- ทดสอบ
- การทดสอบ
- การทดสอบ
- ข้อความ
- กว่า
- ที่
- พื้นที่
- รัฐ
- โลก
- ของพวกเขา
- พวกเขา
- ตัวเอง
- แล้วก็
- ล้อยางขัดเหล่านี้ติดตั้งบนแกน XNUMX (มม.) ผลิตภัณฑ์นี้ถูกผลิตในหลายรูปทรง และหลากหลายเบอร์ความแน่นหนาของปริมาณอนุภาคขัดของมัน จะทำให้ท่านได้รับประสิทธิภาพสูงในการขัดและการใช้งานที่ยาวนาน
- พวกเขา
- สิ่ง
- คิด
- นี้
- เหล่านั้น
- แต่?
- พัน
- พัน
- ขู่
- สาม
- เจริญเติบโต
- เวลา
- ครั้ง
- ไปยัง
- วันนี้
- บอก
- เกินไป
- เอา
- หัวข้อ
- หัวข้อ
- ไปทาง
- ลู่
- รถไฟ
- ผ่านการฝึกอบรม
- การฝึกอบรม
- ส่งสัญญาณ
- อย่างแท้จริง
- ลอง
- พยายาม
- กลับ
- บิด
- สอง
- เป็นปกติ
- ได้รับ
- เข้าใจ
- ความเข้าใจ
- ไม่คุ้นเคย
- มหาวิทยาลัย
- เมื่อ
- มือสอง
- การใช้
- ต่างๆ
- แตกต่างกัน
- กว้างใหญ่
- รุ่น
- รุ่น
- กับ
- มาก
- วิสัยทัศน์
- ต้องการ
- อยาก
- คือ
- ทาง..
- วิธี
- we
- webp
- สัปดาห์ที่ผ่านมา
- ดี
- คือ
- เมื่อ
- ว่า
- ที่
- WHO
- ใคร
- ทำไม
- กว้าง
- ช่วงกว้าง
- จะ
- กับ
- คำ
- คำ
- งาน
- ทำงาน
- โรงงาน
- โลก
- แย่ลง
- จะ
- เขียน
- เขียน
- ปี
- คุณ
- ลมทะเล