Microsoft ลดขนาด AI ให้เหลือขนาดพกพาด้วย Phi-3 Mini

Microsoft ลดขนาด AI ให้เหลือขนาดพกพาด้วย Phi-3 Mini

Microsoft ลดขนาด AI ให้เหลือขนาดพกพาด้วย Phi-3 Mini PlatoBlockchain Data Intelligence ค้นหาแนวตั้ง AI.

Microsoft อ้างว่าการจุติใหม่ของโมเดล Phi-3 Mini AI ที่มีน้ำหนักเบาเป็นคู่แข่งกับคู่แข่งเช่น GPT-3.5 ในขณะที่มีขนาดเล็กพอที่จะปรับใช้บนโทรศัพท์

Phi-3 Mini เป็นโมเดลภาษาที่มีพารามิเตอร์ 3.8 พันล้านพารามิเตอร์ที่ฝึกฝนบนโทเค็น 3.3 ล้านล้านโทเค็น ตัวเลขนี้เพิ่มขึ้นจากพารามิเตอร์ของ Phi-2.7 ที่ 2 พันล้าน ซึ่งไมโครซอฟต์ แนะนำ 2023 ในเดือนธันวาคม

แทนที่จะยัดเยียดลงในโมเดลการฝึกอบรมให้มากที่สุดเท่าที่จะเป็นไปได้ จุดเน้นอยู่ที่การใช้เหตุผล Microsoft กล่าวว่า: “ตามตัวอย่าง ผลลัพธ์ของเกมในพรีเมียร์ลีกในวันใดวันหนึ่งอาจเป็นข้อมูลการฝึกอบรมที่ดีสำหรับโมเดลชายแดน แต่เราจำเป็นต้องลบข้อมูลดังกล่าวออกเพื่อให้เหลือความจุของโมเดลมากขึ้นสำหรับ 'เหตุผล' สำหรับโมเดลขนาดเล็ก ”

แนวทางที่กำหนดเป้าหมายหมายความว่าแม้ว่า Phi-3 อาจไม่มีความรู้ที่กว้างไกลจากคู่แข่ง แต่อย่างน้อยก็ดีพอๆ กัน หากไม่ดีขึ้น เมื่อพูดถึงการให้เหตุผล หรือกล่าวอ้าง Microsoft ใน รายงานการวิจัย [PDF] Microsoft ตั้งข้อสังเกตว่าสิ่งนี้อนุญาตให้โมเดลภาษาขนาดเล็ก “เข้าถึงระดับของโมเดลที่มีความสามารถสูง เช่น GPT-3.5 หรือ Mixtral โดยมีพารามิเตอร์ทั้งหมดเพียง 3.8B (ในขณะที่ Mixtral มีพารามิเตอร์ทั้งหมด 45B เป็นต้น)”

การวิจัยยังตั้งข้อสังเกตอีกว่าข้อมูลการฝึกอบรมที่ใช้ประกอบด้วย “ข้อมูลเว็บที่ถูกกรองอย่างหนัก … จากแหล่งอินเทอร์เน็ตแบบเปิดต่างๆ” และข้อมูลที่สร้างโดย LLM แหล่งข้อมูลที่ใช้ในการฝึกอบรม LLM เป็นหัวข้อของ หลายคดี.

ขนาดที่เล็กของ Phi-3 Mini หมายความว่าสามารถทำงานแบบออฟไลน์บนสมาร์ทโฟนได้ นักวิจัยกล่าวว่าอาจใช้พื้นที่หน่วยความจำประมาณ 1.8 GB และทดลองใช้งานแบบออฟไลน์บน iPhone 14 โดยใช้ชิป A16 Bionic ที่ทำงานบนอุปกรณ์ ในรายงานนี้ นักวิจัยได้แสดงภาพหน้าจอของ Phi-3 Mini ที่เขียนบทกวีและแนะนำกิจกรรมน่าสนใจในฮูสตัน

นักวิจัยยังเน้นย้ำถึงข้อเสียของการมุ่งเน้นไปที่ความเข้าใจภาษาและการใช้เหตุผล “แบบจำลองไม่มีความสามารถในการจัดเก็บ 'ความรู้ข้อเท็จจริง' มากเกินไป” ซึ่งเป็นสิ่งที่สามารถบรรเทาลงได้ในระดับหนึ่งโดยเสริมด้วยเครื่องมือค้นหา อย่างไรก็ตาม นั่นจะทำลายจุดที่สามารถเรียกใช้แบบออฟไลน์ได้

ภาษาส่วนใหญ่จำกัดเฉพาะภาษาอังกฤษในปัจจุบัน และปัญหาที่มีอยู่ใน LLM ส่วนใหญ่ เช่น ภาพหลอน การขยายอคติ และการสร้างเนื้อหาที่ไม่เหมาะสม ก็สามารถพบได้ใน Phi-3 Mini

นักวิจัยกล่าวในบทความนี้ว่า “มีงานสำคัญรออยู่ข้างหน้าเพื่อจัดการกับความท้าทายเหล่านี้อย่างเต็มที่”

โมเดลขนาดใหญ่กว่านั้นก็ได้รับการประกาศในรูปแบบของ Phi-3 Small และ Phi-3 Medium ด้วยพารามิเตอร์ 7 และ 14 พันล้านตามลำดับ

Victor Botev, CTO และผู้ร่วมก่อตั้งที่ ไอริส.aiบอกกับเราว่า: “การประกาศเปิดตัวโมเดล Phi-3 ของ Microsoft แสดงให้เห็นถึงแนวโน้มการพัฒนา AI อย่างต่อเนื่อง แทนที่จะไล่ตามโมเดลที่ใหญ่กว่าเดิม Microsoft กำลังพัฒนาเครื่องมือที่มีข้อมูลที่รวบรวมไว้อย่างรอบคอบและการฝึกอบรมเฉพาะทางมากขึ้น ซึ่งช่วยให้สามารถปรับปรุงประสิทธิภาพและความสามารถในการให้เหตุผลโดยไม่ต้องเสียค่าใช้จ่ายในการคำนวณจำนวนมากของแบบจำลองที่มีพารามิเตอร์หลายล้านล้านรายการ การปฏิบัติตามคำสัญญานี้จะหมายถึงการทลายกำแพงการยอมรับอันใหญ่หลวงสำหรับธุรกิจที่กำลังมองหาโซลูชัน AI

“Microsoft มองข้ามกรอบความคิดที่ว่า 'ใหญ่กว่าดีกว่า' อย่างชาญฉลาด สำหรับแอปพลิเคชัน AI ของธุรกิจและผู้บริโภคที่แพร่หลาย ความเป็นไปได้และความเฉพาะเจาะจงมีความสำคัญมากกว่าการนับพารามิเตอร์จำนวนมาก โมเดลอย่าง Phi-3 แสดงให้เห็นอย่างชัดเจนว่าด้วยข้อมูลที่ถูกต้องและแนวทางการฝึกอบรม ความสามารถด้าน AI ขั้นสูงไม่จำเป็นต้องสร้างโมเดลที่ใหญ่กว่าเดิม ซึ่งเป็นปัจจัยในการตัดสินใจสำหรับธุรกิจที่อัตราส่วนต้นทุนต่อคุณภาพเป็นสิ่งสำคัญ”

ประทับเวลา:

เพิ่มเติมจาก ลงทะเบียน