Meta เปิดตัวโมเดลภาษาขนาดใหญ่ Llama รุ่นที่สาม

Meta เปิดตัวโมเดลภาษาขนาดใหญ่ Llama รุ่นที่สาม

Meta ได้เปิดตัวโมเดลภาษาขนาดใหญ่ (LLM) ล่าสุดซึ่งมีชื่อว่า Llama 3 และอ้างว่ามันจะท้าทายโมเดลที่ใหญ่กว่ามากจาก Google, Mistral และ Anthropic

เผยออกมาอย่างยาวนาน การประกาศ ในวันพฤหัสบดี Llama 3 มีให้บริการในเวอร์ชันตั้งแต่แปดพันล้านไปจนถึงมากกว่า 400 พันล้านพารามิเตอร์ สำหรับการอ้างอิง OpenAI และโมเดลที่ใหญ่ที่สุดของ Google มีค่าเกือบสองล้านล้านพารามิเตอร์

ในตอนนี้ เราเข้าถึงได้เพียงข้อความพารามิเตอร์แปดพันล้านและ 3 พันล้านของ Llama 70 เท่านั้น Meta ยังไม่เสร็จสิ้นการฝึกอบรมโมเดลที่ใหญ่ที่สุดและซับซ้อนที่สุด แต่บอกเป็นนัยว่าโมเดลเหล่านี้จะเป็นแบบหลายภาษาและหลายรูปแบบ ซึ่งหมายความว่าโมเดลเหล่านี้ประกอบขึ้นจากโมเดลที่ปรับให้เหมาะสมกับโดเมนขนาดเล็กหลายโมเดล

แม้ว่าจะมีพารามิเตอร์เพียง 70 หมื่นล้านพารามิเตอร์ แต่ Meta ก็อ้างว่า Llama 3 มีความสามารถในการใช้งานโมเดลที่ใหญ่กว่ามาก

Meta อ้างว่า Llama3-8B และ 70B สามารถทำงานได้ดีกว่ารุ่นที่มีขนาดใหญ่กว่ามาก รวมถึง Gemini Pro และ Claude 3 ของ Anrhopic

Meta อ้างว่า Llama3-8B และ 70B สามารถทำงานได้ดีกว่ารุ่นที่มีขนาดใหญ่กว่ามาก รวมถึง Gemini Pro และ Claude 3 ของ Anrhopic – คลิกเพื่อดูภาพขยาย

ข้อมูลที่ดีกว่า โมเดลที่ดีกว่า

Meta ระบุว่า หนึ่งในผลกำไรที่ยิ่งใหญ่ที่สุดมาจากการใช้โทเค็นไนเซอร์ที่มีคำศัพท์ถึง 128,000 โทเค็น ในบริบทของ LLM โทเค็นอาจเป็นอักขระไม่กี่ตัว ทั้งคำ หรือแม้แต่วลีก็ได้ AI จะแบ่งอินพุตของมนุษย์ออกเป็นโทเค็น จากนั้นใช้คำศัพท์ของโทเค็นเพื่อสร้างเอาต์พุต

Meta อธิบายว่า tokenizer ช่วยเข้ารหัสภาษาได้อย่างมีประสิทธิภาพมากขึ้น ช่วยเพิ่มประสิทธิภาพอย่างมาก ได้รับผลประโยชน์เพิ่มเติมโดยการใช้ชุดข้อมูลคุณภาพสูงขึ้นและขั้นตอนการปรับแต่งเพิ่มเติมหลังการฝึกอบรม เพื่อปรับปรุงประสิทธิภาพและความแม่นยำโดยรวมของแบบจำลอง

โดยเฉพาะอย่างยิ่ง Meta เปิดเผยว่า Llama 3 ได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับโทเค็นมากกว่า 15 ล้านล้านที่รวบรวมจากแหล่งที่เปิดเผยต่อสาธารณะ

ชุดข้อมูลการฝึกของ Llama 3 มีขนาดใหญ่กว่าเจ็ดเท่าและมีโค้ดมากกว่า Llama 2 ถึงสี่เท่า เปิดตัว แค่เก้าเดือนก่อน แต่ดังที่กล่าวไว้ว่า "ขยะเข้า ขยะออก" ดังนั้น Meta จึงอ้างว่าได้พัฒนาชุดท่อกรองข้อมูลเพื่อให้แน่ใจว่า Llama 3 ได้รับการฝึกฝนเกี่ยวกับข้อมูลที่ไม่ดีน้อยที่สุด

การควบคุมคุณภาพเหล่านั้นมีทั้งตัวกรองการศึกษาสำนึกและ NSFW รวมถึงการขจัดข้อมูลซ้ำซ้อน และตัวแยกประเภทข้อความที่ใช้ในการทำนายคุณภาพของข้อมูลก่อนการฝึกอบรม Meta ยังใช้โมเดล Llama 2 รุ่นเก่า ซึ่งกล่าวว่า "ระบุข้อมูลคุณภาพสูงได้ดีอย่างน่าประหลาดใจ" เพื่อช่วยแยกข้าวสาลีออกจากแกลบ

ข้อมูลการฝึกอบรมห้าเปอร์เซ็นต์มาจากมากกว่า 30 ภาษา ซึ่ง Meta คาดการณ์ไว้ในอนาคตจะช่วยนำความสามารถหลายภาษาที่สำคัญมาสู่โมเดลนี้มากขึ้น สำหรับตอนนี้ Social Network™️ กล่าวว่าผู้ใช้ไม่ควรคาดหวังว่าจะได้รับประสิทธิภาพในภาษาอื่นที่ไม่ใช่ภาษาอังกฤษในระดับเดียวกัน

โดยทั่วไปแล้ว การฝึกโมเดลขนาดเล็กบนชุดข้อมูลขนาดใหญ่ถือเป็นการเสียเวลาในการประมวลผล และแม้แต่การสร้างผลตอบแทนที่แม่นยำลดลงด้วยซ้ำ การผสมผสานข้อมูลการฝึกอบรมในการคำนวณทรัพยากรในอุดมคติเรียกว่า “ชินชิลล่าเหมาะสมที่สุด” [PDF] จำนวน จากข้อมูลของ Meta สำหรับโมเดลพารามิเตอร์แปดพันล้านเช่น Llama3-8B นี่จะเป็นประมาณ 200 พันล้านโทเค็น

อย่างไรก็ตาม ในการทดสอบ Meta พบว่าประสิทธิภาพของ Llama 3 ยังคงปรับปรุงอย่างต่อเนื่อง แม้ว่าจะฝึกกับชุดข้อมูลขนาดใหญ่ก็ตาม “ทั้งแบบจำลองพารามิเตอร์แปดพันล้านและ 70 พันล้านของเรายังคงปรับปรุงบันทึกเชิงเส้นอย่างต่อเนื่องหลังจากที่เราฝึกอบรมพวกเขาด้วยโทเค็นมากถึง 15 ล้านล้านโทเค็น” Biz เขียน

ดูเหมือนว่าผลลัพธ์จะเป็นโมเดลที่ค่อนข้างกะทัดรัดซึ่งสามารถสร้างผลลัพธ์ได้เทียบเท่ากับโมเดลที่ใหญ่กว่ามาก ข้อดีข้อเสียในการประมวลผลถือว่าคุ้มค่า เนื่องจากโดยทั่วไปแล้วโมเดลขนาดเล็กมักจะอนุมานได้ง่ายกว่า และปรับใช้ในวงกว้างได้ง่ายกว่า

ที่ความแม่นยำ 8 บิต โมเดลพารามิเตอร์แปดพันล้านต้องใช้หน่วยความจำเพียง 8GB การลดความแม่นยำลงเหลือ 4 บิต ไม่ว่าจะใช้ฮาร์ดแวร์ที่รองรับหรือใช้การวัดปริมาณเพื่อบีบอัดโมเดล จะทำให้ความต้องการหน่วยความจำลดลงประมาณครึ่งหนึ่ง

Meta ฝึกฝนโมเดลนี้บนคลัสเตอร์ประมวลผลคู่ซึ่งแต่ละคลัสเตอร์มี Nvidia GPU 24,000 ตัว ดังที่คุณอาจจินตนาการได้ว่า การฝึกบนคลัสเตอร์ขนาดใหญ่แม้จะเร็วกว่า แต่ก็ก่อให้เกิดความท้าทายบางประการเช่นกัน โอกาสที่บางสิ่งจะล้มเหลวในระหว่างการฝึกซ้อมจะเพิ่มขึ้น

เพื่อบรรเทาปัญหานี้ Meta อธิบายว่าได้พัฒนาชุดการฝึกอบรมที่ทำให้การตรวจจับข้อผิดพลาด การจัดการ และการบำรุงรักษาเป็นแบบอัตโนมัติ ไฮเปอร์สเกลเลอร์ยังเพิ่มระบบตรวจสอบและจัดเก็บข้อมูลความล้มเหลวเพื่อลดค่าใช้จ่ายของจุดตรวจสอบและการย้อนกลับในกรณีที่การฝึกซ้อมถูกขัดจังหวะ และเมื่อเสร็จสิ้นแล้ว Meta ได้นำแบบจำลองเหล่านี้ไปทดสอบหลังการฝึกอบรมและขั้นตอนการปรับแต่งอย่างละเอียด

นอกเหนือจาก Llama3-8B และ 70B แล้ว Meta ยังได้เปิดตัวเครื่องมือความน่าเชื่อถือและความปลอดภัยใหม่และที่ได้รับการอัปเดต รวมถึง Llama Guard 2 และ Cybersec Eval 2 เพื่อช่วยให้ผู้ใช้ปกป้องโมเดลจากการละเมิดและ/หรือการโจมตีแบบฉีดทันที Code Shield เป็นส่วนเสริมอีกประการหนึ่งที่มีราวกั้นที่ออกแบบมาเพื่อช่วยกรองโค้ดที่ไม่ปลอดภัยที่สร้างโดย Llama 3

ดังที่เราได้รายงานไปก่อนหน้านี้ การสร้างโค้ดที่ได้รับความช่วยเหลือจาก LLM ได้นำไปสู่สิ่งที่น่าสนใจบางอย่าง โจมตีเวกเตอร์ Meta นั้นกำลังมองหาที่จะหลีกเลี่ยง

ความพร้อมที่จะให้บริการ

ในอีกไม่กี่เดือนข้างหน้า Meta วางแผนที่จะเปิดตัวโมเดลเพิ่มเติม ซึ่งรวมถึงพารามิเตอร์มากกว่า 400 พันล้านรายการ และรองรับฟังก์ชันการทำงาน ภาษา และหน้าต่างบริบทเพิ่มเติมเพิ่มเติม อย่างหลังจะอนุญาตให้ผู้ใช้ถามคำถามที่ใหญ่ขึ้นและซับซ้อนมากขึ้น เช่น การสรุปข้อความขนาดใหญ่

ปัจจุบัน Llama3-8B และ 70B พร้อมให้ดาวน์โหลดจาก Meta's เว็บไซต์- Amazon Web Services, Microsoft Azure, Google Cloud, Hugging Face และอื่นๆ ยังวางแผนที่จะเสนอโมเดลสำหรับการปรับใช้บนแพลตฟอร์มของตน

หากคุณต้องการทดสอบ Llama3 บนเครื่องของคุณ คุณสามารถดูคำแนะนำในการใช้งาน LLM ในพื้นที่ได้ โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม- เมื่อคุณติดตั้งแล้ว คุณสามารถเปิดใช้งานได้โดยเรียกใช้:

โอลามะรัน llama3

ขอให้สนุกและแจ้งให้เราทราบว่ามันเป็นอย่างไร

ประทับเวลา:

เพิ่มเติมจาก ลงทะเบียน

การสาธิตแชทบอททางอินเทอร์เน็ต AI ของ Meta เริ่มเผยแพร่ข่าวปลอมและความคิดเห็นเกี่ยวกับการแบ่งแยกเชื้อชาติอย่างรวดเร็ว

โหนดต้นทาง: 1622766
ประทับเวลา: สิงหาคม 14, 2022