Meta ได้เปิดตัวโมเดลภาษาขนาดใหญ่ (LLM) ล่าสุดซึ่งมีชื่อว่า Llama 3 และอ้างว่ามันจะท้าทายโมเดลที่ใหญ่กว่ามากจาก Google, Mistral และ Anthropic
เผยออกมาอย่างยาวนาน การประกาศ ในวันพฤหัสบดี Llama 3 มีให้บริการในเวอร์ชันตั้งแต่แปดพันล้านไปจนถึงมากกว่า 400 พันล้านพารามิเตอร์ สำหรับการอ้างอิง OpenAI และโมเดลที่ใหญ่ที่สุดของ Google มีค่าเกือบสองล้านล้านพารามิเตอร์
ในตอนนี้ เราเข้าถึงได้เพียงข้อความพารามิเตอร์แปดพันล้านและ 3 พันล้านของ Llama 70 เท่านั้น Meta ยังไม่เสร็จสิ้นการฝึกอบรมโมเดลที่ใหญ่ที่สุดและซับซ้อนที่สุด แต่บอกเป็นนัยว่าโมเดลเหล่านี้จะเป็นแบบหลายภาษาและหลายรูปแบบ ซึ่งหมายความว่าโมเดลเหล่านี้ประกอบขึ้นจากโมเดลที่ปรับให้เหมาะสมกับโดเมนขนาดเล็กหลายโมเดล
แม้ว่าจะมีพารามิเตอร์เพียง 70 หมื่นล้านพารามิเตอร์ แต่ Meta ก็อ้างว่า Llama 3 มีความสามารถในการใช้งานโมเดลที่ใหญ่กว่ามาก
Meta อ้างว่า Llama3-8B และ 70B สามารถทำงานได้ดีกว่ารุ่นที่มีขนาดใหญ่กว่ามาก รวมถึง Gemini Pro และ Claude 3 ของ Anrhopic – คลิกเพื่อดูภาพขยาย
ข้อมูลที่ดีกว่า โมเดลที่ดีกว่า
Meta ระบุว่า หนึ่งในผลกำไรที่ยิ่งใหญ่ที่สุดมาจากการใช้โทเค็นไนเซอร์ที่มีคำศัพท์ถึง 128,000 โทเค็น ในบริบทของ LLM โทเค็นอาจเป็นอักขระไม่กี่ตัว ทั้งคำ หรือแม้แต่วลีก็ได้ AI จะแบ่งอินพุตของมนุษย์ออกเป็นโทเค็น จากนั้นใช้คำศัพท์ของโทเค็นเพื่อสร้างเอาต์พุต
Meta อธิบายว่า tokenizer ช่วยเข้ารหัสภาษาได้อย่างมีประสิทธิภาพมากขึ้น ช่วยเพิ่มประสิทธิภาพอย่างมาก ได้รับผลประโยชน์เพิ่มเติมโดยการใช้ชุดข้อมูลคุณภาพสูงขึ้นและขั้นตอนการปรับแต่งเพิ่มเติมหลังการฝึกอบรม เพื่อปรับปรุงประสิทธิภาพและความแม่นยำโดยรวมของแบบจำลอง
โดยเฉพาะอย่างยิ่ง Meta เปิดเผยว่า Llama 3 ได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับโทเค็นมากกว่า 15 ล้านล้านที่รวบรวมจากแหล่งที่เปิดเผยต่อสาธารณะ
ชุดข้อมูลการฝึกของ Llama 3 มีขนาดใหญ่กว่าเจ็ดเท่าและมีโค้ดมากกว่า Llama 2 ถึงสี่เท่า เปิดตัว แค่เก้าเดือนก่อน แต่ดังที่กล่าวไว้ว่า "ขยะเข้า ขยะออก" ดังนั้น Meta จึงอ้างว่าได้พัฒนาชุดท่อกรองข้อมูลเพื่อให้แน่ใจว่า Llama 3 ได้รับการฝึกฝนเกี่ยวกับข้อมูลที่ไม่ดีน้อยที่สุด
การควบคุมคุณภาพเหล่านั้นมีทั้งตัวกรองการศึกษาสำนึกและ NSFW รวมถึงการขจัดข้อมูลซ้ำซ้อน และตัวแยกประเภทข้อความที่ใช้ในการทำนายคุณภาพของข้อมูลก่อนการฝึกอบรม Meta ยังใช้โมเดล Llama 2 รุ่นเก่า ซึ่งกล่าวว่า "ระบุข้อมูลคุณภาพสูงได้ดีอย่างน่าประหลาดใจ" เพื่อช่วยแยกข้าวสาลีออกจากแกลบ
ข้อมูลการฝึกอบรมห้าเปอร์เซ็นต์มาจากมากกว่า 30 ภาษา ซึ่ง Meta คาดการณ์ไว้ในอนาคตจะช่วยนำความสามารถหลายภาษาที่สำคัญมาสู่โมเดลนี้มากขึ้น สำหรับตอนนี้ Social Network™️ กล่าวว่าผู้ใช้ไม่ควรคาดหวังว่าจะได้รับประสิทธิภาพในภาษาอื่นที่ไม่ใช่ภาษาอังกฤษในระดับเดียวกัน
โดยทั่วไปแล้ว การฝึกโมเดลขนาดเล็กบนชุดข้อมูลขนาดใหญ่ถือเป็นการเสียเวลาในการประมวลผล และแม้แต่การสร้างผลตอบแทนที่แม่นยำลดลงด้วยซ้ำ การผสมผสานข้อมูลการฝึกอบรมในการคำนวณทรัพยากรในอุดมคติเรียกว่า “ชินชิลล่าเหมาะสมที่สุด” [PDF] จำนวน จากข้อมูลของ Meta สำหรับโมเดลพารามิเตอร์แปดพันล้านเช่น Llama3-8B นี่จะเป็นประมาณ 200 พันล้านโทเค็น
อย่างไรก็ตาม ในการทดสอบ Meta พบว่าประสิทธิภาพของ Llama 3 ยังคงปรับปรุงอย่างต่อเนื่อง แม้ว่าจะฝึกกับชุดข้อมูลขนาดใหญ่ก็ตาม “ทั้งแบบจำลองพารามิเตอร์แปดพันล้านและ 70 พันล้านของเรายังคงปรับปรุงบันทึกเชิงเส้นอย่างต่อเนื่องหลังจากที่เราฝึกอบรมพวกเขาด้วยโทเค็นมากถึง 15 ล้านล้านโทเค็น” Biz เขียน
ดูเหมือนว่าผลลัพธ์จะเป็นโมเดลที่ค่อนข้างกะทัดรัดซึ่งสามารถสร้างผลลัพธ์ได้เทียบเท่ากับโมเดลที่ใหญ่กว่ามาก ข้อดีข้อเสียในการประมวลผลถือว่าคุ้มค่า เนื่องจากโดยทั่วไปแล้วโมเดลขนาดเล็กมักจะอนุมานได้ง่ายกว่า และปรับใช้ในวงกว้างได้ง่ายกว่า
ที่ความแม่นยำ 8 บิต โมเดลพารามิเตอร์แปดพันล้านต้องใช้หน่วยความจำเพียง 8GB การลดความแม่นยำลงเหลือ 4 บิต ไม่ว่าจะใช้ฮาร์ดแวร์ที่รองรับหรือใช้การวัดปริมาณเพื่อบีบอัดโมเดล จะทำให้ความต้องการหน่วยความจำลดลงประมาณครึ่งหนึ่ง
Meta ฝึกฝนโมเดลนี้บนคลัสเตอร์ประมวลผลคู่ซึ่งแต่ละคลัสเตอร์มี Nvidia GPU 24,000 ตัว ดังที่คุณอาจจินตนาการได้ว่า การฝึกบนคลัสเตอร์ขนาดใหญ่แม้จะเร็วกว่า แต่ก็ก่อให้เกิดความท้าทายบางประการเช่นกัน โอกาสที่บางสิ่งจะล้มเหลวในระหว่างการฝึกซ้อมจะเพิ่มขึ้น
เพื่อบรรเทาปัญหานี้ Meta อธิบายว่าได้พัฒนาชุดการฝึกอบรมที่ทำให้การตรวจจับข้อผิดพลาด การจัดการ และการบำรุงรักษาเป็นแบบอัตโนมัติ ไฮเปอร์สเกลเลอร์ยังเพิ่มระบบตรวจสอบและจัดเก็บข้อมูลความล้มเหลวเพื่อลดค่าใช้จ่ายของจุดตรวจสอบและการย้อนกลับในกรณีที่การฝึกซ้อมถูกขัดจังหวะ และเมื่อเสร็จสิ้นแล้ว Meta ได้นำแบบจำลองเหล่านี้ไปทดสอบหลังการฝึกอบรมและขั้นตอนการปรับแต่งอย่างละเอียด
นอกเหนือจาก Llama3-8B และ 70B แล้ว Meta ยังได้เปิดตัวเครื่องมือความน่าเชื่อถือและความปลอดภัยใหม่และที่ได้รับการอัปเดต รวมถึง Llama Guard 2 และ Cybersec Eval 2 เพื่อช่วยให้ผู้ใช้ปกป้องโมเดลจากการละเมิดและ/หรือการโจมตีแบบฉีดทันที Code Shield เป็นส่วนเสริมอีกประการหนึ่งที่มีราวกั้นที่ออกแบบมาเพื่อช่วยกรองโค้ดที่ไม่ปลอดภัยที่สร้างโดย Llama 3
ดังที่เราได้รายงานไปก่อนหน้านี้ การสร้างโค้ดที่ได้รับความช่วยเหลือจาก LLM ได้นำไปสู่สิ่งที่น่าสนใจบางอย่าง โจมตีเวกเตอร์ Meta นั้นกำลังมองหาที่จะหลีกเลี่ยง
ความพร้อมที่จะให้บริการ
ในอีกไม่กี่เดือนข้างหน้า Meta วางแผนที่จะเปิดตัวโมเดลเพิ่มเติม ซึ่งรวมถึงพารามิเตอร์มากกว่า 400 พันล้านรายการ และรองรับฟังก์ชันการทำงาน ภาษา และหน้าต่างบริบทเพิ่มเติมเพิ่มเติม อย่างหลังจะอนุญาตให้ผู้ใช้ถามคำถามที่ใหญ่ขึ้นและซับซ้อนมากขึ้น เช่น การสรุปข้อความขนาดใหญ่
ปัจจุบัน Llama3-8B และ 70B พร้อมให้ดาวน์โหลดจาก Meta's เว็บไซต์- Amazon Web Services, Microsoft Azure, Google Cloud, Hugging Face และอื่นๆ ยังวางแผนที่จะเสนอโมเดลสำหรับการปรับใช้บนแพลตฟอร์มของตน
หากคุณต้องการทดสอบ Llama3 บนเครื่องของคุณ คุณสามารถดูคำแนะนำในการใช้งาน LLM ในพื้นที่ได้ โปรดคลิกที่นี่เพื่ออ่านรายละเอียดเพิ่มเติม- เมื่อคุณติดตั้งแล้ว คุณสามารถเปิดใช้งานได้โดยเรียกใช้:
โอลามะรัน llama3
ขอให้สนุกและแจ้งให้เราทราบว่ามันเป็นอย่างไร
- เนื้อหาที่ขับเคลื่อนด้วย SEO และการเผยแพร่ประชาสัมพันธ์ รับการขยายวันนี้
- PlatoData.Network Vertical Generative Ai เพิ่มพลังให้กับตัวเอง เข้าถึงได้ที่นี่.
- เพลโตไอสตรีม. Web3 อัจฉริยะ ขยายความรู้ เข้าถึงได้ที่นี่.
- เพลโตESG. คาร์บอน, คลีนเทค, พลังงาน, สิ่งแวดล้อม แสงอาทิตย์, การจัดการของเสีย. เข้าถึงได้ที่นี่.
- เพลโตสุขภาพ เทคโนโลยีชีวภาพและข่าวกรองการทดลองทางคลินิก เข้าถึงได้ที่นี่.
- ที่มา: https://go.theregister.com/feed/www.theregister.com/2024/04/19/meta_debuts_llama3_llm/
- :มี
- :เป็น
- $ ขึ้น
- 000
- ลด 15%
- 200
- 200 พันล้าน
- 24
- 30
- 400
- 7
- 70
- a
- เกี่ยวกับเรา
- การล่วงละเมิด
- เข้า
- ตาม
- ความถูกต้อง
- ประสบความสำเร็จ
- ที่เพิ่ม
- นอกจากนี้
- เพิ่มเติม
- กำไรเพิ่มเติม
- หลังจาก
- มาแล้ว
- เอไอเอส
- อนุญาต
- ด้วย
- อเมซอน
- Amazon Web Services
- จำนวน
- an
- และ
- อื่น
- มานุษยวิทยา
- เป็น
- AS
- ถาม
- ลอม
- At
- การโจมตี
- โดยอัตโนมัติ
- ใช้ได้
- หลีกเลี่ยง
- สีฟ้า
- ไม่ดี
- BE
- ดีกว่า
- ที่ใหญ่ที่สุด
- พันล้าน
- พันล้านโทเค็น
- Biz
- ปิดกั้น
- การส่งเสริม
- ชายแดน
- ทั้งสอง
- ทำลาย
- นำมาซึ่ง
- แต่
- by
- มา
- CAN
- ความสามารถในการ
- สามารถ
- กรณี
- ท้าทาย
- ความท้าทาย
- อักขระ
- ตรวจสอบ
- การเรียกร้อง
- คลิก
- เมฆ
- Cluster
- CO
- รหัส
- มา
- กะทัดรัด
- เทียบเคียง
- เสร็จ
- ซับซ้อน
- คำนวณ
- การคำนวณ
- ถือว่า
- มี
- สิ่งแวดล้อม
- อย่างต่อเนื่อง
- การควบคุม
- ขณะนี้
- ข้อมูล
- ชุดข้อมูล
- เปิดตัว
- องศา
- ปรับใช้
- การใช้งาน
- ได้รับการออกแบบ
- การตรวจพบ
- พัฒนา
- การน้อยลงไป
- ทำ
- ลง
- ดาวน์โหลด
- หล่น
- ลดลง
- แต่ละ
- ง่ายดาย
- อย่างมีประสิทธิภาพ
- XNUMX
- ทั้ง
- ภาษาอังกฤษ
- ทำให้มั่นใจ
- ความผิดพลาด
- แม้
- มากกว่า
- คาดหวัง
- อธิบาย
- ใบหน้า
- ความล้มเหลว
- ความล้มเหลว
- ไกล
- เร็วขึ้น
- สองสาม
- กรอง
- ฟิลเตอร์
- สำหรับ
- พบ
- สี่
- ราคาเริ่มต้นที่
- สนุก
- ฟังก์ชั่น
- อนาคต
- กําไร
- เมถุน
- โดยทั่วไป
- สร้าง
- สร้าง
- การสร้าง
- รุ่น
- ได้รับ
- ไป
- ไป
- ดี
- Google Cloud
- ได้
- GPUs
- ยาม
- ให้คำแนะนำ
- ครึ่ง
- การจัดการ
- ฮาร์ดแวร์
- ช่วย
- จะช่วยให้
- ที่มีคุณภาพสูง
- คำแนะนำ
- สรุป ความน่าเชื่อถือของ Olymp Trade?
- HTTPS
- เป็นมนุษย์
- ในอุดมคติ
- ระบุ
- ภาพ
- ปรับปรุง
- in
- รวม
- รวมทั้ง
- เพิ่มขึ้น
- ข้อมูล
- อินพุต
- ไม่ปลอดภัย
- การติดตั้ง
- น่าสนใจ
- ขัดจังหวะ
- เข้าไป
- เปิดตัว
- ISN
- IT
- ITS
- jpg
- เพียงแค่
- ทราบ
- ภาษา
- ภาษา
- ใหญ่
- ที่มีขนาดใหญ่
- ใหญ่ที่สุด
- ล่าสุด
- เปิดตัว
- นำ
- ให้
- กดไลก์
- ความเป็นไปได้
- น่าจะ
- ยอดไลก์
- น้อย
- ดูรายละเอียด
- LLM
- ในประเทศ
- ที่ต้องการหา
- เครื่อง
- การบำรุงรักษา
- ความหมาย
- หน่วยความจำ
- Mers
- Meta
- ไมโครซอฟท์
- Microsoft Azure
- กลาง
- อาจ
- บรรเทา
- ผสม
- แบบ
- โมเดล
- การตรวจสอบ
- เดือน
- ข้อมูลเพิ่มเติม
- มากที่สุด
- มาก
- หลาย
- ที่มีชื่อ
- ใกล้
- ใหม่
- ถัดไป
- เก้า
- ตอนนี้
- NSFW
- Nvidia
- of
- เสนอ
- เก่ากว่า
- on
- ครั้งเดียว
- ONE
- เพียง
- OpenAI
- or
- อื่นๆ
- ผลิตภัณฑ์อื่นๆ
- ของเรา
- ออก
- แนะ
- เอาท์พุต
- เกิน
- ทั้งหมด
- เหนือศีรษะ
- คู่
- พารามิเตอร์
- พารามิเตอร์
- รูปแบบไฟล์ PDF
- เปอร์เซ็นต์
- การปฏิบัติ
- วลี
- แผนการ
- แผน
- แพลตฟอร์ม
- เพลโต
- เพลโตดาต้าอินเทลลิเจนซ์
- เพลโตดาต้า
- เป็นไปได้
- ความแม่นยำ
- คาดการณ์
- ที่คาดการณ์
- ก่อนหน้านี้
- ก่อน
- มือโปร
- ก่อ
- ให้
- สาธารณชน
- คุณภาพ
- คำสั่ง
- ตั้งแต่
- RE
- ลด
- การอ้างอิง
- เรียกว่า
- สัมพัทธ์
- รายงาน
- ความต้องการ
- ต้อง
- แหล่งข้อมูล
- ผล
- ผลสอบ
- รับคืน
- เปิดเผย
- ม้วน
- รีด
- วิ่ง
- วิ่ง
- s
- ป้องกัน
- ความปลอดภัย
- กล่าวว่า
- เดียวกัน
- คำพูด
- พูดว่า
- ขนาด
- ดูเหมือนว่า
- แยก
- ชุด
- บริการ
- เจ็ด
- โล่
- อย่างมีความหมาย
- เล็ก
- มีขนาดเล็กกว่า
- So
- สังคม
- บาง
- บางสิ่งบางอย่าง
- แหล่งที่มา
- กอง
- ขั้นตอน
- การเก็บรักษา
- เป็นกอบเป็นกำ
- อย่างเช่น
- ที่สนับสนุน
- รองรับ
- อย่างแปลกใจ
- ระบบ
- ทดสอบ
- การทดสอบ
- ข้อความ
- กว่า
- ที่
- พื้นที่
- ข้อมูล
- ของพวกเขา
- พวกเขา
- แล้วก็
- พวกเขา
- นี้
- วันพฤหัสบดี
- ดังนั้น
- เวลา
- ครั้ง
- ไปยัง
- ราชสกุล
- เครื่องมือ
- ผ่านการฝึกอบรม
- การฝึกอบรม
- ล้านล้าน
- วางใจ
- สอง
- ปลดปล่อย
- ให้กับคุณ
- us
- ใช้
- มือสอง
- ผู้ใช้
- การใช้
- Ve
- รุ่น
- ต้องการ
- คือ
- เสีย
- we
- เว็บ
- บริการเว็บ
- ดี
- ไป
- คือ
- เมื่อ
- ที่
- ในขณะที่
- ทั้งหมด
- จะ
- หน้าต่าง
- กับ
- คำ
- คุ้มค่า
- จะ
- เขียน
- ยัง
- คุณ
- ของคุณ
- ลมทะเล