تطلق Meta لأول مرة نموذج اللغة الكبير من الجيل الثالث من Llama

تطلق Meta لأول مرة نموذج اللغة الكبير من الجيل الثالث من Llama

أطلقت شركة Meta العنان لأحدث نماذجها اللغوية الكبيرة (LLM) - المسمى Llama 3 - وتدعي أنها ستتحدى نماذج أكبر بكثير من أمثال Google، وMistral، وAnthropic.

كشفت في مطولة إعلان يوم الخميس، يتوفر Llama 3 في إصدارات تتراوح من ثمانية مليارات إلى أكثر من 400 مليار معلمة. كمرجع، تقترب أكبر نماذج OpenAI وGoogle من تريليوني معلمة.

في الوقت الحالي، لا يمكننا سوى الوصول إلى متغيرات نص المعلمات المكونة من ثمانية مليارات و3 مليارًا في Llama 70. لم تنته Meta من تدريب نماذجها الأكبر والأكثر تعقيدًا حتى الآن، ولكنها تشير إلى أنها ستكون متعددة اللغات ومتعددة الوسائط - مما يعني أنها مجمعة من عدة نماذج أصغر حجمًا محسنة للنطاق.

حتى مع وجود 70 مليار معلمة فقط، تدعي Meta أن Llama 3 أكثر من قادرة على الوصول إلى أخمص القدمين مع نماذج أكبر بكثير.

تدعي Meta أن Llama3-8B و70B يمكن أن تتفوق في الأداء على النماذج الأكبر حجمًا بما في ذلك Gemini Pro وAntrhopic's Claude 3

تزعم Meta أن Llama3-8B و70B يمكن أن تتفوق في الأداء على النماذج الأكبر حجمًا بما في ذلك Gemini Pro وAntrhopic's Claude 3 - انقر للتكبير

بيانات أفضل، نموذج أفضل

أحد أكبر المكاسب، وفقًا لميتا، يأتي من استخدام أداة رمزية تحتوي على مفردات تبلغ 128,000 رمزًا. في سياق LLMs، يمكن أن تكون الرموز المميزة عبارة عن بضعة أحرف أو كلمات كاملة أو حتى عبارات. تقوم أنظمة الذكاء الاصطناعي بتقسيم المدخلات البشرية إلى رموز مميزة، ثم تستخدم مفرداتها من الرموز المميزة لتوليد المخرجات.

وأوضح ميتا أن برنامج الرمز المميز الخاص به يساعد على تشفير اللغة بشكل أكثر كفاءة، مما يعزز الأداء بشكل ملحوظ. تم تحقيق مكاسب إضافية باستخدام مجموعات بيانات عالية الجودة وخطوات ضبط إضافية بعد التدريب لتحسين الأداء والدقة الشاملة للنموذج.

على وجه التحديد، كشفت Meta عن أن Llama 3 قد تم تدريبها مسبقًا على أكثر من 15 تريليون رمز تم جمعها من المصادر المتاحة للجمهور.

تعد مجموعة بيانات التدريب الخاصة بـ Llama 3 أكبر بسبع مرات وتحتوي على تعليمات برمجية أكبر بأربع مرات من Llama 2، والتي أطلقت قبل تسعة أشهر فقط. ولكن، كما يقول المثل، "القمامة تدخل، القمامة تخرج" - لذلك تدعي Meta أنها طورت سلسلة من خطوط تصفية البيانات لضمان تدريب Llama 3 على أقل قدر ممكن من المعلومات السيئة.

تضمنت ضوابط الجودة هذه كلاً من المرشحات الإرشادية ومرشحات NSFW، بالإضافة إلى إلغاء البيانات المكررة ومصنفات النص المستخدمة للتنبؤ بجودة المعلومات قبل التدريب. حتى أن شركة ميتا استخدمت نموذجها الأقدم Llama 2 - والذي قالت إنه "جيد بشكل مدهش في تحديد البيانات عالية الجودة" - للمساعدة في فصل القمح عن القشر.

وجاء خمسة بالمائة من بيانات التدريب من أكثر من 30 لغة، وهو ما توقع ميتا أن يساعد في المستقبل على جلب المزيد من القدرات الجوهرية متعددة اللغات إلى النموذج. في الوقت الحالي، تقول Social Network™️ أنه لا ينبغي للمستخدمين أن يتوقعوا نفس درجة الأداء في لغات أخرى غير الإنجليزية.

يعتبر تدريب النماذج الصغيرة على مثل هذه المجموعة الكبيرة من البيانات بشكل عام مضيعة لوقت الحوسبة، وحتى إنتاج عوائد متناقصة من حيث الدقة. يُشار إلى المزيج المثالي من بيانات التدريب لحساب الموارد باسم "شينشيلا الأمثل"[PDF] المبلغ. وفقًا لـ Meta، بالنسبة لنموذج معلمات يبلغ ثمانية مليارات مثل Llama3-8B، سيكون هذا حوالي 200 مليار رمز.

ومع ذلك، أثناء الاختبار، وجدت Meta أن أداء Llama 3 استمر في التحسن حتى عند التدريب على مجموعات بيانات أكبر. وكتبت الشركة: "واصل كل من نموذجي المعلمات البالغ عددهم ثمانية مليارات و70 مليارًا لدينا تحسين السجل الخطي بعد أن قمنا بتدريبهم على ما يصل إلى 15 تريليون رمز مميز".

ويبدو أن النتيجة هي نموذج مدمج نسبيا قادر على توليد نتائج مماثلة لنماذج أكبر بكثير. من المحتمل أن تكون المقايضة في الحوسبة جديرة بالاهتمام، حيث أن النماذج الأصغر حجمًا أسهل عمومًا في الاستدلال وبالتالي أسهل في النشر على نطاق واسع.

بدقة 8 بت، يتطلب نموذج المعلمة الذي يبلغ ثمانية مليارات 8 جيجابايت فقط من الذاكرة. إن الانخفاض إلى دقة 4 بت - إما باستخدام الأجهزة التي تدعمها أو باستخدام التكميم لضغط النموذج - سيؤدي إلى انخفاض متطلبات الذاكرة بمقدار النصف تقريبًا.

قامت Meta بتدريب النموذج على زوج من مجموعات الحوسبة تحتوي كل منها على 24,000 وحدة معالجة رسوميات Nvidia. كما قد تتخيل، فإن التدريب على مثل هذه المجموعة الكبيرة، على الرغم من سرعته، يقدم بعض التحديات أيضًا - يزداد احتمال فشل شيء ما في منتصف التدريب.

وللتخفيف من ذلك، أوضحت شركة Meta أنها طورت حزمة تدريب تعمل على أتمتة اكتشاف الأخطاء ومعالجتها وصيانتها. أضاف المقياس الفائق أيضًا أنظمة مراقبة الفشل والتخزين لتقليل الحمل الزائد لنقطة التفتيش والتراجع في حالة مقاطعة تشغيل التدريب. وبمجرد الانتهاء من ذلك، قامت Meta بإخضاع النماذج لسلسلة من اختبارات ما بعد التدريب وخطوات الضبط الدقيق.

إلى جانب Llama3-8B و70B، طرحت Meta أيضًا أدوات جديدة ومحدثة للثقة والأمان – بما في ذلك Llama Guard 2 وCybersec Eval 2، لمساعدة المستخدمين على حماية النموذج من إساءة الاستخدام و/أو هجمات الحقن السريع. يعد Code Shield إضافة أخرى توفر حواجز حماية مصممة للمساعدة في تصفية التعليمات البرمجية غير الآمنة التي تم إنشاؤها بواسطة Llama 3.

كما ذكرنا سابقًا، أدى إنشاء التعليمات البرمجية بمساعدة LLM إلى بعض الأمور المثيرة للاهتمام نواقل الهجوم الذي تتطلع ميتا إلى تجنبه.

التوفر

على مدار الأشهر القليلة المقبلة، تخطط Meta لطرح نماذج إضافية - بما في ذلك نموذج يتجاوز 400 مليار معلمة ويدعم وظائف ولغات ونوافذ سياقية أكبر. سيسمح هذا الأخير للمستخدمين بطرح استفسارات أكبر وأكثر تعقيدًا – مثل تلخيص كتلة كبيرة من النص.

Llama3-8B و70B متاحان حاليًا للتنزيل من Meta's موقع الكتروني. تخطط Amazon Web Services، وMicrosoft Azure، وGoogle Cloud، وHugging Face، وغيرها أيضًا لتقديم النموذج للنشر على منصاتهم.

إذا كنت ترغب في اختبار Llama3 على جهازك، يمكنك مراجعة دليلنا حول تشغيل LLMs المحلية هنا. بعد تثبيته، يمكنك تشغيله عن طريق تشغيل:

أولاما تشغيل اللاما3

استمتع وأخبرنا كيف سارت الأمور. ®

الطابع الزمني:

اكثر من السجل