ضبط LLaMA 2 سريع وفعال من حيث التكلفة باستخدام AWS Trainium | خدمات الويب الأمازون

ضبط LLaMA 2 سريع وفعال من حيث التكلفة باستخدام AWS Trainium | خدمات الويب الأمازون

استحوذت نماذج اللغات الكبيرة (LLMs) على خيال واهتمام المطورين والعلماء والتقنيين ورجال الأعمال والمديرين التنفيذيين في العديد من الصناعات. يمكن استخدام هذه النماذج للإجابة على الأسئلة والتلخيص والترجمة والمزيد في تطبيقات مثل وكلاء المحادثة لدعم العملاء وإنشاء المحتوى للتسويق ومساعدي البرمجة.

مؤخرا، صدر ميتا اللاما 2 لكل من الباحثين والكيانات التجارية، إضافة إلى قائمة LLMs الأخرى، بما في ذلك MosaicML MPT و صقر. في هذا المنشور، نتعرف على كيفية ضبط Llama 2 بشكل دقيق تدريب AWS، وهو مسرع مصمم خصيصًا لتدريب LLM، لتقليل أوقات التدريب وتكاليفه. نقوم بمراجعة البرامج النصية للضبط الدقيق المقدمة من AWS نيورون SDK (باستخدام NeMo Megatron-LM)، والتكوينات المختلفة التي استخدمناها، ونتائج الإنتاجية التي رأيناها.

حول نموذج اللاما 2

مماثلة للسابقة اللاما 1 نموذج ونماذج أخرى مثل GPT، يستخدم Llama 2 بنية وحدة فك ترميز Transformer فقط. ويأتي بثلاثة أحجام: 7 مليار، و13 مليار، و70 مليار معلمة. بالمقارنة مع Llama 1، يضاعف Llama 2 طول السياق من 2,000 إلى 4,000، ويستخدم اهتمام الاستعلام المجمع (فقط لـ 70B). تم تدريب نماذج Llama 2 المدربة مسبقًا على 2 تريليون رمز مميز، وتم تدريب نماذجها المضبوطة بدقة على أكثر من مليون تعليق توضيحي بشري.

التدريب الموزع على اللاما 2

لاستيعاب Llama 2 بطول تسلسلي يتراوح بين 2,000 و4,000، قمنا بتنفيذ البرنامج النصي باستخدام نيمو ميجاترون لبرنامج Trainium الذي يدعم توازي البيانات (DP)، وتوازي الموتر (TP)، وتوازي خطوط الأنابيب (PP). على وجه التحديد، مع التنفيذ الجديد لبعض الميزات مثل فك تضمين الكلمات، والتضمين الدوار، وتنشيط RMSNorm، وSwiglu، نستخدم البرنامج النصي العام لـ جي بي تي نيورون ميجاترون- إل إم لدعم البرنامج النصي للتدريب Llama 2.

إجراءات التدريب عالية المستوى لدينا هي كما يلي: بالنسبة لبيئة التدريب الخاصة بنا، نستخدم مجموعة متعددة المثيلات يديرها نظام SLURM للتدريب الموزع والجدولة ضمن إطار عمل NeMo.

أولاً، قم بتنزيل نموذج Llama 2 ومجموعات بيانات التدريب وقم بمعالجتها مسبقًا باستخدام رمز Llama 2 المميز. على سبيل المثال، لاستخدام مجموعة بيانات RedPajama، استخدم الأمر التالي:

wget https://data.together.xyz/redpajama-data-1T/v1.0.0/book/book.jsonl python nemo/scripts/nlp_language_modeling/preprocess_data_for_megatron.py

للحصول على إرشادات مفصلة حول تنزيل النماذج ووسيطة البرنامج النصي للمعالجة المسبقة، راجع قم بتنزيل مجموعة بيانات LlamaV2 والرمز المميز.

بعد ذلك، قم بتجميع النموذج:

sbatch --nodes 4 compile.slurm ./llama_7b.sh

بعد تجميع النموذج، قم بتشغيل مهمة التدريب باستخدام البرنامج النصي التالي الذي تم تحسينه بالفعل باستخدام أفضل التكوين والمعلمات الفائقة لـ Llama 2 (المضمنة في رمز المثال):

sbatch --nodes 4 run.slurm ./llama_7b.sh

وأخيرًا، نقوم بمراقبة TensorBoard لتتبع تقدم التدريب:

tensorboard --logdir ./

للحصول على المثال الكامل للتعليمات البرمجية والبرامج النصية التي ذكرناها، راجع Llama 7B البرنامج التعليمي و كود نيمو في Neuron SDK للتنقل عبر خطوات أكثر تفصيلاً.

تجارب الضبط الدقيق

لقد قمنا بضبط نموذج 7B على مجموعات بيانات OSCAR (ALMANaCH coRpus المفتوحة الكبيرة جدًا) وQNLI (NLI للإجابة على الأسئلة) في بيئة Neuron 2.12 (PyTorch). لكل طول 2,000 و4,000 تسلسل، قمنا بتحسين بعض التكوينات، مثل batchsize و gradient_accumulation، لكفاءة التدريب. كإستراتيجية ضبط دقيق، اعتمدنا ضبطًا دقيقًا كاملاً لجميع المعلمات (حوالي 500 خطوة)، والتي يمكن توسيعها إلى التدريب المسبق بخطوات أطول ومجموعات بيانات أكبر (على سبيل المثال، 1T RedPajama). يمكن أيضًا تمكين توازي التسلسل للسماح لـ NeMo Megatron بضبط النماذج بنجاح بطول تسلسل أكبر يبلغ 4,000. يوضح الجدول التالي نتائج التكوين والإنتاجية لتجربة الضبط الدقيق لـ Llama 7B. يتم قياس الإنتاجية بشكل خطي تقريبًا مع زيادة عدد المثيلات إلى 4.

المكتبة الموزعة قواعد البيانات طول التسلسل عدد المثيلات موتر بالتوازي موازاة البيانات خط أنابيب موازي حجم الدفعة العالمية الإنتاجية (التتابع/الثانية)
العصبون نيمو ميجاترون OSCAR 4096 1 8 4 1 256 3.7
. . 4096 2 8 4 1 256 7.4
. . 4096 4 8 4 1 256 14.6
. QNLI 4096 4 8 4 1 256 14.1

الخطوة الأخيرة هي التحقق من الدقة باستخدام النموذج الأساسي. قمنا بتنفيذ برنامج نصي مرجعي لتجارب GPU وأكدنا على مطابقة منحنيات التدريب لـ GPU وTrainium كما هو موضح في الشكل التالي. يوضح الشكل منحنيات الخسارة لعدد خطوات التدريب على مجموعة بيانات QNLI. تم اعتماد الدقة المختلطة لوحدة معالجة الرسومات (اللون الأزرق)، وbf16 مع التقريب العشوائي الافتراضي لـ Trainium (البرتقالي).

منحنى التدريب

وفي الختام

في هذا المنشور، أوضحنا أن Trainium يقدم أداءً عاليًا وضبطًا دقيقًا فعالاً من حيث التكلفة لـ Llama 2. لمزيد من الموارد حول استخدام Trainium للتدريب المسبق الموزع وضبط نماذج الذكاء الاصطناعي التوليدية باستخدام NeMo Megatron، راجع مرجع AWS Neuron لـ NeMo Megatron.


حول المؤلف

ضبط LLaMA 2 سريع وفعال من حيث التكلفة باستخدام AWS Trainium | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.هاو تشو هو عالم أبحاث في Amazon SageMaker. وقبل ذلك، عمل على تطوير أساليب التعلم الآلي للكشف عن الاحتيال في Amazon Fraud Detector. إنه متحمس لتطبيق التعلم الآلي والتحسين وتقنيات الذكاء الاصطناعي التوليدية على العديد من مشكلات العالم الحقيقي. حصل على درجة الدكتوراه في الهندسة الكهربائية من جامعة نورث وسترن.

ضبط LLaMA 2 سريع وفعال من حيث التكلفة باستخدام AWS Trainium | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.كارثيك جوبالسوامي هو عالم تطبيقي لدى AWS. قبل AWS، عمل كعالم في Uber وWalmart Labs مع التركيز بشكل رئيسي على تحسين الأعداد الصحيحة المختلطة. وفي أوبر، ركز على تحسين شبكة النقل العام من خلال منتجات SaaS عند الطلب والرحلات المشتركة. في Walmart Labs، عمل على تحسين التسعير والتعبئة. حصل كارثيك على درجة الدكتوراه في الهندسة الصناعية وهندسة النظم مع تخصص ثانوي في بحوث العمليات من جامعة ولاية كارولينا الشمالية. تركز أبحاثه على النماذج والمنهجيات التي تجمع بين بحوث العمليات والتعلم الآلي.

ضبط LLaMA 2 سريع وفعال من حيث التكلفة باستخدام AWS Trainium | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.شين هوانغ هو عالم تطبيقي كبير في Amazon SageMaker JumpStart وخوارزميات Amazon SageMaker المدمجة. يركز على تطوير خوارزميات التعلم الآلي القابلة للتطوير. تتركز اهتماماته البحثية في مجال معالجة اللغة الطبيعية ، والتعلم العميق القابل للتفسير على البيانات المجدولة ، والتحليل القوي لتجميع الزمكان غير المعياري. وقد نشر العديد من الأوراق في مؤتمرات ACL و ICDM و KDD والجمعية الملكية للإحصاء: السلسلة أ.

ضبط LLaMA 2 سريع وفعال من حيث التكلفة باستخدام AWS Trainium | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.بارك يونجسوك هو كبير العلماء التطبيقيين في AWS Annapurna Labs، ويعمل على تطوير وتدريب النماذج الأساسية على مسرعات الذكاء الاصطناعي. قبل ذلك، عمل الدكتور بارك في مجال البحث والتطوير لصالح Amazon Forecast في AWS AI Labs كعالم رئيسي. يكمن بحثه في التفاعل بين التعلم الآلي والنماذج الأساسية والتحسين والتعلم المعزز. وقد نشر أكثر من 20 ورقة بحثية تمت مراجعتها من قبل النظراء في أفضل الأماكن، بما في ذلك ICLR، وICML، وAISTATS، وKDD، مع خدمة تنظيم ورش العمل وتقديم البرامج التعليمية في مجال السلاسل الزمنية والتدريب على ماجستير إدارة الأعمال. قبل انضمامه إلى AWS، حصل على درجة الدكتوراه في الهندسة الكهربائية من جامعة ستانفورد.

ضبط LLaMA 2 سريع وفعال من حيث التكلفة باستخدام AWS Trainium | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.ييدا وانغ هو عالم رئيسي في فريق AWS AI في أمازون. تنصب اهتماماته البحثية على الأنظمة والحوسبة عالية الأداء وتحليلات البيانات الضخمة. وهو يعمل حاليًا على أنظمة التعلم العميق، مع التركيز على تجميع وتحسين نماذج التعلم العميق للتدريب والاستدلال الفعال، وخاصة النماذج الأساسية واسعة النطاق. وتتمثل المهمة في ربط النماذج عالية المستوى من مختلف الأطر ومنصات الأجهزة منخفضة المستوى بما في ذلك وحدات المعالجة المركزية (CPU) ووحدات معالجة الرسومات (GPU) ومسرعات الذكاء الاصطناعي، بحيث يمكن تشغيل النماذج المختلفة بأداء عالٍ على أجهزة مختلفة.

ضبط LLaMA 2 سريع وفعال من حيث التكلفة باستخدام AWS Trainium | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.جون (لوقا) هوان هو عالم رئيسي في AWS AI Labs. يعمل الدكتور هوان في مجال الذكاء الاصطناعي وعلوم البيانات. وقد نشر أكثر من 160 ورقة بحثية تمت مراجعتها في مؤتمرات ومجلات رائدة، كما قام بتخريج 11 طالب دكتوراه. وقد حصل على جائزة التطوير الوظيفي المبكر لكلية NSF في عام 2009. وقبل انضمامه إلى AWS، عمل في Baidu Research كعالم متميز ورئيس مختبر Baidu Big Data. أسس شركة StyleAI Inc.، وهي شركة ناشئة تعمل في مجال الذكاء الاصطناعي، وعمل كرئيس تنفيذي وكبير للعلماء في الفترة من 2019 إلى 2021. قبل انضمامه إلى الصناعة، كان أستاذًا لتشارلز إي وماري جين سبار في قسم EECS بجامعة كانساس. وفي الفترة من 2015 إلى 2018، عمل كمدير برنامج في مؤسسة العلوم الوطنية الأمريكية (NSF) وكان مسؤولاً عن برنامج البيانات الضخمة الخاص بها.

ضبط LLaMA 2 سريع وفعال من حيث التكلفة باستخدام AWS Trainium | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.شروتي كوباركار هو مدير أول لتسويق المنتجات في AWS. تساعد العملاء على استكشاف البنية التحتية للحوسبة المسرَّعة من Amazon EC2 وتقييمها واعتمادها لتلبية احتياجات التعلم الآلي الخاصة بهم.

الطابع الزمني:

اكثر من التعلم الآلي من AWS