التقشف يلتقي بالدقة: تدريب فعال من حيث التكلفة لنماذج GPT NeoX وPythia باستخدام AWS Trainium | خدمات الويب الأمازون

التقشف يلتقي بالدقة: تدريب فعال من حيث التكلفة لنماذج GPT NeoX وPythia باستخدام AWS Trainium | خدمات الويب الأمازون

أصبحت النماذج اللغوية الكبيرة (أو LLMs) موضوعًا للمحادثات اليومية. ويتجلى اعتمادها السريع في مقدار الوقت المطلوب للوصول إلى 100 مليون مستخدم، والذي انتقل من "4.5 سنوات عبر الفيسبوك" إلى أدنى مستوى له على الإطلاق وهو مجرد "شهرين بواسطة ChatGPT". يستخدم المحول التوليدي المدرب مسبقًا (GPT) تحديثات الانحدار الذاتي السببية للتنبؤ. لقد ثبت أن مجموعة متنوعة من المهام مثل التعرف على الكلام وإنشاء النص والإجابة على الأسئلة تتمتع بأداء مذهل من خلال هذه البنى النموذجية. عدة موديلات حديثة مثل NeoX, صقر, اللاما نوع من الجمال استخدم بنية GPT كعمود فقري. يتطلب تدريب LLM قدرًا هائلاً من وقت الحوسبة، والذي يكلف ملايين الدولارات. في هذا المنشور، سنلخص إجراءات تدريب GPT NeoX on تدريب AWS، مسرع التعلم الآلي (ML) المصمم خصيصًا لهذا الغرض والمُحسّن للتدريب على التعلم العميق. سنوضح كيف قمنا بتدريب هذه النماذج بطريقة فعالة من حيث التكلفة (3.2 مليون رمز مميز/دولار) باستخدام AWS Trainium دون فقدان أي جودة للنموذج.

حل نظرة عامة

نماذج GPT NeoX وPythia

جي بي تي نيوكس و بيثيا هي نماذج اللغة السببية مفتوحة المصدر من Eleuther-AI مع ما يقرب من 20 مليار معلمة في NeoX و6.9 مليار في Pythia. كلاهما نموذجان لوحدة فك التشفير يتبعان تصميمًا معماريًا مشابهًا لـ Chat GPT3. ومع ذلك، لديهم أيضًا العديد من الإضافات، والتي تم اعتمادها أيضًا على نطاق واسع في الموديلات الحديثة مثل اللاما. على وجه الخصوص، لديهم التضمين الموضعي الدوراني (ROPE) مع دوران جزئي عبر أبعاد الرأس. تم تدريب النماذج الأصلية (NeoX وPythia 6.9B) على النماذج المتاحة بشكل مفتوح مجموعة بيانات الوبر مع إلغاء البيانات المكررة واستخدام الواجهة الخلفية Megatron و Deepspeed.

نعرض التدريب المسبق والضبط الدقيق لهذه النماذج على مثيلات Trn1 المستندة إلى AWS Trainium باستخدام نيورون نيمو مكتبة. لإثبات صحة المفهوم والاستنساخ السريع، سنستخدم مجموعة فرعية أصغر من مجموعة بيانات ويكيبيديا تم ترميزها باستخدام رمز ترميز زوج البايت (BPE) GPT2.

تجول

قم بتنزيل مجموعة بيانات ويكيبيديا المُرمزة مسبقًا كما هو موضح:

export DATA_DIR=~/examples_datasets/gpt2 mkdir -p ${DATA_DIR} && cd ${DATA_DIR} wget https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-vocab.json
wget https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-merges.txt
aws s3 cp s3://neuron-s3/training_datasets/gpt/wikipedia/my-gpt2_text_document.bin . --no-sign-request
aws s3 cp s3://neuron-s3/training_datasets/gpt/wikipedia/my-gpt2_text_document.idx . --no-sign-request
aws s3 cp s3://neuron-s3/training_datasets/gpt/wikipedia/license.txt . --no-sign-request

يستخدم كل من NeoX 20B وPythia 6.9B حبلًا مع دوران جزئي، على سبيل المثال، تدوير 25% من أبعاد الرأس والحفاظ على الباقي دون تدوير. لتنفيذ التدوير الجزئي بكفاءة على مسرع AWS Trainium، بدلاً من تسلسل الأبعاد الدوارة وغير الدوارة، نقوم بإلحاق ترددات صفرية للأبعاد غير الدوارة ثم نقوم بتدوير المجموعة الكاملة لأبعاد الرأس. ساعدتنا هذه الخدعة البسيطة على تحسين الإنتاجية (التسلسلات التي تتم معالجتها في الثانية) على AWS Trainium.

خطوات التدريب

لتشغيل التدريب، نستخدم SLURM متعدد العقد Amazon Elastic Compute Cloud (Amazon EC2) مجموعة Trn1، حيث تحتوي كل عقدة على مثيل trn1.32xl. كل trn1.32xl لديها 16 مسرعًا مع عاملين لكل مسرع. بعد تنزيل الأحدث نيورون نيمو الحزمة، استخدم المقدمة نيووكس و بيثيا التدريب المسبق والضبط الدقيق للبرامج النصية باستخدام المعلمات الفائقة المحسنة وتنفيذ ما يلي لتدريب على أربع عقد.

  1. التجميع: قم بتجميع النموذج مسبقًا بثلاث تكرارات قطار لإنشاء الرسوم البيانية وحفظها:
    sbatch --nodes 4 compile.slurm ./neoX_20B_slurm.sh

  2. تشغيل: قم بتنفيذ التدريب عن طريق تحميل الرسوم البيانية المخزنة مؤقتًا من الخطوات الأولى
    sbatch --nodes 4 run.slurm ./neoX_20B_slurm.sh

  3. نتائج المراقبة
    tensorboard --logdir=nemo_experiments/megatron_neox

يجب اتباع نفس الخطوات لتشغيل نموذج Pythia 6.9B مع الاستبدال neox_20B_slurm.sh by pythia_6.9B_slurm.sh.

تجارب ما قبل التدريب والضبط

نعرض التدريب المسبق لنماذج GPT-NeoX وPythia على AWS Trainium باستخدام نيورون نيمو مكتبة لتكرارات 10 آلاف، وأيضًا إظهار الضبط الدقيق لهذه النماذج لخطوات 1 ألف. للتدريب المسبق، نستخدم رمز GPT2 BPE داخل NeMo ونتبع نفس الشيء التكوين كما هو مستخدم في النموذج الأصلي. يتطلب الضبط الدقيق على AWS Trainium تغيير بعض المعلمات (مثل عامل تقسيم حجم المفردات)، والتي يتم توفيرها في البرامج النصية للضبط الدقيق لاستيعاب اختلافات Megatron مقابل NeMo وتغييرات GPU مقابل AWS Trainium. يظهر في الجدول 1 إنتاجية التدريب الموزعة متعددة العقد مع عدد متفاوت من العقد.

الموديل موتر بالتوازي موازاة خطوط الأنابيب عدد الحالات التكلفة (دولار/ساعة) طول التسلسل حجم الدفعة العالمية الإنتاجية (التتابع/ثانية) نسبة التكلفة إلى الإنتاجية (الرموز/الدولار)
بيثيا 6.9 ب 8 1 1 7.59 2048 256 10.4 10,102,387
8 1 4 30.36 2048 256 35.8 8,693,881
نيوكس 20 ب 8 4 4 30.36 2048 16384 13.60 3,302,704
8 4 8 60.72 2048 16384 26.80 3,254,134
8 4 16 121.44 2048 16384 54.30 3,296,632
8 4 32 242.88 2048 16384 107.50 3,263,241
8 4 64 485.76 2048 16384 212.00 3,217,708

الجدول 1. مقارنة متوسط ​​الإنتاجية لنماذج GPT NeoX وPythia للتدريب حتى 500 خطوة مع تغير عدد العقد. ال تسعير trn1.32xl يعتمد على سعر الساعة المحجوز لمدة 3 سنوات.

بعد ذلك، نقوم أيضًا بتقييم مسار الخسارة للتدريب النموذجي على AWS Trainium ومقارنته مع التشغيل المقابل على مجموعة P4d (نواة وحدة معالجة الرسومات Nvidia A100). إلى جانب فقدان التدريب، نقوم أيضًا بمقارنة مؤشر مفيد مثل معيار التدرج، وهو معياران من التدرجات النموذجية المحسوبة في كل تكرار تدريب لمراقبة تقدم التدريب. تظهر نتائج التدريب في الشكل 2، 1 والضبط الدقيق لـ NeoX 2B في الشكل 20.

متوسط ​​فقدان التدريب عبر جميع العاملين (يسار) وقاعدة التدرج (يمين) في التدريب في كل خطوة.

شكل 1. متوسط ​​فقدان التدريب عبر جميع العاملين (يسار) وقاعدة التدرج (يمين) في التدريب في كل خطوة. تم تدريب NeoX 20B على 4 عقد مع مجموعة بيانات wiki صغيرة على GPU وTrainium مع نفس معلمات التدريب الفائقة (حجم الدفعة العالمية = 256). يستخدم GPU BF16 والدقة المختلطة الافتراضية بينما يستخدم AWS Trainium BF16 الكامل مع التقريب العشوائي. تتطابق مسارات معيار الخسارة والتدرج مع GPU وAWS Trainium.

متوسط ​​فقدان التدريب عبر جميع العاملين (يسار) وقاعدة التدرج (يمين) في تدريب كل خطوة (بيثيا).

شكل 2. متوسط ​​فقدان التدريب عبر جميع العاملين (يسار) وقاعدة التدرج (يمين) في التدريب في كل خطوة. على غرار GPT NeoX في الشكل-1، تم تدريب Pythia 6.9B على 4 عقد مع مجموعة بيانات wiki صغيرة على GPU وTrainium مع نفس معلمات التدريب الفائقة (حجم الدفعة العالمية = 256). تتطابق مسارات معيار الخسارة والتدرج مع GPU وTrainium.

الضبط الدقيق لنموذج GPT NeoX 20B على GPU وAWS Trainium مع متوسط ​​فقدان التدريب عبر جميع العاملين (يسار) وقاعدة التدرج (يمين).

شكل 3. الضبط الدقيق لنموذج GPT NeoX 20B على GPU وAWS Trainium مع متوسط ​​فقدان التدريب عبر جميع العاملين (يسار) وقاعدة التدرج (يمين). يتم استخدام مجموعة بيانات wiki صغيرة لتوضيح الضبط الدقيق. تتطابق مسارات معيار الخسارة والتدرج مع GPU وAWS Trainium.

في هذا المنشور، أظهرنا تدريبًا فعالاً من حيث التكلفة لحاملي LLM على أجهزة التعلم العميق الخاصة بـ AWS. لقد قمنا بتدريب نماذج GPT NeoX 20B وPythia 6.9B على AWS Trn1 باستخدام مكتبة Neuron NeMo. تبلغ تكلفة الإنتاجية الطبيعية لـ 20 مليار نموذج باستخدام AWS Trainium حوالي 3.2 مليون رمز مميز/دولار يتم إنفاقه. إلى جانب التدريب الفعال من حيث التكلفة على AWS Trainium، نحصل على دقة مماثلة للنموذج، وهو ما يتضح من فقدان خطوات التدريب والمسار المعياري المتدرج. قمنا أيضًا بضبط نقاط التفتيش المتاحة لنموذج NeoX 20B على AWS Trainium. للحصول على معلومات إضافية حول التدريب الموزع مع NeMo Megatron على AWS Trainium، راجع مرجع AWS Neuron لـ NeMo Megatron. يمكن العثور على مورد جيد لبدء الضبط الدقيق لنموذج اللاما هنا، ضبط Llama2. للبدء في استخدام AWS Trainium المُدار الأمازون SageMaker، انظر قم بتدريب نماذج ML الخاصة بك باستخدام AWS Trainium وAmazon SageMaker.


حول المؤلف

التقشف يلتقي بالدقة: تدريب فعال من حيث التكلفة لنماذج GPT NeoX وPythia باستخدام AWS Trainium | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.غوراف غوبتا يعمل حاليًا عالمًا تطبيقيًا في مختبرات الذكاء الاصطناعي في Amazon Web Services (AWS). أكمل الدكتور جوبتا درجة الدكتوراه من جامعة جنوب كاليفورنيا فيتيربي. تشمل اهتماماته البحثية مجال نمذجة البيانات المتسلسلة، وتعلم المعادلات التفاضلية الجزئية، ونظرية المعلومات للتعلم الآلي، والنماذج الديناميكية الكسرية، والشبكات المعقدة. وهو يعمل حاليًا على حل المشكلات التطبيقية والرياضية المتعلقة بسلوك التدريب في ماجستير إدارة الأعمال، ونماذج الرؤية باستخدام PDEs، ونماذج المعلومات النظرية متعددة الوسائط. لدى الدكتور جوبتا منشورات في مجلات/مؤتمرات مرموقة مثل Neurips، وICLR، وICML، وNature، وIEEE Control Society، وACM cyber-physical Society.

التقشف يلتقي بالدقة: تدريب فعال من حيث التكلفة لنماذج GPT NeoX وPythia باستخدام AWS Trainium | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.بن سنايدر هو عالم تطبيقي في AWS Deep Learning. تشمل اهتماماته البحثية النماذج التأسيسية، والتعلم المعزز، والتحسين غير المتزامن. خارج العمل، يستمتع بركوب الدراجات والتخييم في الريف.

التقشف يلتقي بالدقة: تدريب فعال من حيث التكلفة لنماذج GPT NeoX وPythia باستخدام AWS Trainium | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.أميث (R) ماميدالا هو أحد كبار مهندسي تطبيقات التعلم الآلي في AWS Annapurna Labs. أكمل الدكتور ماميدالا درجة الدكتوراه في جامعة ولاية أوهايو في مجال الحوسبة والاتصالات عالية الأداء. خلال فترة عمله في أبحاث IBM، ساهم الدكتور ماميدالا في فئة أجهزة الكمبيوتر BlueGene التي غالبًا ما كانت تتصدر تصنيف Top500 لأقوى أجهزة الكمبيوتر العملاقة وأكثرها كفاءة في استخدام الطاقة. حصل المشروع على الميدالية الوطنية للتكنولوجيا والابتكار لعام 2009. بعد فترة قصيرة قضاها كمهندس ذكاء اصطناعي في صندوق تحوط مالي، انضم الدكتور ماميدالا إلى مختبرات أنابورنا للتركيز على التدريب على نماذج اللغات الكبيرة.

التقشف يلتقي بالدقة: تدريب فعال من حيث التكلفة لنماذج GPT NeoX وPythia باستخدام AWS Trainium | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.جون (لوقا) هوان هو عالم رئيسي في AWS AI Labs. يعمل الدكتور هوان في مجال الذكاء الاصطناعي وعلوم البيانات. وقد نشر أكثر من 180 ورقة بحثية تمت مراجعتها في مؤتمرات ومجلات رائدة. وقد حصل على جائزة التطوير الوظيفي المبكر لكلية NSF في عام 2009. وقبل انضمامه إلى AWS، عمل في أبحاث Baidu كعالم متميز ورئيس مختبر Baidu Big Data. أسس شركة StyleAI Inc.، وهي شركة ناشئة تعمل في مجال الذكاء الاصطناعي، وعمل كرئيس تنفيذي وكبير العلماء في الفترة 2019-2021. قبل انضمامه إلى الصناعة، كان أستاذًا لتشارلز إي وماري جين سبار في قسم EECS بجامعة كانساس.

التقشف يلتقي بالدقة: تدريب فعال من حيث التكلفة لنماذج GPT NeoX وPythia باستخدام AWS Trainium | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.شروتي كوباركار هو مدير أول لتسويق المنتجات في AWS. تساعد العملاء على استكشاف البنية التحتية للحوسبة المسرَّعة من Amazon EC2 وتقييمها واعتمادها لتلبية احتياجات التعلم الآلي الخاصة بهم.

الطابع الزمني:

اكثر من التعلم الآلي من AWS