أصبحت النماذج اللغوية الكبيرة (أو LLMs) موضوعًا للمحادثات اليومية. ويتجلى اعتمادها السريع في مقدار الوقت المطلوب للوصول إلى 100 مليون مستخدم، والذي انتقل من "4.5 سنوات عبر الفيسبوك" إلى أدنى مستوى له على الإطلاق وهو مجرد "شهرين بواسطة ChatGPT". يستخدم المحول التوليدي المدرب مسبقًا (GPT) تحديثات الانحدار الذاتي السببية للتنبؤ. لقد ثبت أن مجموعة متنوعة من المهام مثل التعرف على الكلام وإنشاء النص والإجابة على الأسئلة تتمتع بأداء مذهل من خلال هذه البنى النموذجية. عدة موديلات حديثة مثل NeoX, صقر, اللاما نوع من الجمال استخدم بنية GPT كعمود فقري. يتطلب تدريب LLM قدرًا هائلاً من وقت الحوسبة، والذي يكلف ملايين الدولارات. في هذا المنشور، سنلخص إجراءات تدريب GPT NeoX on تدريب AWS، مسرع التعلم الآلي (ML) المصمم خصيصًا لهذا الغرض والمُحسّن للتدريب على التعلم العميق. سنوضح كيف قمنا بتدريب هذه النماذج بطريقة فعالة من حيث التكلفة (3.2 مليون رمز مميز/دولار) باستخدام AWS Trainium دون فقدان أي جودة للنموذج.
حل نظرة عامة
نماذج GPT NeoX وPythia
جي بي تي نيوكس و بيثيا هي نماذج اللغة السببية مفتوحة المصدر من Eleuther-AI مع ما يقرب من 20 مليار معلمة في NeoX و6.9 مليار في Pythia. كلاهما نموذجان لوحدة فك التشفير يتبعان تصميمًا معماريًا مشابهًا لـ Chat GPT3. ومع ذلك، لديهم أيضًا العديد من الإضافات، والتي تم اعتمادها أيضًا على نطاق واسع في الموديلات الحديثة مثل اللاما. على وجه الخصوص، لديهم التضمين الموضعي الدوراني (ROPE) مع دوران جزئي عبر أبعاد الرأس. تم تدريب النماذج الأصلية (NeoX وPythia 6.9B) على النماذج المتاحة بشكل مفتوح مجموعة بيانات الوبر مع إلغاء البيانات المكررة واستخدام الواجهة الخلفية Megatron و Deepspeed.
نعرض التدريب المسبق والضبط الدقيق لهذه النماذج على مثيلات Trn1 المستندة إلى AWS Trainium باستخدام نيورون نيمو مكتبة. لإثبات صحة المفهوم والاستنساخ السريع، سنستخدم مجموعة فرعية أصغر من مجموعة بيانات ويكيبيديا تم ترميزها باستخدام رمز ترميز زوج البايت (BPE) GPT2.
تجول
قم بتنزيل مجموعة بيانات ويكيبيديا المُرمزة مسبقًا كما هو موضح:
يستخدم كل من NeoX 20B وPythia 6.9B حبلًا مع دوران جزئي، على سبيل المثال، تدوير 25% من أبعاد الرأس والحفاظ على الباقي دون تدوير. لتنفيذ التدوير الجزئي بكفاءة على مسرع AWS Trainium، بدلاً من تسلسل الأبعاد الدوارة وغير الدوارة، نقوم بإلحاق ترددات صفرية للأبعاد غير الدوارة ثم نقوم بتدوير المجموعة الكاملة لأبعاد الرأس. ساعدتنا هذه الخدعة البسيطة على تحسين الإنتاجية (التسلسلات التي تتم معالجتها في الثانية) على AWS Trainium.
خطوات التدريب
لتشغيل التدريب، نستخدم SLURM متعدد العقد Amazon Elastic Compute Cloud (Amazon EC2) مجموعة Trn1، حيث تحتوي كل عقدة على مثيل trn1.32xl. كل trn1.32xl لديها 16 مسرعًا مع عاملين لكل مسرع. بعد تنزيل الأحدث نيورون نيمو الحزمة، استخدم المقدمة نيووكس و بيثيا التدريب المسبق والضبط الدقيق للبرامج النصية باستخدام المعلمات الفائقة المحسنة وتنفيذ ما يلي لتدريب على أربع عقد.
- التجميع: قم بتجميع النموذج مسبقًا بثلاث تكرارات قطار لإنشاء الرسوم البيانية وحفظها:
- تشغيل: قم بتنفيذ التدريب عن طريق تحميل الرسوم البيانية المخزنة مؤقتًا من الخطوات الأولى
- نتائج المراقبة
يجب اتباع نفس الخطوات لتشغيل نموذج Pythia 6.9B مع الاستبدال neox_20B_slurm.sh
by pythia_6.9B_slurm.sh
.
تجارب ما قبل التدريب والضبط
نعرض التدريب المسبق لنماذج GPT-NeoX وPythia على AWS Trainium باستخدام نيورون نيمو مكتبة لتكرارات 10 آلاف، وأيضًا إظهار الضبط الدقيق لهذه النماذج لخطوات 1 ألف. للتدريب المسبق، نستخدم رمز GPT2 BPE داخل NeMo ونتبع نفس الشيء التكوين كما هو مستخدم في النموذج الأصلي. يتطلب الضبط الدقيق على AWS Trainium تغيير بعض المعلمات (مثل عامل تقسيم حجم المفردات)، والتي يتم توفيرها في البرامج النصية للضبط الدقيق لاستيعاب اختلافات Megatron مقابل NeMo وتغييرات GPU مقابل AWS Trainium. يظهر في الجدول 1 إنتاجية التدريب الموزعة متعددة العقد مع عدد متفاوت من العقد.
الموديل | موتر بالتوازي | موازاة خطوط الأنابيب | عدد الحالات | التكلفة (دولار/ساعة) | طول التسلسل | حجم الدفعة العالمية | الإنتاجية (التتابع/ثانية) | نسبة التكلفة إلى الإنتاجية (الرموز/الدولار) |
بيثيا 6.9 ب | 8 | 1 | 1 | 7.59 | 2048 | 256 | 10.4 | 10,102,387 |
8 | 1 | 4 | 30.36 | 2048 | 256 | 35.8 | 8,693,881 | |
نيوكس 20 ب | 8 | 4 | 4 | 30.36 | 2048 | 16384 | 13.60 | 3,302,704 |
8 | 4 | 8 | 60.72 | 2048 | 16384 | 26.80 | 3,254,134 | |
8 | 4 | 16 | 121.44 | 2048 | 16384 | 54.30 | 3,296,632 | |
8 | 4 | 32 | 242.88 | 2048 | 16384 | 107.50 | 3,263,241 | |
8 | 4 | 64 | 485.76 | 2048 | 16384 | 212.00 | 3,217,708 |
الجدول 1. مقارنة متوسط الإنتاجية لنماذج GPT NeoX وPythia للتدريب حتى 500 خطوة مع تغير عدد العقد. ال تسعير trn1.32xl يعتمد على سعر الساعة المحجوز لمدة 3 سنوات.
بعد ذلك، نقوم أيضًا بتقييم مسار الخسارة للتدريب النموذجي على AWS Trainium ومقارنته مع التشغيل المقابل على مجموعة P4d (نواة وحدة معالجة الرسومات Nvidia A100). إلى جانب فقدان التدريب، نقوم أيضًا بمقارنة مؤشر مفيد مثل معيار التدرج، وهو معياران من التدرجات النموذجية المحسوبة في كل تكرار تدريب لمراقبة تقدم التدريب. تظهر نتائج التدريب في الشكل 2، 1 والضبط الدقيق لـ NeoX 2B في الشكل 20.
شكل 1. متوسط فقدان التدريب عبر جميع العاملين (يسار) وقاعدة التدرج (يمين) في التدريب في كل خطوة. تم تدريب NeoX 20B على 4 عقد مع مجموعة بيانات wiki صغيرة على GPU وTrainium مع نفس معلمات التدريب الفائقة (حجم الدفعة العالمية = 256). يستخدم GPU BF16 والدقة المختلطة الافتراضية بينما يستخدم AWS Trainium BF16 الكامل مع التقريب العشوائي. تتطابق مسارات معيار الخسارة والتدرج مع GPU وAWS Trainium.
شكل 2. متوسط فقدان التدريب عبر جميع العاملين (يسار) وقاعدة التدرج (يمين) في التدريب في كل خطوة. على غرار GPT NeoX في الشكل-1، تم تدريب Pythia 6.9B على 4 عقد مع مجموعة بيانات wiki صغيرة على GPU وTrainium مع نفس معلمات التدريب الفائقة (حجم الدفعة العالمية = 256). تتطابق مسارات معيار الخسارة والتدرج مع GPU وTrainium.
شكل 3. الضبط الدقيق لنموذج GPT NeoX 20B على GPU وAWS Trainium مع متوسط فقدان التدريب عبر جميع العاملين (يسار) وقاعدة التدرج (يمين). يتم استخدام مجموعة بيانات wiki صغيرة لتوضيح الضبط الدقيق. تتطابق مسارات معيار الخسارة والتدرج مع GPU وAWS Trainium.
في هذا المنشور، أظهرنا تدريبًا فعالاً من حيث التكلفة لحاملي LLM على أجهزة التعلم العميق الخاصة بـ AWS. لقد قمنا بتدريب نماذج GPT NeoX 20B وPythia 6.9B على AWS Trn1 باستخدام مكتبة Neuron NeMo. تبلغ تكلفة الإنتاجية الطبيعية لـ 20 مليار نموذج باستخدام AWS Trainium حوالي 3.2 مليون رمز مميز/دولار يتم إنفاقه. إلى جانب التدريب الفعال من حيث التكلفة على AWS Trainium، نحصل على دقة مماثلة للنموذج، وهو ما يتضح من فقدان خطوات التدريب والمسار المعياري المتدرج. قمنا أيضًا بضبط نقاط التفتيش المتاحة لنموذج NeoX 20B على AWS Trainium. للحصول على معلومات إضافية حول التدريب الموزع مع NeMo Megatron على AWS Trainium، راجع مرجع AWS Neuron لـ NeMo Megatron. يمكن العثور على مورد جيد لبدء الضبط الدقيق لنموذج اللاما هنا، ضبط Llama2. للبدء في استخدام AWS Trainium المُدار الأمازون SageMaker، انظر قم بتدريب نماذج ML الخاصة بك باستخدام AWS Trainium وAmazon SageMaker.
حول المؤلف
غوراف غوبتا يعمل حاليًا عالمًا تطبيقيًا في مختبرات الذكاء الاصطناعي في Amazon Web Services (AWS). أكمل الدكتور جوبتا درجة الدكتوراه من جامعة جنوب كاليفورنيا فيتيربي. تشمل اهتماماته البحثية مجال نمذجة البيانات المتسلسلة، وتعلم المعادلات التفاضلية الجزئية، ونظرية المعلومات للتعلم الآلي، والنماذج الديناميكية الكسرية، والشبكات المعقدة. وهو يعمل حاليًا على حل المشكلات التطبيقية والرياضية المتعلقة بسلوك التدريب في ماجستير إدارة الأعمال، ونماذج الرؤية باستخدام PDEs، ونماذج المعلومات النظرية متعددة الوسائط. لدى الدكتور جوبتا منشورات في مجلات/مؤتمرات مرموقة مثل Neurips، وICLR، وICML، وNature، وIEEE Control Society، وACM cyber-physical Society.
بن سنايدر هو عالم تطبيقي في AWS Deep Learning. تشمل اهتماماته البحثية النماذج التأسيسية، والتعلم المعزز، والتحسين غير المتزامن. خارج العمل، يستمتع بركوب الدراجات والتخييم في الريف.
أميث (R) ماميدالا هو أحد كبار مهندسي تطبيقات التعلم الآلي في AWS Annapurna Labs. أكمل الدكتور ماميدالا درجة الدكتوراه في جامعة ولاية أوهايو في مجال الحوسبة والاتصالات عالية الأداء. خلال فترة عمله في أبحاث IBM، ساهم الدكتور ماميدالا في فئة أجهزة الكمبيوتر BlueGene التي غالبًا ما كانت تتصدر تصنيف Top500 لأقوى أجهزة الكمبيوتر العملاقة وأكثرها كفاءة في استخدام الطاقة. حصل المشروع على الميدالية الوطنية للتكنولوجيا والابتكار لعام 2009. بعد فترة قصيرة قضاها كمهندس ذكاء اصطناعي في صندوق تحوط مالي، انضم الدكتور ماميدالا إلى مختبرات أنابورنا للتركيز على التدريب على نماذج اللغات الكبيرة.
جون (لوقا) هوان هو عالم رئيسي في AWS AI Labs. يعمل الدكتور هوان في مجال الذكاء الاصطناعي وعلوم البيانات. وقد نشر أكثر من 180 ورقة بحثية تمت مراجعتها في مؤتمرات ومجلات رائدة. وقد حصل على جائزة التطوير الوظيفي المبكر لكلية NSF في عام 2009. وقبل انضمامه إلى AWS، عمل في أبحاث Baidu كعالم متميز ورئيس مختبر Baidu Big Data. أسس شركة StyleAI Inc.، وهي شركة ناشئة تعمل في مجال الذكاء الاصطناعي، وعمل كرئيس تنفيذي وكبير العلماء في الفترة 2019-2021. قبل انضمامه إلى الصناعة، كان أستاذًا لتشارلز إي وماري جين سبار في قسم EECS بجامعة كانساس.
شروتي كوباركار هو مدير أول لتسويق المنتجات في AWS. تساعد العملاء على استكشاف البنية التحتية للحوسبة المسرَّعة من Amazon EC2 وتقييمها واعتمادها لتلبية احتياجات التعلم الآلي الخاصة بهم.
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
- أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
- أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
- أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
- المصدر https://aws.amazon.com/blogs/machine-learning/frugality-meets-accuracy-cost-efficient-training-of-gpt-neox-and-pythia-models-with-aws-trainium/
- :لديها
- :يكون
- $ UP
- 1
- 10
- 100
- 10K
- 120
- 16
- 160
- 180
- 20
- 500
- 7
- 9
- a
- معجل
- مسرع
- المعجلات
- استيعاب
- دقة
- ACM
- في
- إضافي
- معلومات اضافية
- إضافات
- تبنى
- اعتمد
- تبني
- بعد
- AI
- الكل
- كل مرة منخفض
- على طول
- أيضا
- أمازون
- Amazon EC2
- أمازون ويب سيرفيسز
- أمازون ويب سيرفيسز (أوس)
- كمية
- an
- و
- أي وقت
- تطبيق
- تطبيقي
- ما يقرب من
- معماري
- هندسة معمارية
- هي
- حول
- AS
- At
- متاح
- جائزة
- منحت
- AWS
- العمود الفقري
- الخلفية
- بايدو
- على أساس
- BE
- أصبح
- قبل
- سلوك
- كبير
- البيانات الكبيرة
- مليار
- BIN
- على حد سواء
- by
- التوظيف
- CD
- الرئيس التنفيذي
- تغيير
- التغييرات
- متغير
- تشارلز
- شات جي بي تي
- رئيس
- فئة
- سحابة
- كتلة
- Communication
- قارن
- مقارنة
- إكمال
- الطلب مكتمل
- مجمع
- إحصاء
- أجهزة الكمبيوتر
- الحوسبة
- المؤتمرات
- ساهمت
- مراقبة
- المحادثات
- المقابلة
- التكلفة
- التكاليف
- استطاع
- حاليا
- العملاء
- يوميا
- البيانات
- علم البيانات
- عميق
- التعلم العميق
- الترتيب
- شرح
- تظاهر
- القسم
- تصميم
- التطوير التجاري
- الخلافات
- الأبعاد
- متميزه
- وزعت
- التدريب الموزع
- تقسيم
- دولار
- نطاق
- تحميل
- dr
- دكتور جوبتا
- أثناء
- e
- كل
- في وقت مبكر
- الطُرق الفعّالة
- بكفاءة
- تضمين
- ترميز
- مهندس
- الهندسة
- معادلات
- إنشاء
- تقييم
- واضح
- مثال
- تنفيذ
- اكتشف
- قليل
- مالي
- الاسم الأول
- الخطوات الأولى
- التركيز
- اتباع
- يتبع
- متابعيك
- في حالة
- وجدت
- التأسيسية
- تاسست
- أربعة
- كسري
- تبدأ من
- بالإضافة إلى
- صندوق
- توليد
- جيل
- توليدي
- دولار فقط واحصل على خصم XNUMX% على جميع
- العالمية
- ذهب
- خير
- وحدة معالجة الرسوميات:
- التدرجات
- الرسوم البيانية
- غوبتا
- أجهزة التبخير
- يملك
- he
- رئيس
- التحوط
- صندوق التحوط
- ساعد
- يساعد
- هنا
- مرتفع
- له
- ساعة
- كيفية
- لكن
- HTML
- HTTPS
- تعانق الوجه
- IBM
- IDX
- IEEE
- تنفيذ
- تحسن
- in
- Inc.
- تتضمن
- مؤشر
- العالمية
- معلومات
- البنية التحتية
- الابتكار
- في الداخل
- مثل
- بدلًا من ذلك
- السريرية
- IT
- تكرير
- التكرارات
- جين
- انضم
- انضمام
- JPG
- جسون
- كانساس
- حفظ
- مختبر
- مختبرات
- لغة
- كبير
- آخر
- قيادة
- تعلم
- ليد
- اليسار
- الطول
- المكتبة
- اللاما نوع من الجمال
- جار التحميل
- فقدان
- خسارة
- منخفض
- آلة
- آلة التعلم
- جعل
- تمكن
- مدير
- التسويق
- مباراة
- رياضي
- تعني
- يجتمع
- أسعار الصرف السوقية
- مييتااا
- مليون
- ملايين
- ML
- نموذج
- تصميم
- عارضات ازياء
- مراقبة
- المقبلة.
- الأكثر من ذلك
- أكثر
- محليات
- الطبيعة
- إحتياجات
- الشبكات
- العقدة
- العقد
- NSF
- عدد
- NVIDIA
- تحصل
- of
- غالبا
- أوهايو
- on
- المصدر المفتوح
- بصراحة
- التحسين
- الأمثل
- or
- أصلي
- الخطوط العريضة
- في الخارج
- صفقة
- أوراق
- المعلمات
- خاصة
- لاستعراض الأقران
- إلى
- أداء
- رسالة دكتوراه
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- منشور
- قوي
- تنبؤ
- رئيسي
- مشاكل
- الإجراءات
- معالجتها
- المنتج
- البروفيسور
- التقدّم
- تنفيذ المشاريع
- المقدمة
- المنشورات
- نشرت
- جودة
- سؤال
- سريع
- R
- تصنيف
- معدل
- نسبة
- الوصول
- الأخيرة
- اعتراف
- مرجع
- استنساخ
- مطلوب
- يتطلب
- بحث
- محفوظة
- مورد
- REST
- النتائج
- حق
- التقريب
- يجري
- تشغيل
- نفسه
- حفظ
- علوم
- عالم
- مخطوطات
- ثانية
- انظر تعريف
- كبير
- خدماتنا
- طقم
- عدة
- هي
- إظهار
- أظهرت
- أظهرت
- مماثل
- الاشارات
- المقاس
- صغير
- الأصغر
- جاليات
- امتداد
- خطاب
- التعرف على الكلام
- قضى
- بداية
- بدء
- بدأت
- الولايه او المحافظه
- خطوة
- خطوات
- هذه
- تلخيص
- المهام
- تكنولوجيا
- نص
- من
- •
- من مشاركة
- then
- نظرية
- تشبه
- هم
- ثلاثة
- الإنتاجية
- الوقت
- إلى
- المرمز
- تيشرت
- موضوع
- نحو
- قطار
- متدرب
- قادة الإيمان
- مسار
- محول
- اثنان
- جامعة
- آخر التحديثات
- us
- تستخدم
- مستعمل
- المستخدمين
- يستخدم
- استخدام
- تشكيلة
- متفاوتة
- مقابل
- رؤيتنا
- وكان
- we
- الويب
- خدمات ويب
- التي
- في حين
- على نحو واسع
- ويكيبيديا
- مع
- بدون
- للعمل
- عمل
- العمال
- عامل
- أعمال
- حل متجر العقارات الشامل الخاص بك في جورجيا
- زفيرنت
- صفر