معهد الابتكار التكنولوجي يدرب النموذج الأساسي الحديث Falcon LLM 40B على Amazon SageMaker | خدمات أمازون ويب

معهد الابتكار التكنولوجي يدرب النموذج الأساسي الحديث Falcon LLM 40B على Amazon SageMaker | خدمات أمازون ويب

تمت كتابة منشور المدونة هذا بالاشتراك مع الدكتورة ابتسام المزروعي ، المدير التنفيذي - القائم بأعمال رئيس باحثي الذكاء الاصطناعي في وحدة مركز AI-Cross ورئيس مشروع LLM في TII.

الإمارات العربية المتحدة (الإمارات العربية المتحدة) معهد الابتكار التكنولوجي (TII)، ركيزة البحث التطبيقي في أبوظبي مجلس بحوث التكنولوجيا المتقدمة، أطلقت Falcon LLM ، نموذج اللغة التأسيسي الكبير (LLM) مع 40 مليار معلمة. TII هو مركز أبحاث عالمي رائد مكرس لدفع حدود المعرفة. يعمل فريق TII من العلماء والباحثين والمهندسين لتقديم علوم الاكتشاف والتقنيات التحويلية. يركز عمل TII على الإنجازات التي من شأنها حماية مجتمعنا في المستقبل. تدربوا على 1 تريليون توكن ، تي آي آي فالكون إل إل إم يتميز بأداء من الدرجة الأولى مع الحفاظ على فعاليته من حيث التكلفة بشكل لا يصدق. يطابق Falcon-40B أداء LLMs الأخرى عالية الأداء ، وهو أعلى نموذج مفتوح المصدر في الجمهور Hugging Face افتح LLM لوحة المتصدرين. إنه متاح كمصدر مفتوح بحجمين مختلفين - Falcon-40B و Falcon-7B وتم بناؤه من الصفر باستخدام معالجة البيانات المسبقة ووظائف التدريب النموذجية المبنية على الأمازون SageMaker. يتيح Falcon 40B المفتوح المصدر للمستخدمين إنشاء وتخصيص أدوات الذكاء الاصطناعي التي تلبي احتياجات المستخدمين الفريدة ، وتسهيل التكامل السلس وضمان الحفاظ على أصول البيانات على المدى الطويل. أوزان النموذج متاحة للتنزيل والفحص والنشر في أي مكان.

اعتبارًا من 7 يونيو ، سيتوفر كل من Falcon LLMs أيضًا في Amazon SageMaker JumpStart ، مركز التعلم الآلي (ML) من SageMaker الذي يقدم نماذج مدربة مسبقًا وخوارزميات مدمجة وقوالب حلول مسبقة الصنع لمساعدتك على البدء بسرعة مع ML. يمكنك نشر واستخدام Falcon LLMs ببضع نقرات في استوديو SageMaker أو برمجيًا من خلال SageMaker بيثون SDK. لنشر وتشغيل الاستدلال ضد Falcon LLMs ، يرجى الرجوع إلى مقدمة إلى SageMaker JumpStart - إنشاء نص باستخدام Falcon LLMs مثال مفكرة.

يقوم معهد الابتكار التكنولوجي بتدريب نموذج الأساس المتطور Falcon LLM 40B على Amazon SageMaker | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

تشارك الدكتورة ابتسام المزروعي ، المدير التنفيذي - القائم بأعمال رئيس باحثي الذكاء الاصطناعي في وحدة مركز AI-Cross وقائد مشروع LLM في TII:

"نعلن بفخر عن الإصدار الرسمي مفتوح المصدر لـ Falcon-40B ، نموذج اللغة مفتوح المصدر الأعلى تصنيفًا في العالم. Falcon-40B هو نموذج استثنائي مفتوح المصدر مزود بمعلمات 40B ، مصمم خصيصًا كنموذج سببي لفك الشفرة فقط. تم تدريبه على مجموعة بيانات ضخمة من 1,000B توكن ، بما في ذلك RefinedWeb المحسّن مع corpora المنسقة. تم توفير النموذج بموجب ترخيص Apache 2.0 ، مما يضمن إمكانية الوصول إليه وسهولة استخدامه. تفوقت Falcon-40B على الموديلات الشهيرة مثل LLaMA-65B و StableLM و MPT على لوحة الصدارة العامة التي تحتفظ بها Hugging Face. تم تحسين بنية Falcon-40B للاستدلال ، بدمج تقنيات FlashAttention وتقنيات multiquery. "

"تعكس هذه الخطوة تفانينا لدفع حدود ابتكار الذكاء الاصطناعي ومستوى الاستعداد التكنولوجي للمشاركة المجتمعية والتعليم والتطبيقات الواقعية والتعاون. تواصل الدكتورة ابتسام. "من خلال إطلاق Falcon-40B كنموذج مفتوح المصدر ، نوفر للباحثين ورجال الأعمال والمؤسسات الفرصة لتسخير قدراتها الاستثنائية ودفع أوجه التقدم في الحلول القائمة على الذكاء الاصطناعي من الرعاية الصحية إلى الفضاء والتمويل والتصنيع إلى التكنولوجيا الحيوية ؛ إمكانيات الحلول القائمة على الذكاء الاصطناعي لا حدود لها. للوصول إلى Falcon-40B واستكشاف إمكاناته الرائعة ، يرجى زيارة الموقع FalconLLM.tii.ae. انضم إلينا في الاستفادة من قوة Falcon-40B لتشكيل مستقبل الذكاء الاصطناعي وإحداث ثورة في الصناعات "

في هذا المنشور ، نتعمق مع الدكتور المزروعي حول تدريب Falcon LLM على SageMaker ، وتنظيم البيانات ، والتحسين ، والأداء ، والخطوات التالية.

جيل جديد من ماجستير في القانون

LLMs هي خوارزميات برمجية مدربة لإكمال تسلسل النص الطبيعي. نظرًا لحجمها وحجم بيانات التدريب التي تتفاعل معها ، تتمتع LLM بقدرات رائعة في معالجة النصوص ، بما في ذلك التلخيص والإجابة على الأسئلة والتعلم في السياق والمزيد.

في أوائل عام 2020 ، ركزت المنظمات البحثية في جميع أنحاء العالم على حجم النموذج ، مع ملاحظة أن الدقة مرتبطة بعدد من المعلمات. على سبيل المثال ، يتميز GPT-3 (2020) و BLOOM (2022) بحوالي 175 مليار معلمة ، ويحتوي Gopher (2021) على 230 مليار معلمة ، و MT-NLG (2021) 530 مليار معلمة. في عام 2022 ، هوفمان وآخرون. لاحظ أن التوازن الحالي للحساب بين معلمات النموذج وحجم مجموعة البيانات كان دون المستوى الأمثل ، ونشرت قوانين القياس التجريبية التي تشير إلى أن موازنة الميزانية الحسابية تجاه النماذج الأصغر المدربة على المزيد من البيانات يمكن أن تؤدي إلى نماذج ذات أداء أفضل. قاموا بتطبيق إرشاداتهم في نموذج شينشيلا 70B (2022) ، الذي تفوق على النماذج الأكبر بكثير.

تدريب ماجستير في SageMaker

SageMaker عبارة عن مجموعة من واجهات برمجة التطبيقات المُدارة لتطوير نماذج التعلم الآلي (ML) والتدريب عليها وضبطها واستضافتها ، بما في ذلك نماذج LLM. يعتمد العديد من العملاء على SageMaker لأحمال عمل LLM الخاصة بهم ، مثل الاستقرار AI, مختبرات AI21, وجه يعانقو إل جي الذكاء الاصطناعي. تدريب SageMaker الأحكام تحسب الكتل مع تكوين الأجهزة المعرفة من قبل المستخدم والتعليمات البرمجية. يتم احتساب فواتير المهام لكل تشغيل ، مقسمة بالتناسب إلى الثانية ، مما يعني أنه لا يتم فرض رسوم على المستخدمين مقابل سعة وحدة معالجة الرسومات عند عدم استخدام الخدمة. استخدمت TII مجموعات عابرة مقدمة من SageMaker Training API لتدريب Falcon LLM ، حتى 48 مل. p4d.24xlarge ، تتراكم في 384 وحدة معالجة رسومات NVIDIA A100. الآن ، يقوم معهد TII بتدريب Falcon LLM التالي وتوسيع نطاق تدريبه إلى 3,136 A100 GPU (392 ml.p4d مثيل).

تم إدخال كمية غير مسبوقة من الابتكارات المخصصة في جميع طبقات المشروع من أجل رفع مستوى جودة العلم وسرعة التدريب. في الأقسام التالية ، نصف التحسينات التي أجريت على TII في جميع طبقات نظام التدريب للتعلم العميق (DL).

تنظيم البيانات القابلة للتطوير

يستمد أحدث جيل من LLM قوته من حجم وجودة بيانات التدريب. وضع الفريق عناية خاصة في صناعة مجموعة بيانات عالية الجودة مكونة من تريليون رمز. حولت العديد من وظائف وحدة المعالجة المركزية للتدريب من SageMaker البيتابايتات من بيانات الويب الرخيصة والقابلة للتطوير إلى مجموعة بيانات تدريب آمنة ومنظمة. تقوم الأنظمة الآلية بترشيح البيانات وإلغاء تكرارها ؛ على سبيل المثال ، تم استخدام مصنفات ML لتصفية الألفاظ النابية. تم إنشاء وظائف وحدة المعالجة المركزية التي تعمل على ml.c5.18xlarge (72 وحدة معالجة مركزية ، و 144 جيجابايت من ذاكرة الوصول العشوائي) في عدد قليل من مكالمات API عبر تدريب SageMaker لتشغيل مهام تحويل البيانات. استخدم الفريق كلاً من وظائف وحدة المعالجة المركزية أحادية المثيل ومتعددة الحالات لحالات استخدام الاختلاف. استخدمت بعض هذه الوظائف المئات من وظائف هندسة عدم المشاركة المتوازية (SNA) ، كل منها على جهاز واحد ، وللمهام التي تتطلب التزامن بين العاملين ، أطلق الفريق وظائف متعددة الحالات ، تراكمت في عشرات الحالات وآلاف من وحدات المعالجة المركزية الافتراضية. وفقًا للروايات المتناقلة ، في مهمة إعداد مجموعة البيانات النهائية ، ارتفع حجم الفريق إلى 257 مل.

تعظيم إنتاجية التدريب

لتقليل كل من تكاليف التدريب والوقت إلى السوق ، اتبع الفريق عدة اتجاهات للتحسين لتسريع سرعة التدريب المتناسبة مع رموز التدريب التي تتم معالجتها في الثانية ويتم قياسها في TFLOPs / GPU. استخدم الفريق إطار عمل تدريب LLM ثلاثي الأبعاد مخصص بالكامل ، يتميز بطبقات مخصصة محسّنة مكتوبة في كود GPU مجمع. ذهب الفريق إلى حد كتابة تطبيق مضاعفة المصفوفة المخصص الخاص بهم للحصول على مزيد من السرعة! طور الفريق أيضًا منطقًا يكيّف الاتصال الموازي مع طوبولوجيا الشبكة الأساسية. خلال تجارب القياس الأولية ، تمكنت شركة TII من الوصول إلى 3 TFLOPs / GPU على طراز 166B على 147 وحدة معالجة رسومات ، و 256 TFLOPs / GPU على طراز 173B على 13 وحدة معالجة رسومات ، على حد علمنا أسرع نموذج معروف تم تحقيقه في TFLOPs في السحابة في وقت الاختبار في أواخر عام 16.

تخزين بدون خادم

تدريب LLM هو تخزين مكثف ؛ يجب توجيه عدة تيرابايت من بيانات التدريب إلى مجموعة التدريب ، كما أن عدة تيرابايت من نقاط التفتيش النموذجية تنتقل بانتظام من المجموعة إلى التخزين الدائم. تحتاج نقاط التفتيش أيضًا إلى الوصول إلى مجموعة التدريب بأسرع ما يمكن في حالة إعادة تشغيل الوظيفة. في الحوسبة التقليدية عالية الأداء (HPC) ، ترتبط عُقد الحوسبة بأنظمة الملفات الموزعة ، والتي توفر مدخلات ومخرجات عالية الأداء عبر واجهة تشبه POSIX. في AWS ، يستخدم العملاء امتداد أمازون FSx لستر نظام الملفات لهذا الغرض (لمزيد من التفاصيل ، يرجى الرجوع إلى تسريع التدريب على Amazon SageMaker باستخدام Amazon FSx لأنظمة الملفات Luster و Amazon EFS) ، وقمنا أيضًا بتوثيق الاستخدام المدار ذاتيًا لـ BeeGFS في دراسة حالة رؤية الكمبيوتر الموزعة. نظرًا لتركيزهم على التكاليف والبساطة التشغيلية ، قرر الفريق عدم تنفيذ وتشغيل خوادم نظام الملفات ، ولكن بدلًا من ذلك أخذ التحدي المتمثل في البناء حصريًا على مساحة تخزين كائنات بدون خادم خدمة تخزين أمازون البسيطة (أمازون S3). تم إنشاء فئة مجموعة بيانات S3 مخصصة باستخدام AWS SDK لـ Python (Boto3) ، وقدمت أداءً مُرضيًا مع تمكين العلماء من التكرار بشكل مستقل في هندسة الإدخال / الإخراج وعلم النموذج ضمن نفس قاعدة الكود.

الابتكار من جانب العميل

نادرًا ما يتكون مشروع ماجستير إدارة الأعمال من وظيفة تدريبية واحدة ؛ هناك حاجة إلى العديد من الوظائف لإجراء الاختبارات والتجارب الأولية. خلال فترة التدريب الرئيسي على الإنتاج ، قد يتم ربط العديد من الوظائف ، على سبيل المثال لتحديث التكوين أو إصدارات البرامج ، أو نشر التصحيحات ، أو التعافي من حالات الفشل. أجرى علماء من TII هندسة مهمة لبناء عملاء مخصصين يتكيفون مع تدريب LLM. تم إنشاء عميل Launcher أعلى SDK للتدريب على SageMaker من أجل تجميع وظائف متعددة معًا في أمر واحد ، على سبيل المثال إصدار الكود ، وبناء صورة Docker ، وإطلاق الوظيفة. بالإضافة إلى ذلك ، AWS لامدا تم تصميم وظيفة الحوسبة بدون خادم لمشاهدة المهام ومراقبتها والتدخل فيها حسب الحاجة.

استخدام روبوتات Slack لاستدلال عمليات تدقيق الجودة

قرب نهاية التدريب ، نشر الفريق النموذج على المستوى الداخلي نقطة نهاية SageMaker Hosting GPU للتفاعل في الوقت الفعلي. ذهب الفريق إلى حد إنشاء روبوت Slack للحوار معه ، للحصول على ردود فعل واقعية وإجراء عمليات تدقيق الجودة النوعية للنموذج.

التدريب ومراقبة الأداء

يتطلب تدريب LLM كميات كبيرة من الموارد الحسابية ، بما في ذلك وحدة المعالجة المركزية ووحدة معالجة الرسومات وموارد الذاكرة. لذلك ، احتاج معهد دراسات الترجمة إلى مراقبة الأداء ووقت الخمول لوظيفة التدريب لضمان الاستخدام الأمثل للموارد الحسابية وفعالية تكاليفها.

لبناء حل مراقبة آلي ، استخدم TII الأمازون CloudWatch إنذارات لمراقبة استخدام GPU ووحدة المعالجة المركزية والذاكرة لوظائف التدريب. تجمع CloudWatch البيانات الأولية وتعالجها في مقاييس قابلة للقراءة وشبه في الوقت الفعلي من مثيلات الحاوية الأساسية التي يتم استخدامها في وظيفة تدريب SageMaker. بعد ذلك ، قمنا بتعيين عتبات لكل من هذه المقاييس ، وإذا انخفض أي مقياس عن الحد الأدنى ، فسيتم إطلاق إنذار. يقوم هذا الإنذار بإعلام فريق TII بانخفاض استخدام الموارد ، مما يسمح لهم باتخاذ الإجراءات التصحيحية لتصحيح قيود استخدام الموارد.

بالإضافة إلى مراقبة استخدام الموارد ، يمكن أن يراقب قسم تكنولوجيا المعلومات أيضًا وقت الخمول لموارد وظائف التدريب. إذا كانت موارد الوظيفة التدريبية خاملة لفترة طويلة من الزمن ، فقد يشير ذلك إلى وجود اختناق في أي مرحلة من مراحل الدورة التدريبية ويتطلب تحقيقًا يدويًا. في بعض الحالات ، كان استخدام الموارد لا يزال مثاليًا نسبيًا ، لكن عملية التدريب نفسها لم تكن تتقدم. بالنسبة لهذه الحالات ، فإن إنذارات CloudWatch المتكاملة من TII مع وظائف Lambda للاستعلام عن سجلات التدريب التي تم إنشاؤها وقراءتها ، ثم اتخاذ الإجراءات التلقائية بناءً على الخطأ الذي تم إنشاؤه أو الخمول في عملية إنشاء السجل (تم إيقاف المجموعة). يُطلق الإنذار إجراءً لإيقاف وظيفة التدريب ، مما يضمن عدم تكبد TII تكاليف غير ضرورية عندما لا يتم استخدام الموارد.

وفي الختام

باستخدام SageMaker المقترن بالملكية والابتكار المخصص ، تمكن معهد دراسات الترجمة من تدريب نموذج حديث بأبعاد متعددة: الاختراق التكنولوجي ، وجودة العلوم ، وسرعة التدريب ، وكذلك البساطة التشغيلية.

"إن إطلاق Falcon 40B الإماراتي ، نموذج الذكاء الاصطناعي مفتوح المصدر الأعلى تصنيفًا في العالم ، يوضح ريادة التكنولوجيا ، ويمهد الطريق للابتكار المدعوم بالذكاء الاصطناعي في المنطقة.أيون "يشير إلى د. ابتسام المزروعي. إضافة لذالك "نظهر التزامنا بالأهداف الموضحة في الاستراتيجية الوطنية للذكاء الاصطناعي 2031. تلعب مشاركتنا النشطة في التطورات التكنولوجية العالمية ، التي يمثلها Falcon-40B ، دورًا مهمًا في سعينا نحو اقتصاد قائم على المعرفة. من خلال الاستثمار والتطوير في حلول الذكاء الاصطناعي ، نهدف إلى خلق فرص جديدة للنمو الاقتصادي والتقدم الاجتماعي والتقدم التعليمي.

تعكس طبيعة المصدر المفتوح لـ Falcon-40B التزامنا بالتعاون والشفافية والابتكار والبحث في مجال الذكاء الاصطناعي. نحن نؤمن بإضفاء الطابع الديمقراطي على قدرات تكنولوجيا الذكاء الاصطناعي المتقدمة ، مما يجعل Falcon-40B في متناول الباحثين والمنظمات في جميع أنحاء العالم ".

"بالنظر إلى المستقبل ، سنواصل المساهمة في الذكاء الاصطناعي والتقدم التكنولوجي ، مع النماذج القادمة في طور الإعداد. علاوة على ذلك ، سنعمل بنشاط على تعزيز اعتماد تكنولوجيا الذكاء الاصطناعي المتقدمة داخل المنظمات والشركات في بلدنا ، وتعزيز النمو والازدهار بما يتماشى مع أهدافنا الاستراتيجية ".

- د. المزروعي

لمعرفة المزيد عن Falcon LLM ، تحقق من الموقع FalconLLM.tii.ae و  بطاقة النموذج على Hugging Face!


حول المؤلف

يقوم معهد الابتكار التكنولوجي بتدريب نموذج الأساس المتطور Falcon LLM 40B على Amazon SageMaker | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.د. ابتسام المزروعي هو المدير التنفيذي القائم بأعمال رئيس أبحاث الذكاء الاصطناعي ومؤسس وحدة مركز Al-Cross في معهد الابتكار التكنولوجي (TII). بصفته مؤسس وحدة مركز Al-Cross في معهد الابتكار التكنولوجي (TII) ، فقد لعب الدكتور المزروعي دورًا محوريًا في تشكيل قدرات الذكاء الاصطناعي في TII. مكنتها رؤيتها الاستراتيجية وخبرتها في مجال الذكاء الاصطناعي والتعلم الآلي من قيادة مبادرات بحثية رائدة وتعزيز التعاون متعدد الوظائف ، مما أدى إلى تقديم حلول الذكاء الاصطناعي المبتكرة عبر صناعات متعددة.

أحد الإنجازات البارزة للدكتورة المزروعي هو دورها الأساسي في تطوير Falcon 40B ، وهو ماجستير متطور حاز على تقدير عالمي. صنفها أداء Falcon 40B الاستثنائي في المرتبة الأولى عالميًا في LLM على لوحة المتصدرين Hugging Face في مايو 2023. بالإضافة إلى ذلك ، قادت عملية تطوير Noor ، أكبر نموذج عربي كبير للغة العربية (LLM) صدر في أبريل 2022.

تشتهر الدكتورة المزروعي في جميع أنحاء العالم بمساهماتها في مجال الذكاء الاصطناعي ، وظهرت في قائمة رائدات الذكاء الاصطناعي في العالم لعام 2023 ، إلى جانب النساء المتميزات الأخريات في هذا المجال. وهي أيضًا داعية للاستدامة ومبادرات الذكاء الاصطناعي من أجل الخير ، بالإضافة إلى الرئيس العام لـ Abu Dhabi AI Connect ورئيس TPC في العديد من مؤتمرات IEEE الدولية.

تمتد مساهماتها إلى أبعد من عملها في TII حيث تقود اللجنة الفرعية لخبراء البيانات الضخمة في مجلس الإمارات العربية المتحدة للذكاء الاصطناعي و Blockchain وهي عضو في مجلس التوجيه العالمي لمنتدى الأبحاث العالمية اللاسلكية (WWRF). هي مؤلفة علمية ، ومخترعة براءات اختراع ، ورائدة أعمال ، ومتحدثة شهيرة ، معروفة بخطبها الرئيسية في مؤتمرات القمة المرموقة مثل قمة الذكاء الاصطناعي في لندن ، ومهرجان كان العالمي للذكاء الاصطناعي ، ومؤتمرات القمة التقنية.

يقوم معهد الابتكار التكنولوجي بتدريب نموذج الأساس المتطور Falcon LLM 40B على Amazon SageMaker | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.ويل بدر هو مدير كبير للذكاء الاصطناعي / ML Solutions Architects ومقره في دبي - الإمارات العربية المتحدة ويعمل كجزء من فريق التعلم الآلي في أمازون العالمي. ويل متحمس لاستخدام التكنولوجيا بطرق مبتكرة للتأثير بشكل إيجابي على المجتمع. في أوقات فراغه ، يحب الغوص ولعب كرة القدم واستكشاف جزر المحيط الهادئ.

يقوم معهد الابتكار التكنولوجي بتدريب نموذج الأساس المتطور Falcon LLM 40B على Amazon SageMaker | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.أوليفييه كروشانت هو مهندس حلول متخصص في التعلم الآلي في AWS ، ومقرها في فرنسا. يساعد Olivier عملاء AWS - من الشركات الناشئة الصغيرة إلى المؤسسات الكبيرة - في تطوير ونشر تطبيقات التعلم الآلي على مستوى الإنتاج. في أوقات فراغه ، يستمتع بقراءة الأوراق البحثية واستكشاف الحياة البرية مع الأصدقاء والعائلة.

الطابع الزمني:

اكثر من التعلم الآلي من AWS