تقليل استهلاك الطاقة لأحمال عمل التعلم الآلي لديك بنسبة تصل إلى 90% باستخدام AWS Accelerators المصممة لهذا الغرض

أعاد نشره أفلاطون

المتابعون: 0

ركز مهندسو التعلم الآلي (ML) تقليديًا على تحقيق التوازن بين تدريب النموذج وتكلفة النشر مقابل الأداء. على نحو متزايد ، أصبحت الاستدامة (كفاءة الطاقة) هدفًا إضافيًا للعملاء. هذا مهم لأن تدريب نماذج ML ثم استخدام النماذج المدربة لعمل تنبؤات (استدلال) يمكن أن تكون مهامًا كثيفة الاستهلاك للطاقة. بالإضافة إلى ذلك ، أصبح المزيد والمزيد من التطبيقات من حولنا مشبعة بـ ML ، ويتم تصميم تطبيقات جديدة تعمل بنظام ML كل يوم. أحد الأمثلة الشائعة هو ChatGPT الخاص بـ OpenAI ، والذي يتم تشغيله بواسطة نموذج لغة كبير متطور (LMM). كمرجع، GPT-3 ، جيل سابق من LLM 175 مليار معلمة وتتطلب شهورًا من التدريب المستمر على مجموعة من آلاف المعالجات المتسارعة. ال دراسة Carbontracker يقدر أن تدريب GPT-3 من نقطة الصفر قد ينبعث منه ما يصل إلى 85 طنًا متريًا من مكافئ ثاني أكسيد الكربون ، باستخدام مجموعات من مسرعات الأجهزة المتخصصة.

هناك عدة طرق تمكّن AWS من خلالها ممارسي تعلم الآلة من تقليل التأثير البيئي لأعباء عملهم. طريقة واحدة من خلال تقديم إرشادات توجيهية حول تصميم أعباء عمل الذكاء الاصطناعي / التعلم الآلي الخاصة بك لتحقيق الاستدامة. هناك طريقة أخرى تتمثل في تقديم تدريب ML المُدار وخدمات التنسيق مثل أمازون ساجميكر ستوديو، والتي تعمل تلقائيًا على تمزيق موارد ML وتوسيع نطاقها عندما لا تكون قيد الاستخدام ، وتوفر مجموعة من الأدوات الجاهزة التي توفر التكلفة والموارد. عامل تمكين رئيسي آخر هو تطوير مسرعات موفرة للطاقة وعالية الأداء ومصممة لهذا الغرض لتدريب ونشر نماذج ML.

ينصب تركيز هذا المنشور على الأجهزة كأداة للتعلم المستدام. نقدم نتائج الأداء الأخير وتجارب سحب الطاقة التي أجرتها AWS والتي تحدد فوائد كفاءة الطاقة التي يمكنك توقعها عند ترحيل أعباء عمل التعلم العميق الخاصة بك من الاستدلال والتدريب المُحسَّن المُحسَّن. الأمازون الحوسبة المرنة السحابية (Amazon EC2) إلى استدلال AWS و تدريب AWS. Inferentia و Trainium هي إضافة AWS الأخيرة إلى محفظتها من المسرّعات المصممة لهذا الغرض مصمم خصيصًا من قبل أمازون مختبرات أنابورنا لاستدلال ML وتدريب أعباء العمل.

AWS Inferentia و AWS Trainium من أجل ML المستدام

لتزويدك بأرقام واقعية لإمكانيات توفير الطاقة في AWS Inferentia و AWS Trainium في تطبيق واقعي ، أجرينا العديد من تجارب قياس سحب الطاقة. لقد صممنا هذه المعايير مع وضع المعايير الرئيسية التالية في الاعتبار:

أولاً ، أردنا التأكد من أننا استوعبنا الاستهلاك المباشر للطاقة المنسوب إلى عبء عمل الاختبار ، بما في ذلك ليس فقط مسرع ML ولكن أيضًا الحساب والذاكرة والشبكة. لذلك ، في إعداد الاختبار الخاص بنا ، قمنا بقياس قوة السحب عند هذا المستوى.
ثانيًا ، عند تشغيل التدريب وأعباء عمل الاستدلال ، تأكدنا من أن جميع المثيلات تعمل وفقًا لحدود الأجهزة المادية الخاصة بكل منها وأخذنا القياسات فقط بعد الوصول إلى هذا الحد لضمان إمكانية المقارنة.
أخيرًا ، أردنا أن نتأكد من أن توفير الطاقة المذكور في هذا المنشور يمكن تحقيقه في تطبيق عملي في العالم الحقيقي. لذلك ، استخدمنا حالات استخدام ML الشائعة المستوحاة من العملاء من أجل قياس الأداء والاختبار.

تم الإبلاغ عن النتائج في الأقسام التالية.

تجربة الاستدلال: فهم المستندات في الوقت الفعلي باستخدام LayoutLM

الاستدلال ، على عكس التدريب ، هو عبء عمل مستمر وغير محدود ليس له نقطة إكمال محددة. ومن ثم فهي تشكل جزءًا كبيرًا من استهلاك الموارد مدى الحياة لحمل عمل ML. يعد الحصول على الاستدلال الصحيح أمرًا أساسيًا لتحقيق أداء عالٍ وتكلفة منخفضة واستدامة (كفاءة أفضل في استخدام الطاقة) طوال دورة حياة ML الكاملة. مع مهام الاستدلال ، يهتم العملاء عادةً بتحقيق معدل استدلال معين لمواكبة الطلب المستغرق.

التجربة المقدمة في هذا المنشور مستوحاة من حالة استخدام لفهم المستندات في الوقت الفعلي ، وهو تطبيق شائع في صناعات مثل الخدمات المصرفية أو التأمين (على سبيل المثال ، للمطالبات أو معالجة نموذج الطلب). على وجه التحديد ، نختار تخطيط، وهو نموذج محول مدرب مسبقًا يستخدم لمعالجة صور المستندات واستخراج المعلومات. لقد وضعنا اتفاقية مستوى خدمة مستهدفة بقيمة 1,000,000 استنتاج في الساعة ، وهي قيمة غالبًا ما تُعتبر في الوقت الفعلي ، ثم حددنا تكوينين للأجهزة قادرين على تلبية هذا المطلب: أحدهما يستخدم حالات Amazon EC2 Inf1، التي تتميز بـ AWS Inferentia ، وواحدة تستخدم مثيلات EC2 متسارعة قابلة للمقارنة محسّنة لمهام الاستدلال. خلال التجربة ، نتتبع العديد من المؤشرات لقياس أداء الاستدلال والتكلفة وكفاءة الطاقة لكل من تكوينات الأجهزة. يتم عرض النتائج في الشكل التالي.

قلل من استهلاك الطاقة لأحمال عمل التعلم الآلي لديك بنسبة تصل إلى 90% باستخدام مسرعات AWS المصممة لهذا الغرض | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

نتائج الأداء والتكلفة وكفاءة الطاقة لمعايير الاستدلال

تقدم AWS Inferentia إنتاجية استدلال أعلى بمقدار 6.3 مرة. نتيجة لذلك ، باستخدام Inferentia ، يمكنك تشغيل نفس عبء العمل المستند إلى LayoutLM في الوقت الفعلي لفهم عبء العمل على عدد أقل من المثيلات (6 مثيلات AWS Inferentia مقابل 33 مثيلات EC2 أخرى مُحسَّنة للاستدلال ، أي ما يعادل تخفيض بنسبة 82٪) ، استخدم أقل من عُشر (-92٪) من الطاقة في العملية ، كل ذلك مع تحقيق تكلفة أقل بكثير لكل استنتاج (2 دولار أمريكي مقابل 25 دولارًا أمريكيًا لكل مليون استنتاج ، أي ما يعادل تخفيض التكلفة بنسبة 91٪).

تجربة تدريبية: تدريب BERT كبير من الصفر

التدريب ، على عكس الاستدلال ، هو عملية محدودة تتكرر بشكل أقل تكرارًا. يهتم مهندسو ML عادةً بالأداء العالي للمجموعة لتقليل وقت التدريب مع إبقاء التكلفة تحت السيطرة. كفاءة الطاقة هي مصدر قلق ثانوي (لكنه متزايد). مع AWS Trainium ، لا يوجد قرار مقايضة: يمكن لمهندسي ML الاستفادة من أداء التدريب العالي مع تحسين التكلفة وتقليل التأثير البيئي أيضًا.

لتوضيح هذا ، نختار بيرت كبير، وهو نموذج لغة شائع يستخدم لفهم اللغة الطبيعية في حالات الاستخدام مثل الإجابة على الأسئلة المستندة إلى روبوتات المحادثة والتنبؤ بالاستجابة التخاطبية. يتطلب تدريب نموذج BERT Large جيد الأداء من نقطة الصفر عادةً معالجة 450 مليون تسلسل. نقارن بين تكوينين للمجموعة ، كل منهما بحجم ثابت من 16 مثيلًا وقادرًا على تدريب BERT كبير من نقطة الصفر (تمت معالجة 450 مليون تسلسل) في أقل من يوم. الأول يستخدم مثيلات EC2 التقليدية المتسارعة. يستخدم الإعداد الثاني مثيلات Amazon EC2 Trn1 يضم AWS Trainium. مرة أخرى ، نقوم بقياس كل من التكوينات من حيث أداء التدريب والتكلفة والأثر البيئي (كفاءة الطاقة). النتائج موضحة في الشكل التالي.

نتائج الأداء والتكلفة وكفاءة الطاقة لمعايير التدريب

في التجارب ، تفوقت المثيلات المستندة إلى AWS Trainium على مثيلات EC2 المتسارعة القابلة للمقارنة والمُحسَّنة للتدريب بمعامل 1.7 من حيث التسلسلات التي تتم معالجتها في الساعة ، مما يقلل إجمالي وقت التدريب بنسبة 43٪ (2.3 ساعة مقابل 4 ساعات على مثيلات EC2 المتسارعة المماثلة) . نتيجة لذلك ، عند استخدام مجموعة مثيلات قائمة على Trainium ، يكون إجمالي استهلاك الطاقة لتدريب BERT Large من الصفر أقل بنسبة 29٪ تقريبًا مقارنة بمجموعة مماثلة من مثيلات EC2 متسارعة مماثلة. مرة أخرى ، تأتي مزايا الأداء وكفاءة الطاقة هذه أيضًا مع تحسينات كبيرة في التكلفة: تكلفة التدريب على عبء عمل BERT ML أقل بنسبة 62٪ تقريبًا في مثيلات Trainium (787 دولارًا أمريكيًا مقابل 2091 دولارًا أمريكيًا لكل دورة تدريبية كاملة).

الشروع في استخدام مسرعات AWS المصممة لهذا الغرض من أجل ML

على الرغم من أن التجارب التي أجريت هنا جميعها تستخدم نماذج قياسية من مجال معالجة اللغة الطبيعية (NLP) ، فإن AWS Inferentia و AWS Trainium يتفوقان مع العديد من بنى النماذج المعقدة الأخرى بما في ذلك LLMs والأكثر صعوبة الذكاء الاصطناعي التوليدي البنى التي يبنيها المستخدمون (مثل GPT-3). تعمل هذه المسرعات بشكل جيد بشكل خاص مع النماذج التي تحتوي على أكثر من 10 مليار معلمة ، أو نماذج رؤية الكمبيوتر مثل الانتشار المستقر (انظر إرشادات ملاءمة العمارة النموذجية لمزيد من التفاصيل). في الواقع ، يستخدم العديد من عملائنا بالفعل Inferentia و Trainium لمجموعة متنوعة من حالات استخدام ML.

لتشغيل أعباء العمل الخاصة بالتعلم العميق الشامل على AWS Inferentia- والمثيلات المستندة إلى AWS Trainium ، يمكنك استخدام AWS نيورون. Neuron عبارة عن مجموعة أدوات تطوير برمجيات شاملة (SDK) تتضمن مترجمًا للتعلم العميق ، ووقت تشغيل ، وأدوات مدمجة أصلاً في أطر ML الأكثر شيوعًا مثل TensorFlow و PyTorch. يمكنك استخدام Neuron SDK لنقل أحمال عمل التعلم العميق لـ TensorFlow أو PyTorch بسهولة إلى Inferentia و Trainium والبدء في بناء نماذج جديدة باستخدام نفس أطر عمل تعلم الآلة المعروفة. لتسهيل الإعداد ، استخدم أحد ملفات Amazon Machine Images (AMIs) للتعلم العميق، والتي تأتي مع العديد من الحزم والتبعيات المطلوبة. أبسط من ذلك: يمكنك استخدام Amazon SageMaker Studio ، الذي يدعم أصلاً TensorFlow و PyTorch على Inferentia و Trainium (انظر AWS- عينات GitHub repo على سبيل المثال).

ملاحظة أخيرة: بينما تم تصميم Inferentia و Trainium خصيصًا لأعباء عمل التعلم العميق ، يمكن للعديد من خوارزميات تعلم الآلة الأقل تعقيدًا أن تؤدي أداءً جيدًا في الحالات المستندة إلى وحدة المعالجة المركزية (على سبيل المثال ، XGBoost و LightGBM وحتى بعض شبكات CNN). في هذه الحالات ، فإن الهجرة إلى أوس جرافيتون3 قد يقلل بشكل كبير من التأثير البيئي لأعباء العمل في ML. تستخدم المثيلات المستندة إلى AWS Graviton طاقة أقل بنسبة تصل إلى 60٪ لنفس الأداء مقارنة بمثيلات EC2 المتسارعة المماثلة.

وفي الختام

هناك مفهوم خاطئ شائع مفاده أن تشغيل أعباء عمل ML بطريقة مستدامة وموفرة للطاقة يعني التضحية بالأداء أو التكلفة. باستخدام مسرعات AWS المصممة خصيصًا للتعلم الآلي ، لن يضطر مهندسو ML إلى إجراء هذه المقايضة. بدلاً من ذلك ، يمكنهم تشغيل أعباء عمل التعلم العميق الخاصة بهم على أجهزة التعلم العميق المصممة خصيصًا لهذا الغرض ، مثل AWS Inferentia و AWS Trainium ، والتي تتفوق بشكل كبير على أنواع مثيلات EC2 المتسارعة المماثلة ، مما يوفر تكلفة أقل وأداء أعلى وكفاءة أفضل للطاقة - حتى 90٪ - الكل في نفس الوقت. لبدء تشغيل أحمال عمل ML على Inferentia و Trainium ، تحقق من وثائق AWS Neuron أو تدوير أحد ملفات دفاتر الملاحظات عينة. يمكنك أيضًا مشاهدة AWS re: Invent 2022 يتحدث على الاستدامة و AWS silicon (SUS206)، والتي تغطي العديد من الموضوعات التي تمت مناقشتها في هذا المنشور.

حول المؤلف

كارستن شروير هو مهندس حلول في AWS. إنه يدعم العملاء في الاستفادة من البيانات والتكنولوجيا لدفع استدامة البنية التحتية لتكنولوجيا المعلومات الخاصة بهم وبناء حلول قائمة على البيانات تمكن العمليات المستدامة في قطاعاتهم الخاصة. انضم Karsten إلى AWS بعد حصوله على درجة الدكتوراه في التعلم الآلي التطبيقي وإدارة العمليات. إنه شغوف حقًا بالحلول المدعومة بالتكنولوجيا للتحديات المجتمعية ويحب التعمق في الأساليب وبنيات التطبيقات التي تكمن وراء هذه الحلول.

كامران خان هو مدير تقني للمنتجات في مختبرات AWS Annapurna. إنه يعمل عن كثب مع عملاء AI / ML لتشكيل خارطة طريق لابتكارات السيليكون المصممة لهذا الغرض من AWS والصادرة عن مختبرات Annapurna التابعة لأمازون. ينصب تركيزه الخاص على شرائح التعلم العميق المتسارعة بما في ذلك AWS Trainium و AWS Inferentia. كامران لديه 18 عامًا من الخبرة في صناعة أشباه الموصلات. يتمتع Kamran بأكثر من عشر سنوات من الخبرة في مساعدة المطورين على تحقيق أهداف ML الخاصة بهم.

محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
تمويل EVM. واجهة موحدة للتمويل اللامركزي. الوصول هنا.
مجموعة كوانتوم ميديا. تضخيم IR / PR. الوصول هنا.
أفلاطونايستريم. ذكاء بيانات Web3. تضخيم المعرفة. الوصول هنا.
المصدر https://aws.amazon.com/blogs/machine-learning/reduce-energy-consumption-of-your-machine-learning-workloads-by-up-to-90-with-aws-purpose-built-accelerators/

الطابع الزمني: 20 حزيران، 2023

الطابع الزمني: يونيو 15، 2022

قلل استهلاك الطاقة لأعباء عمل التعلم الآلي لديك بنسبة تصل إلى 90٪ باستخدام مسرعات AWS المصممة لهذا الغرض | خدمات أمازون ويب

أعاد نشره أفلاطون

AWS Inferentia و AWS Trainium من أجل ML المستدام

تجربة الاستدلال: فهم المستندات في الوقت الفعلي باستخدام LayoutLM

تجربة تدريبية: تدريب BERT كبير من الصفر

الشروع في استخدام مسرعات AWS المصممة لهذا الغرض من أجل ML

وفي الختام

حول المؤلف

اكثر من التعلم الآلي من AWS

أنشئ أداة كشف شذوذ في نقاط الولاء باستخدام Amazon Lookout for Metrics

تضيف Amazon Comprehend Targeted Sentiment دعمًا متزامنًا

استدلال تعلم الآلة الموفر من حيث التكلفة مع نماذج متعددة الأطر على Amazon SageMaker

تجزئة ورم الدماغ على نطاق واسع باستخدام AWS Inferentia

يدعم Amazon SageMaker Autopilot الآن بيانات السلاسل الزمنية

كيف يحقق Mantium استنتاج GPT-J بزمن انتقال منخفض باستخدام DeepSpeed على Amazon SageMaker

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي