تسريع استدلال Amazon SageMaker باستخدام مثيلات Amazon EC6 المستندة إلى Intel C2i

أعاد نشره أفلاطون

المتابعون: 0

هذا منشور ضيف تمت كتابته بالاشتراك مع أنتوني فانس من شركة Intel.

يبحث العملاء دائمًا عن طرق لتحسين الأداء وأوقات الاستجابة لأعباء عمل استدلال التعلم الآلي (ML) دون زيادة التكلفة لكل معاملة ودون التضحية بدقة النتائج. تشغيل أحمال عمل ML الأمازون SageMaker تشغيل الأمازون الحوسبة المرنة السحابية (أمازون EC2) C6i حالات مع إنتل يمكن أن يساعد نشر الاستدلال INT8 في تعزيز الأداء العام بما يصل إلى أربع مرات لكل دولار يتم إنفاقه مع الحفاظ على الخسارة في دقة الاستدلال أقل من 1٪ مقارنة بـ FP32 عند تطبيقها على أعباء عمل معينة في تعلم الآلة. عندما يتعلق الأمر بتشغيل النماذج في الأجهزة المضمنة حيث يكون عامل الشكل وحجم النموذج مهمين ، يمكن أن يساعد التكميم.

التكميم هو أسلوب لتقليل التكاليف الحسابية وتكاليف الذاكرة لتشغيل الاستدلال من خلال تمثيل الأوزان والتنشيطات بأنواع بيانات منخفضة الدقة مثل عدد صحيح 8 بت (INT8) بدلاً من النقطة العائمة 32 بت المعتادة (FP32). في الشكل المثال التالي ، نعرض أداء الاستدلال INT8 في C6i لنموذج قاعدة BERT.

قم بتسريع استدلال Amazon SageMaker باستخدام مثيلات Amazon EC6 المستندة إلى Intel C2i وPlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

تم ضبط قاعدة BERT بدقة باستخدام SQuAD v1.1 ، مع PyTorch (الإصدار 1.11) باعتباره إطار عمل ML المستخدم مع امتداد Intel® لـ PyTorch. تم استخدام حجم الدُفعة 1 للمقارنة. ستوفر أحجام الدُفعات الأعلى تكلفة مختلفة لكل مليون استدلال.

في هذا المنشور ، نوضح لك كيفية بناء ونشر استنتاج INT8 باستخدام حاوية المعالجة الخاصة لـ PyTorch. نستخدم امتدادات Intel لـ PyTorch من أجل سير عمل نشر INT8 فعال.

نظرة عامة على التكنولوجيا

مثيلات EC2 C6i يتم تشغيلها بواسطة معالجات Intel Xeon Scalable من الجيل الثالث (تسمى أيضًا Ice Lake) بتردد توربو كامل النوى يبلغ 3.5 جيجاهرتز.

في سياق التعلم العميق ، كان التنسيق العددي السائد المستخدم للبحث والنشر حتى الآن هو النقطة العائمة 32 بت ، أو FP32. ومع ذلك ، فإن الحاجة إلى تقليل النطاق الترددي ومتطلبات الحساب لنماذج التعلم العميق دفعت البحث إلى استخدام تنسيقات رقمية منخفضة الدقة. لقد ثبت أنه يمكن تمثيل الأوزان وعمليات التنشيط باستخدام أعداد صحيحة 8 بت (أو INT8) دون تكبد خسارة كبيرة في الدقة.

توفر مثيلات EC2 C6i العديد من الإمكانات الجديدة التي تؤدي إلى تحسينات في الأداء لأعباء عمل الذكاء الاصطناعي والتعلم الآلي. توفر مثيلات C6i مزايا أداء في عمليات نشر نموذجي FP32 و INT8. يتم تمكين استنتاج FP32 مع تحسينات AVX-512 ، ويتم تمكين استنتاج INT8 بواسطة تعليمات AVX-512 VNNI.

يتوفر C6i الآن على نقاط نهاية SageMaker ، وينبغي للمطورين أن يتوقعوا منه تقديم أكثر من ضعف تحسينات أداء السعر لاستدلال INT8 على استدلال FP32 وتحسين الأداء بما يصل إلى أربعة أضعاف مقارنة باستدلال C5 بمثيل FP32. الرجوع إلى الملحق للحصول على تفاصيل المثال وبيانات قياس الأداء.

يعد نشر التعلم العميق على الحافة للاستدلال في الوقت الفعلي مفتاحًا للعديد من مجالات التطبيق. إنه يقلل بشكل كبير من تكلفة الاتصال بالسحابة من حيث عرض النطاق الترددي للشبكة وزمن وصول الشبكة واستهلاك الطاقة. ومع ذلك ، تتمتع الأجهزة المتطورة بذاكرة وموارد وطاقة محدودة. هذا يعني أنه يجب تحسين شبكة التعلم العميق للنشر المضمّن. أصبح تكميم INT8 نهجًا شائعًا لمثل هذه التحسينات لأطر ML مثل TensorFlow و PyTorch. يوفر لك SageMaker أسلوب إحضار الحاوية الخاصة بك (BYOC) والأدوات المتكاملة حتى تتمكن من إجراء عملية التكميم.

لمزيد من المعلومات ، راجع التدريب والاستدلال العددي أقل دقة التعلم العميق.

حل نظرة عامة

خطوات تنفيذ الحل هي كما يلي:

توفير مثيل EC2 C6i لتقدير وإنشاء نموذج ML.
استخدم نصوص Python الموفرة للتقويم.
قم بإنشاء صورة Docker لنشر النموذج في SageMaker باستخدام نهج BYOC.
استخدم خدمة تخزين أمازون البسيطة (Amazon S3) لنسخ النموذج والرمز للوصول إلى SageMaker.
استعمل سجل الأمازون المرنة للحاويات (Amazon ECR) لاستضافة صورة Docker.
استخدم واجهة سطر الأوامر AWS (AWS CLI) لإنشاء نقطة نهاية للاستدلال في SageMaker.
قم بتشغيل نصوص اختبار Python المتوفرة لاستدعاء نقطة نهاية SageMaker لكل من إصدارات INT8 و FP32.

يستخدم إعداد نشر الاستدلال نموذج BERT-Base من مستودع Hugging Face transformers (csarron / bert-base-uncased-squad-v1).

المتطلبات الأساسية المسبقة

فيما يلي متطلبات أساسية لإنشاء إعداد النشر:

محطة طرفية في نظام Linux مع تثبيت AWS CLI
حساب AWS مع إمكانية الوصول إلى إنشاء مثيل EC2 (نوع مثيل C6i)
وصول SageMaker لنشر نموذج SageMaker وتكوين نقطة النهاية ونقطة النهاية
إدارة الهوية والوصول AWS (IAM) لتكوين دور وسياسة IAM
الوصول إلى Amazon ECR
وصول SageMaker لإنشاء دفتر ملاحظات بإرشادات لتشغيل نقطة نهاية

إنشاء ونشر نموذج INT8 كمي على SageMaker

افتح مثيل EC2 لإنشاء نموذجك الكمي وادفع مصنوعات النموذج إلى Amazon S3. لنشر نقطة النهاية ، قم بإنشاء حاوية مخصصة باستخدام PyTorch و Intel® Extension for PyTorch لنشر نموذج INT8 المحسن. يتم دفع الحاوية إلى Amazon ECR ويتم إنشاء نقطة نهاية تستند إلى C6i لخدمة طرازي FP32 و INT8.

يوضح الرسم البياني التالي التدفق عالي المستوى.

للوصول إلى الرمز والوثائق ، راجع جيثب ريبو.

مثال على حالة الاستخدام

مجموعة بيانات ستانفورد للإجابة على الأسئلة (SQuAD) هي مجموعة بيانات لفهم القراءة تتكون من أسئلة يطرحها العاملون على مجموعة من مقالات ويكيبيديا ، حيث تكون الإجابة على كل سؤال جزءًا من النص ، أو امتداد، من فقرة القراءة المقابلة ، أو قد يكون السؤال غير قابل للإجابة.

المثال التالي عبارة عن خوارزمية الإجابة على السؤال باستخدام نموذج BERT الأساسي. بالنظر إلى المستند كمدخل ، سيجيب النموذج على أسئلة بسيطة بناءً على التعلم والسياقات من مستند الإدخال.

فيما يلي مثال على مستند الإدخال:

غابات الأمازون المطيرة (البرتغالية: Floresta Amazônica أو Amazônia ؛ الإسبانية: Selva Amazónica ، Amazonía أو عادة Amazonia ؛ الفرنسية: Forêt amazonienne ؛ الهولندية: Amazoneregenwoud) ، والمعروفة أيضًا باللغة الإنجليزية باسم Amazonia أو Amazon Jungle ، هي غابة رطبة عريضة الأوراق تغطي معظمها حوض الأمازون في أمريكا الجنوبية. يغطي هذا الحوض 7,000,000،2,700,000،5,500,000 كيلومتر مربع (2,100,000،XNUMX،XNUMX ميل مربع) ، منها XNUMX،XNUMX،XNUMX كيلومتر مربع (XNUMX،XNUMX،XNUMX ميل مربع) تغطيها الغابات المطيرة.

بالنسبة للسؤال "ما هو الاسم المستخدم أيضًا لوصف غابات الأمازون المطيرة باللغة الإنجليزية؟" نحصل على الجواب:

also known in English as Amazonia or the Amazon Jungle,Amazonia or the Amazon Jungle, Amazonia.

بالنسبة للسؤال "كم كيلومترًا مربعًا من الغابات المطيرة يغطيها الحوض؟" نحصل على الجواب:

5,500,000 square kilometers (2,100,000 sq mi) are covered by the rainforest.5,500,000.

قياس النموذج في PyTorch

يقدم هذا القسم نظرة عامة سريعة على خطوات تكميم النموذج مع امتدادات PyTorch و Intel.

يتم اشتقاق قصاصات التعليمات البرمجية من مثال SageMaker.

دعنا ننتقل إلى التغييرات بالتفصيل للوظيفة IPEX_quantize في الملف quantize.py.

استيراد ملحقات إنتل لـ PyTorch للمساعدة في التكميم والتحسين واستيراد الشعلة لمعالجة المصفوفة:

import intel_extension_for_pytorch as ipex
import torch

تطبيق معايرة النموذج لـ 100 تكرار. في هذه الحالة ، تقوم بمعايرة النموذج باستخدام مجموعة بيانات SQuAD:

model.eval()
conf = ipex.quantization.QuantConf(qscheme=torch.per_tensor_affine)
print("Doing calibration...")
for step, batch in enumerate(eval_dataloader): print("Calibration step-", step) with torch.no_grad(): with ipex.quantization.calibrate(conf): model(**batch) if step == 100: break

تحضير مدخلات العينة:

jit_inputs = [] example_batch = next(iter(eval_dataloader)) for key in example_batch: example_tensor = torch.ones_like(example_batch[key]) jit_inputs.append(example_tensor) jit_inputs = tuple(jit_inputs)

قم بتحويل النموذج إلى طراز INT8 باستخدام التكوين التالي:

with torch.no_grad(): model = ipex.quantization.convert(model, conf, jit_inputs)

قم بتشغيل نسختين من التمرير الأمامي لتمكين عمليات الاندماج:
```
with torch.no_grad(): model(**example_batch) model(**example_batch)
```

كخطوة أخيرة ، احفظ نموذج TorchScript:

model.save(os.path.join(args.model_path, "model_int8.pt"))

تنظيف

الرجوع إلى جيثو الريبو لخطوات تنظيف موارد AWS التي تم إنشاؤها.

وفي الختام

يمكن لمثيلات EC2 C6i الجديدة في نقطة نهاية SageMaker تسريع نشر الاستدلال بما يصل إلى 2.5 مرة أكبر مع تكميم INT8. يمكن قياس النموذج في PyTorch باستخدام عدد قليل من واجهات برمجة التطبيقات من امتدادات Intel PyTorch. يوصى بتحديد حجم النموذج في مثيلات C6i بحيث يتم الحفاظ على دقة النموذج في نشر نقطة النهاية. أمثلة SageMaker جيثب ريبو يوفر الآن خط أنابيب مثال للنشر من طرف إلى طرف لتقدير واستضافة نماذج INT8.

نحن نشجعك على إنشاء نموذج جديد أو ترحيل نموذج موجود باستخدام تكميم INT8 باستخدام نوع مثيل EC2 C6i ورؤية مكاسب الأداء بنفسك.

إشعار وإخلاء المسؤولية

لا يمنح هذا المستند أي ترخيص (صريحًا أو ضمنيًا ، عن طريق الإغلاق أو غير ذلك) لأي حقوق ملكية فكرية ، باستثناء وحيد هو أن الكود المضمن في هذا المستند مرخص وفقًا لـ ترخيص مفتوح المصدر BSD بدون شرط (0BSD)

الزائدة الدودية

مثيلات AWS الجديدة في SageMaker مع دعم نشر INT8

يسرد الجدول التالي مثيلات SageMaker مع وبدون تعزيز DL دعم.

اسم المثيل	Xeon Gen الاسم الرمزي	تمكين INT8؟	تمكين DL Boost؟
مل. c5. xlarge - ml.c5.9xlarge	Skylake / 1^st	نعم	لا
مل. c5.18x تكبير	Skylake / 1^st	نعم	لا
ml.c6i.1x - 32xlarge	بحيرة الجليد / 3^rd	نعم	نعم

للتلخيص ، يدعم تمكين INT8 نوع بيانات INT8 وحسابها ؛ يدعم DL Boost الداعم لـ Deep Learning Boost.

بيانات قياسية

يقارن الجدول التالي التكلفة والأداء النسبي بين مثيلات c5 و c6.

تم قياس الكمون والإنتاجية باستخدام 10000 استعلام استدلال لنقاط نهاية صانع Sage.

زمن انتقال E2E لنقطة نهاية الاستدلال وتحليل التكلفة
	P50 (مللي ثانية)	P90 (مللي ثانية)	استفسارات / ثانية	$ / مليون استفسار	نسبي دولار / الأداء
C5.2xLarge-FP32	76.6	125.3	11.5	$10.2	1.0x
C6i.2xLarge-FP32	70	110.8	13	$9.0	1.1x
C6i.2xLarge-INT8	35.7	48.9	25.56	$4.5	2.3x

من المتوقع أن توفر نماذج INT8 تحسينات عملية في الأداء بمعدل 2-4 مرات مع فقد أقل من 1٪ في الدقة لمعظم النماذج. يغطي الجدول أعلاه زمن الانتقال العلوي (تطبيق NW والتطبيق التجريبي)

الدقة في نموذج قاعدة بيرت

يلخص الجدول التالي دقة نموذج INT8 مع مجموعة بيانات SQUaD v1.1.

متري	FP32	INT8
تطابق تام	85.8751	85.5061
F1	92.0807	91.8728

• جيثب ريبو يأتي مع البرامج النصية للتحقق من دقة مجموعة بيانات SQuAD. تشير إلى استدعاء-INT8.py و استدعاء --FP32.py البرامج النصية للاختبار.

امتداد إنتل لـ PyTorch

يمتد امتداد Intel® لـ PyTorch * (مشروع مفتوح المصدر في GitHub) إلى PyTorch مع تحسينات لتعزيز أداء أجهزة Intel. سيتم تضمين معظم التحسينات في إصدارات PyTorch للمخزون في نهاية المطاف ، والهدف من الامتداد هو تقديم ميزات محدثة وتحسينات لـ PyTorch على أجهزة Intel. تتضمن الأمثلة تعليمات AVX-512 Vector Neural Network (AVX512 VNNI) و Intel® Advanced Matrix Extensions (Intel® AMX).

يوضح الشكل التالي امتداد إنتل لمعمارية PyTorch.

لمزيد من إرشادات المستخدم المفصلة (الميزات وضبط الأداء والمزيد) لـ Intel® Extension for PyTorch ، راجع امتداد Intel® لتوجيه المستخدم PyTorch *.

حول المؤلف

قم بتسريع استدلال Amazon SageMaker باستخدام مثيلات Amazon EC6 المستندة إلى Intel C2i وPlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية. روهيت شودري هو مهندس حلول أول في فريق الحسابات الإستراتيجية في AWS.

قم بتسريع استدلال Amazon SageMaker باستخدام مثيلات Amazon EC6 المستندة إلى Intel C2i وPlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية. أنيرودا كاباغانتو هو مهندس تطوير برمجيات في فريق منصات الذكاء الاصطناعي في AWS.

قم بتسريع استدلال Amazon SageMaker باستخدام مثيلات Amazon EC6 المستندة إلى Intel C2i وPlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية. أنتوني فانس هو مهندس ذكاء اصطناعي في Intel يتمتع بخبرة 19 عامًا في رؤية الكمبيوتر والتعلم الآلي والتعلم العميق والبرامج المضمنة ووحدة معالجة الرسومات و FPGA.

محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
بلاتوبلوكشين. Web3 Metaverse Intelligence. تضخيم المعرفة. الوصول هنا.
المصدر https://aws.amazon.com/blogs/machine-learning/accelerate-amazon-sagemaker-inference-with-c6i-intel-based-amazon-ec2-instances/

الطابع الزمني: 20 آذار، 2023

الطابع الزمني: أبريل 18، 2023

تسريع استدلال Amazon SageMaker باستخدام مثيلات Amazon EC6 المستندة إلى C2i Intel

أعاد نشره أفلاطون

نظرة عامة على التكنولوجيا

حل نظرة عامة

المتطلبات الأساسية المسبقة

إنشاء ونشر نموذج INT8 كمي على SageMaker

مثال على حالة الاستخدام

قياس النموذج في PyTorch

تنظيف

وفي الختام

إشعار وإخلاء المسؤولية

الزائدة الدودية

مثيلات AWS الجديدة في SageMaker مع دعم نشر INT8

بيانات قياسية

الدقة في نموذج قاعدة بيرت

امتداد إنتل لـ PyTorch

حول المؤلف

اكثر من التعلم الآلي من AWS

تقديم Fortuna: مكتبة لتقدير عدم اليقين

تحديد مشكلات البيانات الشائعة وتجنبها أثناء عدم إنشاء نماذج ML البرمجية باستخدام Amazon SageMaker Canvas

ابحث عن المعرفة في مستندات Quip باستخدام البحث الذكي باستخدام موصل Quip لـ Amazon Kendra

نماذج Meta Llama 3 متاحة الآن في Amazon SageMaker JumpStart | خدمات الويب الأمازون

تحسين Hyperparameter لضبط نماذج المحولات المدربة مسبقًا من Hugging Face

دفاتر ملاحظات توضيحية في Amazon SageMaker JumpStart

تقدم AWS ذكاءً اصطناعيًا جديدًا وتعلمًا آليًا وأدلة ذكاء اصطناعي توليدية لتخطيط إستراتيجية الذكاء الاصطناعي الخاصة بك | خدمات أمازون ويب

تلخيص النص باستخدام Amazon SageMaker و Hugging Face

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي