حقق إنتاجية استدلال ML أعلى بأربعة أضعاف بتكلفة أقل بثلاث مرات لكل استنتاج باستخدام مثيلات Amazon EC2 G5 لنماذج NLP و CV PyTorch ذكاء بيانات PlatoBlockchain. البحث العمودي. عاي.

تحقيق أربعة أضعاف معدل نقل الاستدلال ML بتكلفة أقل ثلاث مرات لكل استنتاج باستخدام مثيلات Amazon EC2 G5 لنماذج NLP و CV PyTorch

الأمازون الحوسبة المرنة السحابية (أمازون EC2) مثيلات G5 هي المثيلات الأولى والوحيدة في السحابة التي تتميز بوحدات معالجة الرسومات NVIDIA A10G Tensor Core ، والتي يمكنك استخدامها لمجموعة كبيرة من حالات استخدام التعلم المكثف والرسومات (ML). مع مثيلات G5 ، يحصل عملاء ML على أداء عالٍ وبنية تحتية فعالة من حيث التكلفة لتدريب ونشر نماذج أكبر وأكثر تعقيدًا لمعالجة اللغة الطبيعية (NLP) ورؤية الكمبيوتر (CV) وحالات استخدام محرك التوصية.

الغرض من هذا المنشور هو عرض مزايا أداء مثيلات G5 لأعباء عمل استدلال ML على نطاق واسع. نقوم بذلك من خلال مقارنة أداء السعر (الذي تم قياسه على أساس $ لكل مليون استدلال) لنماذج NLP و CV مع مثيلات G4dn. نبدأ بوصف نهجنا المعياري ثم نقدم منحنيات الإنتاجية مقابل زمن الانتقال عبر أحجام الدُفعات ودقة نوع البيانات. بالمقارنة مع مثيلات G4dn ، نجد أن مثيلات G5 تقدم تكلفة أقل باستمرار لكل مليون استدلال لكل من الدقة الكاملة وأوضاع الدقة المختلطة لنماذج NLP و CV مع تحقيق إنتاجية أعلى وزمن انتقال أقل.

نهج المقارنة المعيارية

لتطوير دراسة أداء السعر بين G5 و G4dn ، نحتاج إلى قياس الإنتاجية ووقت الاستجابة والتكلفة لكل مليون استدلال كدالة لحجم الدُفعة. ندرس أيضًا تأثير الدقة الكاملة مقابل الدقة المختلطة. يتم تحميل كل من الرسم البياني للنموذج والمدخلات في CUDA قبل الاستنتاج.

كما هو موضح في الرسم التخطيطي للهندسة المعمارية التالي ، نقوم أولاً بإنشاء صور حاوية أساسية خاصة باستخدام CUDA لمثيل EC2 الأساسي (G4dn ، G5). لبناء صور الحاوية الأساسية ، نبدأ بـ حاويات AWS Deep Learning، والتي تستخدم صور Docker المعبأة مسبقًا لنشر بيئات التعلم العميق في دقائق. تحتوي الصور على مكتبات وأدوات PyTorch للتعلم العميق المطلوبة. يمكنك إضافة المكتبات والأدوات الخاصة بك فوق هذه الصور للحصول على درجة أعلى من التحكم في المراقبة والامتثال ومعالجة البيانات.

ثم نقوم ببناء صورة حاوية خاصة بالنموذج تضم تكوين النموذج وتتبع النموذج والشفرة ذات الصلة لتشغيل التمريرات إلى الأمام. يتم تحميل جميع صور الحاوية في أمازون ECR للسماح بالقياس الأفقي لهذه النماذج لتكوينات النماذج المختلفة. نحن نستخدم خدمة تخزين أمازون البسيطة (Amazon S3) كمخزن بيانات شائع لتنزيل التكوين وتحميل نتائج القياس للتلخيص. يمكنك استخدام هذه البنية لإعادة إنشاء نتائج القياس وإعادة إنتاجها وإعادة الغرض منها لقياس أنواع النماذج المختلفة (مثل نماذج Hugging Face ، ونماذج PyTorch ، والنماذج المخصصة الأخرى) عبر أنواع مثيلات EC2 (وحدة المعالجة المركزية ، وحدة معالجة الرسومات ، Inf1).

مع إعداد هذه التجربة ، يتمثل هدفنا في دراسة زمن الانتقال كدالة للإنتاجية. يعتبر هذا المنحنى مهمًا لتصميم التطبيق للوصول إلى بنية تحتية مُثلى من حيث التكلفة للتطبيق المستهدف. لتحقيق ذلك ، نقوم بمحاكاة الأحمال المختلفة عن طريق ترتيب الاستعلامات في قائمة انتظار من سلاسل رسائل متعددة ثم قياس وقت الذهاب والإياب لكل طلب مكتمل. يتم قياس الإنتاجية بناءً على عدد الطلبات المكتملة لكل وحدة وقت ساعة. علاوة على ذلك ، يمكنك تغيير أحجام الدُفعات والمتغيرات الأخرى مثل طول التسلسل والدقة الكاملة مقابل نصف الدقة لاكتساح مساحة التصميم بشكل شامل للوصول إلى مقاييس الأداء الإرشادية. في دراستنا ، من خلال المسح المعياري لحجم الدُفعة والاستفسارات من العملاء متعددي الخيوط ، يتم تحديد منحنى الإنتاجية مقابل زمن الانتقال. يمكن تجميع كل طلب لضمان الاستخدام الكامل للمسرع ، خاصة للطلبات الصغيرة التي قد لا تستخدم عقدة الحساب بشكل كامل. يمكنك أيضًا اعتماد هذا الإعداد لتحديد حجم الدُفعة من جانب العميل للحصول على الأداء الأمثل.

باختصار ، يمكننا تمثيل هذه المشكلة رياضيًا على النحو التالي: (الإنتاجية ، الكمون) = وظيفة (حجم الدُفعة ، عدد الخيوط ، الدقة).

وهذا يعني أنه بالنظر إلى المساحة الهائلة ، يمكن أن يكون عدد التجارب كبيرًا. لحسن الحظ ، يمكن تشغيل كل تجربة بشكل مستقل. نوصي باستخدام دفعة AWS لإجراء هذا القياس المعياري الأفقي في وقت مضغوط دون زيادة في تكلفة قياس الأداء مقارنة بالنهج الخطي للاختبار. رمز تكرار النتائج موجود في ملف مستودع جيثب أعدت لـ AWS Re: Invent 2021. المستودع شامل لأداء قياس الأداء على مسرعات مختلفة. يمكنك الرجوع إلى جانب GPU من التعليمات البرمجية لإنشاء الحاوية (Dockerfile-gpu) ثم الرجوع إلى الكود الموجود بالداخل Container-Root للحصول على أمثلة محددة لـ BERT و ResNet50.

استخدمنا النهج السابق لتطوير دراسات الأداء عبر نوعين من النماذج: Bert-base-uncased (110 مليون معلمة ، NLP) و ResNet50 (25.6 مليون معلمة ، السيرة الذاتية). يلخص الجدول التالي تفاصيل النموذج.

نوع النموذج الموديل التفاصيل
NLP twmkn9 / bert-base-uncased-squad2 110 مليون معلمة طول التسلسل = 128
CV ريسنت 50 25.6 مليون معلمة

بالإضافة إلى ذلك ، للقياس عبر أنواع البيانات (كاملة ، نصف الدقة) ، نستخدمها torch.cuda.amp، والذي يوفر طرقًا ملائمة للتعامل مع الدقة المختلطة حيث تستخدم بعض العمليات torch.float32 (عائم) نوع البيانات واستخدام العمليات الأخرى torch.float16 (نصف). على سبيل المثال ، تكون عوامل التشغيل مثل الطبقات الخطية والتلافيف أسرع بكثير مع float16 ، بينما تتطلب عوامل أخرى مثل التخفيضات غالبًا النطاق الديناميكي لـ float. تحاول الدقة المختلطة التلقائية مطابقة كل مشغل بنوع بياناته المناسب لتحسين وقت تشغيل الشبكة وبصمة الذاكرة.

نتائج قياس الأداء

لمقارنة عادلة ، اخترنا G4dn.4xlarge و G5.4xكبيرة مثيلات ذات سمات متشابهة ، كما هو موضح في الجدول التالي.

حتة وحدات معالجة الرسومات ذاكرة وحدة معالجة الرسومات (جيجابايت) وحدات المعالجة المركزية الافتراضية الذاكرة (جيجابايت) تخزين المثيل (جيجابايت) أداء الشبكة (جيجابت في الثانية) عرض النطاق الترددي لـ EBS (جيجابت في الثانية) تسعير Linux عند الطلب (الولايات المتحدة-الشرق -1)
G5.4xكبيرة 1 24 16 64 1 × 600 NVMe SSD حتى 25 8 ٤٠ دولار/ساعة
G4dn.4xlarge 1 16 16 64 1 × 225 NVMe SSD حتى 25 4.75 ٤٠ دولار/ساعة

في الأقسام التالية ، نقارن أداء استدلال ML لنماذج BERT و RESNET50 بنهج مسح الشبكة لأحجام دُفعات معينة (32 ، 16 ، 8 ، 4 ، 1) ودقة نوع البيانات (دقة كاملة ونصف) للوصول إلى الإنتاجية مقابل منحنى الكمون. بالإضافة إلى ذلك ، نحن نتحرى تأثير الإنتاجية مقابل حجم الدُفعة لكل من الدقة الكاملة ونصف. أخيرًا ، نقيس التكلفة لكل مليون استدلال كدالة لحجم الدفعة. يتم تلخيص النتائج المجمعة عبر هذه التجارب لاحقًا في هذا المنشور.

الإنتاجية مقابل زمن الوصول

تقارن الأرقام التالية مثيلات G4dn و G5 لأحمال عمل NLP والسيرة الذاتية بدقة كاملة ونصف. بالمقارنة مع مثيلات G4dn ، يوفر مثيل G5 إنتاجية أعلى بحوالي خمس مرات (دقة كاملة) وحوالي 2.5 مرة أعلى (نصف دقة) لنموذج BERT الأساسي ، وحوالي 2 - 2.5 مرة أعلى لنموذج ResNet50. بشكل عام ، يعد G5 هو الخيار المفضل ، مع زيادة أحجام الدُفعات لكلا الطرازين من أجل الدقة الكاملة والمختلطة من منظور الأداء.

تقارن الرسوم البيانية التالية معدل النقل ووقت الاستجابة P95 بدقة كاملة ونصف الدقة لـ BERT.

حقق إنتاجية استدلال ML أعلى بأربعة أضعاف بتكلفة أقل بثلاث مرات لكل استنتاج باستخدام مثيلات Amazon EC2 G5 لنماذج NLP و CV PyTorch ذكاء بيانات PlatoBlockchain. البحث العمودي. عاي. حقق إنتاجية استدلال ML أعلى بأربعة أضعاف بتكلفة أقل بثلاث مرات لكل استنتاج باستخدام مثيلات Amazon EC2 G5 لنماذج NLP و CV PyTorch ذكاء بيانات PlatoBlockchain. البحث العمودي. عاي.

تقارن الرسوم البيانية التالية الإنتاجية ووقت الاستجابة P95 بدقة كاملة ونصف الدقة لـ ResNet50.

حقق إنتاجية استدلال ML أعلى بأربعة أضعاف بتكلفة أقل بثلاث مرات لكل استنتاج باستخدام مثيلات Amazon EC2 G5 لنماذج NLP و CV PyTorch ذكاء بيانات PlatoBlockchain. البحث العمودي. عاي. حقق إنتاجية استدلال ML أعلى بأربعة أضعاف بتكلفة أقل بثلاث مرات لكل استنتاج باستخدام مثيلات Amazon EC2 G5 لنماذج NLP و CV PyTorch ذكاء بيانات PlatoBlockchain. البحث العمودي. عاي.

الإنتاجية والكمون مقابل حجم الدُفعة

توضح الرسوم البيانية التالية معدل النقل كدالة لحجم الدُفعة. في أحجام الدُفعات المنخفضة ، لا يعمل المسرع بكامل طاقته ومع زيادة حجم الدُفعات ، تزداد الإنتاجية على حساب زمن الانتقال. يقارب منحنى معدل النقل الحد الأقصى لقيمة التي هي دالة لأداء المسرع. للمنحنى سمتان مميزتان: قسم مرتفع وقسم مقارب مسطح. بالنسبة لنموذج معين ، يمكن للمسرع عالي الأداء (G5) تمديد القسم الصاعد إلى أحجام دفعات أعلى من G4dn والخط المقارب بمعدل إنتاجية أعلى. أيضًا ، هناك مقايضة خطية بين زمن الوصول وحجم الدُفعة. لذلك ، إذا كان التطبيق مرتبطًا بوقت الاستجابة ، فيمكننا استخدام زمن انتقال P95 مقابل حجم الدُفعة لتحديد الحجم الأمثل للدُفعة. ومع ذلك ، إذا كان الهدف هو زيادة الإنتاجية إلى أقصى حد عند أدنى زمن انتقال ، فمن الأفضل تحديد حجم الدُفعة المقابل "للركبة" بين القسمين الصاعد والمقارب ، لأن أي زيادة أخرى في حجم الدُفعة ستؤدي إلى نفس الإنتاجية عند أسوأ كمون. لتحقيق أفضل نسبة أداء للسعر ، واستهداف إنتاجية أعلى بأقل زمن انتقال ، فمن الأفضل لك التوسع الأفقي لهذا النطاق الأمثل من خلال خوادم الاستدلال المتعددة بدلاً من مجرد زيادة حجم الدُفعة.

حقق إنتاجية استدلال ML أعلى بأربعة أضعاف بتكلفة أقل بثلاث مرات لكل استنتاج باستخدام مثيلات Amazon EC2 G5 لنماذج NLP و CV PyTorch ذكاء بيانات PlatoBlockchain. البحث العمودي. عاي.

التكلفة مقابل حجم الدفعة

في هذا القسم ، نقدم النتائج المقارنة لتكاليف الاستدلال (دولار لكل مليون استدلالات) مقابل حجم الدُفعة. من الشكل التالي ، يمكننا أن نلاحظ بوضوح أن التكلفة (تقاس بالدولار لكل مليون استدلال) تكون أقل باستمرار مع G5 مقابل G4dn على حد سواء (الدقة الكاملة ونصف الدقة).

حقق إنتاجية استدلال ML أعلى بأربعة أضعاف بتكلفة أقل بثلاث مرات لكل استنتاج باستخدام مثيلات Amazon EC2 G5 لنماذج NLP و CV PyTorch ذكاء بيانات PlatoBlockchain. البحث العمودي. عاي. حقق إنتاجية استدلال ML أعلى بأربعة أضعاف بتكلفة أقل بثلاث مرات لكل استنتاج باستخدام مثيلات Amazon EC2 G5 لنماذج NLP و CV PyTorch ذكاء بيانات PlatoBlockchain. البحث العمودي. عاي.

يلخص الجدول التالي مقارنات الإنتاجية ووقت الاستجابة والتكلفة (بالدولار لكل مليون استدلال) لنماذج BERT و RESNET50 عبر كلا وضعي الدقة لأحجام الدُفعات المحددة. على الرغم من التكلفة المرتفعة لكل مثيل ، فإن G5 يتفوق باستمرار على G4dn في جميع جوانب زمن انتقال الاستدلال والإنتاجية والتكلفة (بالدولار لكل مليون استدلال) ، لجميع أحجام الدُفعات. الجمع بين المقاييس المختلفة في تكلفة (دولار لكل مليون استدلالات) ، نموذج BERT (حجم 32 دفعة ، دقة كاملة) مع G5 هو 3.7 مرة أكثر ملاءمة من G4dn ، ومع نموذج ResNet50 (حجم دفعة 32 ، دقة كاملة) ، فهو 1.6 مرات أكثر ملاءمة من G4dn.

الموديل حجم الدفعة دقة

الإنتاجية

(حجم الدفعة X الطلبات / ثانية)

زمن الانتقال (بالميلي ثانية)

مليون دولار

الاستدلالات (عند الطلب)

التكاليف والفوائد

(G5 عبر G4dn)

. . . G5 G4dn G5 G4dn G5 G4dn
قاعدة بيرت غير مسجلة 32 طويل 723 154 44 208 $0.6 $2.2 3.7X
خليط 870 410 37 79 $0.5 $0.8 1.6X
16 طويل 651 158 25 102 $0.7 $2.1 3.0X
خليط 762 376 21 43 $0.6 $0.9 1.5X
8 طويل 642 142 13 57 $0.7 $2.3 3.3X
خليط 681 350 12 23 $0.7 $1.0 1.4X
. 1 طويل 160 116 6 9 $2.8 $2.9 1.0X
خليط 137 102 7 10 $3.3 $3.3 1.0X
ريسنت 50 32 طويل 941 397 34 82 $0.5 $0.8 1.6X
خليط 1533 851 21 38 $0.3 $0.4 1.3X
16 طويل 888 384 18 42 $0.5 $0.9 1.8X
خليط 1474 819 11 20 $0.3 $0.4 1.3X
8 طويل 805 340 10 24 $0.6 $1.0 1.7X
خليط 1419 772 6 10 $0.3 $0.4 1.3X
. 1 طويل 202 164 5 6 $2.2 $2 0.9X
خليط 196 180 5 6 $2.3 $1.9 0.8X

معايير الاستدلال الإضافية

بالإضافة إلى قاعدة BERT ونتائج ResNet50 في الأقسام السابقة ، نقدم نتائج قياس أداء إضافية لنماذج NLP و CV كبيرة أخرى شائعة الاستخدام في PyTorch. تم تقديم ميزة أداء G5 عبر G4dn لطرازات BERT الكبيرة بدقة مختلفة ، ونماذج Yolo-v5 بأحجام مختلفة. للحصول على رمز لتكرار المعيار ، ارجع إلى أمثلة على التعلم العميق من NVIDIA لـ Tensor Cores. تُظهر هذه النتائج فائدة استخدام G5 عبر G4dn لمجموعة واسعة من مهام الاستدلال التي تشمل أنواعًا مختلفة من النماذج.

الموديل دقة حجم الدفعة طول التسلسل صبيب (إرسال / ثانية) الصبيب: G4dn تسريع أكثر من G4dn
بيرت كبير FP16 1 128 93.5 40.31 2.3
بيرت كبير FP16 4 128 264.2 87.4 3.0
بيرت كبير FP16 8 128 392.1 107.5 3.6
بيرت كبير FP32 1 128 68.4 22.67 3.0
بيرت كبير 4 128 118.5 32.21 3.7
بيرت كبير 8 128 132.4 34.67 3.8
الموديل GFLOPS عدد المعلمات المعالجة المسبقة (مللي ثانية) الاستدلال (مللي ثانية) الاستدلال (عدم الحد الأقصى للقمع) (NMS / الصورة)
YOLOv5s 16.5 7.2M 0.2 3.6 4.5
YOLov5m 49.1 21M 0.2 6.5 4.5
يولوف 5 لتر 109.3 46M 0.2 9.1 3.5
YOLov5x 205.9 86M 0.2 14.4 1.3

وفي الختام

في هذا المنشور ، أظهرنا أنه بالنسبة للاستدلال باستخدام نماذج PyTorch و CV كبيرة ، تعد مثيلات EC2 G5 خيارًا أفضل مقارنة بمثيلات G4dn. على الرغم من أن التكلفة بالساعة عند الطلب لمثيلات G5 أعلى من مثيلات G4dn ، إلا أن أدائها الأعلى يمكن أن يحقق 2-5 أضعاف الإنتاجية بأي دقة لنماذج NLP و CV ، مما يجعل التكلفة لكل مليون استدلال 1.5-3.5 مرة أكثر ملاءمة من مثيلات G4dn. حتى بالنسبة للتطبيقات المرتبطة بزمن الانتقال ، فإن G5 أفضل 2.5 إلى 5 مرات من G4dn لنماذج البرمجة اللغوية العصبية والسيرة الذاتية.

باختصار ، تعد مثيلات AWS G5 اختيارًا ممتازًا لاحتياجاتك الاستدلالية من منظور الأداء والتكلفة لكل استنتاج. توفر لك عالمية إطار عمل CUDA وحجم وعمق مجموعة مثيلات G5 على AWS قدرة فريدة على أداء الاستدلال على نطاق واسع.


عن المؤلفين

حقق إنتاجية استدلال ML أعلى بأربعة أضعاف بتكلفة أقل بثلاث مرات لكل استنتاج باستخدام مثيلات Amazon EC2 G5 لنماذج NLP و CV PyTorch ذكاء بيانات PlatoBlockchain. البحث العمودي. عاي.أنكور سريفاستافا مهندس حلول في فريق ML Frameworks. يركز على مساعدة العملاء من خلال التدريب والاستدلال الموزع المُدار ذاتيًا على نطاق واسع على AWS. تشمل خبرته الصيانة التنبؤية الصناعية والتوائم الرقمية وتحسين التصميم الاحتمالي وأكمل دراسات الدكتوراه من الهندسة الميكانيكية في جامعة رايس وأبحاث ما بعد الدكتوراه من معهد ماساتشوستس للتكنولوجيا.

حقق إنتاجية استدلال ML أعلى بأربعة أضعاف بتكلفة أقل بثلاث مرات لكل استنتاج باستخدام مثيلات Amazon EC2 G5 لنماذج NLP و CV PyTorch ذكاء بيانات PlatoBlockchain. البحث العمودي. عاي.سوندار رانجاناثان هو رئيس تطوير الأعمال ، ML Frameworks في فريق Amazon EC2. يركز على أعباء عمل ML على نطاق واسع عبر خدمات AWS مثل Amazon EKS و Amazon ECS و Elastic Fabric Adapter و AWS Batch و Amazon SageMaker. تشمل خبرته الأدوار القيادية في إدارة المنتجات وتطوير المنتجات في NetApp و Micron Technology و Qualcomm و Mentor Graphics.

حقق إنتاجية استدلال ML أعلى بأربعة أضعاف بتكلفة أقل بثلاث مرات لكل استنتاج باستخدام مثيلات Amazon EC2 G5 لنماذج NLP و CV PyTorch ذكاء بيانات PlatoBlockchain. البحث العمودي. عاي.ماهاديفان بالاسوبرامانيام هو مهندس حلول رئيسي للحوسبة الذاتية مع ما يقرب من 20 عامًا من الخبرة في مجال التعلم العميق المليء بالفيزياء ، وبناء ونشر التوائم الرقمية للأنظمة الصناعية على نطاق واسع. حصل مهاديفان على درجة الدكتوراه في الهندسة الميكانيكية من معهد ماساتشوستس للتكنولوجيا ولديه أكثر من 25 براءة اختراع ومنشورًا لحسابه.

حقق إنتاجية استدلال ML أعلى بأربعة أضعاف بتكلفة أقل بثلاث مرات لكل استنتاج باستخدام مثيلات Amazon EC2 G5 لنماذج NLP و CV PyTorch ذكاء بيانات PlatoBlockchain. البحث العمودي. عاي. عمرو رجب هو مهندس حلول رئيسي لمنصات EC2 Accelerated for AWS ، وهو مكرس لمساعدة العملاء على تشغيل أعباء العمل الحسابية على نطاق واسع. في أوقات فراغه ، يحب السفر وإيجاد طرق جديدة لدمج التكنولوجيا في الحياة اليومية.

الطابع الزمني:

اكثر من التعلم الآلي من AWS