توفر ByteDance ما يصل إلى 60% من تكاليف الاستدلال مع تقليل زمن الاستجابة وزيادة الإنتاجية باستخدام AWS Inferentia

أعاد نشره أفلاطون

المتابعون: 0

هذه مدونة ضيف تمت كتابتها بالاشتراك مع Minghui Yu و Jianzhe Xiao من Bytedance.

ByteDance هي شركة تقنية تدير مجموعة من منصات المحتوى لإعلام وتثقيف وترفيه وإلهام الأشخاص عبر اللغات والثقافات والمناطق الجغرافية. يثق المستخدمون في منصات المحتوى الخاصة بنا ويتمتعون بها بسبب التجارب الغنية والبديهية والآمنة التي يقدمونها. أصبحت هذه التجارب ممكنة بفضل محرك الواجهة الخلفية للتعلم الآلي (ML) ، مع نماذج ML المصممة للإشراف على المحتوى والبحث والتوصية والإعلان والتأثيرات المرئية الجديدة.

يوفر فريق ByteDance AML (التعلم الآلي التطبيقي) أنظمة تعلم آلية عالية الأداء وموثوقة وقابلة للتطوير وخدمات ML من طرف إلى طرف لأعمال الشركة. كنا نبحث عن طرق لتحسين أنظمة استدلال ML لتقليل التكاليف ، دون زيادة أوقات الاستجابة. عندما تم إطلاق AWS استدلال AWS، وهي شريحة استدلال ML عالية الأداء تم إنشاؤها خصيصًا بواسطة AWS ، وقد شاركنا مع فريق حساب AWS لدينا لاختبار ما إذا كان بإمكان AWS Inferentia معالجة أهداف التحسين الخاصة بنا. قمنا بإجراء العديد من البراهين على المفهوم ، مما أدى إلى انخفاض تكلفة الاستدلال بنسبة تصل إلى 60٪ مقارنة بمثيلات EC4 G2dn المستندة إلى وحدة معالجة الرسومات T4 وما يصل إلى 25٪ من زمن انتقال الاستدلال. لتحقيق وفورات التكلفة وتحسينات الأداء ، قررنا نشر نماذج على أساس AWS Inferentia الأمازون الحوسبة المرنة السحابية (Amazon EC2) مثيلات Inf1 قيد الإنتاج.

يوضح الرسم البياني التالي تحسين زمن الوصول لأحد نماذج اكتشاف الوجه التي تم نشرها مسبقًا على وحدات معالجة الرسومات باستخدام Tensor RT. انخفض متوسط زمن الوصول بنسبة 20٪ (من 50 مللي ثانية إلى 40 مللي ثانية) ، وانخفض زمن الانتقال p99 بنسبة 25٪ (من 200 مللي ثانية إلى 150 مللي ثانية).

في هذا المنشور ، نشارك كيف وفرنا تكاليف الاستدلال مع تقليل زمن الانتقال وزيادة الإنتاجية باستخدام AWS Inferentia.

بحثًا عن حوسبة عالية الأداء وفعالة من حيث التكلفة

يركز فريق ByteDance AML على البحث وتنفيذ أنظمة ML المتطورة وموارد الحوسبة غير المتجانسة التي تتطلبها. نقوم بإنشاء أنظمة تدريب واستنتاج واسعة النطاق لمجموعة متنوعة من نماذج التوصية ومعالجة اللغة الطبيعية (NLP) ورؤية الكمبيوتر (CV). هذه النماذج معقدة للغاية وتعالج قدرًا هائلاً من البيانات من العديد من منصات المحتوى التي تعمل بها ByteDance. يتطلب نشر هذه النماذج موارد GPU كبيرة ، سواء في السحابة أو في أماكن العمل. لذلك ، فإن تكاليف الحساب لأنظمة الاستدلال هذه مرتفعة جدًا.

كنا نتطلع إلى خفض هذه التكاليف دون التأثير على الإنتاجية أو زمن الوصول. أردنا مرونة السحابة ودورة تسليم أسرع ، والتي تكون أقصر بكثير من تلك المطلوبة للإعداد المحلي. وعلى الرغم من أننا كنا منفتحين لاستكشاف خيارات جديدة لتعلم الآلة المتسارع ، فقد أردنا أيضًا تجربة مطور سلسة.

لقد تعلمنا من فريق AWS لدينا أن مثيلات EC2 Inf1 المستندة إلى AWS Inferentia تقدم استنتاج ML عالي الأداء بأقل تكلفة لكل استنتاج في السحابة. كنا متحمسين لاستكشافها ووجدنا أنها مناسبة تمامًا لحالة الاستخدام لدينا ، لأننا ندير تعلمًا آليًا كبيرًا على كميات كبيرة من بيانات الصور والأشياء والكلام والنص. لقد كانت بالتأكيد مناسبة لأهدافنا ، لأننا استطعنا تحقيق وفورات ضخمة في التكاليف نظرًا لتعقيد نماذجنا وحجم التنبؤات اليومية. علاوة على ذلك ، تتميز AWS Inferentia بكمية كبيرة من الذاكرة الموجودة على الشريحة ، والتي يمكنك استخدامها لتخزين النماذج الكبيرة مؤقتًا بدلاً من تخزينها خارج الشريحة. لقد أدركنا أن هذا يمكن أن يكون له تأثير كبير في تقليل زمن انتقال الاستدلال لأن نوى معالجة AWS Inferentia ، المسماة NeuronCores ، تتمتع بوصول عالي السرعة إلى النماذج المخزنة في الذاكرة الموجودة على الرقاقة ولا تقتصر على الذاكرة خارج الشريحة عرض النطاق.

في النهاية ، بعد تقييم العديد من الخيارات ، اخترنا مثيلات EC2 Inf1 لأدائها / نسبة السعر الأفضل مقارنة بمثيلات G4dn و NVIDIA T4 في أماكن العمل. لقد انخرطنا في دورة من التكرار المستمر مع فريق AWS لإطلاق مزايا السعر والأداء لـ Inf1.

نشر أحمال عمل الاستدلال على AWS Inferentia

تضمن بدء استخدام AWS Inferentia باستخدام AWS Neuron SDK مرحلتين: تجميع رمز النموذج والنشر في مثيلات Inf1. كما هو شائع عند نقل نماذج ML إلى أي بنية تحتية جديدة ، كانت هناك بعض التحديات التي واجهناها. لقد تمكنا من التغلب على هذه التحديات باجتهاد ودعم من فريق AWS الخاص بنا. في الأقسام التالية ، نشارك العديد من النصائح والملاحظات المفيدة بناءً على خبرتنا في نشر أعباء عمل الاستدلال على AWS Inferentia.

نموذج التوافق لـ OCR

يكتشف نموذج مطابقة التعرف الضوئي على الأحرف (OCR) الخاص بنا ويقرأ النص داخل الصور. لقد عملنا على العديد من التحسينات للحصول على أداء عالٍ (QPS) لمجموعة متنوعة من أحجام الدُفعات ، مع الحفاظ على وقت الاستجابة منخفضًا. بعض التحسينات الرئيسية مذكورة أدناه:

تحسينات المترجم - بشكل افتراضي ، تعمل Inferentia بشكل أفضل على المدخلات ذات طول تسلسل ثابت ، مما يمثل تحديًا نظرًا لأن طول البيانات النصية غير ثابت. للتغلب على هذا ، قمنا بتقسيم نموذجنا إلى جزأين: جهاز تشفير وجهاز فك ترميز. قمنا بتجميع هذين النموذجين الفرعيين بشكل منفصل ثم دمجناهما في نموذج واحد عبر TorchScript. من خلال تشغيل تدفق التحكم في الحلقة for على وحدات المعالجة المركزية (CPU) ، مكّن هذا الأسلوب من دعم أطوال التسلسل المتغيرة على Inferentia.
أداء الالتواء العميق - واجهنا عنق زجاجة DMA في عملية الالتواء العمق ، والتي يتم استخدامها بشكل كبير بواسطة نموذج المطابقة الخاص بنا. لقد عملنا عن كثب مع فريق AWS Neuron لتحديد وحل عنق الزجاجة في الوصول إلى الوصول المباشر للذاكرة (DMA) ، مما أدى إلى تحسين أداء هذه العملية وتحسين الأداء العام لنموذج التعرف الضوئي على الحروف لدينا.

توفر ByteDance ما يصل إلى 60% من تكاليف الاستدلال مع تقليل زمن الوصول وزيادة الإنتاجية باستخدام AWS Inferentia PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

لقد أنشأنا متغيرين جديدين للنموذج لتحسين نشرنا على Inferentia:

وحدة التشفير / وحدة فك التشفير المدمجة وغير المنضبطة - بدلاً من استخدام جهاز تشفير وفك تشفير تم تجميعهما بشكل مستقل ، قمنا بدمج المشفر ووحدة فك التشفير بالكامل في نموذج واحد وقمنا بتجميع هذا النموذج باعتباره NEFF واحدًا. يتيح فتح وحدة فك التشفير إمكانية تشغيل كل تدفق التحكم في وحدة فك التشفير على Inferentia دون استخدام أي عمليات وحدة المعالجة المركزية. باستخدام هذا النهج ، يستخدم كل تكرار لوحدة فك التشفير بالضبط مقدار الحساب اللازم لذلك الرمز المميز. يعمل هذا النهج على تحسين الأداء لأننا نحد بشكل كبير من الحساب الزائد الذي تم تقديمه مسبقًا بواسطة مدخلات الحشو. علاوة على ذلك ، لا يلزم نقل البيانات من Inferentia إلى وحدة المعالجة المركزية بين تكرارات وحدة فك التشفير ، مما يقلل بشكل كبير من وقت الإدخال / الإخراج. هذا الإصدار من النموذج لا يدعم التوقف المبكر.
وحدة فك ترميز مقسمة غير مقسمة - على غرار النموذج المدمج غير المرتبط بالكامل ، فإن هذا المتغير من النموذج يفتح تكرارات متعددة لوحدة فك التشفير ويجمعها كعملية تنفيذ واحدة (ولكن لا يشمل المشفر). على سبيل المثال ، لأقصى طول تسلسل 75 ، يمكننا فك وحدة فك التشفير إلى 3 أقسام والتي تحسب الرموز 1-25 و26-50 و 51-75. من حيث الإدخال / الإخراج ، هذا أيضًا أسرع بشكل ملحوظ لأننا لا نحتاج إلى نقل إخراج المشفر مرة واحدة لكل تكرار. بدلاً من ذلك ، يتم نقل النواتج مرة واحدة فقط لكل قسم من أقسام وحدة فك التشفير. يدعم هذا الإصدار من النموذج التوقف المبكر ، ولكن فقط عند حدود القسم. يمكن ضبط حدود الأقسام لكل تطبيق محدد للتأكد من أن غالبية الطلبات تنفذ قسمًا واحدًا فقط.

لزيادة تحسين الأداء ، قمنا بإجراء التحسينات التالية لتقليل استخدام الذاكرة أو تحسين كفاءة الوصول:

إلغاء الموتر والنسخ المخفضة - هذا تحسين للمترجم يقلل بشكل كبير من حجم النماذج غير المسجلة وعدد التعليمات / الوصول إلى الذاكرة عن طريق إعادة استخدام الموترات لتحسين كفاءة المساحة.
تعليمات مخفضة - هذا هو تحسين مترجم يتم استخدامه مع الإصدار غير المبطّن من وحدة فك التشفير لتقليل العدد الإجمالي للتعليمات بشكل كبير.
متعدد النواة إلغاء المكررة - هذا هو تحسين وقت التشغيل وهو بديل لإلغاء تكرار الموتر. باستخدام هذا الخيار ، ستكون جميع الطرز متعددة النواة أكثر كفاءة في استخدام المساحة.

نموذج ResNet50 لتصنيف الصور

ResNet-50 هو نموذج تعلم عميق مدرب مسبقًا لتصنيف الصور. إنها شبكة عصبية تلافيفية (CNN أو ConvNet) يتم تطبيقها بشكل شائع لتحليل الصور المرئية. استخدمنا الأساليب التالية لتحسين أداء هذا النموذج على Inferentia:

نموذج التحول - يتم تصدير العديد من نماذج ByteDance بتنسيق ONNX ، والذي لا تدعمه Inferentia حاليًا. للتعامل مع نماذج ONNX هذه ، قدم فريق AWS Neuron نصوصًا لتحويل نماذجنا من تنسيق ONNX إلى نماذج PyTorch ، والتي يمكن تجميعها مباشرة لـ Inferentia باستخدام torch-neuron.
تحسين الأداء - لقد عملنا بشكل وثيق مع AWS نيورون فريق لضبط الكشف عن مجريات الأمور في المترجم لتحسين أداء نماذج ResNet-50 الخاصة بنا.

نموذج متعدد الوسائط لضبط المحتوى

نموذج التعلم العميق متعدد الوسائط لدينا هو مزيج من عدة نماذج منفصلة. حجم هذا النموذج كبير نسبيًا ، مما تسبب في فشل تحميل النموذج على Inferentia. نجح فريق AWS Neuron في حل هذه المشكلة باستخدام مشاركة الوزن لتقليل استخدام ذاكرة الجهاز. أصدر فريق Neuron ميزة إزالة الوزن هذه في مكتبة Neuron libnrt وقام أيضًا بتحسين أدوات Neuron للحصول على قياسات أكثر دقة. يمكن تمكين ميزة إزالة التكرار بوزن وقت التشغيل عن طريق تعيين متغير البيئة التالي قبل تشغيل الاستدلال:

NEURON_RT_MULTI_INSTANCE_SHARED_WEIGHTS=1

قلل تحديث Neuron SDK من الاستهلاك الكلي للذاكرة لنماذجنا المكررة ، مما مكننا من نشر نموذجنا متعدد الوسائط للاستدلال متعدد النواة.

ترحيل المزيد من النماذج إلى AWS Inferentia

في ByteDance ، نواصل نشر نماذج التعلم العميق المبتكرة لتقديم تجارب مستخدم مبهجة لما يقرب من 2 مليار مستخدم نشط شهريًا. نظرًا للنطاق الهائل الذي نعمل به ، فإننا نبحث باستمرار عن طرق لتوفير التكاليف وتحسين الأداء. سنستمر في ترحيل النماذج إلى AWS Inferentia للاستفادة من أدائها العالي وكفاءتها من حيث التكلفة. نريد أيضًا أن تطلق AWS المزيد من أنواع المثيلات المستندة إلى AWS Inferentia ، مثل تلك التي تحتوي على المزيد من وحدات المعالجة المركزية الافتراضية (vCPU) لمهام المعالجة المسبقة. للمضي قدمًا ، تأمل ByteDance في رؤية المزيد من ابتكارات السيليكون من AWS لتقديم أفضل أداء سعر لتطبيقات ML.

إذا كنت مهتمًا بمعرفة المزيد حول كيفية مساعدة AWS Inferentia في توفير التكاليف أثناء تحسين الأداء لتطبيقات الاستدلال الخاصة بك ، فتفضل بزيارة حالات Amazon EC2 Inf1 صفحة المنتج.

حول المؤلف

مينجوي يو هو رئيس فريق تعلم الآلة الأول للاستدلال في ByteDance. مجال تركيزه هو تسريع الحوسبة بالذكاء الاصطناعي ونظام التعلم الآلي. إنه مهتم جدًا بالحوسبة غير المتجانسة وهندسة الكمبيوتر في عصر ما بعد مور. في أوقات فراغه يحب كرة السلة والرماية.

Jianzhe شياو هو رئيس فريق مهندس برمجيات أول في فريق مكافحة غسيل الأموال في ByteDance. يركز عمله الحالي على مساعدة فريق العمل في تسريع عملية نشر النموذج وتحسين أداء الاستدلال للنموذج. خارج العمل ، يستمتع بالعزف على البيانو.

تيان شي هو مهندس حلول أول في AWS. مجال تركيزه هو تحليلات البيانات والتعلم الآلي وخادم. إنه متحمس لمساعدة العملاء على تصميم وبناء حلول موثوقة وقابلة للتطوير على السحابة. في أوقات فراغه ، يستمتع بالسباحة والقراءة.

جيا دونغ هو مدير حلول العملاء في AWS. إنها تستمتع بالتعرف على خدمات AWS AI / ML ومساعدة العملاء على تحقيق نتائج أعمالهم من خلال بناء حلول لهم. خارج العمل ، تستمتع جيا بالسفر واليوجا والأفلام.

جوناثان لونت مهندس برمجيات في أمازون مع التركيز على تطوير إطار عمل تعلم الآلة. على مدار حياته المهنية ، عمل من خلال مجموعة كاملة من أدوار علوم البيانات بما في ذلك تطوير النماذج ونشر البنية التحتية والتحسين الخاص بالأجهزة.

جوشوا حنان هو مهندس تعلم الآلة في أمازون. يعمل على تحسين نماذج التعلم العميق لرؤية الكمبيوتر على نطاق واسع وتطبيقات معالجة اللغة الطبيعية.

شروتي كوباركار هو مدير أول لتسويق المنتجات في AWS. تساعد العملاء على استكشاف البنية التحتية للحوسبة المسرَّعة EC2 وتقييمها واعتمادها لتلبية احتياجات التعلم الآلي الخاصة بهم.

الطابع الزمني: 22 نوفمبر، 202226 نوفمبر، 2022

الطابع الزمني: سبتمبر 18، 2023

يوفر ByteDance ما يصل إلى 60٪ من تكاليف الاستدلال مع تقليل زمن الوصول وزيادة الإنتاجية باستخدام AWS Inferentia

أعاد نشره أفلاطون

بحثًا عن حوسبة عالية الأداء وفعالة من حيث التكلفة

نشر أحمال عمل الاستدلال على AWS Inferentia

نموذج التوافق لـ OCR

نموذج ResNet50 لتصنيف الصور

نموذج متعدد الوسائط لضبط المحتوى

ترحيل المزيد من النماذج إلى AWS Inferentia

حول المؤلف

اكثر من التعلم الآلي من AWS

الإعلان عن موصل ServiceNow المحدث (V2) لـ Amazon Kendra

إطلاق العنان للكفاءة: تسخير قوة التنفيذ الانتقائي في خطوط أنابيب Amazon SageMaker | خدمات أمازون ويب

ابدأ رحلتك الناجحة مع التنبؤ بالسلسلة الزمنية باستخدام Amazon Forecast

تطبيق إخفاء الألفاظ النابية في Amazon Translate

كيف تعمل xarvio Digital Farming Solutions على تسريع تطورها باستخدام إمكانات Amazon SageMaker الجغرافية المكانية

ابحث بأمان عن البيانات غير المهيكلة على أنظمة ملفات Windows باستخدام موصل Amazon Kendra لـ Amazon FSx لخادم ملفات Windows

قم بتمرير البيانات الحساسة من تدفق البيانات في الوقت الفعلي تقريبًا باستخدام Amazon Comprehend و Amazon Kinesis Data Firehose

تصميم مدن مرنة في Arup باستخدام القدرات الجغرافية المكانية لـ Amazon SageMaker | خدمات الويب الأمازون

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي