كيف تستخدم Amazon Music SageMaker مع NVIDIA لتحسين التدريب على تعلم الآلة وأداء الاستدلال والتكلفة

أعاد نشره أفلاطون

المتابعون: 0

في عالم البث الديناميكي أمازون الموسيقى، كل بحث عن أغنية أو بودكاست أو قائمة تشغيل يحمل قصة أو حالة مزاجية أو طوفانًا من المشاعر في انتظار الكشف عنها. تعد عمليات البحث هذه بمثابة بوابة للاكتشافات الجديدة والتجارب العزيزة والذكريات الدائمة. لا يقتصر شريط البحث على العثور على أغنية فحسب؛ يتعلق الأمر بملايين المستخدمين النشطين الذين يبدأون رحلتهم الشخصية إلى العالم الغني والمتنوع الذي تقدمه Amazon Music.

إن تقديم تجربة عملاء متميزة للعثور على الموسيقى التي يبحث عنها المستخدمون على الفور يتطلب نظامًا أساسيًا ذكيًا وسريع الاستجابة. تستخدم Amazon Music قوة الذكاء الاصطناعي لتحقيق ذلك. ومع ذلك، فإن تحسين تجربة العميل مع إدارة تكلفة التدريب والاستدلال لنماذج الذكاء الاصطناعي التي تدعم قدرات شريط البحث، مثل التدقيق الإملائي في الوقت الحقيقي والبحث الموجه، أمر صعب خلال أوقات ذروة حركة المرور.

الأمازون SageMaker يوفر مجموعة شاملة من الخدمات التي تسمح لـ Amazon Music بالإنشاء والتدريب والنشر على سحابة AWS بأقل جهد. من خلال الاهتمام بالأعمال الثقيلة غير المتمايزة، يسمح لك SageMaker بالتركيز على العمل على نماذج التعلم الآلي (ML)، وعدم القلق بشأن أشياء مثل البنية التحتية. كجزء من نموذج المسؤولية المشتركة، تتأكد SageMaker من أن الخدمات التي تقدمها موثوقة وفعالة وقابلة للتطوير، بينما تتأكد من أن تطبيق نماذج تعلم الآلة يحقق أفضل استفادة من الإمكانات التي توفرها SageMaker.

في هذا المنشور، نستعرض الرحلة التي قامت بها Amazon Music لتحسين الأداء والتكلفة باستخدام SageMaker وNVIDIA Triton Inference Server وTensorRT. نحن نتعمق في إظهار كيفية عمل شريط البحث الذي يبدو بسيطًا، ولكنه معقد، مما يضمن رحلة متواصلة إلى عالم Amazon Music مع تأخيرات مطبعية محبطة تتراوح بين القليل إلى الصفر ونتائج البحث ذات الصلة في الوقت الفعلي.

Amazon SageMaker وNVIDIA: تقديم إمكانات بحث وتدقيق إملائي سريعة ودقيقة

تقدم Amazon Music مكتبة واسعة تضم أكثر من 100 مليون أغنية وملايين حلقات البودكاست. ومع ذلك، قد يكون العثور على الأغنية أو البودكاست المناسب أمرًا صعبًا، خاصةً إذا كنت لا تعرف العنوان الدقيق أو الفنان أو اسم الألبوم، أو إذا كان الاستعلام الذي تم البحث عنه واسعًا جدًا، مثل "بودكاست الأخبار".

اتخذت Amazon Music نهجًا ذا شقين لتحسين عملية البحث والاسترجاع. تتمثل الخطوة الأولى في تقديم البحث المتجه (المعروف أيضًا باسم الاسترجاع القائم على التضمين)، وهي تقنية ML يمكنها مساعدة المستخدمين في العثور على المحتوى الأكثر صلة الذي يبحثون عنه باستخدام دلالات المحتوى. تتضمن الخطوة الثانية تقديم نموذج التصحيح الإملائي القائم على المحول في مكدس البحث. يمكن أن يكون هذا مفيدًا بشكل خاص عند البحث عن الموسيقى، لأن المستخدمين قد لا يعرفون دائمًا التهجئة الدقيقة لعنوان الأغنية أو اسم الفنان. يمكن أن يساعد التصحيح الإملائي المستخدمين في العثور على الموسيقى التي يبحثون عنها حتى لو ارتكبوا خطأ إملائيًا في استعلام البحث.

قد يؤدي تقديم نماذج Transformer في مسار البحث والاسترجاع (في إنشاء تضمين الاستعلام المطلوب للبحث عن المتجهات ونموذج Seq2Seq Transformer التوليدي في التصحيح الإملائي) إلى زيادة كبيرة في زمن الوصول الإجمالي، مما يؤثر على تجربة العملاء سلبًا. لذلك، أصبح من أولوياتنا تحسين زمن الوصول للاستدلال في الوقت الفعلي لنماذج البحث عن المتجهات وتصحيح الإملاء.

اجتمعت Amazon Music وNVIDIA معًا لتقديم أفضل تجربة ممكنة للعملاء إلى شريط البحث، باستخدام SageMaker لتنفيذ إمكانات التدقيق الإملائي السريعة والدقيقة واقتراحات البحث الدلالي في الوقت الفعلي باستخدام تقنيات قائمة على البحث المتجه. يتضمن الحل استخدام استضافة SageMaker المدعومة بمثيلات G5 التي تستخدم وحدات معالجة الرسومات NVIDIA A10G Tensor Core، وNVIDIA Triton Inference Server Container المدعومة من SageMaker، و نفيديا تينسوررت تنسيق النموذج. من خلال تقليل زمن الوصول الاستدلالي لنموذج التدقيق الإملائي إلى 25 مللي ثانية في ذروة حركة المرور، وتقليل زمن استجابة استعلام البحث بنسبة 63% في المتوسط والتكلفة بنسبة 73% مقارنة بالاستدلال المعتمد على وحدة المعالجة المركزية، قامت Amazon Music برفع أداء شريط البحث.

بالإضافة إلى ذلك، عند تدريب نموذج الذكاء الاصطناعي لتقديم نتائج دقيقة، حققت Amazon Music تسارعًا هائلاً قدره 12 ضعفًا في وقت التدريب لنموذج محول مصحح الإملاء من تسلسل إلى تسلسل BART، مما يوفر لهم الوقت والمال، من خلال تحسين استخدام وحدة معالجة الرسومات الخاصة بهم.

عقدت Amazon Music شراكة مع NVIDIA لإعطاء الأولوية لتجربة بحث العملاء وإنشاء شريط بحث مزود بوظائف التدقيق الإملائي المحسنة والبحث عن المتجهات. في الأقسام التالية، سنشارك المزيد حول كيفية تنسيق هذه التحسينات.

تحسين التدريب باستخدام وحدات معالجة الرسوميات NVIDIA Tensor Core

لا يعد الوصول إلى وحدة معالجة الرسوميات NVIDIA Tensor Core للتدريب على نماذج اللغة الكبيرة كافيًا للاستفادة من إمكاناتها الحقيقية. هناك خطوات تحسين أساسية يجب أن تحدث أثناء التدريب من أجل تحقيق أقصى استفادة من وحدة معالجة الرسومات بشكل كامل. ومع ذلك، فإن عدم استغلال وحدة معالجة الرسومات بشكل كافٍ سيؤدي بلا شك إلى استخدام غير فعال للموارد، وفترات تدريب طويلة، وزيادة تكاليف التشغيل.

خلال المراحل الأولية لتدريب المصحح الإملائي BART (قاعدة بارت) نموذج المحول على مثيل SageMaker ml.p3.24xlarge (8 وحدات معالجة رسوميات NVIDIA V100 Tensor Core)، كان استخدام وحدة معالجة الرسومات في Amazon Music حوالي 35%. لتعظيم فوائد التدريب المسرع بواسطة وحدة معالجة الرسومات NVIDIA، قام مهندسو حلول AWS وNVIDIA بدعم Amazon Music في تحديد مجالات التحسينات، خاصة فيما يتعلق بحجم الدفعة ومعلمات الدقة. تؤثر هاتان المعلمتان الحاسمتان على كفاءة وسرعة ودقة تدريب نماذج التعلم العميق.

أسفرت التحسينات الناتجة عن استخدام جديد ومحسن لوحدة معالجة الرسومات V100، بثبات عند حوالي 89%، مما أدى إلى تقليل وقت تدريب Amazon Music بشكل كبير من 3 أيام إلى 5-6 ساعات. عن طريق تبديل حجم الدفعة من 32 إلى 256 واستخدام تقنيات التحسين مثل التشغيل التدريب الدقيق المختلط التلقائي بدلاً من استخدام دقة FP32 فقط، تمكنت Amazon Music من توفير الوقت والمال.

يوضح الرسم البياني التالي زيادة بنسبة 54% في استخدام وحدة معالجة الرسومات بعد التحسينات.

والشكل التالي يوضح التسارع في زمن التدريب.

هذه الزيادة في حجم الدفعة مكنت وحدة معالجة الرسومات NVIDIA من معالجة المزيد من البيانات بشكل متزامن عبر Tensor Cores المتعددة، مما أدى إلى تسريع وقت التدريب. ومع ذلك، من المهم الحفاظ على توازن دقيق مع الذاكرة، لأن أحجام الدُفعات الأكبر تتطلب المزيد من الذاكرة. يمكن أن يكون كل من زيادة حجم الدفعة واستخدام الدقة المختلطة أمرًا بالغ الأهمية في إطلاق العنان لقوة وحدات معالجة الرسوميات NVIDIA Tensor Core.

بعد تدريب النموذج على التقارب، حان الوقت لتحسين نشر الاستدلال على شريط بحث Amazon Music.

تصحيح الإملاء: الاستدلال على نموذج بارت

بمساعدة مثيلات SageMaker G5 وNVIDIA Triton Inference Server (برنامج مفتوح المصدر لخدمة الاستدلال)، بالإضافة إلى NVIDIA TensorRT، وهو SDK لاستدلال التعلم العميق عالي الأداء الذي يتضمن مُحسِّن الاستدلال ووقت التشغيل، تحدد Amazon Music نظام BART للتدقيق الإملائي الخاص بها. (قاعدة بارت) نموذج زمن الوصول لاستنتاج الخادم إلى 25 مللي ثانية فقط في ذروة حركة المرور. يتضمن ذلك النفقات العامة مثل موازنة التحميل والمعالجة المسبقة واستدلال النماذج وأوقات المعالجة اللاحقة.

يوفر NVIDIA Triton Inference Server نوعين مختلفين من الواجهات الخلفية: واحدة لاستضافة النماذج على وحدة معالجة الرسومات، وواجهة خلفية Python حيث يمكنك إحضار التعليمات البرمجية المخصصة الخاصة بك لاستخدامها في خطوات المعالجة المسبقة والمعالجة اللاحقة. والشكل التالي يوضح مخطط المجموعة النموذجية.

قامت أمازون ميوزيك ببناء بارت الخاص بها خط أنابيب الاستدلال عن طريق تشغيل كل من خطوات المعالجة المسبقة (ترميز النص) والمعالجة اللاحقة (الرموز المميزة إلى النص) على وحدات المعالجة المركزية (CPU)، بينما تعمل خطوة تنفيذ النموذج على وحدات معالجة الرسومات NVIDIA A10G Tensor Core. تقع الواجهة الخلفية لـ Python في منتصف خطوات المعالجة المسبقة والمعالجة اللاحقة، وهي مسؤولة عن التواصل مع نماذج BART المحولة بواسطة TensorRT بالإضافة إلى شبكات التشفير/فك التشفير. TensorRT يعزز أداء الاستدلال من خلال المعايرة الدقيقة، ودمج الطبقة والموتر، والضبط التلقائي للنواة، وذاكرة الموتر الديناميكية، والتنفيذ متعدد الدفق، ودمج الوقت.

يوضح الشكل التالي التصميم عالي المستوى للوحدات الرئيسية التي تشكل خط أنابيب الاستدلال على نموذج BART للمصحح الإملائي.

البحث المتجه: الاستعلام عن تضمين جملة الاستدلال على نموذج BERT

يوضح الرسم البياني التالي التحسن بنسبة 60% في زمن الوصول (يخدم ما يصل إلى 90–800 TPS) عند استخدام NVIDIA AI Inference Platform مقارنة بخط الأساس المعتمد على وحدة المعالجة المركزية (CPU).

يوضح الرسم البياني التالي تحسنًا بنسبة 70% في التكلفة عند استخدام NVIDIA AI Inference Platform مقارنة بخط الأساس المعتمد على وحدة المعالجة المركزية (CPU).

يوضح الشكل التالي SDK لاستدلال التعلم العميق عالي الأداء. وهو يتضمن مُحسِّنًا لاستدلال التعلم العميق ووقت التشغيل الذي يوفر زمن وصول منخفض وإنتاجية عالية لتطبيقات الاستدلال.

لتحقيق هذه النتائج، قامت Amazon Music بتجربة العديد من معلمات نشر Triton المختلفة باستخدام محلل نموذج تريتون، أداة تساعد في العثور على أفضل تكوين لنموذج NVIDIA Triton لنشر الاستدلال الفعال. لتحسين استنتاج النموذج، يقدم Triton ميزات مثل التجميع الديناميكي والتنفيذ المتزامن للنموذج، كما يتمتع بدعم إطار العمل لإمكانيات المرونة الأخرى. يجمع التجميع الديناميكي طلبات الاستدلال، ويجمعها معًا بسلاسة في مجموعات من أجل زيادة الإنتاجية إلى أقصى حد، كل ذلك مع ضمان الاستجابات في الوقت الفعلي لمستخدمي Amazon Music. تعمل إمكانية تنفيذ النموذج المتزامن على تحسين أداء الاستدلال من خلال استضافة نسخ متعددة من النموذج على نفس وحدة معالجة الرسومات. وأخيرا، من خلال الاستفادة محلل نموذج تريتون، تمكنت Amazon Music من ضبط الدفعات الديناميكية ومعلمات استضافة الاستدلال المتزامن النموذجية بعناية للعثور على الإعدادات المثالية التي تزيد من أداء الاستدلال إلى أقصى حد باستخدام حركة المرور المحاكاة.

وفي الختام

أتاح تحسين التكوينات باستخدام Triton Inference Server وTensorRT على SageMaker لشركة Amazon Music تحقيق نتائج رائعة لكل من مسارات التدريب والاستدلال. منصة SageMaker هي منصة مفتوحة شاملة لإنتاج الذكاء الاصطناعي، مما يوفر وقتًا سريعًا للتقييم وتعدد الاستخدامات لدعم جميع حالات استخدام الذكاء الاصطناعي الرئيسية عبر كل من الأجهزة والبرامج. من خلال تحسين استخدام وحدة معالجة الرسومات V100 للتدريب والتحويل من وحدات المعالجة المركزية إلى مثيلات G5 باستخدام وحدات معالجة الرسومات NVIDIA A10G Tensor Core، وكذلك باستخدام برامج NVIDIA المحسنة مثل Triton Inference Server وTensorRT، يمكن لشركات مثل Amazon Music توفير الوقت والمال مع تعزيز الأداء في كليهما. التدريب والاستدلال، مما يترجم مباشرة إلى تجربة أفضل للعملاء وانخفاض تكاليف التشغيل.

يتولى SageMaker التعامل مع الأعباء الثقيلة غير المتمايزة للتدريب على تعلم الآلة واستضافتها، مما يسمح لـ Amazon Music بتقديم عمليات تعلم الآلة الموثوقة والقابلة للتطوير عبر كل من الأجهزة والبرامج.

نحن نشجعك على التحقق من تحسين أعباء العمل لديك باستخدام SageMaker من خلال التقييم الدائم لاختيارات الأجهزة والبرامج الخاصة بك لمعرفة ما إذا كانت هناك طرق يمكنك من خلالها تحقيق أداء أفضل بتكاليف أقل.

لمعرفة المزيد حول NVIDIA AI في AWS، راجع ما يلي:

عن المؤلفين

كيف تستخدم Amazon Music SageMaker مع NVIDIA لتحسين التدريب على التعلم الآلي وأداء الاستدلال والتكلفة | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية. سيدارت شارما هو قائد تكنولوجيا التعلم الآلي في فريق العلوم والنمذجة في Amazon Music. وهو متخصص في مشاكل النمذجة المتعلقة بالبحث والاسترجاع والتصنيف والبرمجة اللغوية العصبية. يتمتع Siddharth بخلفية غنية في العمل على مشكلات التعلم الآلي واسعة النطاق والتي تكون حساسة لزمن الاستجابة، على سبيل المثال استهداف الإعلانات، واسترجاع الوسائط المتعددة، وفهم استعلام البحث وما إلى ذلك. قبل العمل في Amazon Music، كان Siddharth يعمل في شركات مثل Meta، وWalmart Labs، وRakuten حول مشاكل ML التي تتمحور حول التجارة الإلكترونية. قضى سيدارت جزءًا مبكرًا من حياته المهنية في العمل مع الشركات الناشئة في مجال تكنولوجيا الإعلان في منطقة الخليج.

كيف تستخدم Amazon Music SageMaker مع NVIDIA لتحسين التدريب على التعلم الآلي وأداء الاستدلال والتكلفة | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية. تارون شارما هو مدير تطوير البرمجيات الذي يقود صلة البحث عن الموسيقى في Amazon. يتولى فريقه من العلماء ومهندسي تعلم الآلة مسؤولية توفير نتائج بحث مخصصة وذات صلة بالسياق لعملاء Amazon Music.

كيف تستخدم Amazon Music SageMaker مع NVIDIA لتحسين التدريب على التعلم الآلي وأداء الاستدلال والتكلفة | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية. جيمس بارك مهندس حلول في Amazon Web Services. يعمل مع Amazon.com لتصميم وبناء ونشر الحلول التقنية على AWS ، ولديه اهتمام خاص بالذكاء الاصطناعي والتعلم الآلي. في h هو وقت فراغ ، يستمتع بالبحث عن ثقافات جديدة وخبرات جديدة ومواكبة أحدث اتجاهات التكنولوجيا. لينكدين:.

كشيتيز جوبتا مهندس حلول في NVIDIA. إنه يستمتع بتثقيف عملاء السحابة حول تقنيات GPU AI التي يجب أن تقدمها NVIDIA ومساعدتهم في تسريع التعلم الآلي وتطبيقات التعلم العميق. خارج العمل ، يستمتع بالركض والمشي لمسافات طويلة ومشاهدة الحياة البرية.

جياهونغ ليو هو مهندس حلول في فريق مزود الخدمة السحابية في NVIDIA. يساعد العملاء في تبني حلول التعلم الآلي والذكاء الاصطناعي التي تستفيد من حوسبة NVIDIA المتسارعة لمواجهة تحديات التدريب والاستدلال. في أوقات فراغه ، يستمتع بالأوريغامي ومشاريع DIY ولعب كرة السلة.

كيف تستخدم Amazon Music SageMaker مع NVIDIA لتحسين التدريب على التعلم الآلي وأداء الاستدلال والتكلفة | أمازون ويب سيرفيسز PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية. توغرول كونوك هو مهندس حلول أول في NVIDIA، وهو متخصص في التدريب واسع النطاق، والتعلم العميق متعدد الوسائط، والحوسبة العلمية عالية الأداء. قبل انضمامه إلى NVIDIA، كان يعمل في صناعة الطاقة، مع التركيز على تطوير خوارزميات التصوير الحسابي. وكجزء من درجة الدكتوراه، عمل على التعلم العميق القائم على الفيزياء لعمليات المحاكاة الرقمية على نطاق واسع. يستمتع في أوقات فراغه بالقراءة والعزف على الجيتار والبيانو.

إليوث تريانا إيزازا هو مدير علاقات المطورين في NVIDIA، حيث يقوم بتمكين AI MLOps وDevOps والعلماء والخبراء الفنيين في AWS من إتقان مجموعة حوسبة NVIDIA لتسريع وتحسين نماذج مؤسسة الذكاء الاصطناعي التوليدية التي تمتد من تنظيم البيانات وتدريب وحدة معالجة الرسومات واستدلال النماذج ونشر الإنتاج على مثيلات AWS GPU. . بالإضافة إلى ذلك، إليوث هو سائق دراجات جبلية شغوف، ومتزلج، ولاعب تنس وبوكر.

محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
المصدر https://aws.amazon.com/blogs/machine-learning/how-amazon-music-uses-sagemaker-with-nvidia-to-optimize-ml-training-and-inference-performance-and-cost/

الطابع الزمني: 21 نوفمبر، 2023

الطابع الزمني: مارس 1 ،2023

أعاد نشره أفلاطون

تقديم ضبط الشهرة للعناصر المتشابهة في Amazon إضفاء الطابع الشخصي | خدمات أمازون ويب

تعمل قواعد المعرفة في Amazon Bedrock الآن على تبسيط طرح الأسئلة في مستند واحد | خدمات الويب الأمازون

قلل استهلاك الطاقة لأعباء عمل التعلم الآلي لديك بنسبة تصل إلى 90٪ باستخدام مسرعات AWS المصممة لهذا الغرض | خدمات أمازون ويب

Amazon SageMaker مع TensorBoard: نظرة عامة على تجربة TensorBoard المستضافة

زيادة معاملات الاحتيال باستخدام البيانات التركيبية في Amazon SageMaker

قم بتحسين إدارة نماذج التعلم الآلي الخاصة بك باستخدام Amazon SageMaker

تبسيط التعلم المستمر لنماذج Amazon Comprehend المخصصة باستخدام Comprehend flywheel

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي