كيف يدير Amazon Search مشاريع التعلم الآلي المرنة وواسعة النطاق باستخدام Amazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

كيف تدير Amazon Search مشاريع تعلم الآلة واسعة النطاق ومرنة باستخدام Amazon SageMaker

إذا كنت قد بحثت عن عنصر لشرائه على amazon.com ، فهذا يعني أنك استخدمت خدمات Amazon Search. في Amazon Search ، نحن مسؤولون عن تجربة البحث والاكتشاف لعملائنا في جميع أنحاء العالم. في الخلفية ، نقوم بفهرسة كتالوج المنتجات العالمي الخاص بنا ، ونشر أساطيل AWS القابلة للتطوير بدرجة كبيرة ، واستخدام التعلم الآلي المتقدم (ML) لمطابقة المنتجات ذات الصلة والمثيرة للاهتمام مع استعلام كل عميل.

يقوم علماؤنا بانتظام بتدريب الآلاف من نماذج ML لتحسين جودة نتائج البحث. يمثل دعم التجارب واسعة النطاق تحدياته الخاصة ، خاصة عندما يتعلق الأمر بتحسين إنتاجية العلماء الذين يقومون بتدريب نماذج ML هذه.

في هذا المنشور ، نشارك كيف أنشأنا نظام إدارة حوله الأمازون SageMaker وظائف تدريبية ، مما يسمح لعلمائنا بإطلاق آلاف التجارب ونسيانها وإخطارهم عند الحاجة. يمكنهم الآن التركيز على المهام عالية القيمة وحل أخطاء الخوارزمية ، مما يوفر 60٪ من وقتهم.

التحدي

في Amazon Search ، يحل علماؤنا مشاكل استرجاع المعلومات من خلال تجربة العديد من وظائف التدريب على نماذج ML وتشغيلها على SageMaker. لمواكبة ابتكارات فريقنا ، زاد تعقيد نماذجنا وعدد وظائف التدريب بمرور الوقت. تتيح لنا وظائف تدريب SageMaker تقليل الوقت والتكلفة لتدريب هذه النماذج وضبطها على نطاق واسع ، دون الحاجة إلى إدارة البنية التحتية.

مثل كل شيء في مشاريع ML على نطاق واسع ، يمكن أن تفشل وظائف التدريب بسبب مجموعة متنوعة من العوامل. يركز هذا المنشور على النقص في القدرات والفشل بسبب أخطاء الخوارزمية.

لقد صممنا بنية بنظام إدارة الوظائف لتحمل وتقليل احتمالية فشل الوظيفة بسبب عدم توفر السعة أو أخطاء الخوارزمية. يسمح للعلماء بإطلاق آلاف الوظائف التدريبية ونسيانها ، وإعادة المحاولة تلقائيًا عند فشل عابر ، والحصول على إشعار بالنجاح أو الفشل إذا لزم الأمر.

حل نظرة عامة

في مخطط الحل التالي ، نستخدم وظائف تدريب SageMaker كوحدة أساسية لحلنا. أي أن الوظيفة تمثل التدريب الشامل لنموذج ML.

سير العمل عالي المستوى لهذا الحل هو كما يلي:

  1. يستدعي العلماء API لتقديم وظيفة جديدة إلى النظام.
  2. الوظيفة مسجلة لدى New الحالة في مخزن البيانات الوصفية.
  3. يقوم برنامج جدولة العمل باسترداد البيانات بشكل غير متزامن New وظائف من متجر البيانات الوصفية ، ويحلل مدخلاتهم ، ويحاول إطلاق وظائف تدريب SageMaker لكل منها. يتغير وضعهم إلى Launched or Failed حسب النجاح.
  4. مراقب يتحقق من تقدم الوظائف على فترات منتظمة ، ويبلغ عن Completed, Failedالطرق أو InProgress الحالة في مخزن البيانات الوصفية.
  5. يتم تشغيل المخطر للإبلاغ Completed و Failed وظائف للعلماء.

كما يسمح استمرار سجل الوظائف في مخزن البيانات الوصفية لفريقنا بإجراء تحليل للاتجاهات ومراقبة تقدم المشروع.

يستخدم حل جدولة المهام هذا مكونات بلا خوادم مقترنة بشكل فضفاض بناءً على AWS لامدا, الأمازون DynamoDB, خدمة إعلام أمازون البسيطة (Amazon SNS) و أمازون إيفينت بريدج. وهذا يضمن قابلية التوسع الأفقي ، مما يسمح لعلمائنا بإطلاق آلاف الوظائف بأقل جهد ممكن في العمليات. يوضح الرسم البياني التالي بنية بدون خادم.

نظرة عامة على الهندسة المعمارية لحلنا

في الأقسام التالية ، نتطرق إلى مزيد من التفاصيل حول كل خدمة ومكوناتها.

DynamoDB كمخزن للبيانات الوصفية لتشغيل الوظائف

جعلت سهولة استخدام DynamoDB وقابليته للتوسع خيارًا طبيعيًا لاستمرار البيانات الوصفية للوظائف في جدول DynamoDB. يخزن هذا الحل العديد من سمات الوظائف المقدمة من العلماء ، وبالتالي المساعدة في تتبع التقدم وتنسيق سير العمل. أهم السمات هي كما يلي:

  • معرف الوظيفة - معرف وظيفي فريد. يمكن إنشاء هذا تلقائيًا أو توفيره من قبل العالم.
  • حالة الوظيفة - حالة الوظيفة.
  • JobArgs - الحجج الأخرى المطلوبة لإنشاء وظيفة تدريبية ، مثل مسار الإدخال في Amazon S3 ، و URI لصورة التدريب ، والمزيد. للحصول على قائمة كاملة بالمعلمات المطلوبة لإنشاء وظيفة تدريبية ، يرجى الرجوع إلى إنشاء وظيفة التدريب.

لامدا للمنطق الأساسي

نستخدم ثلاثة على أساس الحاوية وظائف Lambda لتنظيم سير العمل الوظيفي:

  • إرسال الوظيفة - يتم استدعاء هذه الوظيفة من قبل العلماء عندما يحتاجون إلى إطلاق وظائف جديدة. يعمل كواجهة برمجة تطبيقات للبساطة. يمكنك أيضًا مواجهتها بـ بوابة أمازون API، إذا لزم الأمر. تسجل هذه الوظيفة الوظائف في جدول DynamoDB.
  • إطلاق الوظائف - تسترجع هذه الوظيفة بشكل دوري New وظائف من جدول DynamoDB وتشغيلها باستخدام SageMaker إنشاء وظيفة التدريب يأمر. يعيد المحاولة في حالات الفشل المؤقتة ، مثل ResourceLimitExceeded و CapacityError، لأداة المرونة في النظام. ثم يقوم بتحديث حالة الوظيفة كـ Launched or Failed حسب النجاح.
  • وظائف المراقبة - تتعقب هذه الوظيفة بشكل دوري التقدم المحرز في العمل باستخدام وصفتدريب الوظيفة الأمر ، وتحديث جدول DynamoDB وفقًا لذلك. يستطلع Failed وظائف من البيانات الوصفية وتقييم ما إذا كان ينبغي إعادة تقديمها أو وضع علامة عليها على أنها فاشلة نهائيًا. كما تنشر رسائل إعلام للعلماء عندما تصل وظائفهم إلى حالة نهائية.

EventBridge للجدولة

نستخدم EventBridge لتشغيل وظائف Launch Jobs و Monitor Jobs Lambda وفقًا لجدول زمني. لمزيد من المعلومات ، يرجى الرجوع إلى البرنامج التعليمي: جدولة وظائف AWS Lambda باستخدام EventBridge.

بدلا من ذلك ، يمكنك استخدام تدفقات أمازون DynamoDB للمشغلات. لمزيد من المعلومات، راجع مشغلات DynamoDB Streams و AWS Lambda.

الإخطارات مع Amazon SNS

علماؤنا هم تم الإخطار عن طريق البريد الإلكتروني باستخدام Amazon SNS عندما تصل وظائفهم إلى حالة نهائية (Failed بعد الحد الأقصى لعدد المحاولات) ، Completedالطرق أو Stopped.

وفي الختام

في هذا المنشور ، شاركنا كيف يضيف Amazon Search المرونة إلى أعباء عمل تدريب نموذج ML من خلال جدولتها وإعادة تجربتها عند نقص السعة أو أخطاء الخوارزمية. استخدمنا وظائف Lambda جنبًا إلى جنب مع جدول DynamoDB كمخزن بيانات وصفية مركزي لتنظيم سير العمل بأكمله.

يسمح نظام الجدولة هذا للعلماء بتقديم وظائفهم ونسيانها. هذا يوفر الوقت ويسمح لهم بالتركيز على كتابة نماذج أفضل.

للمضي قدمًا في تعلمك ، يمكنك زيارة رائع SageMaker والعثور في مكان واحد على جميع الموارد ذات الصلة والمحدثة اللازمة للعمل مع SageMaker.


حول المؤلف

كيف يدير Amazon Search مشاريع التعلم الآلي المرنة وواسعة النطاق باستخدام Amazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.لوشاو وانغ هو مهندس برمجيات في Amazon Search. يركز على الأنظمة الموزعة القابلة للتطوير وأدوات التشغيل الآلي على السحابة لتسريع وتيرة الابتكار العلمي لتطبيقات التعلم الآلي.

كيف يدير Amazon Search مشاريع التعلم الآلي المرنة وواسعة النطاق باستخدام Amazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.ايشان بهات هو مهندس برمجيات في فريق Amazon Prime Video. يعمل بشكل أساسي في مساحة MLOps ولديه خبرة في بناء منتجات MLOps على مدار السنوات الأربع الماضية باستخدام Amazon SageMaker.

كيف يدير Amazon Search مشاريع التعلم الآلي المرنة وواسعة النطاق باستخدام Amazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.أبهيناندان باتني هو مهندس برمجيات أول في Amazon Search. يركز على بناء الأنظمة والأدوات للتدريب على التعلم العميق الموزع القابل للتطوير والاستدلال في الوقت الفعلي.

كيف يدير Amazon Search مشاريع التعلم الآلي المرنة وواسعة النطاق باستخدام Amazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.إيمان النهراوي هو مهندس برمجيات رئيسي في Amazon Search يقود الجهود في تسريع التعلم الآلي وتوسيع نطاقه وأتمته. تمتد خبرتها في مجالات متعددة ، بما في ذلك التعلم الآلي والأنظمة الموزعة والتخصيص.

كيف يدير Amazon Search مشاريع التعلم الآلي المرنة وواسعة النطاق باستخدام Amazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.سفيان حميتي هو مهندس حلول متخصص في الذكاء الاصطناعي / التعلم الآلي في AWS. إنه يساعد العملاء عبر الصناعات على تسريع رحلة الذكاء الاصطناعي / التعلم الآلي من خلال مساعدتهم على بناء حلول التعلم الآلي الشاملة وتشغيلها.

رومي داتاد. رومي داتا  هو مدير أول لإدارة المنتجات في فريق Amazon SageMaker مسؤول عن التدريب والمعالجة ومخزن الميزات. لقد عمل في AWS لأكثر من 4 سنوات ، وشغل العديد من الأدوار القيادية في إدارة المنتجات في SageMaker و S3 و IoT. قبل انضمامه إلى AWS ، عمل في العديد من أدوار إدارة المنتجات والهندسة والقيادة التشغيلية في IBM و Texas Instruments و Nvidia. حاصل على ماجستير ودكتوراه. في الهندسة الكهربائية وهندسة الكمبيوتر من جامعة تكساس في أوستن ، وماجستير في إدارة الأعمال من كلية بوث للأعمال بجامعة شيكاغو.

كيف يدير Amazon Search مشاريع التعلم الآلي المرنة وواسعة النطاق باستخدام Amazon SageMaker PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.RJ مهندس في فريق Search M5 يقود الجهود المبذولة لبناء أنظمة تعلم عميق واسعة النطاق للتدريب والاستدلال. خارج العمل يستكشف مطابخ مختلفة من الطعام ويمارس رياضة المضرب.

الطابع الزمني:

اكثر من التعلم الآلي من AWS