أدت التطورات الأخيرة في التعلم الآلي (ML) إلى نماذج كبيرة بشكل متزايد، وبعضها يتطلب مئات المليارات من المعلمات. وعلى الرغم من أنها أكثر قوة، إلا أن التدريب والاستدلال على هذه النماذج يتطلب موارد حسابية كبيرة. على الرغم من توفر مكتبات التدريب الموزعة المتقدمة، فمن الشائع أن تحتاج وظائف التدريب والاستدلال إلى مئات من المسرعات (وحدات معالجة الرسومات أو شرائح تعلم الآلة المصممة لهذا الغرض مثل تدريب AWS و استدلال AWS)، وبالتالي عشرات أو مئات الحالات.
في مثل هذه البيئات الموزعة، تصبح إمكانية ملاحظة كل من المثيلات ورقائق تعلم الآلة أمرًا أساسيًا لضبط أداء النموذج وتحسين التكلفة. تسمح المقاييس للفرق بفهم سلوك عبء العمل وتحسين تخصيص الموارد واستخدامها وتشخيص الحالات الشاذة وزيادة كفاءة البنية التحتية بشكل عام. بالنسبة لعلماء البيانات، يعد استخدام شرائح التعلم الآلي وتشبعها أمرًا مهمًا أيضًا لتخطيط القدرات.
يرشدك هذا المنشور عبر نمط إمكانية الملاحظة مفتوح المصدر لـ AWS Inferentia، والذي يوضح لك كيفية مراقبة أداء شرائح ML المستخدمة في خدمة أمازون مطاطا Kubernetes (Amazon EKS)، مع عقد مستوى البيانات بناءً على الأمازون الحوسبة المرنة السحابية (Amazon EC2) مثيلات النوع INF1 و INF2.
النمط هو جزء من AWS CDK مسرع قابلية المراقبة، مجموعة من الوحدات النمطية التي تم تحديدها لمساعدتك في تعيين إمكانية المراقبة لمجموعات Amazon EKS. يتم تنظيم AWS CDK Observability Accelerator حول الأنماط، وهي وحدات قابلة لإعادة الاستخدام لنشر موارد متعددة. مجموعة إمكانية الملاحظة مفتوحة المصدر من أدوات إمكانية الملاحظة باستخدامها أمازون تديرها جرافانا لوحات المعلومات، أ AWS Distro لـ OpenTelemetry جامع لجمع المقاييس، و خدمة Amazon المُدارة لشركة Prometheus لتخزينها.
حل نظرة عامة
يوضح الرسم البياني التالي بنية الحل.
ينشر هذا الحل مجموعة Amazon EKS مع مجموعة عقدة تتضمن مثيلات Inf1.
نوع AMI لمجموعة العقدة هو AL2_x86_64_GPU
الذي يستخدم قامت Amazon EKS بتحسين نظام Amazon Linux AMI المتسارع. بالإضافة إلى تكوين AMI القياسي المحسّن لـ Amazon EKS، يتضمن AMI المتسارع وقت تشغيل نيورونكس.
للوصول إلى شرائح ML من Kubernetes، ينشر النمط ملف AWS نيورون البرنامج المساعد للجهاز.
يتم عرض المقاييس على خدمة Amazon Managed Service لـ Prometheus بواسطة neuron-monitor
DaemonSet، الذي ينشر الحد الأدنى من الحاويات، مع أدوات الخلايا العصبية المثبتة. على وجه التحديد، neuron-monitor
يقوم DaemonSet بتشغيل neuron-monitor
الأمر عبر الأنابيب في neuron-monitor-prometheus.py
البرنامج النصي المصاحب (كلا الأمرين جزء من الحاوية):
يستخدم الأمر المكونات التالية:
neuron-monitor
يجمع المقاييس والإحصائيات من تطبيقات Neuron التي تعمل على النظام ويقوم بتدفق البيانات المجمعة إلى stdout تنسيق JSONneuron-monitor-prometheus.py
يقوم بتعيين وكشف بيانات القياس عن بعد من تنسيق JSON إلى تنسيق متوافق مع Prometheus
يتم عرض البيانات في Amazon Managed Grafana من خلال لوحة المعلومات المقابلة.
يشبه باقي الإعداد لجمع المقاييس وتصورها باستخدام Amazon Managed Service لـ Prometheus وAmazon Managed Grafana تلك المستخدمة في الأنماط الأخرى القائمة على المصدر المفتوح، والتي تم تضمينها في AWS Observability Accelerator for CDK
مستودع جيثب.
المتطلبات الأساسية المسبقة
تحتاج إلى ما يلي لإكمال الخطوات الواردة في هذه المشاركة:
هيئ البيئة
أكمل الخطوات التالية لإعداد بيئتك:
- افتح نافذة طرفية وقم بتشغيل الأوامر التالية:
- استرجع معرفات مساحة العمل لأي مساحة عمل موجودة في Amazon Managed Grafana:
وفيما يلي إخراج عينة لدينا:
- تعيين قيم
id
وendpoint
لمتغيرات البيئة التالية:
COA_AMG_ENDPOINT_URL
يحتاج إلى تضمين https://
.
- قم بإنشاء مفتاح Grafana API من مساحة عمل Amazon Managed Grafana:
- إعداد سر في مدير أنظمة AWS:
سيتم الوصول إلى السر من خلال الوظيفة الإضافية للأسرار الخارجية وإتاحته باعتباره سرًا أصليًا لـ Kubernetes في مجموعة EKS.
قم بتشغيل بيئة AWS CDK
الخطوة الأولى لأي نشر لـ AWS CDK هي تمهيد البيئة. أنت تستخدم cdk bootstrap
الأمر في AWS CDK CLI لإعداد البيئة (مجموعة من حساب AWS ومنطقة AWS) بالموارد المطلوبة بواسطة AWS CDK لتنفيذ عمليات النشر في تلك البيئة. يلزم تمهيد AWS CDK لكل حساب ومجموعة منطقة، لذلك إذا قمت بالفعل بتمهيد AWS CDK في منطقة ما، فلن تحتاج إلى تكرار عملية التمهيد.
انشر الحل
أكمل الخطوات التالية لنشر الحل:
- استنساخ cdk-aws-observability-accelerator مستودع وتثبيت حزم التبعية. يحتوي هذا المستودع على كود AWS CDK v2 المكتوب بلغة TypeScript.
من المتوقع أن يتم تحديد الإعدادات الفعلية لملفات JSON للوحة معلومات Grafana في سياق AWS CDK. تحتاج إلى التحديث context
في ال cdk.json
الملف الموجود في الدليل الحالي. يتم تحديد موقع لوحة القيادة بواسطة fluxRepository.values.GRAFANA_NEURON_DASH_URL
المعلمة و neuronNodeGroup
يتم استخدامه لتعيين نوع المثيل ورقمه و متجر أمازون مطاط بلوك حجم (Amazon EBS) المستخدم للعقد.
- أدخل المقتطف التالي في
cdk.json
، لتحل محلcontext
:
يمكنك استبدال نوع مثيل Inf1 بـ Inf2 وتغيير الحجم حسب الحاجة. للتحقق من التوفر في منطقتك المحددة، قم بتشغيل الأمر التالي (تعديل Values
الذي تراه مناسبا):
- تثبيت تبعيات المشروع:
- قم بتشغيل الأوامر التالية لنشر نمط إمكانية المراقبة مفتوح المصدر:
تحقق من صحة الحل
أكمل الخطوات التالية للتحقق من صحة الحل:
- تشغيل
update-kubeconfig
يأمر. يجب أن تكون قادرًا على الحصول على الأمر من رسالة الإخراج للأمر السابق:
- التحقق من الموارد التي قمت بإنشائها:
توضح لقطة الشاشة التالية مخرجات العينة الخاصة بنا.
- تأكد من أن
neuron-device-plugin-daemonset
يتم تشغيل DaemonSet:
وفيما يلي الناتج المتوقع لدينا:
- تأكد من أن
neuron-monitor
يتم تشغيل DaemonSet:
وفيما يلي الناتج المتوقع لدينا:
- للتحقق من أن أجهزة الخلايا العصبية والنوى مرئية، قم بتشغيل
neuron-ls
وneuron-top
أوامر من، على سبيل المثال، حجرة مراقبة الخلايا العصبية الخاصة بك (يمكنك الحصول على اسم الحجرة من إخراجkubectl get pods -A
):
توضح لقطة الشاشة التالية مخرجاتنا المتوقعة.
توضح لقطة الشاشة التالية مخرجاتنا المتوقعة.
تصور البيانات باستخدام لوحة معلومات Grafana Neuron
قم بتسجيل الدخول إلى مساحة عمل Amazon Managed Grafana الخاصة بك وانتقل إلى لوحات القيادة لوحة. يجب أن تشاهد لوحة القيادة المسماة الخلايا العصبية / مراقب.
لرؤية بعض المقاييس المثيرة للاهتمام على لوحة معلومات Grafana، نطبق البيان التالي:
هذا هو نموذج عبء العمل الذي يجمع ملف نموذج تورتشفيجن ResNet50 ويقوم بتشغيل الاستدلال المتكرر في حلقة لإنشاء بيانات القياس عن بعد.
للتحقق من نشر البود بنجاح، قم بتشغيل الكود التالي:
يجب أن تشاهد جراب اسمه pytorch-inference-resnet50
.
بعد بضع دقائق، نظرت إلى الخلايا العصبية / مراقب لوحة التحكم، يجب أن تشاهد المقاييس المجمعة المشابهة للقطات الشاشة التالية.
يعمل Grafana Operator وFlux معًا دائمًا لمزامنة لوحات المعلومات الخاصة بك مع Git. إذا قمت بحذف لوحات المعلومات الخاصة بك عن طريق الصدفة، فسيتم إعادة توفيرها تلقائيًا.
تنظيف
يمكنك حذف مكدس AWS CDK بالكامل باستخدام الأمر التالي:
وفي الختام
في هذا المنشور، أوضحنا لك كيفية تقديم إمكانية المراقبة، باستخدام أدوات مفتوحة المصدر، في مجموعة EKS التي تتميز بمستوى بيانات يقوم بتشغيل مثيلات EC2 Inf1. لقد بدأنا باختيار AMI المتسارع المُحسّن من Amazon EKS لعقد مستوى البيانات، والذي يتضمن وقت تشغيل حاوية Neuron، مما يوفر الوصول إلى أجهزة AWS Inferentia وTrainium Neuron. بعد ذلك، ولكشف نوى وأجهزة Neuron لـ Kubernetes، قمنا بنشر البرنامج الإضافي لجهاز Neuron. تم الجمع الفعلي ورسم خرائط لبيانات القياس عن بعد في تنسيق متوافق مع بروميثيوس عبر neuron-monitor
و neuron-monitor-prometheus.py
. تم الحصول على المقاييس من Amazon Managed Service لـ Prometheus وعرضها على لوحة معلومات Neuron في Amazon Managed Grafana.
نوصي باستكشاف أنماط إضافية لقابلية المراقبة في AWS Observability Accelerator لـ CDK جيثب الريبو. لمعرفة المزيد عن نيورون، راجع توثيق AWS Neuron.
عن المؤلف
ريكاردو فريشي هو مهندس الحلول الأول في AWS، ويركز على تحديث التطبيقات. إنه يعمل بشكل وثيق مع الشركاء والعملاء لمساعدتهم على تحويل مشهد تكنولوجيا المعلومات الخاص بهم في رحلتهم إلى سحابة AWS من خلال إعادة هيكلة التطبيقات الحالية وإنشاء تطبيقات جديدة.
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- PlatoData.Network Vertical Generative Ai. تمكين نفسك. الوصول هنا.
- أفلاطونايستريم. ذكاء Web3. تضخيم المعرفة. الوصول هنا.
- أفلاطون كربون، كلينتك ، الطاقة، بيئة، شمسي، إدارة المخلفات. الوصول هنا.
- أفلاطون هيلث. التكنولوجيا الحيوية وذكاء التجارب السريرية. الوصول هنا.
- المصدر https://aws.amazon.com/blogs/machine-learning/open-source-observability-for-aws-inferentia-nodes-within-amazon-eks-clusters/
- :يكون
- $ UP
- 09
- 1
- 100
- 15%
- 20
- 23
- 30
- 600
- 7
- 8
- 9
- 900
- a
- ماهرون
- حول المستشفى
- فوق
- معجل
- مسرع
- المعجلات
- الوصول
- الوصول
- حادث
- حسابي
- تحقق
- نشط
- يقدم
- اضافه
- إضافة
- إضافي
- مشرف
- متقدم
- السن
- توزيع
- السماح
- سابقا
- أيضا
- بالرغم ان
- دائما
- أمازون
- Amazon EC2
- أمازون تديرها جرافانا
- أمازون ويب سيرفيسز
- an
- و
- الشذوذ
- أي وقت
- API
- تطبيق
- التطبيقات
- التقديم
- هندسة معمارية
- هي
- حول
- AS
- At
- التحقّق من المُستخدم
- تلقائيا
- توفر
- متاح
- AWS
- استدلال AWS
- على أساس
- BE
- يصبح
- سلوك
- المليارات
- حظر
- التمهيد
- إلباس الحذاء
- على حد سواء
- نساعدك في بناء
- ابني
- by
- CAN
- يستطيع الحصول على
- الطاقة الإنتاجية
- CD
- تغيير
- التحقق
- شيبس
- المبادرة القطرية
- عن كثب
- سحابة
- كتلة
- الكود
- جمع
- مجموعة شتاء XNUMX
- جامع
- يجمع
- COM
- مجموعة
- أمر
- مشترك
- رفيق
- إكمال
- مكونات
- الحسابية
- إحصاء
- الاعداد
- وعاء
- يحتوي
- سياق الكلام
- المقابلة
- التكلفة
- خلق
- حالياًّ
- العملاء
- لوحة أجهزة القياس
- لوحات
- البيانات
- التبعيات
- التبعية
- نشر
- نشر
- نشر
- نشر
- نشر
- ينشر
- وصف
- مطلوب
- على الرغم من
- التطورات
- جهاز
- الأجهزة
- رسم بياني
- دليل
- عرض
- وزعت
- التدريب الموزع
- لا
- e
- كل
- كفاءة
- نقطة النهاية
- البيئة
- البيئات
- مثال
- القائمة
- متوقع
- اكتشف
- تصدير
- مكشوف
- خارجي
- ويتميز
- قليل
- قم بتقديم
- ملفات
- الاسم الأول
- تناسب
- تدفق
- التركيز
- متابعيك
- في حالة
- شكل
- تبدأ من
- جمعت
- توليد
- دولار فقط واحصل على خصم XNUMX% على جميع
- بوابة
- GitHub جيثب:
- وحدات معالجة الرسومات
- تجمع
- يملك
- he
- مساعدة
- كيفية
- كيفية
- HTML
- HTTP
- HTTPS
- مئات
- i
- ID
- IDS
- if
- يوضح
- in
- في أخرى
- تتضمن
- شامل
- يشمل
- بما فيه
- القيمة الاسمية
- على نحو متزايد
- البنية التحتية
- تثبيت
- تثبيت
- مثل
- الصكوك
- وكتابة مواضيع مثيرة للاهتمام
- إلى
- تقديم
- IT
- المشــاريــع
- رحلة
- جسون
- القفل
- المناظر الطبيعية
- كبير
- تعلم
- تعلم
- ليد
- المكتبات
- لينكس
- تقع
- موقع
- أبحث
- آلة
- آلة التعلم
- صنع
- الرئيسية
- جعل
- تمكن
- رسم الخرائط
- برنامج Maps
- الرسالة
- المقاييس
- أدنى
- دقيقة
- ML
- نموذج
- عارضات ازياء
- تحديث
- تم التعديل
- الوحدات
- مراقبة
- الأكثر من ذلك
- متعدد
- الاسم
- عين
- محلي
- التنقل
- حاجة
- بحاجة
- إحتياجات
- جديد
- العقدة
- العقد
- عدد
- of
- on
- منها
- جاكيت
- المصدر المفتوح
- عامل
- متعنت
- التحسين
- الأمثل
- الأمثل
- or
- منظم
- أخرى
- لنا
- الناتج
- الكلي
- حزم
- لوحة
- المعلمة
- المعلمات
- جزء
- شركاء
- مسار
- نمط
- أنماط
- نفذ
- أداء
- طائرة
- تخطيط
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- المساعد
- منشور
- قوي
- إعداد
- سابق
- عملية المعالجة
- تنفيذ المشاريع
- بروتوكول
- مقدمي
- توفير
- استعداد
- نوصي
- الرجوع
- منطقة
- ذات الصلة
- كرر
- تكرارية
- يحل محل
- مستودع
- تطلب
- مطلوب
- مورد
- الموارد
- REST
- قابلة لإعادة الاستخدام
- يجري
- تشغيل
- يدير
- وقت التشغيل
- عينة
- العلماء
- لقطات
- سيناريو
- سيكريت
- أسرار
- انظر تعريف
- مختار
- اختيار
- الخدمة
- خدماتنا
- طقم
- إعدادات
- الإعداد
- ينبغي
- أظهرت
- يظهر
- هام
- مماثل
- المقاس
- قصاصة
- So
- حل
- الحلول
- بعض
- مصدر
- المصدر
- على وجه التحديد
- محدد
- كومة
- معيار
- بدأت
- الإحصائيات
- الحالة
- خطوة
- خطوات
- متجر
- تيارات
- بنجاح
- هذه
- بالتأكيد
- نظام
- أنظمة
- فريق
- عشرات
- محطة
- نص
- أن
- •
- من مشاركة
- منهم
- then
- وبالتالي
- هم
- هؤلاء
- عبر
- إلى
- سويا
- قادة الإيمان
- تحول
- نوع
- نسخة مطبوعة على الآلة الكاتبة
- فهم
- الوحدات
- حديث جديد
- تحديث
- تستخدم
- مستعمل
- يستخدم
- استخدام
- التحقق من صحة
- القيم
- تحقق من
- بواسطة
- مرئي
- تصور
- يمشي
- وكان
- we
- الويب
- خدمات ويب
- كان
- التي
- كامل
- سوف
- نافذة
- مع
- في غضون
- بدون
- للعمل
- العمل معا
- أعمال
- مكتوب
- أنت
- حل متجر العقارات الشامل الخاص بك في جورجيا
- زفيرنت