الأمازون SageMaker هي خدمة تعلم آلي مُدارة بالكامل (ML). باستخدام SageMaker ، يمكن لعلماء ومطوري البيانات إنشاء نماذج ML وتدريبها بسرعة وسهولة ، ثم نشرها مباشرةً في بيئة مستضافة جاهزة للإنتاج. يوفر Sagemaker نسخة مفكرة متكاملة من Jupyter لسهولة الوصول إلى مصادر البيانات الخاصة بك للاستكشاف والتحليل ، حتى لا تضطر إلى إدارة الخوادم. كما يوفر أيضًا خوارزميات ML الشائعة التي تم تحسينها للتشغيل بكفاءة ضد البيانات الكبيرة للغاية في بيئة موزعة.
يتطلب SageMaker أن تكون بيانات التدريب الخاصة بنموذج ML موجودة إما بتنسيق Amazon Simple Storage Service (Amazon S3) أو Amazon Elastic File System (Amazon EFS) أو Amazon FSx for Luster (لمزيد من المعلومات ، راجع الوصول إلى بيانات التدريب). من أجل تدريب نموذج باستخدام البيانات المخزنة خارج خدمات التخزين الثلاثة المدعومة ، يجب أولاً استيعاب البيانات في إحدى هذه الخدمات (عادةً Amazon S3). يتطلب هذا إنشاء خط أنابيب بيانات (باستخدام أدوات مثل أمازون سيج ميكر داتا رانجلر) لنقل البيانات إلى Amazon S3. ومع ذلك ، قد يخلق هذا النهج تحديًا لإدارة البيانات من حيث إدارة دورة حياة وسيط تخزين البيانات هذا ، وصياغة ضوابط الوصول ، وتدقيق البيانات ، وما إلى ذلك ، كل ذلك لغرض تنظيم بيانات التدريب طوال مدة وظيفة التدريب. في مثل هذه الحالات ، قد يكون من المستحسن أن تكون البيانات في متناول SageMaker في وسائط التخزين المؤقتة المرفقة بمثيلات التدريب المؤقتة بدون التخزين الوسيط للبيانات في Amazon S3.
يوضح هذا المنشور طريقة للقيام بذلك باستخدام ندفة الثلج كمصدر للبيانات وعن طريق تنزيل البيانات مباشرة من Snowflake إلى مثيل وظيفة SageMaker Training.
حل نظرة عامة
نستخدم مجموعة بيانات الإسكان في كاليفورنيا كمجموعة بيانات تدريبية لهذا المنشور وتدريب نموذج ML للتنبؤ بمتوسط قيمة المنزل لكل منطقة. نضيف هذه البيانات إلى Snowflake كجدول جديد. نقوم بإنشاء حاوية تدريب مخصصة تقوم بتنزيل البيانات مباشرة من جدول Snowflake إلى مثيل التدريب بدلاً من تنزيل البيانات أولاً في دلو S3. بعد تنزيل البيانات في مثيل التدريب ، ينفذ البرنامج النصي المخصص للتدريب مهام إعداد البيانات ثم يقوم بتدريب نموذج ML باستخدام XGBoost مقدر. كل رمز لهذا المنشور متاح في جيثب ريبو.
يمثل الشكل التالي البنية عالية المستوى للحل المقترح لاستخدام Snowflake كمصدر بيانات لتدريب نماذج ML باستخدام SageMaker.
خطوات سير العمل كالتالي:
- قم بإعداد دفتر ملاحظات SageMaker وملف إدارة الهوية والوصول AWS (IAM) مع الأذونات المناسبة للسماح لـ SageMaker بالوصول سجل الأمازون المرنة للحاويات (Amazon ECR) ومدير الأسرار وخدمات أخرى ضمن حساب AWS الخاص بك.
- قم بتخزين بيانات اعتماد حساب Snowflake الخاص بك في AWS Secrets Manager.
- استيعاب البيانات في جدول في حساب Snowflake الخاص بك.
- قم بإنشاء صورة حاوية مخصصة للتدريب على نموذج ML وادفعها إلى Amazon ECR.
- إطلاق وظيفة تدريب SageMaker لتدريب نموذج ML. يسترد مثيل التدريب بيانات اعتماد Snowflake من Secrets Manager ثم يستخدم بيانات الاعتماد هذه لتنزيل مجموعة البيانات من Snowflake مباشرةً. هذه هي الخطوة التي تلغي الحاجة إلى تنزيل البيانات أولاً في حاوية S3.
- يتم تخزين نموذج ML المدرب في دلو S3.
المتطلبات الأساسية المسبقة
لتنفيذ الحل المقدم في هذا المنشور ، يجب أن يكون لديك ملف حساب AWSأو المعلم حساب ندفة الثلج والألفة مع SageMaker.
قم بإعداد دور SageMaker Notebook و IAM
نستخدم AWS CloudFormation لإنشاء دفتر ملاحظات SageMaker يسمى aws-aiml-blogpost-sagemaker-snowflake-example
ودور IAM يسمى SageMakerSnowFlakeExample
. أختر قم بتشغيل Stack للمنطقة التي تريد نشر الموارد إليها.
تخزين بيانات اعتماد ندفة الثلج في مدير الأسرار
قم بتخزين بيانات اعتماد Snowflake الخاصة بك كسر في Secrets Manager. للحصول على إرشادات حول كيفية إنشاء سر ، ارجع إلى Create an AWS Secrets Manager secret
.
- اسم السر
snowflake_credentials
. هذا مطلوب لأن الكود بتنسيقsnowflake-load-dataset.ipynb
يتوقع أن يسمى السر ذلك. - أنشئ السر كزوج ذي قيمة مفتاح بمفتاحين:
- اسم المستخدم - اسم المستخدم الخاص بك ندفة الثلج.
- كلمه السر - كلمة المرور المرتبطة باسم مستخدم Snowflake الخاص بك.
استيعاب البيانات في جدول في حساب Snowflake الخاص بك
لاستيعاب البيانات ، أكمل الخطوات التالية:
- في وحدة تحكم SageMaker ، اختر دفاتر في جزء التنقل.
- حدد مثال دفتر الملاحظات aws-aiml-blogpost-sagemaker-snowflake- واختر افتح JupyterLab.
- اختار
snowflake-load-dataset.ipynb
لفتحه في JupyterLab. سوف يستوعب هذا الكمبيوتر الدفتري ملف مجموعة بيانات الإسكان في كاليفورنيا إلى طاولة ندفة الثلج. - في دفتر الملاحظات ، قم بتحرير محتويات الخلية التالية لاستبدال قيم العنصر النائب بالقيم التي تطابق حساب ندفة الثلج الخاص بك:
- في قائمة "تشغيل" ، اختر قم بتشغيل كافة الخلايا لتشغيل الكود في دفتر الملاحظات هذا. سيؤدي هذا إلى تنزيل مجموعة البيانات محليًا في دفتر الملاحظات ثم إدخالها في جدول Snowflake.
يستوعب مقتطف الشفرة التالي في دفتر الملاحظات مجموعة البيانات في Snowflake. انظر snowflake-load-dataset.ipynb
دفتر للكود الكامل.
- أغلق دفتر الملاحظات بعد تشغيل جميع الخلايا دون أي خطأ. البيانات الخاصة بك متاحة الآن في ندفة الثلج. تُظهر لقطة الشاشة التالية ملف
california_housing
الجدول الذي تم إنشاؤه في ندفة الثلج.
تشغيل sagemaker-snowflake-example.ipynb
مفكرة
ينشئ هذا الكمبيوتر الدفتري حاوية تدريب مخصصة مع اتصال Snowflake ، ويستخرج البيانات من Snowflake إلى التخزين المؤقت لمثيل التدريب دون وضعه في Amazon S3 ، ويقوم بإجراء تدريب على نموذج البيانات الموزعة (DDP) XGBoost على البيانات. تدريب DDP ليس مطلوبًا للتدريب النموذجي على مجموعة البيانات الصغيرة هذه ؛ تم تضمينه هنا للتوضيح لميزة SageMaker أخرى تم إصدارها مؤخرًا.
قم بإنشاء حاوية مخصصة للتدريب
نقوم الآن بإنشاء حاوية مخصصة لوظيفة تدريب نموذج ML. لاحظ أن الوصول إلى الجذر مطلوب لإنشاء حاوية Docker. تم نشر دفتر ملاحظات SageMaker هذا مع تمكين الوصول إلى الجذر. إذا كانت سياسات مؤسسة مؤسستك لا تسمح بالوصول إلى الجذر إلى موارد السحابة ، فقد ترغب في استخدام ملف Docker التالي ونصوص shell لإنشاء حاوية Docker في مكان آخر (على سبيل المثال ، الكمبيوتر المحمول) ثم دفعها إلى Amazon ECR. نستخدم الحاوية بناءً على صورة حاوية SageMaker XGBoost 246618743249.dkr.ecr.us-west-2.amazonaws.com/sagemaker-xgboost:1.5-1
بالإضافات التالية:
- • رابط ندفة الثلج للبايثون لتنزيل البيانات من جدول Snowflake إلى مثيل التدريب.
- برنامج نصي من Python للاتصال بـ Secrets Manager لاسترداد بيانات اعتماد Snowflake.
يضمن استخدام موصل Snowflake و Python النصي أن المستخدمين الذين يستخدمون صورة الحاوية هذه لتدريب نموذج ML لا يضطرون إلى كتابة هذا الرمز كجزء من البرنامج النصي التدريبي الخاص بهم ويمكنهم استخدام هذه الوظيفة المتوفرة بالفعل لهم.
ما يلي هو Dockerfile لحاوية التدريب:
تم إنشاء صورة الحاوية ودفعها إلى Amazon ECR. تستخدم هذه الصورة لتدريب نموذج ML.
تدريب نموذج ML باستخدام وظيفة تدريب SageMaker
بعد أن نجحنا في إنشاء صورة الحاوية ودفعها إلى Amazon ECR ، يمكننا البدء في استخدامها للتدريب على النموذج.
- نقوم بإنشاء مجموعة من نصوص Python لتنزيل البيانات من Snowflake باستخدام ملف رابط ندفة الثلج للبايثون، قم بإعداد البيانات ثم استخدم ملف
XGBoost Regressor
لتدريب نموذج ML. إنها خطوة تنزيل البيانات مباشرةً إلى مثيل التدريب الذي يتجنب الاضطرار إلى استخدام Amazon S3 كمخزن وسيط لبيانات التدريب. - نحن نسهل التدريب الموازي للبيانات الموزعة من خلال تنزيل كود التدريب لمجموعة فرعية عشوائية من البيانات بحيث تقوم كل حالة تدريب بتنزيل كمية متساوية من البيانات من Snowflake. على سبيل المثال ، إذا كانت هناك عقدتان للتدريب ، فإن كل عقدة تقوم بتنزيل عينة عشوائية من 50٪ من الصفوف في جدول Snowflake ، انظر التعليمات البرمجية التالية:
- ثم نوفر البرنامج النصي التدريبي لـ SageMaker SDK
Estimator
جنبًا إلى جنب مع دليل المصدر بحيث يمكن توفير جميع البرامج النصية التي نقوم بإنشائها في حاوية التدريب عند تشغيل مهمة التدريب باستخدامEstimator.fit
الأسلوب:لمزيد من المعلومات ، راجع قم بإعداد سيناريو تدريب Scikit-Learn.
- بعد اكتمال تدريب النموذج ، يتوفر النموذج المدرب كملف
model.tar.gz
ملف في دلو SageMaker الافتراضي للمنطقة:
يمكنك الآن نشر النموذج المدرب للحصول على استدلال على البيانات الجديدة! للحصول على تعليمات ، راجع قم بإنشاء نقطة النهاية الخاصة بك ونشر النموذج الخاص بك.
تنظيف
لتجنب تكبد رسوم في المستقبل ، احذف الموارد. يمكنك القيام بذلك عن طريق حذف قالب CloudFormation المستخدم لإنشاء دور IAM ودفتر ملاحظات SageMaker.
سيكون عليك حذف موارد Snowflake يدويًا من وحدة تحكم Snowflake.
وفي الختام
في هذا المنشور ، أوضحنا كيفية تنزيل البيانات المخزنة في جدول Snowflake إلى مثيل وظيفة SageMaker Training وتدريب نموذج XGBoost باستخدام حاوية تدريب مخصصة. يسمح لنا هذا النهج بدمج Snowflake كمصدر بيانات مباشرةً مع دفتر ملاحظات SageMaker دون الحاجة إلى تنظيم البيانات في Amazon S3.
نحن نشجعك على معرفة المزيد من خلال استكشاف الأمازون SageMaker Python SDK وبناء حل باستخدام نموذج التنفيذ المقدم في هذا المنشور ومجموعة بيانات ذات صلة بعملك. إذا كانت لديك أسئلة أو اقتراحات ، فاترك تعليقًا.
عن المؤلفين
اميت أرورا هو مهندس معماري متخصص في الذكاء الاصطناعي والتعلم الآلي في Amazon Web Services ، مما يساعد عملاء المؤسسات على استخدام خدمات التعلم الآلي المستندة إلى السحابة لتوسيع نطاق ابتكاراتهم بسرعة. وهو أيضًا محاضر مساعد في برنامج علوم وتحليلات بيانات MS في جامعة جورج تاون في واشنطن العاصمة
ديفيا موراليداران مهندس حلول في Amazon Web Services. إنها شغوفة بمساعدة عملاء المؤسسات على حل مشاكل العمل بالتكنولوجيا. حصلت على درجة الماجستير في علوم الكمبيوتر من معهد روتشستر للتكنولوجيا. خارج المكتب ، تقضي وقتها في الطهي والغناء وزراعة النباتات.
سيرجي إرمولين هو مهندس رئيسي لحلول AIML في AWS. في السابق ، كان مهندس حلول برمجية للتعلم العميق ، والتحليلات ، وتقنيات البيانات الضخمة في إنتل. من المخضرمين في وادي السيليكون ولديه شغف بالتعلم الآلي والذكاء الاصطناعي ، كان سيرجي مهتمًا بالشبكات العصبية منذ أيام ما قبل GPU ، عندما استخدمها للتنبؤ بسلوك الشيخوخة لبلورات الكوارتز والساعات الذرية السيزيوم في Hewlett-Packard. يحمل سيرجي MSEE وشهادة CS من ستانفورد ودرجة البكالوريوس في الفيزياء والهندسة الميكانيكية من جامعة ولاية كاليفورنيا ، ساكرامنتو. خارج العمل ، يستمتع سيرجي بصنع النبيذ والتزلج وركوب الدراجات والإبحار والغوص. سيرجي هو أيضًا طيار متطوع في ملاك الرحلة.
- محتوى مدعوم من تحسين محركات البحث وتوزيع العلاقات العامة. تضخيم اليوم.
- بلاتوبلوكشين. Web3 Metaverse Intelligence. تضخيم المعرفة. الوصول هنا.
- المصدر https://aws.amazon.com/blogs/machine-learning/use-snowflake-as-a-data-source-to-train-ml-models-with-amazon-sagemaker/
- :يكون
- $ UP
- 1
- 10
- 7
- 8
- a
- من نحن
- الوصول
- يمكن الوصول
- حسابي
- إضافات
- بعد
- ضد
- • التقدم في العمر.
- AI
- AIML
- خوارزميات
- الكل
- يسمح
- سابقا
- أمازون
- أمازون FSx
- الأمازون SageMaker
- أمازون ويب سيرفيسز
- كمية
- تحليل
- تحليلات
- و
- آخر
- نهج
- مناسب
- هندسة معمارية
- هي
- مصطنع
- الذكاء الاصطناعي
- AS
- أسوشيتد
- At
- التدقيق
- التأليف
- متاح
- AWS
- تكوين سحابة AWS
- قاعدة
- على أساس
- BE
- لان
- كبير
- البيانات الكبيرة
- نساعدك في بناء
- ابني
- بنيت
- الأعمال
- by
- كاليفورنيا
- تسمى
- CAN
- خلايا
- شهادة
- تحدى
- اسعارنا محددة من قبل وزارة العمل
- اختار
- سوائل التنظيف
- ساعات
- سحابة
- الكود
- عمود
- الأعمدة
- التعليق
- مشترك
- إكمال
- الكمبيوتر
- علوم الكمبيوتر
- التواصل
- صلة
- كنسولات
- وعاء
- يحتوي
- محتويات
- ضوابط
- خلق
- خلق
- يخلق
- خلق
- أوراق اعتماد
- على
- العملاء
- البيانات
- إدارة البيانات
- تحضير البيانات
- علم البيانات
- تخزين البيانات
- التاريخ والوقت
- أيام
- DDP
- اتخاذ القرار
- عميق
- التعلم العميق
- الترتيب
- الدرجة العلمية
- نشر
- نشر
- المطورين
- مباشرة
- وزعت
- منطقة
- عامل في حوض السفن
- لا
- بإمكانك تحميله
- التنزيلات
- كل
- بسهولة
- بكفاءة
- إما
- يقضي على
- في مكان آخر
- تمكين
- شجع
- نقطة النهاية
- الهندسة
- يضمن
- مشروع
- البيئة
- خطأ
- مثال
- تنفيذ
- موجود
- تتوقع
- استكشاف
- استكشاف
- مقتطفات
- جدا
- تسهيل
- عادل
- معرفة
- الميزات
- الشكل
- قم بتقديم
- نهائي
- الاسم الأول
- تناسب
- متابعيك
- متابعات
- في حالة
- تبدأ من
- بالإضافة إلى
- تماما
- وظيفة
- مستقبل
- دولار فقط واحصل على خصم XNUMX% على جميع
- الحصول على
- GitHub جيثب:
- الذهاب
- متزايد
- يملك
- وجود
- مساعدة
- هنا
- رفيع المستوى
- يحمل
- استضافت
- المضيفين
- منـزل
- إسكان
- كيفية
- كيفية
- لكن
- HTML
- HTTPS
- هوية
- صورة
- تنفيذ
- التنفيذ
- استيراد
- in
- تتضمن
- شامل
- مؤشر
- معلومات
- الابتكارات
- تثبيت
- مثل
- معهد
- تعليمات
- دمج
- المتكاملة
- إنتل
- رؤيتنا
- يستفد
- IT
- وظيفة
- مفاتيح
- كمبيوتر محمول
- كبير
- اسم العائلة
- تعلم
- تعلم
- يترك
- دورة حياة
- ln
- محليا
- آلة
- آلة التعلم
- إدارة
- تمكن
- إدارة
- مدير
- إدارة
- يدويا
- مطابقة
- ميكانيكي
- الوسائط
- متوسط
- القائمة
- طريقة
- ML
- نموذج
- عارضات ازياء
- الأكثر من ذلك
- خطوة
- MS
- الاسم
- قائمة الإختيارات
- حاجة
- إحتياجات
- الشبكات
- الشبكات العصبية
- جديد
- التالي
- العقدة
- العقد
- مفكرة
- عدد
- موضوع
- of
- Office
- on
- ONE
- جاكيت
- الأمثل
- طلب
- منظمة
- أخرى
- في الخارج
- صفقة
- الباندا
- خبز
- موازية
- جزء
- شغف
- عاطفي
- كلمة المرور
- ينفذ
- أذونات
- فيزياء
- طيار
- خط أنابيب
- النائب
- الشتلات
- أفلاطون
- الذكاء افلاطون البيانات
- أفلاطون داتا
- سياسات الخصوصية والبيع
- مأهول
- منشور
- تنبأ
- إعداد
- يقدم
- سابقا
- رئيسي
- مشاكل
- البرنامج
- المقترح
- تزود
- المقدمة
- ويوفر
- غرض
- دفع
- دفع
- بايثون
- الأسئلة المتكررة
- بسرعة
- عشوائية
- بسرعة
- بدلا
- عرض
- مؤخرا
- تسجيل
- يقلل
- منطقة
- صدر
- ذات الصلة
- يحل محل
- يمثل
- مطلوب
- يتطلب
- الموارد
- عائد أعلى
- النوع
- جذر
- صف
- يجري
- سكرامنتو
- sagemaker
- إبحار
- حفظ
- حجم
- علوم
- العلماء
- تعلم الحروف
- مخطوطات
- الإستراحة
- سيكريت
- خوادم
- الخدمة
- خدماتنا
- طقم
- الشكل
- قذيفة
- ينبغي
- يظهر
- هام
- السيليكون
- وادي السيليكون
- الاشارات
- منذ
- حالات
- صغير
- So
- تطبيقات الكمبيوتر
- حل
- الحلول
- حل
- مصدر
- مصادر
- الفضاء
- متخصص
- انطلاق
- بداية
- الولايه او المحافظه
- ملخص الحساب
- خطوة
- خطوات
- تخزين
- تخزين
- الشبكات الفرعية
- بنجاح
- هذه
- الدعم
- مدعومة
- نظام
- جدول
- المهام
- التكنولوجيا
- تكنولوجيا
- قالب
- سياسة الحجب وتقييد الوصول
- أن
- •
- المصدر
- من مشاركة
- منهم
- تشبه
- ثلاثة
- عبر
- الوقت
- إلى
- أدوات
- الإجمالي
- قطار
- متدرب
- قادة الإيمان
- القطارات
- عادة
- جامعة
- تحديث
- us
- تستخدم
- مستخدم
- المستخدمين
- Valley
- قيمنا
- القيم
- محارب قديم
- تطوع
- واشنطن
- طريق..
- الويب
- خدمات ويب
- التي
- من الذى
- سوف
- مع
- في غضون
- بدون
- للعمل
- اكتب
- XGBoost
- أنت
- حل متجر العقارات الشامل الخاص بك في جورجيا
- زفيرنت