إعداد البيانات الموحدة ، والتدريب على النموذج ، والنشر مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot - الجزء 2 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

إعداد البيانات الموحدة ، والتدريب على النموذج ، والنشر مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot - الجزء 2

اعتمادًا على جودة البيانات وتعقيدها ، يقضي علماء البيانات ما بين 45-80 ٪ من وقتهم في مهام إعداد البيانات. هذا يعني أن إعداد البيانات وتنقيتها يستغرق وقتًا ثمينًا بعيدًا عن عمل علم البيانات الحقيقي. بعد أن يتم تدريب نموذج التعلم الآلي (ML) على البيانات المعدة وجاهزًا للنشر ، يجب على علماء البيانات في كثير من الأحيان إعادة كتابة تحويلات البيانات المستخدمة لإعداد البيانات لاستدلال تعلم الآلة. قد يؤدي هذا إلى إطالة الوقت المستغرق لنشر نموذج مفيد يمكنه الاستدلال على البيانات وتسجيلها من شكلها وشكلها الخام.

في الجزء الأول من هذه السلسلة ، أوضحنا كيف تُمكّن Data Wrangler ملف إعداد البيانات الموحدة والتدريب النموذجي تجربة مع Amazon SageMaker الطيار الآلي بنقرات قليلة. في هذا الجزء الثاني والأخير من هذه السلسلة ، نركز على ميزة تتضمن وإعادة استخدامها أمازون سيج ميكر داتا رانجلر التحولات ، مثل عوامل التضمين ذات القيمة المفقودة ، والمشفرات الترتيبية أو المشفرات الساخنة ، وأكثر من ذلك ، جنبًا إلى جنب مع نماذج الطيار الآلي لاستدلال ML. تتيح هذه الميزة المعالجة التلقائية للبيانات الأولية مع إعادة استخدام ميزة Data Wrangler للتحولات في وقت الاستدلال ، مما يقلل الوقت المطلوب لنشر نموذج مدرب للإنتاج.

حل نظرة عامة

تعمل Data Wrangler على تقليل وقت تجميع البيانات وإعدادها لـ ML من أسابيع إلى دقائق ، ويقوم الطيار الآلي تلقائيًا بإنشاء وتدريب وضبط أفضل نماذج ML استنادًا إلى بياناتك. مع الطيار الآلي ، لا تزال تحتفظ بالتحكم الكامل والرؤية الكاملة لبياناتك ونموذجك. تم تصميم كلتا الخدمتين خصيصًا لجعل ممارسي تعلم الآلة أكثر إنتاجية وتسريع الوقت لتحقيق القيمة.

يوضح الرسم البياني التالي بنية الحلول لدينا.

المتطلبات الأساسية المسبقة

نظرًا لأن هذا المنشور هو الثاني في سلسلة من جزأين ، فتأكد من قراءتك وتنفيذك بنجاح جزء 1 قبل المتابعة.

تصدير وتدريب النموذج

في الجزء الأول ، بعد إعداد البيانات لـ ML ، ناقشنا كيف يمكنك استخدام التجربة المتكاملة في Data Wrangler لتحليل مجموعات البيانات وبناء نماذج ML عالية الجودة بسهولة في الطيار الآلي.

هذه المرة ، نستخدم تكامل الطيار الآلي مرة أخرى لتدريب نموذج مقابل مجموعة بيانات التدريب نفسها ، ولكن بدلاً من إجراء الاستدلال المجمع ، نقوم بالاستدلال في الوقت الفعلي مقابل الأمازون SageMaker نقطة نهاية الاستدلال التي يتم إنشاؤها تلقائيًا لنا.

بالإضافة إلى الراحة التي يوفرها النشر التلقائي لنقطة النهاية ، نوضح كيف يمكنك أيضًا النشر مع جميع تحويلات ميزة Data Wrangler كخط أنابيب للاستدلال التسلسلي من SageMaker. يتيح ذلك المعالجة التلقائية للبيانات الأولية باستخدام تحويلات ميزة Data Wrangler في وقت الاستدلال.

لاحظ أن هذه الميزة مدعومة حاليًا فقط لتدفقات Data Wrangler التي لا تستخدم تحويلات ربط ، وتجميع حسب ، وسلسلة ، وتحويلات السلاسل الزمنية.

يمكننا استخدام تكامل Data Wrangler الجديد مع الطيار الآلي لتدريب نموذج مباشرةً من واجهة مستخدم تدفق بيانات Data Wrangler.

  1. اختر علامة الجمع الموجودة بجانب قيم المقياس عقدة واختيار نموذج القطار.
  2. في حالة موقع Amazon S3، حدد ال خدمة تخزين أمازون البسيطة (Amazon S3) الموقع الذي يُصدر فيه SageMaker بياناتك.
    إذا تم تقديم مسار حاوية الجذر افتراضيًا ، يقوم Data Wrangler بإنشاء دليل فرعي فريد للتصدير تحته - لن تحتاج إلى تعديل مسار الجذر الافتراضي هذا إلا إذا كنت ترغب في ذلك. يستخدم الطيار الآلي هذا الموقع لتدريب نموذج تلقائيًا ، مما يوفر لك الوقت المستغرق من الاضطرار إلى تحديد موقع الإخراج لتدفق Data Wrangler ثم تحديد موقع إدخال بيانات تدريب الطيار الآلي. هذا يجعل تجربة أكثر سلاسة.
  3. اختار تصدير وتدريب لتصدير البيانات المحولة إلى Amazon S3.
    إعداد البيانات الموحدة ، والتدريب على النموذج ، والنشر مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot - الجزء 2 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
    عند نجاح التصدير ، تتم إعادة توجيهك إلى ملف إنشاء تجربة الطيار الآلي الصفحة التي تحتوي على ادخال البيانات تم ملء موقع S3 بالفعل نيابة عنك (تم ملؤه من نتائج الصفحة السابقة).
  4. في حالة اسم التجربة، أدخل اسمًا (أو احتفظ بالاسم الافتراضي).
  5. في حالة الهدف، اختر نتيجة كعمود تريد توقعه.
  6. اختار التالي: طريقة التدريب.
    إعداد البيانات الموحدة ، والتدريب على النموذج ، والنشر مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot - الجزء 2 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

كما هو مفصل في المنشور إن Amazon SageMaker Autopilot أسرع بما يصل إلى ثماني مرات مع وضع تدريب المجموعة الجديد المدعوم من AutoGluon، يمكنك إما السماح للطيار الآلي بتحديد وضع التدريب تلقائيًا بناءً على حجم مجموعة البيانات ، أو تحديد وضع التدريب يدويًا إما لتحسين التجميع أو تحسين المعلمة الفائقة (HPO).

تفاصيل كل خيار كالتالي:

  • السيارات - يختار الطيار الآلي تلقائيًا إما وضع التجميع أو HPO بناءً على حجم مجموعة البيانات الخاصة بك. إذا كانت مجموعة البيانات الخاصة بك أكبر من 100 ميغا بايت ، فإن الطيار الآلي يختار HPO ؛ وإلا فإنه يختار التجميع.
  • تجميع - يستخدم الطيار الآلي ملف AutoGluon تقنية التجميع لتدريب العديد من النماذج الأساسية والجمع بين تنبؤاتها باستخدام تكديس النموذج في نموذج تنبؤي مثالي.
  • تحسين Hyperparameter - يجد الطيار الآلي أفضل إصدار من النموذج عن طريق ضبط المعلمات الفائقة باستخدام تقنية التحسين Bayesian وتشغيل وظائف التدريب على مجموعة البيانات الخاصة بك. يختار HPO الخوارزميات الأكثر صلة بمجموعة البيانات الخاصة بك ويختار أفضل نطاق من المعلمات الفائقة لضبط النماذج. على سبيل المثال ، نترك التحديد الافتراضي لـ السيارات.
  1. اختار التالي: النشر والإعدادات المتقدمة للمتابعة.
    إعداد البيانات الموحدة ، والتدريب على النموذج ، والنشر مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot - الجزء 2 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  2. على النشر والإعدادات المتقدمة الصفحة ، حدد خيار النشر.
    من المهم فهم خيارات النشر بمزيد من التفصيل ؛ ما نختاره سيؤثر على ما إذا كانت التحولات التي أجريناها سابقًا في Data Wrangler سيتم تضمينها في خط أنابيب الاستدلال أم لا:
    • النشر التلقائي لأفضل نموذج مع تحويلات من Data Wrangler - باستخدام خيار النشر هذا ، عندما تقوم بإعداد البيانات في Data Wrangler وتدريب نموذج عن طريق استدعاء الطيار الآلي ، يتم نشر النموذج المدرب جنبًا إلى جنب مع جميع تحويلات ميزة Data Wrangler باعتبارها خط أنابيب الاستدلال التسلسلي SageMaker. يتيح ذلك المعالجة التلقائية للبيانات الأولية باستخدام تحويلات ميزة Data Wrangler في وقت الاستدلال. لاحظ أن نقطة نهاية الاستدلال تتوقع أن يكون تنسيق بياناتك بنفس التنسيق كما هو الحال عند استيرادها إلى تدفق Data Wrangler.
    • النشر التلقائي لأفضل نموذج بدون تحويلات من Data Wrangler - ينشر هذا الخيار نقطة نهاية في الوقت الفعلي لا تستخدم تحويلات Data Wrangler. في هذه الحالة ، تحتاج إلى تطبيق التحويلات المحددة في تدفق بيانات Wrangler على بياناتك قبل الاستدلال.
    • لا تقم بنشر أفضل نموذج تلقائيًا - يجب عليك استخدام هذا الخيار عندما لا تريد إنشاء نقطة نهاية للاستدلال على الإطلاق. إنه مفيد إذا كنت تريد إنشاء أفضل نموذج لاستخدامه لاحقًا ، مثل تشغيل الاستدلال المجمع محليًا. (هذا هو خيار النشر الذي حددناه في الجزء 1 من السلسلة.) لاحظ أنه عند تحديد هذا الخيار ، فإن النموذج الذي تم إنشاؤه (من أفضل مرشح للطيار الآلي عبر SageMaker SDK) يتضمن ميزة Data Wrangler التي تتحول كخط أنابيب استدلال تسلسلي لـ SageMaker.

    لهذا المنصب ، نستخدم النشر التلقائي لأفضل نموذج مع تحويلات من Data Wrangler الخيار.

  3. في حالة خيار النشر، حدد النشر التلقائي لأفضل نموذج مع تحويلات من Data Wrangler.
  4. اترك الإعدادات الأخرى كإعدادات افتراضية.
  5. اختار التالي: مراجعة وإنشاء للمتابعة.
    على مراجعة وإنشاء الصفحة ، نرى ملخصًا للإعدادات المختارة لتجربة الطيار الآلي.
  6. اختار إنشاء تجربة لبدء عملية إنشاء النموذج.
    إعداد البيانات الموحدة ، والتدريب على النموذج ، والنشر مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot - الجزء 2 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

تتم إعادة توجيهك إلى صفحة الوصف الوظيفي للطيار الآلي. تظهر النماذج على الموديلات علامة التبويب كما تم إنشاؤها. لتأكيد اكتمال العملية ، انتقل إلى نبذه عن الوظيفه علامة التبويب وابحث عن ملف Completed قيمة الحالة الميدان.

يمكنك العودة إلى صفحة وصف وظيفة الطيار الآلي في أي وقت من أمازون ساجميكر ستوديو:

  1. اختار التجارب والمحاكمات على موارد SageMaker القائمة المنسدلة.
  2. حدد اسم مهمة الطيار الآلي التي قمت بإنشائها.
  3. اختر (انقر بزر الماوس الأيمن) التجربة واختر وصف وظيفة AutoML.

عرض التدريب والنشر

عندما يكمل الطيار الآلي التجربة ، يمكننا عرض نتائج التدريب واستكشاف أفضل نموذج من صفحة الوصف الوظيفي للطيار الآلي.

اختر (انقر بزر الماوس الأيمن) النموذج المسمى أفضل نموذج، و اختار فتح في تفاصيل النموذج.

إعداد البيانات الموحدة ، والتدريب على النموذج ، والنشر مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot - الجزء 2 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

الأداء تعرض علامة التبويب العديد من اختبارات قياس النموذج ، بما في ذلك مصفوفة الارتباك ، والمنطقة الواقعة أسفل منحنى الدقة / الاسترجاع (AUCPR) ، والمنطقة الواقعة أسفل منحنى خاصية تشغيل المستقبل (ROC). يوضح هذا الأداء العام للتحقق من صحة النموذج ، لكنه لا يخبرنا ما إذا كان النموذج سيعمم بشكل جيد. ما زلنا بحاجة إلى إجراء تقييمات على بيانات الاختبار غير المرئية لمعرفة مدى دقة النموذج في التنبؤ (على سبيل المثال ، نتوقع ما إذا كان الفرد مصابًا بمرض السكري).

نفذ الاستدلال مقابل نقطة النهاية في الوقت الفعلي

قم بإنشاء دفتر ملاحظات SageMaker جديد لإجراء الاستدلال في الوقت الفعلي لتقييم أداء النموذج. أدخل الرمز التالي في دفتر ملاحظات لتشغيل الاستدلال في الوقت الفعلي للتحقق من الصحة:

import boto3

### Define required boto3 clients

sm_client = boto3.client(service_name="sagemaker")
runtime_sm_client = boto3.client(service_name="sagemaker-runtime")

### Define endpoint name

endpoint_name = ""

### Define input data

payload_str = '5,166.0,72.0,19.0,175.0,25.8,0.587,51'
payload = payload_str.encode()
response = runtime_sm_client.invoke_endpoint(
    EndpointName=endpoint_name,
    ContentType="text/csv",
    Body=payload,
)

response["Body"].read()

بعد إعداد الكود للتشغيل في دفتر ملاحظاتك ، تحتاج إلى تكوين متغيرين:

  • endpoint_name
  • payload_str

تكوين endpoint_name

endpoint_name يمثل اسم نقطة نهاية الاستدلال في الوقت الفعلي التي تم إنشاؤها تلقائيًا للنشر. قبل أن نضعه ، نحتاج إلى إيجاد اسمه.

  1. اختار النهاية على موارد SageMaker القائمة المنسدلة.
  2. حدد موقع اسم نقطة النهاية التي لها اسم مهمة الطيار الآلي التي أنشأتها بسلسلة عشوائية ملحقة بها.
  3. اختر (انقر بزر الماوس الأيمن) التجربة واختر وصف نقطة النهاية.
    إعداد البيانات الموحدة ، والتدريب على النموذج ، والنشر مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot - الجزء 2 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
    تفاصيل نقطة النهاية تظهر الصفحة.
  4. قم بتمييز اسم نقطة النهاية بالكامل ، واضغط على CTRL + C لنسخه في الحافظة.
    إعداد البيانات الموحدة ، والتدريب على النموذج ، والنشر مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot - الجزء 2 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  5. أدخل هذه القيمة (تأكد من اقتباسها) لـ endpoint_name في دفتر الاستدلال.
    إعداد البيانات الموحدة ، والتدريب على النموذج ، والنشر مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot - الجزء 2 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

قم بتكوين payload_str

يأتي الكمبيوتر الدفتري مع سلسلة حمولة افتراضية payload_str التي يمكنك استخدامها لاختبار نقطة النهاية الخاصة بك ، ولكن لا تتردد في تجربة قيم مختلفة ، مثل تلك الموجودة في مجموعة بيانات الاختبار الخاصة بك.

لسحب القيم من مجموعة بيانات الاختبار ، اتبع التعليمات الواردة في جزء 1 لتصدير مجموعة بيانات الاختبار إلى Amazon S3. ثم على وحدة تحكم Amazon S3 ، يمكنك تنزيله وتحديد الصفوف لاستخدام الملف من Amazon S3.

يحتوي كل صف في مجموعة بيانات الاختبار على تسعة أعمدة ، ويكون العمود الأخير هو outcome القيمة. بالنسبة إلى رمز الكمبيوتر الدفتري هذا ، تأكد من استخدام صف بيانات واحد فقط (لا تستخدم رأس ملف CSV مطلقًا) لـ payload_str. تأكد أيضًا من إرسال ملف payload_str بثمانية أعمدة ، حيث أزلت قيمة النتيجة.

على سبيل المثال ، إذا كانت ملفات مجموعة بيانات الاختبار الخاصة بك تشبه الكود التالي ، ونريد إجراء الاستدلال في الوقت الفعلي للصف الأول:

Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome 
10,115,0,0,0,35.3,0.134,29,0 
10,168,74,0,0,38.0,0.537,34,1 
1,103,30,38,83,43.3,0.183,33,0

وضعنا payload_str إلى 10,115,0,0,0,35.3,0.134,29. لاحظ كيف حذفنا ملف outcome قيمة 0 في نهايةالمطاف.

إذا لم تكن القيمة المستهدفة لمجموعة البيانات الخاصة بك عن طريق الصدفة هي القيمة الأولى أو الأخيرة ، فما عليك سوى إزالة القيمة مع بقاء بنية الفاصلة سليمة. على سبيل المثال ، لنفترض أننا نتوقع شريطًا ، وأن مجموعة البيانات الخاصة بنا تبدو مثل الكود التالي:

foo,bar,foobar
85,17,20

في هذه الحالة ، وضعنا payload_str إلى 85,,20.

عندما يتم تشغيل الكمبيوتر الدفتري مع ملف payload_str و endpoint_name القيم ، تحصل على استجابة CSV مرة أخرى بتنسيق outcome (0 أو 1) ، confidence (0-1).

تنظيف

للتأكد من أنك لا تتحمل رسومًا متعلقة بالبرنامج التعليمي بعد إكمال هذا البرنامج التعليمي ، تأكد من إيقاف تشغيل تطبيق Data Wrangler (https://docs.aws.amazon.com/sagemaker/latest/dg/data-wrangler-shut-down.html) ، بالإضافة إلى جميع مثيلات دفتر الملاحظات المستخدمة لأداء مهام الاستدلال. يجب حذف نقاط نهاية الاستدلال التي تم إنشاؤها عبر النشر التلقائي التجريبي لمنع الرسوم الإضافية أيضًا.

وفي الختام

في هذا المنشور ، أوضحنا كيفية دمج معالجة البيانات الخاصة بك ، والتي تتميز بالهندسة ، وبناء النماذج باستخدام Data Wrangler و Autopilot. بناءً على الجزء 1 من السلسلة ، سلطنا الضوء على كيفية تدريب نموذج وضبطه ونشره بسهولة إلى نقطة نهاية للاستدلال في الوقت الفعلي باستخدام الطيار الآلي مباشرةً من واجهة مستخدم Data Wrangler. بالإضافة إلى الراحة التي يوفرها النشر التلقائي لنقطة النهاية ، أوضحنا كيف يمكنك أيضًا النشر مع جميع تحويلات ميزة Data Wrangler كخط أنابيب استدلال تسلسلي من SageMaker ، مما يوفر معالجة تلقائية للبيانات الأولية ، مع إعادة استخدام ميزة Data Wrangler للتحولات في وقت الاستدلال.

تزيل حلول الأكواد المنخفضة و AutoML مثل Data Wrangler و Autopilot الحاجة إلى معرفة عميقة بالشفرات لبناء نماذج ML قوية. ابدأ باستخدام Data Wrangler اليوم لتجربة مدى سهولة بناء نماذج ML باستخدام الطيار الآلي.


عن المؤلفين

إعداد البيانات الموحدة ، والتدريب على النموذج ، والنشر مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot - الجزء 2 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.جيريمي كوهين هو مهندس حلول مع AWS حيث يساعد العملاء على بناء حلول متطورة قائمة على السحابة. في أوقات فراغه ، يستمتع بالمشي لمسافات قصيرة على الشاطئ ، واستكشاف منطقة الخليج مع عائلته ، وإصلاح الأشياء حول المنزل ، وكسر الأشياء حول المنزل ، والشواء.

إعداد البيانات الموحدة ، والتدريب على النموذج ، والنشر مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot - الجزء 2 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.براديب ريدي هو مدير أول للمنتجات في فريق SageMaker Low / No Code ML ، والذي يتضمن SageMaker Autopilot و SageMaker Automatic Model Tuner. خارج العمل ، يستمتع براديب بالقراءة والجري والتجول باستخدام أجهزة كمبيوتر بحجم راحة اليد مثل Raspberry Pi وتقنيات التشغيل الآلي للمنزل الأخرى.

إعداد البيانات الموحدة ، والتدريب على النموذج ، والنشر مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot - الجزء 2 PlatoBlockchain Data Intelligence. البحث العمودي. عاي.دكتور جون هي هو كبير مهندسي تطوير البرمجيات في Amazon AI ، حيث يركز على التعلم الآلي والحوسبة الموزعة. وهو حاصل على درجة الدكتوراه من جامعة كارنيجي ميلون.

الطابع الزمني:

اكثر من التعلم الآلي من AWS