إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot

البيانات تغذي التعلم الآلي (ML) ؛ جودة البيانات لها تأثير مباشر على جودة نماذج ML. لذلك ، يعد تحسين جودة البيانات واستخدام تقنيات هندسة الميزات الصحيحة أمرًا بالغ الأهمية لإنشاء نماذج ML دقيقة. غالبًا ما يتكرر ممارسو ML بشكل مضجر على هندسة الميزات واختيار الخوارزميات والجوانب الأخرى لـ ML بحثًا عن النماذج المثلى التي تعمم جيدًا على بيانات العالم الحقيقي وتقدم النتائج المرجوة. نظرًا لأن السرعة في ممارسة الأعمال مهمة بشكل غير متناسب ، فقد تؤدي هذه العملية الشاقة والمتكررة إلى تأخيرات في المشروع وضياع فرص العمل.

أمازون سيج ميكر داتا رانجلر يقلل الوقت اللازم لتجميع البيانات وإعدادها لـ ML من أسابيع إلى دقائق ، و Amazon SageMaker الطيار الآلي يقوم تلقائيًا بإنشاء وتدريب وضبط أفضل نماذج ML استنادًا إلى بياناتك. مع الطيار الآلي ، لا تزال تحتفظ بالتحكم الكامل والرؤية الكاملة لبياناتك ونموذجك. تم تصميم كلتا الخدمتين خصيصًا لجعل ممارسي تعلم الآلة أكثر إنتاجية وتسريع وقت تحقيق القيمة.

يوفر Data Wrangler الآن تجربة موحدة تمكنك من إعداد البيانات وتدريب نموذج ML بسلاسة في الطيار الآلي. باستخدام هذه الميزة التي تم إطلاقها حديثًا ، يمكنك الآن إعداد بياناتك في Data Wrangler وتشغيل تجارب الطيار الآلي بسهولة مباشرة من واجهة مستخدم Data Wrangler (UI). بنقرات قليلة فقط ، يمكنك إنشاء نماذج ML وتدريبها وضبطها تلقائيًا ، مما يسهل استخدام تقنيات هندسة الميزات الحديثة وتدريب نماذج ML عالية الجودة واكتساب رؤى من بياناتك بشكل أسرع.

في هذا المنشور ، نناقش كيف يمكنك استخدام هذه التجربة المتكاملة الجديدة في Data Wrangler لتحليل مجموعات البيانات وبناء نماذج ML عالية الجودة بسهولة في الطيار الآلي.

نظرة عامة على مجموعة البيانات

هنود بيما هم مجموعة من السكان الأصليين الذين يعيشون في المكسيك وأريزونا بالولايات المتحدة. دراسات تظهر الهنود البيما كمجموعة سكانية عالية الخطورة للإصابة بداء السكري. إن التنبؤ باحتمالية تعرض الفرد للخطر وقابليته للإصابة بمرض مزمن مثل مرض السكري هو مهمة مهمة في تحسين صحة ورفاهية هذه المجموعة الأقلية الممثلة تمثيلا ناقصا في كثير من الأحيان.

نستخدم مجموعة بيانات Pima Indian Diabetes العامة للتنبؤ بقابلية الفرد للإصابة بمرض السكري. نحن نركز على التكامل الجديد بين Data Wrangler و Autopilot لإعداد البيانات وإنشاء نموذج ML تلقائيًا دون كتابة سطر واحد من التعليمات البرمجية.

تحتوي مجموعة البيانات على معلومات حول إناث بيما الهنديات البالغات من العمر 21 عامًا أو أكثر وتتضمن العديد من المتغيرات الطبية (المستقلة) ومتغير هدف واحد (تابع) ، النتيجة. يصف الرسم البياني التالي الأعمدة في مجموعة البيانات الخاصة بنا.

عمود الاسم الوصف
الحمل عدد مرات الحمل
الجلوكوز تركيز الجلوكوز في البلازما في اختبار تحمل الجلوكوز الفموي خلال ساعتين
ضغط الدم ضغط الدم الانبساطي (ملم زئبق)
سماكة الجلد سمك ثنية الجلد ثلاثية الرؤوس (مم)
الأنسولين الأنسولين في الدم لمدة ساعتين (مو يو / مل)
مؤشر كتلة الجسم مؤشر كتلة الجسم (الوزن بالكيلو جرام / (الطول بالمتر) ^ 2)
مرض السكري وظيفة نسب مرض السكري
العمر العمر بالسنين
نتيجة المتغير الهدف

تحتوي مجموعة البيانات على 768 سجلاً ، مع 9 ميزات إجمالية. نقوم بتخزين مجموعة البيانات هذه بتنسيق دلو تخزين أمازون البسيط (Amazon S3) كملف CSV ثم قم باستيراد ملف CSV مباشرة إلى تدفق بيانات Wrangler من Amazon S3.

حل نظرة عامة

يلخص الرسم البياني التالي ما أنجزناه في هذا المنشور. [KT1]

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

يقوم علماء البيانات والأطباء وخبراء المجال الطبي الآخرون بتزويد بيانات المرضى بمعلومات عن مستويات الجلوكوز وضغط الدم ومؤشر كتلة الجسم والميزات الأخرى المستخدمة للتنبؤ باحتمالية الإصابة بمرض السكري. باستخدام مجموعة البيانات في Amazon S3 ، نقوم باستيراد مجموعة البيانات إلى Data Wrangler لإجراء تحليل البيانات الاستكشافية (EDA) ، وتوصيف البيانات ، وهندسة الميزات ، وتقسيم مجموعة البيانات إلى تدريب واختبار لبناء النماذج وتقييمها.

ثم نستخدم تكامل الميزة الجديدة للطيار الآلي لبناء نموذج سريعًا مباشرةً من واجهة Data Wrangler. نختار أفضل طراز للطيار الآلي بناءً على النموذج الحاصل على أعلى درجة F-beta. بعد أن يجد الطيار الآلي أفضل طراز ، نقوم بتشغيل ملف تحويل دفعة SageMaker تم تعيين وظيفة في الاختبار (الانتظار) مع المشغولات النموذجية لأفضل نموذج للتقييم.

يمكن للخبراء الطبيين تقديم بيانات جديدة إلى النموذج الذي تم التحقق من صحته للحصول على تنبؤ لمعرفة ما إذا كان من المحتمل أن يكون المريض مصابًا بمرض السكري. من خلال هذه الأفكار ، يمكن للخبراء الطبيين بدء العلاج مبكرًا لتحسين صحة ورفاهية الفئات الضعيفة من السكان. يمكن للخبراء الطبيين أيضًا شرح تنبؤ النموذج من خلال الرجوع إلى تفاصيل النموذج في الطيار الآلي لأن لديهم رؤية كاملة في إمكانية شرح النموذج وأدائه والتحف. هذه الرؤية بالإضافة إلى التحقق من صحة النموذج من مجموعة الاختبار تمنح الخبراء الطبيين ثقة أكبر في القدرة التنبؤية للنموذج.

نوجهك خلال الخطوات عالية المستوى التالية.

  1. قم باستيراد مجموعة البيانات من Amazon S3.
  2. أداء EDA وتنميط البيانات مع البيانات رانجلر.
  3. أداء هندسة الميزات للتعامل مع القيم المتطرفة والقيم المفقودة.
  4. تقسيم البيانات إلى مجموعات القطار والاختبار.
  5. تدريب وبناء نموذج مع الطيار الآلي.
  6. اختبر النموذج على عينة معلقة باستخدام دفتر SageMaker.
  7. تحليل التحقق من الصحة واختبار أداء المجموعة.

المتطلبات الأساسية المسبقة

أكمل الخطوات الأساسية التالية:

  1. قم بتحميل مجموعة البيانات إلى دلو S3 من اختيارك.
  2. تأكد من أن لديك الأذونات اللازمة. لمزيد من المعلومات ، يرجى الرجوع إلى ابدأ مع داتا رانجلر.
  3. قم بإعداد مجال SageMaker تم تكوينه لاستخدام Data Wrangler. للحصول على تعليمات ، راجع على متن الطائرة إلى Amazon SageMaker Domain.

قم باستيراد مجموعة البيانات الخاصة بك باستخدام Data Wrangler

يمكنك دمج تدفق بيانات رانجلر Data Wrangler في تدفقات عمل ML لتبسيط وتبسيط المعالجة المسبقة للبيانات وهندسة الميزات باستخدام القليل من الترميز أو بدونه. أكمل الخطوات التالية:

  1. إنشاء جديد تدفق البيانات رانجلر.

إذا كانت هذه هي المرة الأولى التي تفتح فيها Data Wrangler ، فقد تضطر إلى الانتظار بضع دقائق حتى تصبح جاهزة.

  1. اختر مجموعة البيانات المخزنة في Amazon S3 واستوردها إلى Data Wrangler.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

بعد استيراد مجموعة البيانات ، يجب أن ترى بدايات تدفق البيانات داخل واجهة مستخدم Data Wrangler. لديك الآن مخطط تدفق.

  1. اختر علامة الجمع الموجودة بجانب أنواع البيانات واختر تعديل لتأكيد أن Data Wrangler استنتج تلقائيًا أنواع البيانات الصحيحة لأعمدة البيانات الخاصة بك.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

إذا كانت أنواع البيانات غير صحيحة ، فيمكنك تعديلها بسهولة من خلال واجهة المستخدم. في حالة وجود عدة مصادر بيانات ، يمكنك ضمها أو ربطها ببعضها البعض.

يمكننا الآن إنشاء تحليل وإضافة التحولات.

قم بإجراء تحليل استكشافي للبيانات باستخدام تقرير رؤى البيانات

يعد تحليل البيانات الاستكشافية جزءًا مهمًا من سير عمل ML. يمكننا استخدام تقرير رؤى البيانات الجديد من Data Wrangler لاكتساب فهم أفضل لملف البيانات وتوزيعها. يتضمن التقرير إحصائيات موجزة ، وتحذيرات جودة البيانات ، ورؤى العمود الهدف ، ونموذج سريع ، ومعلومات حول الصفوف الشاذة والمكررة.

  1. اختر علامة الجمع الموجودة بجانب أنواع البيانات واختر احصل على رؤى البيانات.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

  1. في حالة الهدف عمود، اختر نتيجة.
  2. في حالة نوع المشكلة، و (اختياريًا) حدد تصنيف.
  3. اختار إنشاء.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

تعرض النتائج بيانات موجزة بإحصائيات مجموعة البيانات.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

يمكننا أيضًا عرض توزيع الصفوف المسماة بمدرج تكراري ، وتقدير للجودة المتوقعة المتوقعة للنموذج باستخدام ميزة النموذج السريع ، وجدول ملخص الميزة.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

لا ندخل في تفاصيل تحليل تقرير رؤى البيانات ؛ تشير إلى تسريع إعداد البيانات بجودة البيانات والرؤى في Amazon SageMaker Data Wrangler للحصول على تفاصيل إضافية حول كيفية استخدام تقرير رؤى البيانات لتسريع خطوات تحضير البيانات.

أداء هندسة الميزات

الآن بعد أن قمنا بتحديد وتحليل توزيع أعمدة الإدخال الخاصة بنا على مستوى عالٍ ، فإن الاعتبار الأول لتحسين جودة بياناتنا يمكن أن يكون التعامل مع القيم المفقودة.

على سبيل المثال ، نعلم أن الأصفار (0) من أجل Insulin العمود يمثل القيم المفقودة. يمكننا اتباع التوصية باستبدال الأصفار بـ NaN. ولكن عند الفحص الدقيق ، نجد أن الحد الأدنى للقيمة هو 0 لأعمدة أخرى مثل Glucose, BloodPressure, SkinThicknessو BMI. نحتاج إلى طريقة للتعامل مع القيم المفقودة ، ولكن يجب أن نكون حساسين للأعمدة التي تحتوي على أصفار كبيانات صالحة. دعونا نرى كيف يمكننا إصلاح هذا.

في مجلة تفاصيل الميزة القسم ، ويثير التقرير أ القيمة المفقودة المقنعة تحذير للميزة Insulin.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

لأن الأصفار في ملف Insulin العمود في الواقع بيانات مفقودة ، نستخدم تحويل regex إلى مفقود تحويل لتحويل القيم الصفرية إلى فارغة (القيم المفقودة).

  1. اختر علامة الجمع الموجودة بجانب البيانات أنواع واختر أضف تحول.
  2.  اختار بحث وتحرير.
  3. في حالة تحول، اختر تحويل regex إلى مفقود.
  4. في حالة إدخال الأعمدة، اختر الأعمدة Insulin, Glucose, BloodPressure, SkinThicknessو BMI.
  5. في حالة نمط، أدخل 0.
  6. اختار أرسال و أضف لحفظ هذه الخطوة.

0 إدخالات ضمن Insulin, Glucose, BloodPressure, SkinThicknessو BMI هي الآن القيم المفقودة.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

يمنحك Data Wrangler بعض الخيارات الأخرى لإصلاح القيم المفقودة.

  1. نتعامل مع القيم المفقودة من خلال حساب الوسيط التقريبي لـ Glucose العمود.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

نريد أيضًا التأكد من أن ميزاتنا على نفس المقياس. لا نريد أن نعطي وزناً أكبر عن غير قصد لميزة معينة لمجرد أنها تحتوي على نطاق رقمي أكبر. نقوم بتطبيع ميزاتنا للقيام بذلك.

  1. أضف تعليقا جديدا عملية رقمية تحويل واختيار قيم المقياس.
  2. في حالة قشارة، اختر قشارة Min-max.
  3. في حالة أعمدة الإدخال، اختر الأعمدة Pregnancies, BloodPressure, Glucose, SkinThickness, Insulin, BMIو Age.
  4. المجموعات اقل شئ إلى 0 و اكثر شئ إلى 1.

هذا يضمن أن تكون ميزاتنا بين القيم 0 و 1.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

الآن بعد أن قمنا بإنشاء بعض الميزات ، قمنا بتقسيم مجموعة البيانات الخاصة بنا إلى تدريب واختبار قبل إنشاء نموذج.

تقسيم البيانات إلى تدريب واختبار

في مرحلة بناء النموذج لسير عمل ML الخاص بك ، تقوم باختبار فعالية النموذج الخاص بك عن طريق تشغيل تنبؤات الدُفعات. يمكنك تخصيص مجموعة بيانات اختبار أو تعليق للتقييم لمعرفة كيفية أداء نموذجك من خلال مقارنة التنبؤات بالحقيقة الأساسية. بشكل عام ، إذا تطابق المزيد من توقعات النموذج مع true الملصقات ، يمكننا تحديد أن النموذج يعمل بشكل جيد.

نستخدم Data Wrangler لتقسيم مجموعة البيانات الخاصة بنا للاختبار. نحتفظ بـ 90٪ من مجموعة البيانات الخاصة بنا للتدريب لأن لدينا مجموعة بيانات صغيرة نسبيًا. تعمل نسبة 10٪ المتبقية من مجموعة البيانات الخاصة بنا كمجموعة بيانات اختبار. نستخدم مجموعة البيانات هذه للتحقق من نموذج الطيار الآلي لاحقًا في هذا المنشور.

نقسم بياناتنا عن طريق اختيار تقسيم البيانات تحويل واختيار تقسيم عشوائي كطريقة. لقد حددنا 0.9 كنسبة مئوية للتدريب و 0.1 للاختبار.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

مع اكتمال تحويل البيانات وإبراز الخطوات الهندسية ، نحن الآن جاهزون لتدريب نموذج.

تدريب والتحقق من صحة النموذج

يمكننا استخدام تكامل Data Wrangler الجديد مع الطيار الآلي لتدريب نموذج مباشرةً من واجهة مستخدم تدفق بيانات Data Wrangler.

  1. اختر علامة الجمع الموجودة بجانب بيانات واختر نموذج القطار.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

  1. في حالة موقع Amazon S3، حدد موقع Amazon S3 حيث يقوم SageMaker بتصدير بياناتك.

يستخدم الطيار الآلي هذا الموقع لتدريب نموذج تلقائيًا ، مما يوفر لك الوقت من الاضطرار إلى تحديد موقع الإخراج لتدفق Data Wrangler ، ثم الاضطرار إلى تحديد موقع إدخال بيانات تدريب الطيار الآلي. هذا يجعل تجربة أكثر سلاسة.

  1. اختار تصدير وتدريب لبدء بناء النموذج باستخدام الطيار الآلي.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

يقوم الطيار الآلي تلقائيًا بتحديد مواقع إدخال وإخراج بيانات التدريب. ما عليك سوى تحديد العمود الهدف والنقر قم بإنشاء التجربة لتدريب نموذجك.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

اختبر النموذج على عينة مؤجلة

عندما يكمل الطيار الآلي التجربة ، يمكننا عرض نتائج التدريب واستكشاف أفضل نموذج.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

  1. اختار عرض تفاصيل النموذج للنموذج الذي تريده ، ثم اختر ملف الأداء علامة التبويب في صفحة تفاصيل النموذج.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

الأداء تعرض علامة التبويب العديد من اختبارات قياس النموذج ، بما في ذلك مصفوفة الارتباك ، والمنطقة الواقعة أسفل منحنى الدقة / الاسترجاع (AUCPR) ، والمنطقة الواقعة أسفل منحنى خاصية تشغيل المستقبل (ROC). يوضح هذا الأداء العام للتحقق من صحة النموذج ، لكنه لا يخبرنا ما إذا كان النموذج سيعمم بشكل جيد. ما زلنا بحاجة إلى إجراء تقييمات على بيانات الاختبار غير المرئية لمعرفة مدى دقة توقع النموذج فيما إذا كان الفرد مصابًا بمرض السكري.

للتأكد من أن النموذج معمم بشكل جيد بما فيه الكفاية ، فإننا نضع عينة الاختبار جانباً لأخذ العينات بشكل مستقل. يمكننا القيام بذلك في واجهة مستخدم تدفق البيانات رانجلر.

  1.  اختر علامة الجمع الموجودة بجانب بيانات، اختر تصدير الى، و اختار الأمازون S3.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

  1. حدد مسار Amazon S3.

نشير إلى هذا المسار عندما نقوم بتشغيل الاستدلال الدفعي للتحقق من الصحة في القسم التالي.

  1. قم بإنشاء دفتر ملاحظات SageMaker جديد لإجراء استنتاج الدُفعات على عينة الانتظار وتقييم أداء الاختبار. الرجوع إلى ما يلي جيثب ريبو ل نموذج دفتر الملاحظات لتشغيل الاستدلال الدفعي للتحقق من صحته.

تحليل التحقق من الصحة واختبار أداء المجموعة

عند اكتمال تحويل الدُفعة ، نقوم بإنشاء مصفوفة ارتباك لمقارنة النتائج الفعلية والمتوقعة لمجموعة بيانات الانتظار.

نرى 23 إيجابية حقيقية و 33 سلبية حقيقية من نتائجنا. في حالتنا ، تشير الإيجابيات الحقيقية إلى النموذج الذي يتنبأ بشكل صحيح بأن الفرد مصاب بمرض السكري. في المقابل ، تشير السلبيات الحقيقية إلى النموذج الذي يتنبأ بشكل صحيح بأن الفرد لا يعاني من مرض السكري.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

في حالتنا ، تعتبر الدقة والاستدعاء مقاييس مهمة. تقيس الدقة بشكل أساسي جميع الأفراد المتوقع إصابتهم بمرض السكري ، فكم عدد المصابين بالفعل بمرض السكري؟ في المقابل ، يساعد الاستدعاء في قياس جميع الأشخاص المصابين بالفعل بمرض السكري ، كم عدد الذين تم توقع إصابتهم بمرض السكري؟ على سبيل المثال ، قد ترغب في استخدام نموذج بدقة عالية لأنك تريد علاج أكبر عدد ممكن من الأفراد ، خاصةً إذا لم يكن للمرحلة الأولى من العلاج أي تأثير على الأفراد غير المصابين بمرض السكري (هذه نتائج إيجابية خاطئة - أولئك الذين تم تصنيفهم على أنهم مصابون به بينما في الحقيقة لا يفعلون ذلك).

نرسم أيضًا المنطقة الواقعة أسفل الرسم البياني لمنحنى ROC (AUC) لتقييم النتائج. كلما كانت الجامعة الأمريكية بالقاهرة أعلى ، كان النموذج أفضل في التمييز بين الفئات ، وهو في حالتنا مدى جودة أداء النموذج في التمييز بين المرضى المصابين بداء السكري وغير المصابين به.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

وفي الختام

في هذا المنشور ، أوضحنا كيفية دمج معالجة البيانات الخاصة بك ، والتي تتميز بالهندسة ، وبناء النماذج باستخدام Data Wrangler و Autopilot. لقد أبرزنا كيف يمكنك تدريب نموذج وضبطه بسهولة باستخدام الطيار الآلي مباشرةً من واجهة مستخدم Data Wrangler. باستخدام ميزة التكامل هذه ، يمكننا إنشاء نموذج سريعًا بعد إكمال هندسة الميزات ، دون كتابة أي رمز. ثم أشرنا إلى أفضل نموذج للطيار الآلي لتشغيل تنبؤات الدُفعات باستخدام فئة AutoML مع SageMaker Python SDK.

تزيل حلول الأكواد المنخفضة و AutoML مثل Data Wrangler و Autopilot الحاجة إلى معرفة عميقة بالشفرات لبناء نماذج ML قوية. ابدأ باستخدام Data Wrangler اليوم لتجربة مدى سهولة بناء نماذج ML باستخدام الطيار الآلي SageMaker.


حول المؤلف

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.بيتر تشونج هو مهندس حلول لـ AWS ، ومتحمس لمساعدة العملاء في الكشف عن الرؤى من بياناتهم. لقد عمل على بناء حلول لمساعدة المؤسسات على اتخاذ قرارات تعتمد على البيانات في كل من القطاعين العام والخاص. وهو حاصل على جميع شهادات AWS بالإضافة إلى شهادتي GCP. يستمتع بالقهوة والطبخ والبقاء نشيطًا وقضاء الوقت مع أسرته.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.براديب ريدي هو مدير أول للمنتجات في فريق SageMaker Low / No Code ML ، والذي يتضمن SageMaker Autopilot و SageMaker Automatic Model Tuner. خارج العمل ، يستمتع براديب بالقراءة والجري والتجول باستخدام أجهزة كمبيوتر بحجم راحة اليد مثل Raspberry Pi وتقنيات التشغيل الآلي للمنزل الأخرى.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.أرونبراساث شانكار هو مهندس حلول متخصص في الذكاء الاصطناعي والتعلم الآلي (AI / ML) مع AWS ، مما يساعد العملاء العالميين على توسيع نطاق حلول الذكاء الاصطناعي الخاصة بهم بفعالية وكفاءة في السحابة. يستمتع آرون في أوقات فراغه بمشاهدة أفلام الخيال العلمي والاستماع إلى الموسيقى الكلاسيكية.

إعداد البيانات الموحدة والتدريب على النموذج مع Amazon SageMaker Data Wrangler و Amazon SageMaker Autopilot PlatoBlockchain Data Intelligence. البحث العمودي. عاي.سروجان جوبو هو مهندس الواجهة الأمامية الأول في SageMaker Low Code / No Code ML لمساعدة عملاء منتجات Autopilot و Canvas. عندما لا يكون في البرمجة ، يستمتع سروجان بالركض مع كلبه ماكس ، والاستماع إلى الكتب الصوتية وتطوير ألعاب الواقع الافتراضي.

الطابع الزمني:

اكثر من التعلم الآلي من AWS