تحديد مشكلات البيانات الشائعة وتجنبها أثناء إنشاء نماذج ML بدون تعليمات برمجية باستخدام Amazon SageMaker Canvas

أعاد نشره أفلاطون

المتابعون: 0

يعمل محللو الأعمال مع البيانات ويحبون تحليل البيانات واستكشافها وفهمها لتحقيق نتائج أعمال فعالة. لمعالجة مشاكل العمل ، غالبًا ما يعتمدون على ممارسي التعلم الآلي (ML) مثل علماء البيانات للمساعدة في تقنيات مثل استخدام ML لبناء نماذج باستخدام البيانات الحالية وإنشاء التنبؤات. ومع ذلك ، هذا ليس ممكنًا دائمًا ، لأن علماء البيانات مرتبطون عادةً بمهامهم وليس لديهم النطاق الترددي لمساعدة المحللين.

لكي تكون مستقلاً وتحقق أهدافك كمحلل أعمال ، سيكون من المثالي العمل باستخدام أدوات سهلة الاستخدام وبديهية ومرئية تستخدم ML دون الحاجة إلى معرفة التفاصيل واستخدام الكود. سيساعدك استخدام هذه الأدوات في حل مشاكل عملك وتحقيق النتائج المرجوة.

بهدف مساعدتك أنت ومؤسستك لتصبح أكثر فعالية ، واستخدام ML دون كتابة رمز ، نحن قدم Amazon SageMaker Canvas. هذا هو حل ML بدون رمز يساعدك على بناء نماذج ML دقيقة دون الحاجة إلى التعرف على التفاصيل الفنية ، مثل خوارزميات ML ومقاييس التقييم. يوفر SageMaker Canvas واجهة مرئية وبديهية تتيح لك استيراد البيانات وتدريب نماذج ML وإجراء تحليل النموذج وإنشاء تنبؤات ML ، كل ذلك دون كتابة سطر واحد من التعليمات البرمجية.

عند استخدام SageMaker Canvas للتجربة ، قد تواجه مشكلات في جودة البيانات مثل القيم المفقودة أو وجود نوع مشكلة خاطئ. قد لا يتم اكتشاف هذه المشكلات حتى وقت متأخر جدًا من العملية بعد تدريب نموذج ML. للتخفيف من هذا التحدي ، يدعم SageMaker Canvas الآن التحقق من صحة البيانات. تتحقق هذه الميزة بشكل استباقي من المشكلات الموجودة في بياناتك وتوفر إرشادات حول الحلول.

في هذا المنشور ، سنوضح كيف يمكنك استخدام إمكانية التحقق من صحة البيانات داخل SageMaker Canvas قبل بناء النموذج. كما يوحي الاسم ، تتحقق هذه الميزة من صحة مجموعة البيانات الخاصة بك ، وتبلغ عن المشكلات ، وتوفر مؤشرات مفيدة لإصلاحها. باستخدام بيانات ذات جودة أفضل ، سينتهي بك الأمر بنموذج ML ذي أداء أفضل.

تحقق من صحة البيانات في SageMaker Canvas

التحقق من صحة البيانات هو ميزة جديدة في SageMaker Canvas للتحقق بشكل استباقي من مشكلات جودة البيانات المحتملة. بعد استيراد البيانات وتحديد عمود هدف ، يتم منحك خيارًا للتحقق من صحة بياناتك كما هو موضح هنا:

إذا اخترت التحقق من صحة بياناتك ، فإن Canvas تحلل بياناتك للعديد من الشروط بما في ذلك:

عدد كبير جدًا من التسميات الفريدة في العمود الهدف - لنوع نموذج التنبؤ بالفئة
هناك عدد كبير جدًا من التسميات الفريدة في العمود الهدف الخاص بك لعدد الصفوف في بياناتك - لنوع نموذج التنبؤ بالفئة
نوع نموذج خاطئ لبياناتك - لا يتناسب نوع النموذج مع البيانات التي تتوقعها في العمود الهدف
عدد الصفوف غير الصالحة أكثر من اللازم - القيم المفقودة في العمود الهدف الخاص بك
جميع أعمدة المعالم هي أعمدة نصية - سيتم إسقاطها للبنيات القياسية
عدد الأعمدة قليل جدًا - عدد قليل جدًا من الأعمدة في بياناتك
لا توجد صفوف كاملة - تحتوي جميع الصفوف في بياناتك على قيم مفقودة
يحتوي اسم عمود واحد أو أكثر على شرطات سفلية مزدوجة - لا يستطيع SageMaker معالجة (__) في رأس العمود

سيتم توفير تفاصيل كل معيار من معايير التحقق في الأقسام اللاحقة من هذا المنشور.

إذا تم اجتياز جميع الشيكات ، فستحصل على التأكيد التالي: "لم يتم العثور على مشاكل في مجموعة البيانات الخاصة بك".

إذا تم العثور على أي مشكلة ، فستتلقى إشعارًا لعرضه وفهمه. يؤدي هذا إلى إبراز مشكلات جودة البيانات مبكرًا ، ويتيح لك معالجتها على الفور قبل إضاعة الوقت والموارد بشكل أكبر في العملية.

يمكنك إجراء التعديلات الخاصة بك والاستمرار في التحقق من صحة مجموعة البيانات الخاصة بك حتى تتم معالجة جميع المشكلات.

تحقق من أنواع النموذج والعمود الهدف

عندما تقوم بإنشاء نموذج ML في SageMaker Canvas ، فإن العديد من مشكلات جودة البيانات المتعلقة بـ العمود الهدف قد يتسبب في فشل بناء النموذج الخاص بك. يتحقق SageMaker Canvas من أنواع مختلفة من المشكلات التي قد تؤثر على العمود الهدف.

بالنسبة للعمود المستهدف ، تحقق من نوع نموذج خاطئ لبياناتك. على سبيل المثال ، إذا تم تحديد نموذج تنبؤ من فئتين ولكن عمود الهدف الخاص بك يحتوي على أكثر من تسميتين فريدتين ، فإن SageMaker Canvas ستقدم تحذير التحقق التالي.
إذا كان نوع النموذج هو توقع فئة 2 أو 3+ ، فيجب عليك التحقق من صحته عدد كبير جدًا من التصنيفات الفريدة للعمود الهدف الخاص بك. الحد الأقصى لعدد الفئات الفريدة هو 2000. إذا حددت عمودًا يحتوي على أكثر من 2000 قيمة فريدة في عمود الهدف ، فستقدم Canvas تحذير التحقق التالي.
بالإضافة إلى العديد من التصنيفات المستهدفة الفريدة ، يجب أن تحذر أيضًا من ذلك العديد من التسميات المستهدفة الفريدة لعدد الصفوف في بياناتك. يفرض SageMaker Canvas نسبة تسمية الهدف إلى إجمالي الصفوف لتكون أقل من 10٪. هذا يضمن أن لديك تمثيلًا كافيًا لكل فئة لنموذج عالي الجودة ويقلل من احتمالية التجهيز الزائد. يعتبر النموذج الخاص بك مناسبًا عندما يتنبأ جيدًا ببيانات التدريب ولكن ليس على البيانات الجديدة التي لم يسبق لها مثيل من قبل. أشير هنا لتعلم المزيد.
أخيرًا ، آخر فحص للعمود الهدف هو عدد كبير من الصفوف غير الصالحة. إذا كان عمود الهدف الخاص بك يحتوي على أكثر من 10٪ من البيانات مفقودة أو غير صالحة ، فسيؤثر ذلك على أداء النموذج الخاص بك ، وفي بعض الحالات يتسبب في فشل إنشاء النموذج الخاص بك. يحتوي المثال التالي على العديد من القيم المفقودة (> 90٪ مفقودة) في العمود الهدف ، وستحصل على تحذير التحقق التالي.

إذا تلقيت أيًا من التحذيرات المذكورة أعلاه للعمود الهدف ، فاستخدم الخطوات التالية للتخفيف من حدة المشكلات:

هل تستخدم العمود الهدف الصحيح؟
هل اخترت نوع النموذج الصحيح؟
هل يمكنك زيادة عدد الصفوف في مجموعة البيانات الخاصة بك لكل تصنيف هدف؟
هل يمكنك دمج / تجميع التسميات المتشابهة معًا؟
هل يمكنك ملء القيم المفقودة / غير الصالحة؟
هل لديك بيانات كافية لإسقاط القيم المفقودة / غير الصالحة؟
إذا كانت جميع الخيارات المذكورة أعلاه لا تمسح التحذير ، فعليك التفكير في استخدام مجموعة بيانات مختلفة.

الرجوع إلى وثائق تحويل بيانات SageMaker Canvas لتنفيذ خطوات الإسناد المذكورة أعلاه.

تحقق من صحة جميع الأعمدة

بصرف النظر عن العمود الهدف ، قد تواجه مشكلات في جودة البيانات مع أعمدة البيانات الأخرى (أعمدة الميزة) أيضًا. أعمدة الميزات هي بيانات الإدخال المستخدمة لعمل توقع ML.

يجب أن تحتوي كل مجموعة بيانات على عمود ميزة واحد على الأقل وعمود هدف واحد (عمودين إجمالاً). خلاف ذلك ، ستمنحك SageMaker Canvas ملف عدد أعمدة قليلة جدًا في بياناتك تحذير. يجب أن تفي بهذا المطلب قبل أن تتمكن من متابعة بناء نموذج.
بعد ذلك ، يجب عليك التأكد من أن بياناتك تحتوي على عمود رقمي واحد على الأقل. إذا لم يكن كذلك ، فستحصل على ملف جميع أعمدة المعالم هي أعمدة نصية تحذير. هذا لأنه يتم عادةً إسقاط أعمدة النص أثناء الإنشاءات القياسية ، مما يترك النموذج بدون ميزات للتدريب. لذلك ، سيؤدي ذلك إلى فشل بناء النموذج الخاص بك. يمكنك استخدام SageMaker Canvas لترميز بعض أعمدة النص إلى أرقام أو استخدام الإنشاء السريع بدلاً من الإنشاء القياسي.
النوع الثالث من التحذير الذي قد تحصل عليه لأعمدة الميزات هو لا توجد صفوف كاملة. يتحقق هذا التحقق مما إذا كان لديك صف واحد على الأقل بدون قيم مفقودة. تتطلب لوحة SageMaker Canvas صفًا واحدًا كاملاً على الأقل ، وإلا فإن ملف بناء سريع سوف تفشل. حاول ملء القيم المفقودة قبل بناء النموذج.
النوع الأخير من التحقق هو يحتوي اسم عمود واحد أو أكثر على شرطات سفلية مزدوجة. هذا مطلب خاص بـ SageMaker Canvas. إذا كان لديك شرطات سفلية مزدوجة (__) في رؤوس الأعمدة ، فسيؤدي ذلك إلى ظهور بناء سريع للفشل. أعد تسمية الأعمدة لإزالة أي شرطات سفلية مزدوجة ، ثم حاول مرة أخرى.

تنظيف

لتجنب تكبد المستقبل رسوم الجلسة، تسجيل الخروج من قماش SageMaker.

وفي الختام

SageMaker Canvas هو حل ML بدون رمز يسمح لمحللي الأعمال بإنشاء نماذج ML دقيقة وإنشاء تنبؤات من خلال واجهة مرئية بنقرة ونقر. لقد أوضحنا لك كيف يساعدك SageMaker Canvas على التأكد من جودة البيانات وتخفيف مشكلات البيانات من خلال التحقق من صحة مجموعة البيانات بشكل استباقي. من خلال تحديد المشكلات مبكرًا ، يساعدك SageMaker Canvas على إنشاء نماذج ML عالية الجودة وتقليل تكرارات الإنشاء بدون خبرة في علم البيانات والبرمجة. لمعرفة المزيد حول هذه الميزة الجديدة ، ارجع إلى وثائق SageMaker Canvas.

للبدء ومعرفة المزيد حول SageMaker Canvas ، راجع الموارد التالية:

عن المؤلفين

هاريهاران سوريش هو مهندس حلول أول في AWS. إنه شغوف بقواعد البيانات والتعلم الآلي وتصميم الحلول المبتكرة. قبل انضمامه إلى AWS ، كان Hariharan مهندسًا للمنتجات ، ومتخصصًا في تنفيذ الخدمات المصرفية الأساسية ، ومطورًا ، وعمل مع مؤسسات BFSI لأكثر من 11 عامًا. بعيدًا عن التكنولوجيا ، فهو يستمتع بالطيران المظلي وركوب الدراجات.

سيناث ميريالا هو مدير الحساب الفني الأول في AWS ويعمل لصالح عملاء السيارات في الولايات المتحدة. Sainath متحمس لتصميم وبناء تطبيقات موزعة على نطاق واسع باستخدام AI / ML. يقضي Sainath وقت فراغه مع العائلة والأصدقاء.

جيمس وو هو مهندس حلول متخصص في الذكاء الاصطناعي / التعلم الآلي في AWS. مساعدة العملاء على تصميم وبناء حلول الذكاء الاصطناعي / التعلم الآلي. يغطي عمل James مجموعة واسعة من حالات استخدام ML ، مع اهتمام أساسي برؤية الكمبيوتر والتعلم العميق وتوسيع ML عبر المؤسسة. قبل انضمامه إلى AWS ، كان جيمس مهندسًا معماريًا ومطورًا وقائدًا في مجال التكنولوجيا لأكثر من 10 سنوات ، بما في ذلك 6 سنوات في الهندسة و 4 سنوات في صناعات التسويق والإعلان.

الطابع الزمني: 10 نوفمبر، 202211 نوفمبر، 2022

الطابع الزمني: ديسمبر 12،

تحديد مشكلات البيانات الشائعة وتجنبها أثناء عدم إنشاء نماذج ML البرمجية باستخدام Amazon SageMaker Canvas

أعاد نشره أفلاطون

تحقق من صحة البيانات في SageMaker Canvas

تحقق من أنواع النموذج والعمود الهدف

تحقق من صحة جميع الأعمدة

تنظيف

وفي الختام

عن المؤلفين

اكثر من التعلم الآلي من AWS

توصيات الطاقة والبحث باستخدام الرسم البياني للمعرفة IMDb - الجزء 3

تأمين عناوين URL المُعدة مسبقًا من Amazon SageMaker Studio الجزء 3: وصول واجهة برمجة تطبيقات خاصة متعددة الحسابات إلى Studio

ارفع مستوى مساعدي الخدمة الذاتية لديك من خلال ميزات الذكاء الاصطناعي الإبداعية الجديدة في Amazon Lex | خدمات الويب الأمازون

أنشئ خط أنابيب لتحليل المستندات قابل للتتبع ومخصص ومتعدد التنسيقات باستخدام Amazon Textract

معالجة ذكية للمستندات باستخدام Amazon Textract وAmazon Bedrock وLangChain | خدمات الويب الأمازون

التقشف يلتقي بالدقة: تدريب فعال من حيث التكلفة لنماذج GPT NeoX وPythia باستخدام AWS Trainium | خدمات الويب الأمازون

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي