اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler

أعاد نشره أفلاطون

المتابعون: 0

في هذا المنشور ، نقدم تحليلًا جديدًا في تقرير الرؤى وجودة البيانات of أمازون سيج ميكر داتا رانجلر. يساعدك هذا التحليل في التحقق من صحة الميزات النصية وكشف الصفوف غير الصالحة لإصلاحها أو حذفها.

يقلل Data Wrangler الوقت الذي يستغرقه تجميع البيانات وإعدادها للتعلم الآلي (ML) من أسابيع إلى دقائق. يمكنك تبسيط عملية إعداد البيانات وهندسة الميزات ، وإكمال كل خطوة من خطوات سير عمل إعداد البيانات ، بما في ذلك اختيار البيانات ، والتنقية ، والاستكشاف ، والتصور ، من واجهة مرئية واحدة.

حل نظرة عامة

غالبًا ما تتضمن المعالجة المسبقة للبيانات تنظيف البيانات النصية مثل عناوين البريد الإلكتروني وأرقام الهواتف وأسماء المنتجات. يمكن أن تحتوي هذه البيانات على قيود تكامل أساسية يمكن وصفها بالتعبيرات العادية. على سبيل المثال ، لكي يتم اعتبار رقم الهاتف المحلي صالحًا ، قد يحتاج إلى اتباع نمط مثل [1-9][0-9]{2}-[0-9]{4}، والتي ستطابق رقمًا غير صفري ، متبوعًا برقمين إضافيين ، متبوعًا بشرطة ، متبوعة بأربعة أرقام أخرى.

قد تتضمن السيناريوهات الشائعة التي تؤدي إلى بيانات غير صالحة إدخال بشري غير متسق ، على سبيل المثال أرقام الهواتف بتنسيقات مختلفة (5551234 مقابل 555 1234 مقابل 555-1234) أو بيانات غير متوقعة ، مثل 0 أو 911 أو 411. بالنسبة لمركز اتصال العملاء ، من المهم حذف أرقام مثل 0 أو 911 أو 411 والتحقق من صحة الإدخالات (وربما تكون صحيحة) مثل 5551234 أو 555 1234.

لسوء الحظ ، على الرغم من وجود قيود نصية ، فقد لا يتم تزويدهم بالبيانات. لذلك ، يجب على عالم البيانات الذي يعد مجموعة بيانات الكشف عن القيود يدويًا من خلال النظر في البيانات. يمكن أن يكون هذا مملاً وعرضة للخطأ ويستغرق وقتًا طويلاً.

يقوم التعرف على الأنماط تلقائيًا بتحليل بياناتك وأسطح القيود النصية التي قد تنطبق على مجموعة البيانات الخاصة بك. على سبيل المثال مع أرقام الهواتف ، يمكن لتعلم الأنماط تحليل البيانات وتحديد أن الغالبية العظمى من أرقام الهواتف تتبع القيد النصي [1-9][0-9]{2}-[0-9][4]. يمكن أن ينبهك أيضًا إلى وجود أمثلة لبيانات غير صالحة بحيث يمكنك استبعادها أو تصحيحها.

في الأقسام التالية ، نوضح كيفية استخدام تعلم الأنماط في Data Wrangler باستخدام مجموعة بيانات خيالية لفئات المنتجات وأكواد SKU (وحدة حفظ المخزون).

تحتوي مجموعة البيانات هذه على ميزات تصف المنتجات حسب الشركة والعلامة التجارية واستهلاك الطاقة. والجدير بالذكر أنه يتضمن ميزة SKU سيئة التنسيق. جميع البيانات الموجودة في مجموعة البيانات هذه خيالية وتم إنشاؤها عشوائيًا باستخدام أسماء تجارية وأسماء أجهزة عشوائية.

المتطلبات الأساسية المسبقة

قبل أن تبدأ في استخدام Data Wrangler ، بإمكانك تحميله عينة مجموعة البيانات وتحميلها إلى موقع في خدمة تخزين أمازون البسيطة (أمازون S3). للحصول على تعليمات ، راجع تحميل الأشياء.

قم باستيراد مجموعة البيانات الخاصة بك

لاستيراد مجموعة البيانات الخاصة بك ، أكمل الخطوات التالية:

في Data Wrangler ، اختر استيراد واستكشاف البيانات لـ ML.
اختار استيراد.
في حالة تواريخ الاستيراد، اختر الأمازون S3.
حدد موقع الملف في Amazon S3 واختر استيراد.

بعد الاستيراد ، يمكننا الانتقال إلى تدفق البيانات.

احصل على رؤى البيانات

في هذه الخطوة ، نقوم بإنشاء تقرير رؤى البيانات الذي يتضمن معلومات حول جودة البيانات. لمزيد من المعلومات ، يرجى الرجوع إلى احصل على رؤى حول جودة البيانات والبيانات. أكمل الخطوات التالية:

على تدفق البيانات علامة التبويب ، اختر علامة الجمع الموجودة بجانب أنواع البيانات.
اختار احصل على رؤى البيانات.
في حالة نوع التحليل، اختر تقرير الرؤى وجودة البيانات.
لهذا المنصب ، اترك العمود الهدف و نوع المشكلة فارغ إذا كنت تخطط لاستخدام مجموعة البيانات الخاصة بك لمهمة انحدار أو تصنيف مع ميزة هدف ، يمكنك تحديد هذه الخيارات وسيتضمن التقرير تحليلاً حول كيفية ارتباط ميزات الإدخال الخاصة بك بهدفك. على سبيل المثال ، يمكن أن تنتج تقارير عن التسرب الهدف. لمزيد من المعلومات ، يرجى الرجوع إلى العمود الهدف.
اختار إنشاء.

لدينا الآن تقرير جودة البيانات وإحصاءات البيانات. إذا مررنا لأسفل إلى ملف SKU في القسم ، يمكننا أن نرى مثالاً لتعلم الأنماط يصف SKU. يبدو أن هذه الميزة تحتوي على بعض البيانات غير الصالحة ، ويلزم إجراء معالجة قابلة للتنفيذ.

قبل أن نقوم بتنظيف ميزة SKU ، دعنا ننتقل لأعلى إلى ملف العلامات التجارية لرؤية المزيد من الأفكار. هنا نرى نمطين تم اكتشافهما ، مما يشير إلى أن غالبية الأسماء التجارية عبارة عن كلمات مفردة تتكون من أحرف كلمة أو أحرف أبجدية. أ حرف كلمة هي إما شرطة سفلية أو حرف قد يظهر في كلمة بأي لغة. على سبيل المثال ، الأوتار Hello_world و écoute كلاهما يتكون من أحرف كلمة: H و é.

بالنسبة لهذا المنشور ، لا نقوم بتنظيف هذه الميزة.

عرض رؤى التعلم النمط

دعنا نعود إلى تنظيف SKU ونقوم بتكبير النمط ورسالة التحذير.

كما هو موضح في لقطة الشاشة التالية ، يُظهر تعلم الأنماط نمطًا عالي الدقة يطابق 97.78٪ من البيانات. يعرض أيضًا بعض الأمثلة المطابقة للنمط بالإضافة إلى الأمثلة التي لا تتطابق مع النمط. في غير المطابقات ، نرى بعض رموز التخزين التعريفية غير الصالحة.

بالإضافة إلى الأنماط الظاهرة ، قد يظهر تحذير يشير إلى إجراء محتمل لتنظيف البيانات إذا كان هناك نمط دقة عالية بالإضافة إلى بعض البيانات التي لا تتوافق مع النمط.

يمكننا حذف البيانات غير الصالحة. إذا اخترنا (النقر بزر الماوس الأيمن) على التعبير العادي ، فيمكننا نسخ التعبير [A-Z]{3}-[0-9]{4,5}.

إزالة البيانات غير الصالحة

لنقم بإنشاء تحويل لحذف البيانات غير المطابقة التي لا تتطابق مع هذا النمط.

على تدفق البيانات علامة التبويب ، اختر علامة الجمع الموجودة بجانب أنواع البيانات.
اختار أضف التحويل.
اختار أضف خطوة.
البحث عن regex واختر بحث وتحرير.
في حالة تحول، اختر تحويل غير المطابقات إلى المفقودين.
في حالة أعمدة الإدخال، اختر SKU.
في حالة نمط، أدخل تعبيرنا النمطي.
اختار أرسال، ثم اختر أضف.

الآن تمت إزالة البيانات الدخيلة من الميزات.
لإزالة الصفوف ، أضف الخطوة التعامل مع المفقودين واختيار التحويل إسقاط في عداد المفقودين.
اختار SKU كعمود الإدخال.

نعود إلى تدفق البيانات لدينا مع إزالة البيانات الخاطئة.

وفي الختام

في هذا المنشور ، أوضحنا لك كيفية استخدام ميزة تعلم الأنماط في رؤى البيانات للعثور على بيانات نصية غير صالحة في مجموعة البيانات الخاصة بك ، وكذلك كيفية تصحيح هذه البيانات أو حذفها.

الآن بعد أن قمت بتنظيف عمود نصي ، يمكنك تصور مجموعة البيانات الخاصة بك باستخدام ملف تحليل أو يمكنك التقديم تحولات مدمجة لمزيد من معالجة بياناتك. عندما تكون راضيًا عن بياناتك ، يمكنك ذلك تدريب نموذج مع Amazon SageMaker الطيار الآليالطرق أو تصدير البيانات الخاصة بك إلى مصدر بيانات مثل Amazon S3.

نود أن نشكر نيكيتا إيفكين لمراجعته المتعمقة.

عن المؤلفين

فيشال كابور هو عالم تطبيقي أقدم مع AWS AI. إنه متحمس لمساعدة العملاء على فهم بياناتهم في Data Wrangler. في أوقات فراغه ، يقوم بالدراجات الجبلية وألواح التزلج على الجليد ويقضي الوقت مع عائلته.

زوهار كارنين هو عالم رئيسي في Amazon AI. تتركز اهتماماته البحثية في مجالات خوارزميات التعلم الآلي واسعة النطاق عبر الإنترنت. قام بتطوير خوارزميات التعلم الآلي القابلة للتطوير بشكل لا نهائي لـ Amazon SageMaker.

أجاي شارما هو مدير المنتج الرئيسي في Amazon SageMaker حيث يركز على Data Wrangler ، وهي أداة لإعداد البيانات المرئية لعلماء البيانات. قبل AWS ، كان Ajai خبيرًا في علوم البيانات في شركة McKinsey and Company ، حيث قاد المشاركات التي تركز على ML لشركات التمويل والتأمين الرائدة في جميع أنحاء العالم. أجاي شغوف بعلوم البيانات ويحب استكشاف أحدث الخوارزميات وتقنيات التعلم الآلي.

ديريك بارون هو مدير تطوير البرامج في Amazon SageMaker Data Wrangler

الطابع الزمني: 24 أكتوبر 202224 أكتوبر 2022

الطابع الزمني: 12 مايو 2022

حقق الكفاءة باستخدام أفضل ممارسات CI / CD على Amazon Lex

الكتلة المصدر:

التعلم الآلي من AWS

عقدة المصدر: 1585088

الطابع الزمني: يوليو 7، 2022

اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler

أعاد نشره أفلاطون

حل نظرة عامة

المتطلبات الأساسية المسبقة

قم باستيراد مجموعة البيانات الخاصة بك

احصل على رؤى البيانات

عرض رؤى التعلم النمط

إزالة البيانات غير الصالحة

وفي الختام

عن المؤلفين

اكثر من التعلم الآلي من AWS

انشر BLOOM-176B و OPT-30B على Amazon SageMaker مع استدلال نموذج كبير حاويات التعلم العميق و DeepSpeed

تفسير مدخلات المتصل باستخدام أنواع فتحات القواعد النحوية في Amazon Lex

كيف تستخدم Yara ميزات MLOps في Amazon SageMaker لتوسيع نطاق تحسين الطاقة عبر مصانع الأمونيا الخاصة بها

حدد الأذونات المخصصة في دقائق باستخدام Amazon SageMaker Role Manager عبر AWS CDK | خدمات أمازون ويب

قم بتحسين قابلية التوسع لـ Amazon Rekognition APIs عديمة الحالة باستخدام مناطق متعددة

كيف تدير Amazon Search مشاريع تعلم الآلة واسعة النطاق ومرنة باستخدام Amazon SageMaker

إنشاء تطبيقات الذكاء الاصطناعي التوليدية الجاهزة للإنتاج للبحث في المؤسسات باستخدام خطوط أنابيب Haystack و Amazon SageMaker JumpStart مع LLMs | خدمات أمازون ويب

يمكنك الإشراف على المستندات وتصنيفها ومعالجتها باستخدام Amazon Rekognition و Amazon Textract

حقق الكفاءة باستخدام أفضل ممارسات CI / CD على Amazon Lex

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي