اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler

في هذا المنشور ، نقدم تحليلًا جديدًا في تقرير الرؤى وجودة البيانات of أمازون سيج ميكر داتا رانجلر. يساعدك هذا التحليل في التحقق من صحة الميزات النصية وكشف الصفوف غير الصالحة لإصلاحها أو حذفها.

يقلل Data Wrangler الوقت الذي يستغرقه تجميع البيانات وإعدادها للتعلم الآلي (ML) من أسابيع إلى دقائق. يمكنك تبسيط عملية إعداد البيانات وهندسة الميزات ، وإكمال كل خطوة من خطوات سير عمل إعداد البيانات ، بما في ذلك اختيار البيانات ، والتنقية ، والاستكشاف ، والتصور ، من واجهة مرئية واحدة.

حل نظرة عامة

غالبًا ما تتضمن المعالجة المسبقة للبيانات تنظيف البيانات النصية مثل عناوين البريد الإلكتروني وأرقام الهواتف وأسماء المنتجات. يمكن أن تحتوي هذه البيانات على قيود تكامل أساسية يمكن وصفها بالتعبيرات العادية. على سبيل المثال ، لكي يتم اعتبار رقم الهاتف المحلي صالحًا ، قد يحتاج إلى اتباع نمط مثل [1-9][0-9]{2}-[0-9]{4}، والتي ستطابق رقمًا غير صفري ، متبوعًا برقمين إضافيين ، متبوعًا بشرطة ، متبوعة بأربعة أرقام أخرى.

قد تتضمن السيناريوهات الشائعة التي تؤدي إلى بيانات غير صالحة إدخال بشري غير متسق ، على سبيل المثال أرقام الهواتف بتنسيقات مختلفة (5551234 مقابل 555 1234 مقابل 555-1234) أو بيانات غير متوقعة ، مثل 0 أو 911 أو 411. بالنسبة لمركز اتصال العملاء ، من المهم حذف أرقام مثل 0 أو 911 أو 411 والتحقق من صحة الإدخالات (وربما تكون صحيحة) مثل 5551234 أو 555 1234.

لسوء الحظ ، على الرغم من وجود قيود نصية ، فقد لا يتم تزويدهم بالبيانات. لذلك ، يجب على عالم البيانات الذي يعد مجموعة بيانات الكشف عن القيود يدويًا من خلال النظر في البيانات. يمكن أن يكون هذا مملاً وعرضة للخطأ ويستغرق وقتًا طويلاً.

يقوم التعرف على الأنماط تلقائيًا بتحليل بياناتك وأسطح القيود النصية التي قد تنطبق على مجموعة البيانات الخاصة بك. على سبيل المثال مع أرقام الهواتف ، يمكن لتعلم الأنماط تحليل البيانات وتحديد أن الغالبية العظمى من أرقام الهواتف تتبع القيد النصي [1-9][0-9]{2}-[0-9][4]. يمكن أن ينبهك أيضًا إلى وجود أمثلة لبيانات غير صالحة بحيث يمكنك استبعادها أو تصحيحها.

في الأقسام التالية ، نوضح كيفية استخدام تعلم الأنماط في Data Wrangler باستخدام مجموعة بيانات خيالية لفئات المنتجات وأكواد SKU (وحدة حفظ المخزون).

تحتوي مجموعة البيانات هذه على ميزات تصف المنتجات حسب الشركة والعلامة التجارية واستهلاك الطاقة. والجدير بالذكر أنه يتضمن ميزة SKU سيئة التنسيق. جميع البيانات الموجودة في مجموعة البيانات هذه خيالية وتم إنشاؤها عشوائيًا باستخدام أسماء تجارية وأسماء أجهزة عشوائية.

المتطلبات الأساسية المسبقة

قبل أن تبدأ في استخدام Data Wrangler ، بإمكانك تحميله عينة مجموعة البيانات وتحميلها إلى موقع في خدمة تخزين أمازون البسيطة (أمازون S3). للحصول على تعليمات ، راجع تحميل الأشياء.

قم باستيراد مجموعة البيانات الخاصة بك

لاستيراد مجموعة البيانات الخاصة بك ، أكمل الخطوات التالية:

  1. في Data Wrangler ، اختر استيراد واستكشاف البيانات لـ ML.
  2. اختار استيراد.
    اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  3. في حالة تواريخ الاستيراد، اختر الأمازون S3.
    اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  4. حدد موقع الملف في Amazon S3 واختر استيراد.
    اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

بعد الاستيراد ، يمكننا الانتقال إلى تدفق البيانات.

اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

احصل على رؤى البيانات

في هذه الخطوة ، نقوم بإنشاء تقرير رؤى البيانات الذي يتضمن معلومات حول جودة البيانات. لمزيد من المعلومات ، يرجى الرجوع إلى احصل على رؤى حول جودة البيانات والبيانات. أكمل الخطوات التالية:

  1. على تدفق البيانات علامة التبويب ، اختر علامة الجمع الموجودة بجانب أنواع البيانات.
  2. اختار احصل على رؤى البيانات.
    اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  3. في حالة نوع التحليل، اختر تقرير الرؤى وجودة البيانات.
  4. لهذا المنصب ، اترك العمود الهدف و نوع المشكلة فارغ إذا كنت تخطط لاستخدام مجموعة البيانات الخاصة بك لمهمة انحدار أو تصنيف مع ميزة هدف ، يمكنك تحديد هذه الخيارات وسيتضمن التقرير تحليلاً حول كيفية ارتباط ميزات الإدخال الخاصة بك بهدفك. على سبيل المثال ، يمكن أن تنتج تقارير عن التسرب الهدف. لمزيد من المعلومات ، يرجى الرجوع إلى العمود الهدف.
  5. اختار إنشاء.
    اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

لدينا الآن تقرير جودة البيانات وإحصاءات البيانات. إذا مررنا لأسفل إلى ملف SKU في القسم ، يمكننا أن نرى مثالاً لتعلم الأنماط يصف SKU. يبدو أن هذه الميزة تحتوي على بعض البيانات غير الصالحة ، ويلزم إجراء معالجة قابلة للتنفيذ.

اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

قبل أن نقوم بتنظيف ميزة SKU ، دعنا ننتقل لأعلى إلى ملف العلامات التجارية لرؤية المزيد من الأفكار. هنا نرى نمطين تم اكتشافهما ، مما يشير إلى أن غالبية الأسماء التجارية عبارة عن كلمات مفردة تتكون من أحرف كلمة أو أحرف أبجدية. أ حرف كلمة هي إما شرطة سفلية أو حرف قد يظهر في كلمة بأي لغة. على سبيل المثال ، الأوتار Hello_world و écoute كلاهما يتكون من أحرف كلمة: H و é.

بالنسبة لهذا المنشور ، لا نقوم بتنظيف هذه الميزة.

اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

عرض رؤى التعلم النمط

دعنا نعود إلى تنظيف SKU ونقوم بتكبير النمط ورسالة التحذير.

كما هو موضح في لقطة الشاشة التالية ، يُظهر تعلم الأنماط نمطًا عالي الدقة يطابق 97.78٪ من البيانات. يعرض أيضًا بعض الأمثلة المطابقة للنمط بالإضافة إلى الأمثلة التي لا تتطابق مع النمط. في غير المطابقات ، نرى بعض رموز التخزين التعريفية غير الصالحة.

اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

بالإضافة إلى الأنماط الظاهرة ، قد يظهر تحذير يشير إلى إجراء محتمل لتنظيف البيانات إذا كان هناك نمط دقة عالية بالإضافة إلى بعض البيانات التي لا تتوافق مع النمط.

اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

يمكننا حذف البيانات غير الصالحة. إذا اخترنا (النقر بزر الماوس الأيمن) على التعبير العادي ، فيمكننا نسخ التعبير [A-Z]{3}-[0-9]{4,5}.

إزالة البيانات غير الصالحة

لنقم بإنشاء تحويل لحذف البيانات غير المطابقة التي لا تتطابق مع هذا النمط.

  1. على تدفق البيانات علامة التبويب ، اختر علامة الجمع الموجودة بجانب أنواع البيانات.
  2. اختار أضف التحويل.
    اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  3. اختار أضف خطوة.
  4. البحث عن regex واختر بحث وتحرير.
    اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
  5. في حالة تحول، اختر تحويل غير المطابقات إلى المفقودين.
  6. في حالة أعمدة الإدخال، اختر SKU.
  7. في حالة نمط، أدخل تعبيرنا النمطي.
  8. اختار أرسال، ثم اختر أضف.
    اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
    الآن تمت إزالة البيانات الدخيلة من الميزات.
  9. لإزالة الصفوف ، أضف الخطوة التعامل مع المفقودين واختيار التحويل إسقاط في عداد المفقودين.
  10. اختار SKU كعمود الإدخال.
    اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

نعود إلى تدفق البيانات لدينا مع إزالة البيانات الخاطئة.

اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

وفي الختام

في هذا المنشور ، أوضحنا لك كيفية استخدام ميزة تعلم الأنماط في رؤى البيانات للعثور على بيانات نصية غير صالحة في مجموعة البيانات الخاصة بك ، وكذلك كيفية تصحيح هذه البيانات أو حذفها.

الآن بعد أن قمت بتنظيف عمود نصي ، يمكنك تصور مجموعة البيانات الخاصة بك باستخدام ملف تحليل أو يمكنك التقديم تحولات مدمجة لمزيد من معالجة بياناتك. عندما تكون راضيًا عن بياناتك ، يمكنك ذلك تدريب نموذج مع Amazon SageMaker الطيار الآليالطرق أو تصدير البيانات الخاصة بك إلى مصدر بيانات مثل Amazon S3.

نود أن نشكر نيكيتا إيفكين لمراجعته المتعمقة.


عن المؤلفين

اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.فيشال كابور هو عالم تطبيقي أقدم مع AWS AI. إنه متحمس لمساعدة العملاء على فهم بياناتهم في Data Wrangler. في أوقات فراغه ، يقوم بالدراجات الجبلية وألواح التزلج على الجليد ويقضي الوقت مع عائلته.

اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.زوهار كارنين هو عالم رئيسي في Amazon AI. تتركز اهتماماته البحثية في مجالات خوارزميات التعلم الآلي واسعة النطاق عبر الإنترنت. قام بتطوير خوارزميات التعلم الآلي القابلة للتطوير بشكل لا نهائي لـ Amazon SageMaker.

اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.أجاي شارما هو مدير المنتج الرئيسي في Amazon SageMaker حيث يركز على Data Wrangler ، وهي أداة لإعداد البيانات المرئية لعلماء البيانات. قبل AWS ، كان Ajai خبيرًا في علوم البيانات في شركة McKinsey and Company ، حيث قاد المشاركات التي تركز على ML لشركات التمويل والتأمين الرائدة في جميع أنحاء العالم. أجاي شغوف بعلوم البيانات ويحب استكشاف أحدث الخوارزميات وتقنيات التعلم الآلي.

اكتشف الأنماط في البيانات النصية باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي. ديريك بارون هو مدير تطوير البرامج في Amazon SageMaker Data Wrangler

الطابع الزمني:

اكثر من التعلم الآلي من AWS