قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

أعد تركيب المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler

أمازون سيج ميكر داتا رانجلر يساعدك على فهم البيانات وتجميعها وتحويلها وإعدادها للتعلم الآلي (ML) من واجهة مرئية واحدة. يحتوي على أكثر من 300 تحويل بيانات مدمج بحيث يمكنك تطبيع الميزات وتحويلها ودمجها بسرعة دون الحاجة إلى كتابة أي رمز.

يقوم ممارسو علوم البيانات بإنشاء البيانات ومراقبتها ومعالجتها لحل مشاكل العمل حيث يحتاجون إلى تحويل واستخراج الميزات من مجموعات البيانات. تتعلم التحولات مثل الترميز الترتيبي أو الترميز الواحد الساخن الترميز على مجموعة البيانات الخاصة بك. يشار إلى هذه المخرجات المشفرة على أنها معلمات مدربة. نظرًا لأن مجموعات البيانات تتغير بمرور الوقت ، فقد يكون من الضروري تجديد الترميز على البيانات غير المرئية سابقًا للحفاظ على تدفق التحويل وثيق الصلة ببياناتك.

نحن متحمسون للإعلان عن ميزة المعلمة المدربة ، والتي تتيح لك استخدام المعلمات المدربة السابقة وتجديدها حسب الرغبة. في هذا المنشور ، نوضح كيفية استخدام هذه الميزة.

نظرة عامة على ميزة تجديد رانجلر البيانات

نوضح كيف تعمل هذه الميزة مع المثال التالي ، قبل أن نتعمق في تفاصيل ميزة المعلمة المدربة المجددة.

افترض أن مجموعة بيانات العميل لديها ميزة فئوية لـ country ممثلة كسلاسل مثل Australia و Singapore. تتطلب خوارزميات ML مدخلات رقمية ؛ لذلك ، يجب ترميز هذه القيم الفئوية إلى قيم رقمية. ترميز البيانات الفئوية هو عملية إنشاء تمثيل رقمي للفئات. على سبيل المثال ، إذا كان بلد فئتك يحتوي على قيم Australia و Singapore، يمكنك ترميز هذه المعلومات إلى متجهين: [1 ، 0] للتمثيل Australia و [0 ، 1] للتمثيل Singapore. التحويل المستخدم هنا هو ترميز واحد ساخن ويعكس الإخراج المشفر الجديد المعلمات المدربة.

بعد تدريب النموذج ، قد يزداد عملاؤك بمرور الوقت ويكون لديك المزيد من القيم المميزة في قائمة البلدان. يمكن أن تحتوي مجموعة البيانات الجديدة على فئة أخرى ، India، والتي لم تكن جزءًا من مجموعة البيانات الأصلية ، والتي يمكن أن تؤثر على دقة النموذج. لذلك ، من الضروري إعادة تدريب نموذجك بالبيانات الجديدة التي تم جمعها بمرور الوقت.

للتغلب على هذه المشكلة ، تحتاج إلى تحديث الترميز لتضمين الفئة الجديدة وتحديث تمثيل المتجه وفقًا لأحدث مجموعة بيانات لديك. في مثالنا ، يجب أن يعكس التشفير الفئة الجديدة لملف country، والذي هو India. نشير عادة إلى عملية تحديث الترميز هذه كعملية تجديد. بعد إجراء عملية التجديد ، تحصل على الترميز الجديد: Australia: [1 ، 0 ، 0] ، Singapore: [0 ، 1 ، 0] ، و India: [0 ، 0 ، 1]. يؤدي تجديد الترميز الأحادي الساخن ثم إعادة تدريب النموذج على مجموعة البيانات الجديدة إلى تنبؤات جودة أفضل.

ميزة معلمة Data Wrangler المدربة المجددة مفيدة في الحالات التالية:

  • يتم إضافة البيانات الجديدة إلى مجموعة البيانات - من الضروري إعادة تدريب نموذج ML عندما يتم إثراء مجموعة البيانات ببيانات جديدة. لتحقيق أفضل النتائج ، نحتاج إلى تجديد المعلمات المدربة في مجموعة البيانات الجديدة.
  • التدريب على مجموعة بيانات كاملة بعد إجراء هندسة الميزات على بيانات نموذجية - بالنسبة لمجموعة البيانات الكبيرة ، يتم أخذ عينة من مجموعة البيانات في الاعتبار لتعلم المعلمات المدربة ، والتي قد لا تمثل مجموعة البيانات بأكملها. نحتاج إلى إعادة تعلم المعلمات المدربة على مجموعة البيانات الكاملة.

فيما يلي بعض تحويلات Data Wrangler الأكثر شيوعًا التي يتم إجراؤها على مجموعة البيانات التي تستفيد من خيار المعلمة المدربة المجددة:

لمزيد من المعلومات حول التحولات في Data Wrangler ، راجع تحويل البيانات.

في هذا المنشور ، نوضح كيفية معالجة هذه المعلمات المدربة على مجموعات البيانات باستخدام Data Wrangler. يمكنك استخدام تدفقات Data Wrangler في وظائف الإنتاج لإعادة معالجة بياناتك أثناء نموها وتغيرها.

حل نظرة عامة

بالنسبة لهذا المنشور ، نوضح كيفية استخدام ميزة المعلمة المدربة المجددة الخاصة بـ Data Wrangler مع مجموعة البيانات المتاحة للجمهور على Kaggle: بيانات الإسكان الأمريكية من Zillow ، عقارات للبيع في الولايات المتحدة. لديها أسعار بيع المنازل عبر التوزيعات الجغرافية المختلفة للمنازل.

يوضح الرسم البياني التالي البنية عالية المستوى لـ Data Wrangler باستخدام ميزة المعلمة المدربة المجددة. نعرض أيضًا التأثير على جودة البيانات بدون المعلمة المدربة المجددة وتناقض النتائج في النهاية.

يتضمن سير العمل الخطوات التالية:

  1. قم بإجراء تحليل استكشافي للبيانات - إنشاء تدفق جديد على Data Wrangler لبدء تحليل البيانات الاستكشافية (EDA). استيراد بيانات الأعمال لفهم بياناتك وتنظيفها وتجميعها وتحويلها وإعدادها للتدريب. تشير إلى استكشف إمكانيات Amazon SageMaker Data Wrangler باستخدام نماذج مجموعات البيانات لمزيد من التفاصيل حول أداء EDA مع Data Wrangler.
  2. قم بإنشاء وظيفة معالجة البيانات - تصدر هذه الخطوة جميع التحويلات التي أجريتها على مجموعة البيانات كملف تدفق مخزّن في ملف خدمة تخزين أمازون البسيطة موقع (Amazon S3). تقوم وظيفة معالجة البيانات مع ملف التدفق الذي تم إنشاؤه بواسطة Data Wrangler بتطبيق التحويلات والمعلمات المدربة التي تم تعلمها في مجموعة البيانات الخاصة بك. عند اكتمال مهمة معالجة البيانات ، يتم تحميل ملفات الإخراج إلى موقع Amazon S3 الذي تم تكوينه في العقدة الوجهة. لاحظ أنه يتم إيقاف تشغيل خيار التجديد افتراضيًا. كبديل لتنفيذ مهمة المعالجة على الفور ، يمكنك أيضًا جدولة مهمة المعالجة في بضع نقرات باستخدام Data Wrangler - إنشاء وظيفة للتشغيل في أوقات محددة.
  3. قم بإنشاء مهمة معالجة البيانات باستخدام ميزة المعلمة المدربة المجددة - حدد ميزة المعلمة الجديدة التي تم تجديدها أثناء إنشاء الوظيفة لفرض إعادة تعلم المعلمات المدربة على مجموعة البيانات الكاملة أو المعززة. وفقًا لتكوين موقع Amazon S3 لتخزين ملف التدفق ، تقوم مهمة معالجة البيانات بإنشاء ملف التدفق الجديد أو تحديثه. إذا قمت بتكوين نفس موقع Amazon S3 كما في الخطوة 2 ، تقوم مهمة معالجة البيانات بتحديث ملف التدفق الذي تم إنشاؤه في الخطوة 2 ، والذي يمكن استخدامه للحفاظ على تدفقك وثيق الصلة ببياناتك. عند الانتهاء من مهمة المعالجة ، يتم تحميل ملفات الإخراج إلى حاوية S3 المكونة للعقدة الوجهة. يمكنك استخدام التدفق المحدث على مجموعة البيانات بأكملها لسير عمل الإنتاج.

المتطلبات الأساسية المسبقة

قبل البدء ، قم بتحميل مجموعة البيانات إلى حاوية S3 ، ثم قم باستيرادها إلى Data Wrangler. للحصول على تعليمات ، راجع استيراد البيانات من Amazon S3.

دعنا الآن نتصفح الخطوات المذكورة في الرسم التخطيطي للهندسة المعمارية.

أداء EDA في داتا رانجلر

لتجربة ميزة المعلمة المدربة المجددة ، قم بإعداد التحليل والتحول التاليين في Data Wrangler. في نهاية إعداد EDA ، ينشئ Data Wrangler ملف تدفق تم التقاطه باستخدام معلمات مدربة من مجموعة البيانات.

  1. أنشئ تدفقًا جديدًا في Amazon SageMaker Data Wrangler لتحليل البيانات الاستكشافية.
  2. قم باستيراد بيانات الأعمال التي قمت بتحميلها إلى Amazon S3.
  3. يمكنك معاينة البيانات والخيارات لاختيار نوع الملف والمحدد وأخذ العينات وما إلى ذلك. في هذا المثال ، نستخدم الامتداد أول ك خيار أخذ العينات الذي توفره Data Wrangler لاستيراد أول 50,000 سجل من مجموعة البيانات.
  4. اختار استيراد.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

  1. بعد التحقق من مطابقة نوع البيانات المطبقة بواسطة Data Wrangler ، أضف تحليلًا جديدًا.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

  1. في حالة نوع التحليل، اختر تقرير الرؤى وجودة البيانات.
  2. اختار إنشاء.

باستخدام تقرير جودة البيانات والرؤى ، تحصل على ملخص موجز لمجموعة البيانات بمعلومات عامة مثل القيم المفقودة والقيم غير الصالحة وأنواع الميزات والأعداد الخارجة والمزيد. يمكنك اختيار الميزات property_type و city لتطبيق التحويلات على مجموعة البيانات لفهم ميزة المعلمة المدربة المجددة.

دعونا نركز على الميزة property_type من مجموعة البيانات. في التقرير تفاصيل الميزة في القسم ، يمكنك مشاهدة ملفات property_type، وهي ميزة فئوية ، وست قيم فريدة مشتقة من مجموعة بيانات 50,000 عينة بواسطة Data Wrangler. قد تحتوي مجموعة البيانات الكاملة على المزيد من الفئات للميزة property_type. بالنسبة للميزة ذات القيم الفريدة المتعددة ، قد تفضل الترميز الترتيبي. إذا كانت الميزة تحتوي على عدد قليل من القيم الفريدة ، فيمكن استخدام نهج ترميز واحد ساخن. في هذا المثال ، اخترنا تشغيل الترميز الساخن property_type.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

وبالمثل ، بالنسبة لـ city الميزة ، وهي نوع بيانات نصية تحتوي على عدد كبير من القيم الفريدة ، فلنطبق الترميز الترتيبي على هذه الميزة.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

  1. انتقل إلى تدفق البيانات رانجلر ، واختر علامة الجمع ، واختر أضف التحويل.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

  1. اختيار تشفير قاطع خيار لتحويل الميزات الفئوية.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

من تقرير جودة البيانات والرؤى ، ميزة property_type يعرض ست فئات فريدة: CONDO, LOT, MANUFACTURED, SINGLE_FAMILY, MULTI_FAMILYو TOWNHOUSE.

  1. في حالة تحول، اختر تشفير واحد ساخن.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

بعد تطبيق ترميز واحد ساخن على الميزة property_type، يمكنك معاينة جميع الفئات الست كميزات منفصلة تمت إضافتها كأعمدة جديدة. لاحظ أنه تم أخذ عينات من 50,000 سجل من مجموعة البيانات الخاصة بك لإنشاء هذه المعاينة. أثناء تشغيل وظيفة معالجة Data Wrangler بهذا التدفق ، يتم تطبيق هذه التحويلات على مجموعة البيانات بأكملها.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

  1. أضف تحويلًا جديدًا واختر تشفير قاطع لتطبيق تحويل على الميزة city، والتي تحتوي على عدد أكبر من القيم النصية الفئوية الفريدة.
  2. لترميز هذه الميزة في تمثيل رقمي ، اختر ترميز ترتيبي For تحول.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

  1. اختر معاينة في هذا التحويل.

يمكنك أن ترى أن الميزة الفئوية city يتم تعيينها للقيم الترتيبية في عمود الإخراج e_city.

  1. أضف هذه الخطوة عن طريق الاختيار تحديث.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

  1. يمكنك تعيين الوجهة على Amazon S3 لتخزين التحويلات المطبقة على مجموعة البيانات لإنشاء الإخراج كملف CSV.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

يقوم Data Wrangler بتخزين سير العمل الذي حددته في واجهة المستخدم كملف تدفق ويتم تحميله إلى موقع Amazon S3 الخاص بوظيفة معالجة البيانات التي تم تكوينها. يتم استخدام ملف التدفق هذا عند إنشاء مهام معالجة Data Wrangler لتطبيق التحويلات على مجموعات بيانات أكبر ، أو لتحويل بيانات التعزيز الجديدة لإعادة تدريب النموذج.

قم بتشغيل مهمة معالجة بيانات Data Wrangler بدون تمكين التجديد

يمكنك الآن معرفة كيف يستخدم خيار التجديد المعلمات المدربة على مجموعات البيانات الجديدة. في هذا العرض التوضيحي ، نحدد وظيفتين لمعالجة Data Wrangler تعملان على نفس البيانات. لن تمكن مهمة المعالجة الأولى من التجديد ؛ لوظيفة المعالجة الثانية ، نستخدم تجديد. نقارن الآثار في النهاية.

  1. اختار خلق وظيفة لبدء مهمة معالجة البيانات مع Data Wrangler.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

  1. في حالة اسم العمل، إدخال اسم.
  2. تحت المعلمات المدربة، لا تحدد رمم.
  3. اختار تكوين الوظيفة.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

  1. قم بتكوين معلمات الوظيفة مثل أنواع المثيل وحجم الحجم وموقع Amazon S3 لتخزين ملف تدفق الإخراج.
  2. ينشئ Data Wrangler ملف تدفق في موقع ملف التدفق S3. يستخدم التدفق تحويلات لتدريب المعلمات ، ثم نستخدم خيار التجديد لاحقًا لإعادة تدريب هذه المعلمات.
  3. اختار إنشاء.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

انتظر حتى تكتمل مهمة معالجة البيانات لرؤية البيانات المحولة في حاوية S3 المكونة في العقدة الوجهة.

قم بتشغيل مهمة معالجة بيانات Data Wrangler مع تمكين التجديد

دعنا ننشئ وظيفة معالجة أخرى ممكّنة مع تمكين ميزة المعلمة المدربة المجددة. يفرض هذا الخيار المعلمات المدربة التي تم إعادة تعلمها على مجموعة البيانات بأكملها. عند اكتمال مهمة معالجة البيانات هذه ، يتم إنشاء ملف تدفق أو تحديثه إلى موقع Amazon S3 الذي تم تكوينه.

  1. اختار خلق وظيفة.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

  1. في حالة اسم العمل، إدخال اسم.
  2. في حالة المعلمات المدربة، حدد رمم.
  3. إذا اخترت المزيد، يمكنك مراجعة جميع المعلمات المدربة.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

  1. اختار تكوين الوظيفة.
  2. أدخل موقع ملف تدفق Amazon S3.
  3. اختار إنشاء.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

انتظر حتى تكتمل مهمة معالجة البيانات.

ارجع إلى حاوية S3 المكونة في العقدة الوجهة لعرض البيانات التي تم إنشاؤها بواسطة مهمة معالجة البيانات التي تقوم بتشغيل التحويلات المحددة.

تصدير إلى كود Python لتشغيل مهام معالجة Data Wrangler

كبديل لبدء مهام المعالجة باستخدام خيار إنشاء وظيفة في Data Wrangler ، يمكنك تشغيل مهام معالجة البيانات عن طريق تصدير تدفق Data Wrangler إلى دفتر ملاحظات Jupyter. يقوم Data Wrangler بإنشاء دفتر Jupyter مع المدخلات والمخرجات ومعالجة تكوينات المهام ورمز لفحص حالة المهمة. يمكنك تغيير أو تحديث المعلمات وفقًا لمتطلبات تحويل البيانات الخاصة بك.

  1. اختر علامة الجمع بجانب النهائي تحول العقدة.
  2. اختار تصدير لو Amazon S3 (عبر دفتر Jupyter).

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

يمكنك رؤية دفتر Jupyter مفتوحًا مع المدخلات والمخرجات ومعالجة تكوينات المهمة ورمز لفحص حالة الوظيفة.

  1. لفرض خيار تجديد المعلمات المدربة عبر الكود ، اضبط refit المعلمة ل True.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.قارن نتائج مهمة معالجة البيانات

بعد اكتمال مهام معالجة Data Wrangler ، يجب إنشاء تدفقين جديدين من Data Wrangler مع الإخراج الناتج عن مهام معالجة البيانات المخزنة في وجهة Amazon S3 المكونة.

يمكنك الرجوع إلى الموقع الذي تم تكوينه في مجلد الوجهة Amazon S3 لمراجعة مخرجات مهام معالجة البيانات.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

لفحص نتائج مهمة المعالجة ، قم بإنشاء مسارين جديدين لبيانات Wrangler باستخدام تقرير جودة البيانات والرؤى لمقارنة نتائج التحويل.

  1. أنشئ تدفقًا جديدًا في Amazon SageMaker Data Wrangler.
  2. قم باستيراد مهمة معالجة البيانات بدون إعادة تجهيز ملف الإخراج من Amazon S3.
  3. أضف تحليلًا جديدًا.
  4. في حالة نوع التحليل، اختر تقرير الرؤى وجودة البيانات.
  5. اختار إنشاء.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.
قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

كرر الخطوات المذكورة أعلاه وأنشئ تدفق بيانات جديد لتحليل مخرجات مهمة معالجة البيانات مع تمكين التجديد.

الآن دعونا نلقي نظرة على مخرجات معالجة الوظائف لهذه الميزة property_type باستخدام تقارير جودة البيانات والرؤى. قم بالتمرير إلى تفاصيل الميزة في قائمة تقارير البيانات والرؤى feature_type.

أعادت وظيفة معالجة المعلمات المدربة المُجددة تجهيز المعلمات المدربة على مجموعة البيانات بأكملها وترميز القيمة الجديدة APARTMENT بسبع قيم مميزة في مجموعة البيانات الكاملة.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

طبقت وظيفة المعالجة العادية المعلمات المدربة لمجموعة البيانات النموذجية ، والتي تحتوي فقط على ست قيم مميزة لـ property_type خاصية. للحصول على بيانات بامتداد feature_type APARTMENTأطلقت حملة استراتيجية معالجة غير صالحة يتم تطبيق Skip ولا تتعلم وظيفة معالجة البيانات هذه الفئة الجديدة. لقد تخطى الترميز الساخن واحد هذه الفئة الجديدة الموجودة في البيانات الجديدة ، ويتخطى الترميز الفئة APARTMENT.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

دعنا الآن نركز على ميزة أخرى ، city. لقد أعادت وظيفة معالجة المعلمات المدربة المجددة تعلم جميع القيم المتاحة لـ city ميزة ، مع الأخذ في الاعتبار البيانات الجديدة.

كما هو مبين في ملخص الميزة من التقرير ، عمود الميزة المشفرة الجديدة e_city يحتوي على معلمات صالحة بنسبة 100 ٪ باستخدام ميزة المعلمة المدربة المجددة.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

في المقابل ، تحتوي مهمة المعالجة العادية على 82.4٪ من القيم المفقودة في عمود الميزة المشفرة الجديدة e_city. ترجع هذه الظاهرة إلى أنه يتم تطبيق مجموعة عينة من المعلمات المدربة المكتسبة فقط على مجموعة البيانات الكاملة ولا يتم تطبيق أي تجديد بواسطة وظيفة معالجة البيانات.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

تصور الرسوم البيانية التالية الميزة الترتيبية المشفرة e_city. الرسم البياني الأول للميزة التي تم تحويلها باستخدام خيار التجديد.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

الرسم البياني التالي هو للميزة التي تم تحويلها بدون خيار التجديد. يُظهر العمود البرتقالي القيم المفقودة (NaN) في تقرير جودة البيانات والرؤى. يتم استبدال القيم الجديدة التي لم يتم التعرف عليها من نموذج مجموعة البيانات على أنها ليست رقمًا (NaN) كما تم تكوينها في واجهة مستخدم Data Wrangler استراتيجية معالجة غير صالحة.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

أعادت مهمة معالجة البيانات باستخدام المعلمة المدربة المُجددة تعلم ملف property_type و city الميزات التي تراعي القيم الجديدة من مجموعة البيانات بأكملها. بدون المعلمة المدربة المجددة ، تستخدم وظيفة معالجة البيانات فقط المعلمات المدربة مسبقًا لمجموعة البيانات التي تم أخذ عينات منها. ثم يقوم بتطبيقها على البيانات الجديدة ، لكن القيم الجديدة لا تؤخذ في الاعتبار للتشفير. سيكون لهذا آثار على دقة النموذج.

تنظيف

عندما لا تستخدم Data Wrangler ، فمن المهم إغلاق المثيل الذي يتم تشغيله عليه لتجنب تكبد رسوم إضافية.

لتجنب فقدان العمل ، احفظ تدفق البيانات قبل إيقاف تشغيل Data Wrangler.

  1. لحفظ تدفق البيانات الخاصة بك في أمازون ساجميكر ستوديو، اختر قم بتقديم، ثم اختر حفظ تدفق رانجلر البيانات. يقوم Data Wrangler تلقائيًا بحفظ تدفق البيانات الخاصة بك كل 60 ثانية.
  2. لإغلاق مثيل Data Wrangler ، في Studio ، اختر تشغيل المثيلات والنواة.
  3. تحت تشغيل التطبيقات، اختر رمز إيقاف التشغيل بجوار تطبيق sagemaker-data-wrangler-1.0.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

  1. اختار اغلاق كل شيء للتأكيد.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

يعمل Data Wrangler على مثيل ml.m5.4xlarge. يختفي هذا المثال من جريان الجري عند إغلاق تطبيق Data Wrangler.

بعد إغلاق تطبيق Data Wrangler ، يجب إعادة تشغيله في المرة التالية التي تفتح فيها ملف تدفق Data Wrangler. وهذا يمكن أن يستغرق بضع دقائق.

وفي الختام

في هذا المنشور ، قدمنا ​​نظرة عامة على ميزة المعلمة المدربة المجددة في Data Wrangler. باستخدام هذه الميزة الجديدة ، يمكنك تخزين المعلمات المدربة في تدفق Data Wrangler ، وتستخدم وظائف معالجة البيانات المعلمات المدربة لتطبيق التحويلات التي تم تعلمها على مجموعات البيانات الكبيرة أو مجموعات بيانات التعزيز. يمكنك تطبيق هذا الخيار على Vectorizing ميزات النص والبيانات الرقمية والتعامل مع القيم المتطرفة.

يؤدي الحفاظ على المعلمات المدربة خلال معالجة البيانات في دورة حياة ML إلى تبسيط وتقليل خطوات معالجة البيانات ، ويدعم هندسة الميزات القوية ، ويدعم تدريب النموذج والتدريب التعزيزي على البيانات الجديدة.

نحن نشجعك على تجربة هذه الميزة الجديدة لمتطلبات معالجة البيانات الخاصة بك.


عن المؤلفين

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي. هاريهاران سوريش هو مهندس حلول أول في AWS. إنه شغوف بقواعد البيانات والتعلم الآلي وتصميم الحلول المبتكرة. قبل انضمامه إلى AWS ، كان Hariharan مهندسًا للمنتجات ، ومتخصصًا في تنفيذ الخدمات المصرفية الأساسية ، ومطورًا ، وعمل مع مؤسسات BFSI لأكثر من 11 عامًا. بعيدًا عن التكنولوجيا ، فهو يستمتع بالطيران المظلي وركوب الدراجات.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.سانتوش كولكارني هو مهندس حلول المؤسسات في Amazon Web Services ويعمل مع العملاء الرياضيين في أستراليا. إنه متحمس لبناء تطبيقات موزعة على نطاق واسع لحل مشاكل الأعمال باستخدام معرفته في الذكاء الاصطناعي / التعلم الآلي والبيانات الضخمة وتطوير البرمجيات.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.فيشال كابور هو عالم تطبيقي أقدم مع AWS AI. إنه متحمس لمساعدة العملاء على فهم بياناتهم في Data Wrangler. في أوقات فراغه ، يقوم بالدراجات الجبلية وألواح التزلج على الجليد ويقضي الوقت مع عائلته.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.أنيكيث مانجوناث هو مهندس تطوير برمجيات في Amazon SageMaker. يساعد في دعم Amazon SageMaker Data Wrangler وهو متحمس لأنظمة التعلم الآلي الموزعة. خارج العمل ، يستمتع بالتنزه ومشاهدة الأفلام ولعب الكريكيت.

الطابع الزمني:

اكثر من التعلم الآلي من AWS