قم بإعادة ضبط المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler

أعاد نشره أفلاطون

المتابعون: 0

أمازون سيج ميكر داتا رانجلر يساعدك على فهم البيانات وتجميعها وتحويلها وإعدادها للتعلم الآلي (ML) من واجهة مرئية واحدة. يحتوي على أكثر من 300 تحويل بيانات مدمج بحيث يمكنك تطبيع الميزات وتحويلها ودمجها بسرعة دون الحاجة إلى كتابة أي رمز.

يقوم ممارسو علوم البيانات بإنشاء البيانات ومراقبتها ومعالجتها لحل مشاكل العمل حيث يحتاجون إلى تحويل واستخراج الميزات من مجموعات البيانات. تتعلم التحولات مثل الترميز الترتيبي أو الترميز الواحد الساخن الترميز على مجموعة البيانات الخاصة بك. يشار إلى هذه المخرجات المشفرة على أنها معلمات مدربة. نظرًا لأن مجموعات البيانات تتغير بمرور الوقت ، فقد يكون من الضروري تجديد الترميز على البيانات غير المرئية سابقًا للحفاظ على تدفق التحويل وثيق الصلة ببياناتك.

نحن متحمسون للإعلان عن ميزة المعلمة المدربة ، والتي تتيح لك استخدام المعلمات المدربة السابقة وتجديدها حسب الرغبة. في هذا المنشور ، نوضح كيفية استخدام هذه الميزة.

نظرة عامة على ميزة تجديد رانجلر البيانات

نوضح كيف تعمل هذه الميزة مع المثال التالي ، قبل أن نتعمق في تفاصيل ميزة المعلمة المدربة المجددة.

افترض أن مجموعة بيانات العميل لديها ميزة فئوية لـ country ممثلة كسلاسل مثل Australia و Singapore. تتطلب خوارزميات ML مدخلات رقمية ؛ لذلك ، يجب ترميز هذه القيم الفئوية إلى قيم رقمية. ترميز البيانات الفئوية هو عملية إنشاء تمثيل رقمي للفئات. على سبيل المثال ، إذا كان بلد فئتك يحتوي على قيم Australia و Singapore، يمكنك ترميز هذه المعلومات إلى متجهين: [1 ، 0] للتمثيل Australia و [0 ، 1] للتمثيل Singapore. التحويل المستخدم هنا هو ترميز واحد ساخن ويعكس الإخراج المشفر الجديد المعلمات المدربة.

بعد تدريب النموذج ، قد يزداد عملاؤك بمرور الوقت ويكون لديك المزيد من القيم المميزة في قائمة البلدان. يمكن أن تحتوي مجموعة البيانات الجديدة على فئة أخرى ، India، والتي لم تكن جزءًا من مجموعة البيانات الأصلية ، والتي يمكن أن تؤثر على دقة النموذج. لذلك ، من الضروري إعادة تدريب نموذجك بالبيانات الجديدة التي تم جمعها بمرور الوقت.

للتغلب على هذه المشكلة ، تحتاج إلى تحديث الترميز لتضمين الفئة الجديدة وتحديث تمثيل المتجه وفقًا لأحدث مجموعة بيانات لديك. في مثالنا ، يجب أن يعكس التشفير الفئة الجديدة لملف country، والذي هو India. نشير عادة إلى عملية تحديث الترميز هذه كعملية تجديد. بعد إجراء عملية التجديد ، تحصل على الترميز الجديد: Australia: [1 ، 0 ، 0] ، Singapore: [0 ، 1 ، 0] ، و India: [0 ، 0 ، 1]. يؤدي تجديد الترميز الأحادي الساخن ثم إعادة تدريب النموذج على مجموعة البيانات الجديدة إلى تنبؤات جودة أفضل.

ميزة معلمة Data Wrangler المدربة المجددة مفيدة في الحالات التالية:

يتم إضافة البيانات الجديدة إلى مجموعة البيانات - من الضروري إعادة تدريب نموذج ML عندما يتم إثراء مجموعة البيانات ببيانات جديدة. لتحقيق أفضل النتائج ، نحتاج إلى تجديد المعلمات المدربة في مجموعة البيانات الجديدة.
التدريب على مجموعة بيانات كاملة بعد إجراء هندسة الميزات على بيانات نموذجية - بالنسبة لمجموعة البيانات الكبيرة ، يتم أخذ عينة من مجموعة البيانات في الاعتبار لتعلم المعلمات المدربة ، والتي قد لا تمثل مجموعة البيانات بأكملها. نحتاج إلى إعادة تعلم المعلمات المدربة على مجموعة البيانات الكاملة.

فيما يلي بعض تحويلات Data Wrangler الأكثر شيوعًا التي يتم إجراؤها على مجموعة البيانات التي تستفيد من خيار المعلمة المدربة المجددة:

لمزيد من المعلومات حول التحولات في Data Wrangler ، راجع تحويل البيانات.

في هذا المنشور ، نوضح كيفية معالجة هذه المعلمات المدربة على مجموعات البيانات باستخدام Data Wrangler. يمكنك استخدام تدفقات Data Wrangler في وظائف الإنتاج لإعادة معالجة بياناتك أثناء نموها وتغيرها.

حل نظرة عامة

بالنسبة لهذا المنشور ، نوضح كيفية استخدام ميزة المعلمة المدربة المجددة الخاصة بـ Data Wrangler مع مجموعة البيانات المتاحة للجمهور على Kaggle: بيانات الإسكان الأمريكية من Zillow ، عقارات للبيع في الولايات المتحدة. لديها أسعار بيع المنازل عبر التوزيعات الجغرافية المختلفة للمنازل.

يوضح الرسم البياني التالي البنية عالية المستوى لـ Data Wrangler باستخدام ميزة المعلمة المدربة المجددة. نعرض أيضًا التأثير على جودة البيانات بدون المعلمة المدربة المجددة وتناقض النتائج في النهاية.

يتضمن سير العمل الخطوات التالية:

قم بإجراء تحليل استكشافي للبيانات - إنشاء تدفق جديد على Data Wrangler لبدء تحليل البيانات الاستكشافية (EDA). استيراد بيانات الأعمال لفهم بياناتك وتنظيفها وتجميعها وتحويلها وإعدادها للتدريب. تشير إلى استكشف إمكانيات Amazon SageMaker Data Wrangler باستخدام نماذج مجموعات البيانات لمزيد من التفاصيل حول أداء EDA مع Data Wrangler.
قم بإنشاء وظيفة معالجة البيانات - تصدر هذه الخطوة جميع التحويلات التي أجريتها على مجموعة البيانات كملف تدفق مخزّن في ملف خدمة تخزين أمازون البسيطة موقع (Amazon S3). تقوم وظيفة معالجة البيانات مع ملف التدفق الذي تم إنشاؤه بواسطة Data Wrangler بتطبيق التحويلات والمعلمات المدربة التي تم تعلمها في مجموعة البيانات الخاصة بك. عند اكتمال مهمة معالجة البيانات ، يتم تحميل ملفات الإخراج إلى موقع Amazon S3 الذي تم تكوينه في العقدة الوجهة. لاحظ أنه يتم إيقاف تشغيل خيار التجديد افتراضيًا. كبديل لتنفيذ مهمة المعالجة على الفور ، يمكنك أيضًا جدولة مهمة المعالجة في بضع نقرات باستخدام Data Wrangler - إنشاء وظيفة للتشغيل في أوقات محددة.
قم بإنشاء مهمة معالجة البيانات باستخدام ميزة المعلمة المدربة المجددة - حدد ميزة المعلمة الجديدة التي تم تجديدها أثناء إنشاء الوظيفة لفرض إعادة تعلم المعلمات المدربة على مجموعة البيانات الكاملة أو المعززة. وفقًا لتكوين موقع Amazon S3 لتخزين ملف التدفق ، تقوم مهمة معالجة البيانات بإنشاء ملف التدفق الجديد أو تحديثه. إذا قمت بتكوين نفس موقع Amazon S3 كما في الخطوة 2 ، تقوم مهمة معالجة البيانات بتحديث ملف التدفق الذي تم إنشاؤه في الخطوة 2 ، والذي يمكن استخدامه للحفاظ على تدفقك وثيق الصلة ببياناتك. عند الانتهاء من مهمة المعالجة ، يتم تحميل ملفات الإخراج إلى حاوية S3 المكونة للعقدة الوجهة. يمكنك استخدام التدفق المحدث على مجموعة البيانات بأكملها لسير عمل الإنتاج.

المتطلبات الأساسية المسبقة

قبل البدء ، قم بتحميل مجموعة البيانات إلى حاوية S3 ، ثم قم باستيرادها إلى Data Wrangler. للحصول على تعليمات ، راجع استيراد البيانات من Amazon S3.

دعنا الآن نتصفح الخطوات المذكورة في الرسم التخطيطي للهندسة المعمارية.

أداء EDA في داتا رانجلر

لتجربة ميزة المعلمة المدربة المجددة ، قم بإعداد التحليل والتحول التاليين في Data Wrangler. في نهاية إعداد EDA ، ينشئ Data Wrangler ملف تدفق تم التقاطه باستخدام معلمات مدربة من مجموعة البيانات.

أنشئ تدفقًا جديدًا في Amazon SageMaker Data Wrangler لتحليل البيانات الاستكشافية.
قم باستيراد بيانات الأعمال التي قمت بتحميلها إلى Amazon S3.
يمكنك معاينة البيانات والخيارات لاختيار نوع الملف والمحدد وأخذ العينات وما إلى ذلك. في هذا المثال ، نستخدم الامتداد أول ك خيار أخذ العينات الذي توفره Data Wrangler لاستيراد أول 50,000 سجل من مجموعة البيانات.
اختار استيراد.

قم بإعادة صياغة المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

بعد التحقق من مطابقة نوع البيانات المطبقة بواسطة Data Wrangler ، أضف تحليلًا جديدًا.

في حالة نوع التحليل، اختر تقرير الرؤى وجودة البيانات.
اختار إنشاء.

باستخدام تقرير جودة البيانات والرؤى ، تحصل على ملخص موجز لمجموعة البيانات بمعلومات عامة مثل القيم المفقودة والقيم غير الصالحة وأنواع الميزات والأعداد الخارجة والمزيد. يمكنك اختيار الميزات property_type و city لتطبيق التحويلات على مجموعة البيانات لفهم ميزة المعلمة المدربة المجددة.

دعونا نركز على الميزة property_type من مجموعة البيانات. في التقرير تفاصيل الميزة في القسم ، يمكنك مشاهدة ملفات property_type، وهي ميزة فئوية ، وست قيم فريدة مشتقة من مجموعة بيانات 50,000 عينة بواسطة Data Wrangler. قد تحتوي مجموعة البيانات الكاملة على المزيد من الفئات للميزة property_type. بالنسبة للميزة ذات القيم الفريدة المتعددة ، قد تفضل الترميز الترتيبي. إذا كانت الميزة تحتوي على عدد قليل من القيم الفريدة ، فيمكن استخدام نهج ترميز واحد ساخن. في هذا المثال ، اخترنا تشغيل الترميز الساخن property_type.

وبالمثل ، بالنسبة لـ city الميزة ، وهي نوع بيانات نصية تحتوي على عدد كبير من القيم الفريدة ، فلنطبق الترميز الترتيبي على هذه الميزة.

انتقل إلى تدفق البيانات رانجلر ، واختر علامة الجمع ، واختر أضف التحويل.

اختيار تشفير قاطع خيار لتحويل الميزات الفئوية.

من تقرير جودة البيانات والرؤى ، ميزة property_type يعرض ست فئات فريدة: CONDO, LOT, MANUFACTURED, SINGLE_FAMILY, MULTI_FAMILYو TOWNHOUSE.

في حالة تحول، اختر تشفير واحد ساخن.

بعد تطبيق ترميز واحد ساخن على الميزة property_type، يمكنك معاينة جميع الفئات الست كميزات منفصلة تمت إضافتها كأعمدة جديدة. لاحظ أنه تم أخذ عينات من 50,000 سجل من مجموعة البيانات الخاصة بك لإنشاء هذه المعاينة. أثناء تشغيل وظيفة معالجة Data Wrangler بهذا التدفق ، يتم تطبيق هذه التحويلات على مجموعة البيانات بأكملها.

أضف تحويلًا جديدًا واختر تشفير قاطع لتطبيق تحويل على الميزة city، والتي تحتوي على عدد أكبر من القيم النصية الفئوية الفريدة.
لترميز هذه الميزة في تمثيل رقمي ، اختر ترميز ترتيبي For تحول.

اختر معاينة في هذا التحويل.

يمكنك أن ترى أن الميزة الفئوية city يتم تعيينها للقيم الترتيبية في عمود الإخراج e_city.

أضف هذه الخطوة عن طريق الاختيار تحديث.

يمكنك تعيين الوجهة على Amazon S3 لتخزين التحويلات المطبقة على مجموعة البيانات لإنشاء الإخراج كملف CSV.

يقوم Data Wrangler بتخزين سير العمل الذي حددته في واجهة المستخدم كملف تدفق ويتم تحميله إلى موقع Amazon S3 الخاص بوظيفة معالجة البيانات التي تم تكوينها. يتم استخدام ملف التدفق هذا عند إنشاء مهام معالجة Data Wrangler لتطبيق التحويلات على مجموعات بيانات أكبر ، أو لتحويل بيانات التعزيز الجديدة لإعادة تدريب النموذج.

قم بتشغيل مهمة معالجة بيانات Data Wrangler بدون تمكين التجديد

يمكنك الآن معرفة كيف يستخدم خيار التجديد المعلمات المدربة على مجموعات البيانات الجديدة. في هذا العرض التوضيحي ، نحدد وظيفتين لمعالجة Data Wrangler تعملان على نفس البيانات. لن تمكن مهمة المعالجة الأولى من التجديد ؛ لوظيفة المعالجة الثانية ، نستخدم تجديد. نقارن الآثار في النهاية.

اختار خلق وظيفة لبدء مهمة معالجة البيانات مع Data Wrangler.

في حالة اسم العمل، إدخال اسم.
تحت المعلمات المدربة، لا تحدد رمم.
اختار تكوين الوظيفة.

قم بتكوين معلمات الوظيفة مثل أنواع المثيل وحجم الحجم وموقع Amazon S3 لتخزين ملف تدفق الإخراج.
ينشئ Data Wrangler ملف تدفق في موقع ملف التدفق S3. يستخدم التدفق تحويلات لتدريب المعلمات ، ثم نستخدم خيار التجديد لاحقًا لإعادة تدريب هذه المعلمات.
اختار إنشاء.

انتظر حتى تكتمل مهمة معالجة البيانات لرؤية البيانات المحولة في حاوية S3 المكونة في العقدة الوجهة.

قم بتشغيل مهمة معالجة بيانات Data Wrangler مع تمكين التجديد

دعنا ننشئ وظيفة معالجة أخرى ممكّنة مع تمكين ميزة المعلمة المدربة المجددة. يفرض هذا الخيار المعلمات المدربة التي تم إعادة تعلمها على مجموعة البيانات بأكملها. عند اكتمال مهمة معالجة البيانات هذه ، يتم إنشاء ملف تدفق أو تحديثه إلى موقع Amazon S3 الذي تم تكوينه.

اختار خلق وظيفة.

في حالة اسم العمل، إدخال اسم.
في حالة المعلمات المدربة، حدد رمم.
إذا اخترت المزيد، يمكنك مراجعة جميع المعلمات المدربة.

اختار تكوين الوظيفة.
أدخل موقع ملف تدفق Amazon S3.
اختار إنشاء.

انتظر حتى تكتمل مهمة معالجة البيانات.

ارجع إلى حاوية S3 المكونة في العقدة الوجهة لعرض البيانات التي تم إنشاؤها بواسطة مهمة معالجة البيانات التي تقوم بتشغيل التحويلات المحددة.

تصدير إلى كود Python لتشغيل مهام معالجة Data Wrangler

كبديل لبدء مهام المعالجة باستخدام خيار إنشاء وظيفة في Data Wrangler ، يمكنك تشغيل مهام معالجة البيانات عن طريق تصدير تدفق Data Wrangler إلى دفتر ملاحظات Jupyter. يقوم Data Wrangler بإنشاء دفتر Jupyter مع المدخلات والمخرجات ومعالجة تكوينات المهام ورمز لفحص حالة المهمة. يمكنك تغيير أو تحديث المعلمات وفقًا لمتطلبات تحويل البيانات الخاصة بك.

اختر علامة الجمع بجانب النهائي تحول العقدة.
اختار تصدير لو Amazon S3 (عبر دفتر Jupyter).

يمكنك رؤية دفتر Jupyter مفتوحًا مع المدخلات والمخرجات ومعالجة تكوينات المهمة ورمز لفحص حالة الوظيفة.

لفرض خيار تجديد المعلمات المدربة عبر الكود ، اضبط refit المعلمة ل True.

قارن نتائج مهمة معالجة البيانات

بعد اكتمال مهام معالجة Data Wrangler ، يجب إنشاء تدفقين جديدين من Data Wrangler مع الإخراج الناتج عن مهام معالجة البيانات المخزنة في وجهة Amazon S3 المكونة.

يمكنك الرجوع إلى الموقع الذي تم تكوينه في مجلد الوجهة Amazon S3 لمراجعة مخرجات مهام معالجة البيانات.

لفحص نتائج مهمة المعالجة ، قم بإنشاء مسارين جديدين لبيانات Wrangler باستخدام تقرير جودة البيانات والرؤى لمقارنة نتائج التحويل.

أنشئ تدفقًا جديدًا في Amazon SageMaker Data Wrangler.
قم باستيراد مهمة معالجة البيانات بدون إعادة تجهيز ملف الإخراج من Amazon S3.
أضف تحليلًا جديدًا.
في حالة نوع التحليل، اختر تقرير الرؤى وجودة البيانات.
اختار إنشاء.

كرر الخطوات المذكورة أعلاه وأنشئ تدفق بيانات جديد لتحليل مخرجات مهمة معالجة البيانات مع تمكين التجديد.

الآن دعونا نلقي نظرة على مخرجات معالجة الوظائف لهذه الميزة property_type باستخدام تقارير جودة البيانات والرؤى. قم بالتمرير إلى تفاصيل الميزة في قائمة تقارير البيانات والرؤى feature_type.

أعادت وظيفة معالجة المعلمات المدربة المُجددة تجهيز المعلمات المدربة على مجموعة البيانات بأكملها وترميز القيمة الجديدة APARTMENT بسبع قيم مميزة في مجموعة البيانات الكاملة.

طبقت وظيفة المعالجة العادية المعلمات المدربة لمجموعة البيانات النموذجية ، والتي تحتوي فقط على ست قيم مميزة لـ property_type خاصية. للحصول على بيانات بامتداد feature_type APARTMENTأطلقت حملة استراتيجية معالجة غير صالحة يتم تطبيق Skip ولا تتعلم وظيفة معالجة البيانات هذه الفئة الجديدة. لقد تخطى الترميز الساخن واحد هذه الفئة الجديدة الموجودة في البيانات الجديدة ، ويتخطى الترميز الفئة APARTMENT.

دعنا الآن نركز على ميزة أخرى ، city. لقد أعادت وظيفة معالجة المعلمات المدربة المجددة تعلم جميع القيم المتاحة لـ city ميزة ، مع الأخذ في الاعتبار البيانات الجديدة.

كما هو مبين في ملخص الميزة من التقرير ، عمود الميزة المشفرة الجديدة e_city يحتوي على معلمات صالحة بنسبة 100 ٪ باستخدام ميزة المعلمة المدربة المجددة.

في المقابل ، تحتوي مهمة المعالجة العادية على 82.4٪ من القيم المفقودة في عمود الميزة المشفرة الجديدة e_city. ترجع هذه الظاهرة إلى أنه يتم تطبيق مجموعة عينة من المعلمات المدربة المكتسبة فقط على مجموعة البيانات الكاملة ولا يتم تطبيق أي تجديد بواسطة وظيفة معالجة البيانات.

تصور الرسوم البيانية التالية الميزة الترتيبية المشفرة e_city. الرسم البياني الأول للميزة التي تم تحويلها باستخدام خيار التجديد.

الرسم البياني التالي هو للميزة التي تم تحويلها بدون خيار التجديد. يُظهر العمود البرتقالي القيم المفقودة (NaN) في تقرير جودة البيانات والرؤى. يتم استبدال القيم الجديدة التي لم يتم التعرف عليها من نموذج مجموعة البيانات على أنها ليست رقمًا (NaN) كما تم تكوينها في واجهة مستخدم Data Wrangler استراتيجية معالجة غير صالحة.

أعادت مهمة معالجة البيانات باستخدام المعلمة المدربة المُجددة تعلم ملف property_type و city الميزات التي تراعي القيم الجديدة من مجموعة البيانات بأكملها. بدون المعلمة المدربة المجددة ، تستخدم وظيفة معالجة البيانات فقط المعلمات المدربة مسبقًا لمجموعة البيانات التي تم أخذ عينات منها. ثم يقوم بتطبيقها على البيانات الجديدة ، لكن القيم الجديدة لا تؤخذ في الاعتبار للتشفير. سيكون لهذا آثار على دقة النموذج.

تنظيف

عندما لا تستخدم Data Wrangler ، فمن المهم إغلاق المثيل الذي يتم تشغيله عليه لتجنب تكبد رسوم إضافية.

لتجنب فقدان العمل ، احفظ تدفق البيانات قبل إيقاف تشغيل Data Wrangler.

لحفظ تدفق البيانات الخاصة بك في أمازون ساجميكر ستوديو، اختر قم بتقديم، ثم اختر حفظ تدفق رانجلر البيانات. يقوم Data Wrangler تلقائيًا بحفظ تدفق البيانات الخاصة بك كل 60 ثانية.
لإغلاق مثيل Data Wrangler ، في Studio ، اختر تشغيل المثيلات والنواة.
تحت تشغيل التطبيقات، اختر رمز إيقاف التشغيل بجوار تطبيق sagemaker-data-wrangler-1.0.

اختار اغلاق كل شيء للتأكيد.

يعمل Data Wrangler على مثيل ml.m5.4xlarge. يختفي هذا المثال من جريان الجري عند إغلاق تطبيق Data Wrangler.

بعد إغلاق تطبيق Data Wrangler ، يجب إعادة تشغيله في المرة التالية التي تفتح فيها ملف تدفق Data Wrangler. وهذا يمكن أن يستغرق بضع دقائق.

وفي الختام

في هذا المنشور ، قدمنا نظرة عامة على ميزة المعلمة المدربة المجددة في Data Wrangler. باستخدام هذه الميزة الجديدة ، يمكنك تخزين المعلمات المدربة في تدفق Data Wrangler ، وتستخدم وظائف معالجة البيانات المعلمات المدربة لتطبيق التحويلات التي تم تعلمها على مجموعات البيانات الكبيرة أو مجموعات بيانات التعزيز. يمكنك تطبيق هذا الخيار على Vectorizing ميزات النص والبيانات الرقمية والتعامل مع القيم المتطرفة.

يؤدي الحفاظ على المعلمات المدربة خلال معالجة البيانات في دورة حياة ML إلى تبسيط وتقليل خطوات معالجة البيانات ، ويدعم هندسة الميزات القوية ، ويدعم تدريب النموذج والتدريب التعزيزي على البيانات الجديدة.

نحن نشجعك على تجربة هذه الميزة الجديدة لمتطلبات معالجة البيانات الخاصة بك.

عن المؤلفين

هاريهاران سوريش هو مهندس حلول أول في AWS. إنه شغوف بقواعد البيانات والتعلم الآلي وتصميم الحلول المبتكرة. قبل انضمامه إلى AWS ، كان Hariharan مهندسًا للمنتجات ، ومتخصصًا في تنفيذ الخدمات المصرفية الأساسية ، ومطورًا ، وعمل مع مؤسسات BFSI لأكثر من 11 عامًا. بعيدًا عن التكنولوجيا ، فهو يستمتع بالطيران المظلي وركوب الدراجات.

سانتوش كولكارني هو مهندس حلول المؤسسات في Amazon Web Services ويعمل مع العملاء الرياضيين في أستراليا. إنه متحمس لبناء تطبيقات موزعة على نطاق واسع لحل مشاكل الأعمال باستخدام معرفته في الذكاء الاصطناعي / التعلم الآلي والبيانات الضخمة وتطوير البرمجيات.

فيشال كابور هو عالم تطبيقي أقدم مع AWS AI. إنه متحمس لمساعدة العملاء على فهم بياناتهم في Data Wrangler. في أوقات فراغه ، يقوم بالدراجات الجبلية وألواح التزلج على الجليد ويقضي الوقت مع عائلته.

أنيكيث مانجوناث هو مهندس تطوير برمجيات في Amazon SageMaker. يساعد في دعم Amazon SageMaker Data Wrangler وهو متحمس لأنظمة التعلم الآلي الموزعة. خارج العمل ، يستمتع بالتنزه ومشاهدة الأفلام ولعب الكريكيت.

الطابع الزمني: 14 نوفمبر، 202214 نوفمبر، 2022

الطابع الزمني: نوفمبر 17، 2023

أعد تركيب المعلمات المدربة على مجموعات البيانات الكبيرة باستخدام Amazon SageMaker Data Wrangler

أعاد نشره أفلاطون

نظرة عامة على ميزة تجديد رانجلر البيانات

حل نظرة عامة

المتطلبات الأساسية المسبقة

أداء EDA في داتا رانجلر

قم بتشغيل مهمة معالجة بيانات Data Wrangler بدون تمكين التجديد

قم بتشغيل مهمة معالجة بيانات Data Wrangler مع تمكين التجديد

تصدير إلى كود Python لتشغيل مهام معالجة Data Wrangler

قارن نتائج مهمة معالجة البيانات

تنظيف

وفي الختام

عن المؤلفين

اكثر من التعلم الآلي من AWS

تعرف على كيفية مساعدة Amazon SageMaker في الكشف عن التحيز

أفضل الممارسات للتدريب على تسريع TensorFlow 1.x على Amazon SageMaker

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي