أمازون سيج ميكر داتا رانجلر هي أداة تجميع البيانات وإعدادها لغرض التعلم الآلي (ML). يسمح لك باستخدام واجهة مرئية للوصول إلى البيانات وإجراء تحليل البيانات الاستكشافية (EDA) وهندسة الميزات. تأتي ميزة EDA مع إمكانات تحليل البيانات المضمنة للمخططات (مثل مخطط التبعثر أو المدرج التكراري) وإمكانيات تحليل النموذج الموفرة للوقت مثل أهمية الميزة وتسرب الهدف وإمكانية شرح النموذج. تحتوي القدرة الهندسية للميزات على أكثر من 300 تحويل مدمج ويمكنها إجراء تحويلات مخصصة باستخدام وقت تشغيل Python أو PySpark أو Spark SQL.
بالنسبة للتصورات والتحويلات المخصصة ، يوفر Data Wrangler الآن أمثلة على مقتطفات التعليمات البرمجية للأنواع الشائعة من التصورات والتحويلات. في هذا المنشور ، نوضح كيفية استخدام مقتطفات الشفرة هذه لبدء تشغيل EDA الخاص بك في Data Wrangler.
حل نظرة عامة
في وقت كتابة هذه السطور ، يمكنك استيراد مجموعات البيانات إلى Data Wrangler من خدمة تخزين أمازون البسيطة (Amazon S3) ، أمازون أثينا, الأمازون الأحمرو Databricks و Snowflake. في هذا المنشور ، نستخدم Amazon S3 لتخزين 2014 Amazon يستعرض مجموعة البيانات. فيما يلي عينة من مجموعة البيانات:
في هذا المنشور ، نقوم بإجراء EDA باستخدام ثلاثة أعمدة -asin
, reviewTime
و overall
—التي تحدد معرّف المنتج وتاريخ وقت المراجعة ودرجة المراجعة الإجمالية على التوالي. نستخدم هذه البيانات لتصور ديناميكيات عدد المراجعات عبر الأشهر والسنوات.
استخدام مثال مقتطف الشفرة لـ EDA في Data Wrangler
لبدء تنفيذ EDA في Data Wrangler ، أكمل الخطوات التالية:
- تحميل ديجيتال ميوزيك يستعرض مجموعة البيانات JSON وتحميله إلى Amazon S3.
نستخدم هذا كمجموعة بيانات أولية لـ EDA. - ساعات العمل أمازون ساجميكر ستوديو وإنشاء تدفق بيانات Wrangler جديد واستيراد مجموعة البيانات من Amazon S3.
تحتوي مجموعة البيانات هذه على تسعة أعمدة ، لكننا نستخدم ثلاثة فقط:
asin
,reviewTime
وoverall
. نحتاج إلى إسقاط الأعمدة الستة الأخرى. - قم بإنشاء تحويل مخصص واختر بايثون (PySpark).
- وسع ابحث عن مقتطفات من الأمثلة واختر قم بإسقاط جميع الأعمدة باستثناء عدة أعمدة.
- أدخل المقتطف المقدم في التحويل المخصص واتبع الإرشادات لتعديل الرمز.
الآن بعد أن أصبح لدينا جميع الأعمدة التي نحتاجها ، فلنقم بتصفية البيانات للاحتفاظ بالمراجعات فقط بين 2000-2020.
- استخدم تصفية الطابع الزمني خارج النطاق مقتطف لإسقاط البيانات قبل عام 2000 وبعد 2020:
بعد ذلك ، نستخرج السنة والشهر من عمود وقت المراجعة.
- استخدم يميز التاريخ / الوقت تحول.
- في حالة استخراج الأعمدة، اختر عام و شهر.
بعد ذلك ، نريد تجميع عدد المراجعات حسب السنة والشهر التي أنشأناها في الخطوة السابقة.
- استخدم احسب الإحصائيات في مجموعات مقتطف:
- أعد تسمية تجميع الخطوة السابقة من
count(overall)
إلىreviews_num
عن طريق اختيار إدارة الأعمدة و إعادة تسمية العمود تحول.
أخيرًا ، نريد إنشاء خريطة حرارية لتصور توزيع المراجعات حسب السنة والشهر. - في علامة تبويب التحليل ، اختر التصور المخصص.
- وسع ابحث عن المقتطف واختر خريطة الحرارة في القائمة المنسدلة.
- أدخل المقتطف المقدم في التصور المخصص الخاص بك:
نحصل على التصور التالي.
إذا كنت ترغب في تحسين خريطة التمثيل اللوني بشكل أكبر ، فيمكنك تقسيم البيانات لعرض المراجعات فقط قبل عام 2011. ويصعب تحديد هذه المراجعات في خريطة التمثيل اللوني التي أنشأناها للتو بسبب الكميات الكبيرة من المراجعات منذ عام 2012. - أضف سطرًا واحدًا من التعليمات البرمجية إلى التصور المخصص الخاص بك:
نحصل على خريطة الحرارة التالية.
تعكس الخريطة الحرارية الآن المراجعات التي سبقت عام 2011 بشكل أكثر وضوحًا: يمكننا ملاحظة التأثيرات الموسمية (تجلب نهاية العام المزيد من عمليات الشراء وبالتالي المزيد من المراجعات) ويمكننا تحديد الأشهر الشاذة ، مثل أكتوبر 2003 ومارس 2005. الأمر يستحق المزيد من التحقيق لتحديد سبب هذه الحالات الشاذة.
وفي الختام
Data Wrangler هي أداة تجميع البيانات وإعدادها لغرض التعلم الآلي. في هذا المنشور ، أوضحنا كيفية أداء EDA وتحويل بياناتك بسرعة باستخدام مقتطفات التعليمات البرمجية المقدمة من Data Wrangler. تحتاج فقط إلى العثور على مقتطف ، وإدخال الرمز ، وضبط المعلمات لتتناسب مع مجموعة البيانات الخاصة بك. يمكنك الاستمرار في تكرار البرنامج النصي لإنشاء تصورات وتحويلات أكثر تعقيدًا.
لمعرفة المزيد حول داتا رانجلر ، ارجع إلى إنشاء واستخدام تدفق رانجلر البيانات.
حول المؤلف
نيكيتا ايفكين هو عالم تطبيقي ، Amazon SageMaker Data Wrangler.
حيدر نقفي هو مهندس حلول في AWS. لديه خبرة واسعة في تطوير البرمجيات وهندسة المشاريع. يركز على تمكين العملاء من تحقيق نتائج الأعمال مع AWS. يقيم في نيويورك.
هاريش راجاغوبالان مهندس حلول أول في Amazon Web Services. يعمل Harish مع عملاء المؤسسات ويساعدهم في رحلتهم السحابية.
جيمس وو هو أحد كبار أخصائيي الذكاء الاصطناعي / التعلم الآلي في AWS. إنه يعمل مع العملاء لتسريع رحلتهم السحابية وتسريع تحقيق قيمة أعمالهم. بالإضافة إلى ذلك ، جيمس متحمس أيضًا لتطوير وتوسيع نطاق حلول AI / ML عبر مختلف المجالات. قبل انضمامه إلى AWS ، قاد فريقًا متعدد التخصصات لتقنية الابتكار مع مهندسي ML ومطوري البرامج لشركة عالمية كبرى في السوق وصناعة الإعلان.
- كوينسمارت. أفضل بورصة للبيتكوين والعملات المشفرة في أوروبا.
- بلاتوبلوكشين. Web3 Metaverse Intelligence. تضخيم المعرفة. دخول مجاني.
- كريبتوهوك. الرادار. تجربة مجانية.
- المصدر: https://aws.amazon.com/blogs/machine-learning/prepare-data-faster-with-pyspark-and-altair-code-snippets-in-amazon-sagemaker-data-wrangler/
- "
- 100
- 2020
- a
- من نحن
- تسريع
- الوصول
- التأهيل
- في
- إضافة
- دعاية
- الكل
- يسمح
- أمازون
- أمازون ويب سيرفيسز
- تحليل
- تطبيقي
- هندسة معمارية
- متاح
- AWS
- محور
- لان
- قبل
- ما بين
- مدمج
- الأعمال
- قدرات
- سبب
- الرسوم البيانية
- اختار
- سحابة
- الكود
- عمود
- مشترك
- إكمال
- مجمع
- استمر
- ضوابط
- خلق
- خلق
- على
- العملاء
- البيانات
- تحليل البيانات
- شرح
- تظاهر
- حدد
- المطورين
- تطوير
- التطوير التجاري
- توزيع
- المجالات
- إلى أسفل
- قطرة
- دينامية
- الآثار
- تمكين
- الهندسة
- المهندسين
- أدخل
- مشروع
- مثال
- إلا
- الخبره في مجال الغطس
- واسع
- أسرع
- الميزات
- أخيرا
- شركة
- الاسم الأول
- تدفق
- ويركز
- اتباع
- متابعيك
- تبدأ من
- وظيفة
- وظائف
- إضافي
- العالمية
- عظيم
- مجموعات
- وجود
- مفيد
- يساعد
- كيفية
- كيفية
- HTTPS
- تحديد
- أهمية
- العالمية
- الابتكار
- السطح البيني
- IT
- رحلة
- احتفظ
- كبير
- تعلم
- تعلم
- ليد
- خط
- قائمة
- آلة
- آلة التعلم
- رسم خريطة
- مارس
- تجارة
- مباراة
- ML
- نموذج
- شهر
- المقبلة.
- الأكثر من ذلك
- موسيقى
- أسماء
- نيويورك
- عدد
- أخرى
- الكلي
- عاطفي
- أداء
- لعب
- إعداد
- سابق
- منتج
- تزود
- المقدمة
- ويوفر
- شراء
- مشتريات
- كمي
- بسرعة
- الخام
- تسجيل
- يعكس
- مراجعة
- التقييمات
- التحجيم
- عالم
- خدمات
- الاشارات
- منذ
- SIX
- تطبيقات الكمبيوتر
- تطوير البرمجيات
- الحلول
- متخصص
- بداية
- إحصائيات
- تخزين
- متجر
- الهدف
- فريق
- تكنولوجيا
- •
- وبالتالي
- ثلاثة
- الوقت
- أداة
- تيشرت
- تحول
- التحولات
- أنواع
- تستخدم
- قيمنا
- مختلف
- التصور
- مجلدات
- الويب
- خدمات ويب
- من الذى
- رائع
- أعمال
- قيمة
- جاري الكتابة
- X
- عام
- سنوات
- حل متجر العقارات الشامل الخاص بك في جورجيا