أمازون سيج ميكر داتا رانجلر يقلل الوقت اللازم لتجميع البيانات وإعدادها للتعلم الآلي (ML) من أسابيع إلى دقائق. باستخدام Data Wrangler ، يمكنك تحديد البيانات والاستعلام عنها ببضع نقرات فقط ، وتحويل البيانات بسرعة باستخدام أكثر من 300 تحويل بيانات مدمج ، وفهم بياناتك من خلال تصورات مضمنة دون كتابة أي رمز.
بالإضافة إلى ذلك ، يمكنك إنشاء ملفات تحويلات مخصصة فريدة من نوعها لمتطلباتك. تتيح لك التحويلات المخصصة كتابة تحويلات مخصصة باستخدام PySpark أو Pandas أو SQL.
يدعم Data Wrangler الآن ملف وظيفة معرفة من قبل المستخدم الباندا (UDF) الذي يمكنه معالجة مجموعات البيانات الكبيرة بكفاءة. يمكنك الاختيار من بين وضعي Pandas UDF المخصصين: Pandas و Python. يوفر كلا الوضعين حلاً فعالاً لمعالجة مجموعات البيانات ، ويعتمد الوضع الذي تختاره على تفضيلاتك.
في هذا المنشور ، نوضح كيفية استخدام تحويل Pandas UDF الجديد في أي من الوضعين.
حل نظرة عامة
في وقت كتابة هذه السطور ، يمكنك استيراد مجموعات البيانات إلى Data Wrangler من خدمة تخزين أمازون البسيطة (Amazon S3) ، أمازون أثينا, الأمازون الأحمرو Databricks و Snowflake. بالنسبة لهذا المنشور ، نستخدم Amazon S3 لتخزين 2014 أمازون يستعرض مجموعة البيانات.
البيانات لها عمود يسمى reviewText
تحتوي على نص من إنشاء المستخدم. يحتوي النص أيضًا على العديد كلمات التوقف، وهي كلمات شائعة لا توفر الكثير من المعلومات ، مثل "أ" و "أن" و "." تعد إزالة كلمات التوقف خطوة معالجة مسبقة شائعة في خطوط أنابيب معالجة اللغة الطبيعية (NLP). يمكننا إنشاء وظيفة مخصصة لإزالة كلمات الإيقاف من المراجعات.
قم بإنشاء تحويل Pandas UDF مخصص
دعنا نتجول في عملية إنشاء تحويلين مخصصين لبيانات Pandas UDF باستخدام وضعي Pandas و Python.
- تحميل ديجيتال ميوزيك يستعرض مجموعة البيانات وتحميله على Amazon S3.
- ساعات العمل أمازون ساجميكر ستوديو وإنشاء تدفق بيانات رانجلر جديد.
- تحت تواريخ الاستيراد، اختر الأمازون S3 وانتقل إلى موقع مجموعة البيانات.
- في حالة نوع الملف، اختر jsonl.
يجب عرض معاينة للبيانات في الجدول.
- اختار استيراد المضي قدما.
- بعد استيراد البيانات الخاصة بك ، اختر علامة الجمع الموجودة بجانب أنواع البيانات واختر أضف التحويل.
- اختار تحويل مخصص.
- في القائمة المنسدلة ، Python (وظيفة من تحديد المستخدم).
الآن نقوم بإنشاء التحويل المخصص الخاص بنا لإزالة كلمات التوقف.
- حدد عمود الإدخال وعمود الإخراج ونوع الإرجاع والوضع.
يستخدم المثال التالي وضع Pandas. هذا يعني أن الوظيفة يجب أن تقبل وتعيد سلسلة Pandas من نفس الطول. يمكنك التفكير في سلسلة Pandas كعمود في جدول أو جزء من العمود. هذا هو وضع Pandas UDF الأكثر أداءً لأن Pandas يمكنها توجيه العمليات عبر دفعات من القيم بدلاً من واحدة في كل مرة. ال pd.Series
مطلوب تلميحات الكتابة في وضع Pandas.
إذا كنت تفضل استخدام Python الخالص بدلاً من Pandas API ، فإن وضع Python يسمح لك بتحديد وظيفة Python الخالصة التي تقبل وسيطة واحدة وتعيد قيمة واحدة. المثال التالي يعادل كود Pandas السابق من حيث المخرجات. تلميحات الكتابة غير مطلوبة في وضع Python.
- اختار أضف لإضافة التحويل المخصص الخاص بك.
وفي الختام
يحتوي Data Wrangler على أكثر من 300 تحويل مدمج ، ويمكنك أيضًا إضافة تحويلات مخصصة فريدة وفقًا لمتطلباتك. في هذا المنشور ، أوضحنا كيفية معالجة مجموعات البيانات باستخدام تحويل Pandas UDF المخصص الجديد من Data Wrangler ، باستخدام وضعي Pandas و Python. يمكنك استخدام أي من الوضعين بناءً على تفضيلاتك. لمعرفة المزيد حول داتا رانجلر ، ارجع إلى إنشاء واستخدام تدفق رانجلر البيانات.
حول المؤلف
بن هاريس هو مهندس برمجيات يتمتع بخبرة في تصميم ونشر وصيانة خطوط أنابيب البيانات القابلة للتطوير وحلول التعلم الآلي عبر مجموعة متنوعة من المجالات. قام Ben ببناء أنظمة لجمع البيانات ووضع العلامات ، وتصنيف الصور والنصوص ، ونمذجة التسلسل إلى التسلسل ، والتضمين ، والتجميع ، من بين أمور أخرى.
حيدر نقفي هو مهندس حلول في AWS. لديه خبرة واسعة في تطوير البرمجيات وهندسة المشاريع. يركز على تمكين العملاء من تحقيق نتائج الأعمال مع AWS. يقيم في نيويورك.
فيشال سريفاستافا هو مدير الحساب الفني في AWS. مع خلفية في تطوير البرمجيات والتحليلات ، يعمل بشكل أساسي مع قطاع الخدمات المالية وعملاء الأعمال الرقمية الأصليين ويدعم رحلة السحابة الخاصة بهم. في أوقات فراغه يحب السفر مع أسرته.
- كوينسمارت. أفضل بورصة للبيتكوين والعملات المشفرة في أوروبا.
- بلاتوبلوكشين. Web3 Metaverse Intelligence. تضخيم المعرفة. دخول مجاني.
- كريبتوهوك. الرادار. تجربة مجانية.
- المصدر: https://aws.amazon.com/blogs/machine-learning/pandas-user-defined-functions-are-now-available-in-amazon-sagemaker-data-wrangler/
- "
- 10
- 100
- 9
- من نحن
- حسابي
- في
- أمازون
- من بين
- تحليلات
- API
- هندسة معمارية
- متاح
- AWS
- خلفية
- مدمج
- الأعمال
- اختار
- تصنيف
- سحابة
- الكود
- مجموعة شتاء XNUMX
- عمود
- مشترك
- يحتوي
- خلق
- خلق
- على
- العملاء
- البيانات
- شرح
- تظاهر
- يعتمد
- نشر
- تصميم
- التطوير التجاري
- رقمي
- المجالات
- فعال
- بكفاءة
- تمكين
- مهندس
- مشروع
- مثال
- الخبره في مجال الغطس
- واسع
- للعائلات
- مالي
- الخدمات المالية
- تدفق
- ويركز
- متابعيك
- مجانًا
- وظيفة
- كيفية
- كيفية
- HTTPS
- صورة
- معلومات
- إدخال
- IT
- ينضم
- وصفها
- لغة
- كبير
- تعلم
- تعلم
- موقع
- آلة
- آلة التعلم
- مدير
- مباراة
- ML
- الأكثر من ذلك
- أكثر
- موسيقى
- طبيعي
- نيويورك
- عمليات
- إعداد
- أرسال
- عملية المعالجة
- معالجة
- تزود
- سريع
- بسرعة
- مطلوب
- المتطلبات الأساسية
- عائد أعلى
- عائدات
- التقييمات
- تحجيم
- القطاع
- مسلسلات
- خدمات
- الاشارات
- تطبيقات الكمبيوتر
- تطوير البرمجيات
- مهندس البرمجيات
- حل
- الحلول
- المساحات
- تخزين
- متجر
- الدعم
- أنظمة
- تقني
- عبر
- الوقت
- رمز
- الرموز
- تحول
- سفر
- فهم
- فريد من نوعه
- تستخدم
- قيمنا
- تشكيلة
- بدون
- كلمات
- أعمال
- جاري الكتابة