تقضي فرق علوم البيانات وهندسة البيانات جزءًا كبيرًا من وقتهم في مرحلة إعداد البيانات في دورة حياة التعلم الآلي (ML) في أداء خطوات اختيار البيانات وتنظيفها وتحويلها. إنها خطوة ضرورية وهامة في أي سير عمل لتعلم الآلة من أجل إنشاء رؤى وتنبؤات ذات معنى، لأن البيانات السيئة أو منخفضة الجودة تقلل بشكل كبير من أهمية الرؤى المشتقة.
تكون فرق هندسة البيانات مسؤولة تقليديًا عن استيعاب البيانات الخام ودمجها وتحويلها للاستهلاك النهائي. غالبًا ما يحتاج علماء البيانات إلى إجراء معالجة إضافية للبيانات لحالات استخدام تعلم الآلة الخاصة بالمجال مثل اللغة الطبيعية والسلاسل الزمنية. على سبيل المثال، قد تكون بعض خوارزميات تعلم الآلة حساسة للقيم المفقودة أو الميزات المتفرقة أو القيم المتطرفة وتتطلب اهتمامًا خاصًا. حتى في الحالات التي تكون فيها مجموعة البيانات في حالة جيدة، قد يرغب علماء البيانات في تحويل توزيعات الميزات أو إنشاء ميزات جديدة من أجل تعظيم الرؤى التي تم الحصول عليها من النماذج. ولتحقيق هذه الأهداف، يتعين على علماء البيانات الاعتماد على فرق هندسة البيانات لاستيعاب التغييرات المطلوبة، مما يؤدي إلى التبعية والتأخير في عملية تطوير النموذج. وبدلاً من ذلك، قد تختار فرق علوم البيانات إجراء إعداد البيانات وهندسة الميزات داخليًا باستخدام نماذج برمجة مختلفة. ومع ذلك، فإنه يتطلب استثمارًا للوقت والجهد في تثبيت وتكوين المكتبات وأطر العمل، وهو أمر ليس مثاليًا لأنه يمكن قضاء هذا الوقت بشكل أفضل في تحسين أداء النموذج.
أمازون سيج ميكر داتا رانجلر يبسط عملية إعداد البيانات وهندسة الميزات، مما يقلل الوقت المستغرق لتجميع البيانات وإعدادها لتعلم الآلة من أسابيع إلى دقائق من خلال توفير واجهة مرئية واحدة لعلماء البيانات لتحديد مجموعات البيانات الخاصة بهم وتنظيفها واستكشافها. توفر Data Wrangler أكثر من 300 عملية تحويل مدمجة للبيانات للمساعدة في تطبيع الميزات وتحويلها ودمجها دون كتابة أي تعليمات برمجية. يمكنك استيراد البيانات من مصادر بيانات متعددة، مثل Amazon Simple Storage Service (Amazon S3) ، أمازون أثينا, الأمازون الأحمرو ندفة الثلج. يمكنك الآن أيضًا استخدام Databricks كمصدر بيانات في Data Wrangler لتحضير البيانات بسهولة لـ ML.
تجمع منصة Databricks Lakehouse بين أفضل عناصر بحيرات البيانات ومستودعات البيانات لتوفير الموثوقية والحوكمة القوية والأداء لمستودعات البيانات مع الانفتاح والمرونة ودعم التعلم الآلي لبحيرات البيانات. باستخدام Databricks كمصدر بيانات لـ Data Wrangler، يمكنك الآن الاتصال بـ Databricks بسرعة وسهولة، والاستعلام بشكل تفاعلي عن البيانات المخزنة في Databricks باستخدام SQL، ومعاينة البيانات قبل الاستيراد. بالإضافة إلى ذلك، يمكنك ضم بياناتك في Databricks مع البيانات المخزنة في Amazon S3، والبيانات التي تم الاستعلام عنها من خلال Amazon Athena، وAmazon Redshift، وSnowflake لإنشاء مجموعة البيانات المناسبة لحالة استخدام تعلم الآلة الخاصة بك.
في هذا المنشور، نقوم بتحويل مجموعة بيانات Lending Club Loan باستخدام Amazon SageMaker Data Wrangler لاستخدامها في التدريب على نموذج تعلم الآلة.
حل نظرة عامة
يوضح الرسم البياني التالي بنية الحلول لدينا.
تحتوي مجموعة بيانات Lending Club Loan على بيانات القروض الكاملة لجميع القروض الصادرة خلال الفترة 2007-2011، بما في ذلك حالة القرض الحالية وأحدث معلومات الدفع. يحتوي على 39,717 صفًا و22 عمودًا مميزًا و3 تسميات مستهدفة.
لتحويل بياناتنا باستخدام Data Wrangler، نقوم بإكمال الخطوات عالية المستوى التالية:
- قم بتنزيل مجموعة البيانات وتقسيمها.
- قم بإنشاء تدفق بيانات رانجلر.
- استيراد البيانات من Databricks إلى Data Wrangler.
- استيراد البيانات من Amazon S3 إلى Data Wrangler.
- الانضمام إلى البيانات.
- تطبيق التحولات.
- تصدير مجموعة البيانات.
المتطلبات الأساسية المسبقة
يفترض المنشور أن لديك مجموعة Databricks قيد التشغيل. إذا كانت مجموعتك تعمل على AWS، فتأكد من تكوين ما يلي:
إعداد قوالب البيانات
- An الملف الشخصي على سبيل المثال مع الأذونات المطلوبة للوصول إلى مجموعة S3
- A سياسة الجرافة مع الأذونات المطلوبة لحاوية S3 المستهدفة
تابعني: الوصول الآمن إلى حاويات S3 باستخدام ملفات تعريف المثيلات للمطلوب إدارة الهوية والوصول AWS أدوار (IAM)، وسياسة مجموعة S3، وتكوين مجموعة Databricks. تأكد من تكوين مجموعة Databricks بالشكل المناسب Instance Profile
، المحددة ضمن الخيارات المتقدمة، للوصول إلى مجموعة S3 المطلوبة.
بعد إعداد مجموعة Databricks وتشغيلها مع الوصول المطلوب إلى Amazon S3، يمكنك جلب ملف JDBC URL
من مجموعة Databricks الخاصة بك لتستخدمها Data Wrangler للاتصال بها.
قم بإحضار عنوان URL الخاص بـ JDBC
لجلب عنوان URL لـ JDBC، أكمل الخطوات التالية:
- في Databricks، انتقل إلى واجهة مستخدم المجموعات.
- اختر مجموعتك.
- على الاعداد علامة التبويب، اختر خيارات متقدمة.
- تحت خيارات متقدمة، اختر ال جي دي بي سي/ODBC علامة التبويب.
- انسخ عنوان URL الخاص بـ JDBC.
تأكد من استبدال وصولك الشخصي رمز في URL.
إعداد بيانات رانجلر
تفترض هذه الخطوة أن لديك حق الوصول إلى Amazon SageMaker، وهو مثيل لـ أمازون ساجميكر ستوديوومستخدم الاستوديو.
للسماح بالوصول إلى اتصال Databricks JDBC من Data Wrangler، يتطلب مستخدم الاستوديو الإذن التالي:
secretsmanager:PutResourcePolicy
اتبع الخطوات التالية لتحديث دور تنفيذ IAM المعين لمستخدم Studio الذي لديه الإذن أعلاه، كمستخدم إداري IAM.
- في وحدة تحكم IAM ، اختر الأدوار في جزء التنقل.
- اختر الدور المخصص لمستخدم الاستوديو الخاص بك.
- اختار أضف أذونات.
- اختار إنشاء سياسة مضمنة.
- للخدمة، اختر مدير الأسرار.
- On الإجراءات، اختر مستوى الوصول.
- اختار إدارة الأذونات.
- اختار PutResourcePolicy.
- في حالة الموارد، اختر محددة وحدد أي في هذا الحساب.
قم بتنزيل مجموعة البيانات وتقسيمها
يمكنك أن تبدأ من قبل تنزيل مجموعة البيانات. لأغراض العرض التوضيحي، قمنا بتقسيم مجموعة البيانات عن طريق نسخ أعمدة الميزات id
, emp_title
, emp_length
, home_owner
و annual_inc
لإنشاء ثانية القروض_2.csv ملف. نقوم بإزالة الأعمدة المذكورة أعلاه من ملف القروض الأصلي باستثناء id
العمود وإعادة تسمية الملف الأصلي إلى القروض_1.csv. تحميل القروض_1.csv ملف ل Databricks لإنشاء جدول loans_1
و القروض_2.csv في دلو S3.
قم بإنشاء تدفق بيانات رانجلر
للحصول على معلومات حول المتطلبات المسبقة لـ Data Wrangler، راجع ابدأ مع داتا رانجلر.
لنبدأ بإنشاء تدفق بيانات جديد.
- في وحدة تحكم الاستوديو ، في ملف قم بتقديم القائمة، اختر جديد.
- اختار تدفق البيانات رانجلر.
- أعد تسمية التدفق حسب الرغبة.
وبدلاً من ذلك، يمكنك إنشاء تدفق بيانات جديد من Launcher.
يمكن أن يستغرق إنشاء تدفق جديد بضع دقائق حتى يكتمل. بعد إنشاء التدفق، ترى تواريخ الاستيراد .
استيراد البيانات من Databricks إلى Data Wrangler
بعد ذلك، قمنا بإعداد Databricks (JDBC) كمصدر بيانات في Data Wrangler. لاستيراد البيانات من Databricks، نحتاج أولاً إلى إضافة Databricks كمصدر بيانات.
- على تواريخ الاستيراد علامة التبويب الخاصة بتدفق بيانات رانجلر، اختر أضف مصدر البيانات.
- في القائمة المنسدلة ، اختر قوالب البيانات (JDBC).
على استيراد البيانات من Databricks الصفحة، تقوم بإدخال تفاصيل المجموعة الخاصة بك.
- في حالة اسم مجموعة البيانات، أدخل الاسم الذي تريد استخدامه في ملف التدفق.
- في حالة سائق، اختر برنامج التشغيل
com.simba.spark.jdbc.Driver
. - في حالة عنوان URL لـ JDBC، أدخل عنوان URL لمجموعة Databricks التي حصلت عليها مسبقًا.
يجب أن يشبه عنوان URL التنسيق التالي jdbc:spark://<serve- hostname>:443/default;transportMode=http;ssl=1;httpPath=<http- path>;AuthMech=3;UID=token;PWD=<personal-access-token>
.
- في محرر استعلام SQL، حدد عبارة SQL SELECT التالية:
إذا اخترت اسم جدول مختلفًا أثناء تحميل البيانات إلى Databricks، فاستبدل القروض_1 في استعلام SQL أعلاه وفقًا لذلك.
في مجلة استعلام SQL في Data Wrangler، يمكنك الاستعلام عن أي جدول متصل بقاعدة بيانات JDBC Databricks. المحدد مسبقا تمكين أخذ العينات يقوم الإعداد باسترداد أول 50,000 صف من مجموعة البيانات الخاصة بك بشكل افتراضي. اعتمادًا على حجم مجموعة البيانات، يتم إلغاء التحديد تمكين أخذ العينات قد يؤدي إلى وقت استيراد أطول.
- اختار يجري.
يؤدي تشغيل الاستعلام إلى الحصول على معاينة لمجموعة بيانات Databricks مباشرةً في Data Wrangler.
يوفر Data Wrangler المرونة اللازمة لإعداد اتصالات متزامنة متعددة لمجموعة Databricks واحدة أو مجموعات متعددة إذا لزم الأمر، مما يتيح التحليل والتحضير لمجموعات البيانات المجمعة.
قم باستيراد البيانات من Amazon S3 إلى Data Wrangler
بعد ذلك، دعونا استيراد loan_2.csv
ملف من أمازون S3.
عند تحديد ملف CSV، يمكنك معاينة البيانات.
- في مجلة التفاصيل جزء ، اختر التكوين المتقدم للتأكد تمكين أخذ العينات تم تحديد و فقرة تم اختياره ل محدد.
- اختار استيراد.
بعد loans_2.csv
تم استيراد مجموعة البيانات بنجاح، وتعرض واجهة تدفق البيانات مصادر بيانات Databricks JDBC وAmazon S3.
الانضمام إلى البيانات
الآن بعد أن قمنا باستيراد البيانات من Databricks وAmazon S3، فلننضم إلى مجموعات البيانات باستخدام عمود معرف فريد مشترك.
- على تدفق البيانات علامة التبويب ، لـ أنواع البيانات، اختر علامة الزائد لـ
loans_1
. - اختار انضم.
- اختيار
loans_2.csv
الملف باسم حق مجموعة البيانات. - اختار ضبط لإعداد معايير الانضمام.
- في حالة الاسم، أدخل اسمًا للانضمام.
- في حالة نوع الانضمام، اختر داخلي لهذا المنصب.
- اختيار
id
عمود للانضمام إليه. - اختار التقديم لمعاينة مجموعة البيانات المنضمة.
- اختار أضف لإضافته إلى تدفق البيانات.
تطبيق التحولات
يأتي Data Wrangler مزودًا بأكثر من 300 تحويل مدمج، والتي لا تتطلب أي تعليمات برمجية. دعونا نستخدم التحويلات المضمنة لإعداد مجموعة البيانات.
عمود الإسقاط
أولاً نقوم بإسقاط عمود المعرف الزائد.
- في العقدة المرتبطة، اختر علامة الزائد.
- اختار أضف التحويل.
- تحت التحولات، اختر + أضف خطوة.
- اختار إدارة الأعمدة.
- في حالة تحول، اختر عمود الإسقاط.
- في حالة أعمدة لإسقاطها، اختر العمود
id_0
. - اختار أرسال.
- اختار أضف.
تنسيق السلسلة
دعونا نطبق تنسيق السلسلة لإزالة رمز النسبة المئوية من int_rate
و revol_util
الأعمدة.
- على البيانات علامة التبويب ، تحت التحويلات، اختر + أضف خطوة.
- اختار تنسيق السلسلة.
- في حالة تحول، اختر تجريد الأحرف من اليمين.
يتيح لك Data Wrangler تطبيق التحويل الذي اخترته على أعمدة متعددة في وقت واحد.
- في حالة أعمدة الإدخال، اختر
int_rate
وrevol_util
. - في حالة الشخصيات المراد إزالتها، أدخل
%
. - اختار أرسال.
- اختار أضف.
تمييز النص
دعونا الآن نتجه verification_status
، عمود ميزة النص. نقوم بتحويل عمود النص إلى متجهات تردد المصطلح - تردد المستند العكسي (TF-IDF) من خلال تطبيق ناقل العدد ورمز مميز كما هو موضح أدناه. يوفر Data Wrangler أيضًا خيار إحضار رمز مميز خاص بك، إذا رغبت في ذلك.
- تحت ترانسفورمرس، اختر + أضف خطوة.
- اختار تمييز النص.
- في حالة تحول، اختر فيكتور.
- في حالة أعمدة الإدخال، اختر
verification_status
. - اختار أرسال.
- اختار أضف.
تصدير مجموعة البيانات
بعد أن قمنا بتطبيق تحويلات متعددة على أنواع أعمدة مختلفة، بما في ذلك النص والفئوية والرقمية، أصبحنا جاهزين لاستخدام مجموعة البيانات المحولة للتدريب على نموذج تعلم الآلة. الخطوة الأخيرة هي تصدير مجموعة البيانات المحولة إلى Amazon S3. في Data Wrangler، لديك خيارات متعددة للاختيار من بينها للاستهلاك النهائي للتحويلات:
- اختار خطوة التصدير لإنشاء دفتر ملاحظات Jupyter تلقائيًا باستخدام كود معالجة SageMaker لمعالجة مجموعة البيانات المحولة وتصديرها إلى حاوية S3. لمزيد من المعلومات، راجع ابدأ مهام المعالجة ببضع نقرات باستخدام Amazon SageMaker Data Wrangler.
- قم بتصدير دفتر ملاحظات Studio الذي يقوم بإنشاء ملف خط أنابيب SageMaker مع تدفق البيانات الخاصة بك، أو دفتر الملاحظات الذي ينشئ متجر ميزات Amazon SageMaker مجموعة الميزات وإضافة ميزات إلى متجر ميزات غير متصل بالإنترنت أو عبر الإنترنت.
- اختار تصدير البيانات للتصدير مباشرة إلى Amazon S3.
في هذه التدوينة نستفيد من تصدير البيانات الخيار في تحول عرض لتصدير مجموعة البيانات المحولة مباشرة إلى Amazon S3.
تنظيف
إذا اكتمل عملك مع Data Wrangler ، قم بإيقاف تشغيل مثيل Data Wrangler الخاص بك لتجنب تكبد رسوم إضافية.
وفي الختام
في هذا المنشور، تناولنا كيف يمكنك إعداد Databricks وتوصيلها بسرعة وسهولة كمصدر بيانات في Data Wrangler، والاستعلام بشكل تفاعلي عن البيانات المخزنة في Databricks باستخدام SQL، ومعاينة البيانات قبل الاستيراد. بالإضافة إلى ذلك، نظرنا في كيفية دمج بياناتك في Databricks مع البيانات المخزنة في Amazon S3. قمنا بعد ذلك بتطبيق تحويلات البيانات على مجموعة البيانات المدمجة لإنشاء خط أنابيب لإعداد البيانات. لاستكشاف المزيد من إمكانات تحليل Data Wrangler، بما في ذلك تسرب الهدف وإنشاء تقارير التحيز، راجع منشور المدونة التالي تسريع إعداد البيانات باستخدام Amazon SageMaker Data Wrangler للتنبؤ بإعادة قبول مرضى السكري.
لتبدأ مع Data Wrangler ، انظر قم بإعداد بيانات ML مع Amazon SageMaker Data Wrangler، واطلع على أحدث المعلومات حول Data Wrangler صفحة المنتج.
حول المؤلف
روب باينز هو مهندس حلول في AWS يركز على AI / ML. إنه متحمس لمساعدة العملاء على الابتكار وتحقيق أهداف أعمالهم باستخدام الذكاء الاصطناعي والتعلم الآلي. في أوقات فراغه ، يستمتع Roop بالقراءة والمشي لمسافات طويلة.
Igor Alekseev هو مهندس حلول شريك في AWS في البيانات والتحليلات. يعمل Igor مع شركاء استراتيجيين لمساعدتهم على بناء بنى معقدة ومحسّنة لـ AWS. قبل انضمامه إلى AWS ، كمهندس بيانات / حلول ، قام بتنفيذ العديد من المشاريع في البيانات الضخمة ، بما في ذلك العديد من بحيرات البيانات في نظام Hadoop البيئي. كمهندس بيانات ، شارك في تطبيق AI / ML لاكتشاف الاحتيال وأتمتة المكاتب. كانت مشاريع إيغور في مجموعة متنوعة من الصناعات بما في ذلك الاتصالات والتمويل والسلامة العامة والتصنيع والرعاية الصحية. في وقت سابق ، عمل إيغور كمهندس / قائد تقني كامل.
هوونج نجوين هو مدير منتج رئيسي في AWS. إنها تقود تجربة المستخدم لـ SageMaker Studio. لديها 13 عامًا من الخبرة في إنشاء منتجات مهووسة بالعميل وقائمة على البيانات لكل من مساحات المؤسسات والمستهلكين. في أوقات فراغها ، تستمتع بالقراءة والتواجد في الطبيعة وقضاء الوقت مع أسرتها.
هنري وانج هو مهندس تطوير البرمجيات في AWS. انضم مؤخرًا إلى فريق Data Wrangler بعد تخرجه من جامعة كاليفورنيا في ديفيس. لديه اهتمام بعلوم البيانات والتعلم الآلي ويقوم بالطباعة ثلاثية الأبعاد كهواية.
- كوينسمارت. أفضل بورصة للبيتكوين والعملات المشفرة في أوروبا.
- بلاتوبلوكشين. Web3 Metaverse Intelligence. تضخيم المعرفة. دخول مجاني.
- كريبتوهوك. الرادار. تجربة مجانية.
- المصدر: https://aws.amazon.com/blogs/machine-learning/prepare-data-from-databricks-for-machine-learning-using-amazon-sagemaker-data-wrangler/
- "
- 000
- 100
- 39
- 3d
- من نحن
- الوصول
- استيعاب
- إضافي
- متقدم
- مميزات
- خوارزميات
- الكل
- أمازون
- تحليل
- تحليلات
- تطبيق
- هندسة معمارية
- مصطنع
- الذكاء الاصطناعي
- الذكاء الاصطناعي وآلة التعلم
- تعيين
- أتمتة
- AWS
- يجري
- أفضل
- البيانات الكبيرة
- المدونة
- الحدود
- نساعدك في بناء
- مدمج
- الأعمال
- قدرات
- الحالات
- اختار
- سوائل التنظيف
- ناد
- الكود
- البرمجة
- عمود
- الجمع بين
- مشترك
- مجال الاتصالات
- مجمع
- الاعداد
- متصل
- صلة
- التواصل
- نظر
- كنسولات
- توحيد
- مستهلك
- استهلاك
- يحتوي
- خلق
- يخلق
- خلق
- حالياًّ
- العملاء
- البيانات
- علم البيانات
- قاعدة البيانات
- تأخير
- اعتمادا
- كشف
- التطوير التجاري
- مختلف
- مباشرة
- يعرض
- إلى أسفل
- سائق
- قطرة
- بسهولة
- النظام الإيكولوجي
- رئيس التحرير
- تمكين
- تمكين
- مهندس
- الهندسة
- أدخل
- مشروع
- مثال
- إلا
- الخبره في مجال الغطس
- اكتشف
- للعائلات
- الميزات
- المميزات
- الرسوم الدراسية
- تمويل
- الاسم الأول
- مرونة
- تدفق
- متابعيك
- شكل
- احتيال
- بالإضافة إلى
- توليد
- جيل
- خير
- الحكم
- تجمع
- الرعاية الصحية
- مساعدة
- كيفية
- HTTPS
- هوية
- نفذت
- أهمية
- استيراد
- بما فيه
- الصناعات
- معلومات
- رؤى
- رؤيتنا
- مصلحة
- السطح البيني
- استثمار
- المشاركة
- IT
- المشــاريــع
- الانضمام
- انضم
- ملصقات
- لغة
- آخر
- قيادة
- قيادة
- تعلم
- الإقراض
- القروض
- بدا
- آلة
- آلة التعلم
- مدير
- تصنيع
- ML
- نموذج
- عارضات ازياء
- الأكثر من ذلك
- متعدد
- طبيعي
- الطبيعة
- قائمة الإختيارات
- مزايا جديدة
- مفكرة
- عروض
- حاليا
- online
- خيار
- مزيد من الخيارات
- طلب
- الخاصة
- الشريكة
- شركاء
- عاطفي
- وسائل الدفع
- نسبة مئوية
- أداء
- الشخصية
- مرحلة جديدة
- المنصة
- سياسة
- تنبؤات
- أرسال
- عملية المعالجة
- المنتج
- المنتجات
- برمجة وتطوير
- مشروع ناجح
- ويوفر
- توفير
- جمهور
- أغراض
- بسرعة
- الخام
- نادي القراءة
- تقليص
- تقرير
- تطلب
- مطلوب
- مسؤول
- تشغيل
- السلامة
- علوم
- العلماء
- مختار
- مسلسلات
- الخدمة
- طقم
- ضبط
- هام
- الاشارات
- المقاس
- تطبيقات الكمبيوتر
- تطوير البرمجيات
- حل
- الحلول
- المساحات
- أنفق
- الإنفاق
- انقسم
- كومة
- معيار
- بداية
- بدأت
- ملخص الحساب
- الحالة
- تخزين
- متجر
- إستراتيجي
- قوي
- ستوديو
- بنجاح
- الدعم
- الهدف
- فريق
- عبر
- الوقت
- قادة الإيمان
- تحول
- تحول
- ui
- فريد من نوعه
- تحديث
- تستخدم
- تشكيلة
- مختلف
- في حين
- بدون
- للعمل
- عمل
- أعمال
- جاري الكتابة