قم بإعداد البيانات من Databricks للتعلم الآلي باستخدام Amazon SageMaker Data Wrangler

أعاد نشره أفلاطون

المتابعون: 0

تقضي فرق علوم البيانات وهندسة البيانات جزءًا كبيرًا من وقتهم في مرحلة إعداد البيانات في دورة حياة التعلم الآلي (ML) في أداء خطوات اختيار البيانات وتنظيفها وتحويلها. إنها خطوة ضرورية وهامة في أي سير عمل لتعلم الآلة من أجل إنشاء رؤى وتنبؤات ذات معنى، لأن البيانات السيئة أو منخفضة الجودة تقلل بشكل كبير من أهمية الرؤى المشتقة.

تكون فرق هندسة البيانات مسؤولة تقليديًا عن استيعاب البيانات الخام ودمجها وتحويلها للاستهلاك النهائي. غالبًا ما يحتاج علماء البيانات إلى إجراء معالجة إضافية للبيانات لحالات استخدام تعلم الآلة الخاصة بالمجال مثل اللغة الطبيعية والسلاسل الزمنية. على سبيل المثال، قد تكون بعض خوارزميات تعلم الآلة حساسة للقيم المفقودة أو الميزات المتفرقة أو القيم المتطرفة وتتطلب اهتمامًا خاصًا. حتى في الحالات التي تكون فيها مجموعة البيانات في حالة جيدة، قد يرغب علماء البيانات في تحويل توزيعات الميزات أو إنشاء ميزات جديدة من أجل تعظيم الرؤى التي تم الحصول عليها من النماذج. ولتحقيق هذه الأهداف، يتعين على علماء البيانات الاعتماد على فرق هندسة البيانات لاستيعاب التغييرات المطلوبة، مما يؤدي إلى التبعية والتأخير في عملية تطوير النموذج. وبدلاً من ذلك، قد تختار فرق علوم البيانات إجراء إعداد البيانات وهندسة الميزات داخليًا باستخدام نماذج برمجة مختلفة. ومع ذلك، فإنه يتطلب استثمارًا للوقت والجهد في تثبيت وتكوين المكتبات وأطر العمل، وهو أمر ليس مثاليًا لأنه يمكن قضاء هذا الوقت بشكل أفضل في تحسين أداء النموذج.

أمازون سيج ميكر داتا رانجلر يبسط عملية إعداد البيانات وهندسة الميزات، مما يقلل الوقت المستغرق لتجميع البيانات وإعدادها لتعلم الآلة من أسابيع إلى دقائق من خلال توفير واجهة مرئية واحدة لعلماء البيانات لتحديد مجموعات البيانات الخاصة بهم وتنظيفها واستكشافها. توفر Data Wrangler أكثر من 300 عملية تحويل مدمجة للبيانات للمساعدة في تطبيع الميزات وتحويلها ودمجها دون كتابة أي تعليمات برمجية. يمكنك استيراد البيانات من مصادر بيانات متعددة، مثل Amazon Simple Storage Service (Amazon S3) ، أمازون أثينا, الأمازون الأحمرو ندفة الثلج. يمكنك الآن أيضًا استخدام Databricks كمصدر بيانات في Data Wrangler لتحضير البيانات بسهولة لـ ML.

تجمع منصة Databricks Lakehouse بين أفضل عناصر بحيرات البيانات ومستودعات البيانات لتوفير الموثوقية والحوكمة القوية والأداء لمستودعات البيانات مع الانفتاح والمرونة ودعم التعلم الآلي لبحيرات البيانات. باستخدام Databricks كمصدر بيانات لـ Data Wrangler، يمكنك الآن الاتصال بـ Databricks بسرعة وسهولة، والاستعلام بشكل تفاعلي عن البيانات المخزنة في Databricks باستخدام SQL، ومعاينة البيانات قبل الاستيراد. بالإضافة إلى ذلك، يمكنك ضم بياناتك في Databricks مع البيانات المخزنة في Amazon S3، والبيانات التي تم الاستعلام عنها من خلال Amazon Athena، وAmazon Redshift، وSnowflake لإنشاء مجموعة البيانات المناسبة لحالة استخدام تعلم الآلة الخاصة بك.

في هذا المنشور، نقوم بتحويل مجموعة بيانات Lending Club Loan باستخدام Amazon SageMaker Data Wrangler لاستخدامها في التدريب على نموذج تعلم الآلة.

حل نظرة عامة

يوضح الرسم البياني التالي بنية الحلول لدينا.

تحتوي مجموعة بيانات Lending Club Loan على بيانات القروض الكاملة لجميع القروض الصادرة خلال الفترة 2007-2011، بما في ذلك حالة القرض الحالية وأحدث معلومات الدفع. يحتوي على 39,717 صفًا و22 عمودًا مميزًا و3 تسميات مستهدفة.

لتحويل بياناتنا باستخدام Data Wrangler، نقوم بإكمال الخطوات عالية المستوى التالية:

قم بتنزيل مجموعة البيانات وتقسيمها.
قم بإنشاء تدفق بيانات رانجلر.
استيراد البيانات من Databricks إلى Data Wrangler.
استيراد البيانات من Amazon S3 إلى Data Wrangler.
الانضمام إلى البيانات.
تطبيق التحولات.
تصدير مجموعة البيانات.

المتطلبات الأساسية المسبقة

يفترض المنشور أن لديك مجموعة Databricks قيد التشغيل. إذا كانت مجموعتك تعمل على AWS، فتأكد من تكوين ما يلي:

إعداد قوالب البيانات

An الملف الشخصي على سبيل المثال مع الأذونات المطلوبة للوصول إلى مجموعة S3
A سياسة الجرافة مع الأذونات المطلوبة لحاوية S3 المستهدفة

تابعني: الوصول الآمن إلى حاويات S3 باستخدام ملفات تعريف المثيلات للمطلوب إدارة الهوية والوصول AWS أدوار (IAM)، وسياسة مجموعة S3، وتكوين مجموعة Databricks. تأكد من تكوين مجموعة Databricks بالشكل المناسب Instance Profile، المحددة ضمن الخيارات المتقدمة، للوصول إلى مجموعة S3 المطلوبة.

بعد إعداد مجموعة Databricks وتشغيلها مع الوصول المطلوب إلى Amazon S3، يمكنك جلب ملف JDBC URL من مجموعة Databricks الخاصة بك لتستخدمها Data Wrangler للاتصال بها.

قم بإحضار عنوان URL الخاص بـ JDBC

لجلب عنوان URL لـ JDBC، أكمل الخطوات التالية:

في Databricks، انتقل إلى واجهة مستخدم المجموعات.
اختر مجموعتك.
على الاعداد علامة التبويب، اختر خيارات متقدمة.
تحت خيارات متقدمة، اختر ال جي دي بي سي/ODBC علامة التبويب.
انسخ عنوان URL الخاص بـ JDBC.

تأكد من استبدال وصولك الشخصي رمز في URL.

إعداد بيانات رانجلر

تفترض هذه الخطوة أن لديك حق الوصول إلى Amazon SageMaker، وهو مثيل لـ أمازون ساجميكر ستوديوومستخدم الاستوديو.

للسماح بالوصول إلى اتصال Databricks JDBC من Data Wrangler، يتطلب مستخدم الاستوديو الإذن التالي:

secretsmanager:PutResourcePolicy

اتبع الخطوات التالية لتحديث دور تنفيذ IAM المعين لمستخدم Studio الذي لديه الإذن أعلاه، كمستخدم إداري IAM.

في وحدة تحكم IAM ، اختر الأدوار في جزء التنقل.
اختر الدور المخصص لمستخدم الاستوديو الخاص بك.
اختار أضف أذونات.
اختار إنشاء سياسة مضمنة.
للخدمة، اختر مدير الأسرار.
On الإجراءات، اختر مستوى الوصول.
اختار إدارة الأذونات.
اختار PutResourcePolicy.
في حالة الموارد، اختر محددة وحدد أي في هذا الحساب.

قم بتنزيل مجموعة البيانات وتقسيمها

يمكنك أن تبدأ من قبل تنزيل مجموعة البيانات. لأغراض العرض التوضيحي، قمنا بتقسيم مجموعة البيانات عن طريق نسخ أعمدة الميزات id, emp_title, emp_length, home_ownerو annual_inc لإنشاء ثانية القروض_2.csv ملف. نقوم بإزالة الأعمدة المذكورة أعلاه من ملف القروض الأصلي باستثناء id العمود وإعادة تسمية الملف الأصلي إلى القروض_1.csv. تحميل القروض_1.csv ملف ل Databricks لإنشاء جدول loans_1 و القروض_2.csv في دلو S3.

قم بإنشاء تدفق بيانات رانجلر

للحصول على معلومات حول المتطلبات المسبقة لـ Data Wrangler، راجع ابدأ مع داتا رانجلر.

لنبدأ بإنشاء تدفق بيانات جديد.

في وحدة تحكم الاستوديو ، في ملف قم بتقديم القائمة، اختر جديد.
اختار تدفق البيانات رانجلر.
أعد تسمية التدفق حسب الرغبة.

وبدلاً من ذلك، يمكنك إنشاء تدفق بيانات جديد من Launcher.

في وحدة تحكم الاستوديو ، اختر أمازون ساجميكر ستوديو في جزء التنقل.
اختار تدفق بيانات جديد.

يمكن أن يستغرق إنشاء تدفق جديد بضع دقائق حتى يكتمل. بعد إنشاء التدفق، ترى تواريخ الاستيراد .

استيراد البيانات من Databricks إلى Data Wrangler

بعد ذلك، قمنا بإعداد Databricks (JDBC) كمصدر بيانات في Data Wrangler. لاستيراد البيانات من Databricks، نحتاج أولاً إلى إضافة Databricks كمصدر بيانات.

على تواريخ الاستيراد علامة التبويب الخاصة بتدفق بيانات رانجلر، اختر أضف مصدر البيانات.
في القائمة المنسدلة ، اختر قوالب البيانات (JDBC).

على استيراد البيانات من Databricks الصفحة، تقوم بإدخال تفاصيل المجموعة الخاصة بك.

في حالة اسم مجموعة البيانات، أدخل الاسم الذي تريد استخدامه في ملف التدفق.
في حالة سائق، اختر برنامج التشغيل com.simba.spark.jdbc.Driver.
في حالة عنوان URL لـ JDBC، أدخل عنوان URL لمجموعة Databricks التي حصلت عليها مسبقًا.

يجب أن يشبه عنوان URL التنسيق التالي jdbc:spark://<serve- hostname>:443/default;transportMode=http;ssl=1;httpPath=<http- path>;AuthMech=3;UID=token;PWD=<personal-access-token>.

في محرر استعلام SQL، حدد عبارة SQL SELECT التالية:
```
select * from loans_1
```

إذا اخترت اسم جدول مختلفًا أثناء تحميل البيانات إلى Databricks، فاستبدل القروض_1 في استعلام SQL أعلاه وفقًا لذلك.

في مجلة استعلام SQL في Data Wrangler، يمكنك الاستعلام عن أي جدول متصل بقاعدة بيانات JDBC Databricks. المحدد مسبقا تمكين أخذ العينات يقوم الإعداد باسترداد أول 50,000 صف من مجموعة البيانات الخاصة بك بشكل افتراضي. اعتمادًا على حجم مجموعة البيانات، يتم إلغاء التحديد تمكين أخذ العينات قد يؤدي إلى وقت استيراد أطول.

اختار يجري.

يؤدي تشغيل الاستعلام إلى الحصول على معاينة لمجموعة بيانات Databricks مباشرةً في Data Wrangler.

اختار استيراد.

يوفر Data Wrangler المرونة اللازمة لإعداد اتصالات متزامنة متعددة لمجموعة Databricks واحدة أو مجموعات متعددة إذا لزم الأمر، مما يتيح التحليل والتحضير لمجموعات البيانات المجمعة.

قم باستيراد البيانات من Amazon S3 إلى Data Wrangler

بعد ذلك، دعونا استيراد loan_2.csv ملف من أمازون S3.

في علامة التبويب استيراد، اختر الأمازون S3 كمصدر للبيانات.
انتقل إلى دلو S3 لـ loan_2.csv ملف.

عند تحديد ملف CSV، يمكنك معاينة البيانات.

في مجلة التفاصيل جزء ، اختر التكوين المتقدم للتأكد تمكين أخذ العينات تم تحديد و فقرة تم اختياره ل محدد.
اختار استيراد.

بعد loans_2.csv تم استيراد مجموعة البيانات بنجاح، وتعرض واجهة تدفق البيانات مصادر بيانات Databricks JDBC وAmazon S3.

الانضمام إلى البيانات

الآن بعد أن قمنا باستيراد البيانات من Databricks وAmazon S3، فلننضم إلى مجموعات البيانات باستخدام عمود معرف فريد مشترك.

على تدفق البيانات علامة التبويب ، لـ أنواع البيانات، اختر علامة الزائد لـ loans_1.
اختار انضم.
اختيار loans_2.csv الملف باسم حق مجموعة البيانات.
اختار ضبط لإعداد معايير الانضمام.
في حالة الاسم، أدخل اسمًا للانضمام.
في حالة نوع الانضمام، اختر داخلي لهذا المنصب.
اختيار id عمود للانضمام إليه.
اختار التقديم لمعاينة مجموعة البيانات المنضمة.
اختار أضف لإضافته إلى تدفق البيانات.

تطبيق التحولات

يأتي Data Wrangler مزودًا بأكثر من 300 تحويل مدمج، والتي لا تتطلب أي تعليمات برمجية. دعونا نستخدم التحويلات المضمنة لإعداد مجموعة البيانات.

عمود الإسقاط

أولاً نقوم بإسقاط عمود المعرف الزائد.

في العقدة المرتبطة، اختر علامة الزائد.
اختار أضف التحويل.
تحت التحولات، اختر + أضف خطوة.
اختار إدارة الأعمدة.
في حالة تحول، اختر عمود الإسقاط.
في حالة أعمدة لإسقاطها، اختر العمود id_0.
اختار أرسال.
اختار أضف.

تنسيق السلسلة

دعونا نطبق تنسيق السلسلة لإزالة رمز النسبة المئوية من int_rate و revol_util الأعمدة.

على البيانات علامة التبويب ، تحت التحويلات، اختر + أضف خطوة.
اختار تنسيق السلسلة.
في حالة تحول، اختر تجريد الأحرف من اليمين.

يتيح لك Data Wrangler تطبيق التحويل الذي اخترته على أعمدة متعددة في وقت واحد.

في حالة أعمدة الإدخال، اختر int_rate و revol_util.
في حالة الشخصيات المراد إزالتها، أدخل %.
اختار أرسال.
اختار أضف.

تمييز النص

دعونا الآن نتجه verification_status، عمود ميزة النص. نقوم بتحويل عمود النص إلى متجهات تردد المصطلح - تردد المستند العكسي (TF-IDF) من خلال تطبيق ناقل العدد ورمز مميز كما هو موضح أدناه. يوفر Data Wrangler أيضًا خيار إحضار رمز مميز خاص بك، إذا رغبت في ذلك.

تحت ترانسفورمرس، اختر + أضف خطوة.
اختار تمييز النص.
في حالة تحول، اختر فيكتور.
في حالة أعمدة الإدخال، اختر verification_status.
اختار أرسال.
اختار أضف.

تصدير مجموعة البيانات

بعد أن قمنا بتطبيق تحويلات متعددة على أنواع أعمدة مختلفة، بما في ذلك النص والفئوية والرقمية، أصبحنا جاهزين لاستخدام مجموعة البيانات المحولة للتدريب على نموذج تعلم الآلة. الخطوة الأخيرة هي تصدير مجموعة البيانات المحولة إلى Amazon S3. في Data Wrangler، لديك خيارات متعددة للاختيار من بينها للاستهلاك النهائي للتحويلات:

اختار خطوة التصدير لإنشاء دفتر ملاحظات Jupyter تلقائيًا باستخدام كود معالجة SageMaker لمعالجة مجموعة البيانات المحولة وتصديرها إلى حاوية S3. لمزيد من المعلومات، راجع ابدأ مهام المعالجة ببضع نقرات باستخدام Amazon SageMaker Data Wrangler.
قم بتصدير دفتر ملاحظات Studio الذي يقوم بإنشاء ملف خط أنابيب SageMaker مع تدفق البيانات الخاصة بك، أو دفتر الملاحظات الذي ينشئ متجر ميزات Amazon SageMaker مجموعة الميزات وإضافة ميزات إلى متجر ميزات غير متصل بالإنترنت أو عبر الإنترنت.
اختار تصدير البيانات للتصدير مباشرة إلى Amazon S3.

في هذه التدوينة نستفيد من تصدير البيانات الخيار في تحول عرض لتصدير مجموعة البيانات المحولة مباشرة إلى Amazon S3.

اختار تصدير البيانات.
في حالة موقع S3، اختر تصفح واختر دلو S3 الخاص بك.
اختار تصدير البيانات.

تنظيف

إذا اكتمل عملك مع Data Wrangler ، قم بإيقاف تشغيل مثيل Data Wrangler الخاص بك لتجنب تكبد رسوم إضافية.

وفي الختام

في هذا المنشور، تناولنا كيف يمكنك إعداد Databricks وتوصيلها بسرعة وسهولة كمصدر بيانات في Data Wrangler، والاستعلام بشكل تفاعلي عن البيانات المخزنة في Databricks باستخدام SQL، ومعاينة البيانات قبل الاستيراد. بالإضافة إلى ذلك، نظرنا في كيفية دمج بياناتك في Databricks مع البيانات المخزنة في Amazon S3. قمنا بعد ذلك بتطبيق تحويلات البيانات على مجموعة البيانات المدمجة لإنشاء خط أنابيب لإعداد البيانات. لاستكشاف المزيد من إمكانات تحليل Data Wrangler، بما في ذلك تسرب الهدف وإنشاء تقارير التحيز، راجع منشور المدونة التالي تسريع إعداد البيانات باستخدام Amazon SageMaker Data Wrangler للتنبؤ بإعادة قبول مرضى السكري.

لتبدأ مع Data Wrangler ، انظر قم بإعداد بيانات ML مع Amazon SageMaker Data Wrangler، واطلع على أحدث المعلومات حول Data Wrangler صفحة المنتج.

حول المؤلف

روب باينز هو مهندس حلول في AWS يركز على AI / ML. إنه متحمس لمساعدة العملاء على الابتكار وتحقيق أهداف أعمالهم باستخدام الذكاء الاصطناعي والتعلم الآلي. في أوقات فراغه ، يستمتع Roop بالقراءة والمشي لمسافات طويلة.

Igor Alekseev هو مهندس حلول شريك في AWS في البيانات والتحليلات. يعمل Igor مع شركاء استراتيجيين لمساعدتهم على بناء بنى معقدة ومحسّنة لـ AWS. قبل انضمامه إلى AWS ، كمهندس بيانات / حلول ، قام بتنفيذ العديد من المشاريع في البيانات الضخمة ، بما في ذلك العديد من بحيرات البيانات في نظام Hadoop البيئي. كمهندس بيانات ، شارك في تطبيق AI / ML لاكتشاف الاحتيال وأتمتة المكاتب. كانت مشاريع إيغور في مجموعة متنوعة من الصناعات بما في ذلك الاتصالات والتمويل والسلامة العامة والتصنيع والرعاية الصحية. في وقت سابق ، عمل إيغور كمهندس / قائد تقني كامل.

قم بإعداد البيانات من Databricks للتعلم الآلي باستخدام Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. البحث العمودي. عاي. هوونج نجوين هو مدير منتج رئيسي في AWS. إنها تقود تجربة المستخدم لـ SageMaker Studio. لديها 13 عامًا من الخبرة في إنشاء منتجات مهووسة بالعميل وقائمة على البيانات لكل من مساحات المؤسسات والمستهلكين. في أوقات فراغها ، تستمتع بالقراءة والتواجد في الطبيعة وقضاء الوقت مع أسرتها.

هنري وانج هو مهندس تطوير البرمجيات في AWS. انضم مؤخرًا إلى فريق Data Wrangler بعد تخرجه من جامعة كاليفورنيا في ديفيس. لديه اهتمام بعلوم البيانات والتعلم الآلي ويقوم بالطباعة ثلاثية الأبعاد كهواية.

الطابع الزمني: 31 آذار، 2022

الطابع الزمني: 30 مايو 2023

قم بإعداد البيانات من Databricks للتعلم الآلي باستخدام Amazon SageMaker Data Wrangler

أعاد نشره أفلاطون

حل نظرة عامة

المتطلبات الأساسية المسبقة

إعداد قوالب البيانات

قم بإحضار عنوان URL الخاص بـ JDBC

إعداد بيانات رانجلر

قم بتنزيل مجموعة البيانات وتقسيمها

قم بإنشاء تدفق بيانات رانجلر

استيراد البيانات من Databricks إلى Data Wrangler

قم باستيراد البيانات من Amazon S3 إلى Data Wrangler

الانضمام إلى البيانات

تطبيق التحولات

عمود الإسقاط

تنسيق السلسلة

تمييز النص

تصدير مجموعة البيانات

تنظيف

وفي الختام

حول المؤلف

اكثر من التعلم الآلي من AWS

نفِّذ بحثًا موحدًا عن النص والصورة باستخدام نموذج CLIP باستخدام Amazon SageMaker و Amazon OpenSearch Service

كيف وفر Prodege 1.5 مليون دولار من تكاليف المراجعة البشرية السنوية باستخدام الذكاء الاصطناعي للرؤية الحاسوبية منخفضة التعليمات البرمجية

مقاييس تقييم حل التحقق من الهوية

كيف خفضت OCX Cognition وقت تطوير نموذج ML من أسابيع إلى أيام ووقت تحديث النموذج من أيام إلى الوقت الفعلي باستخدام AWS Step Functions و Amazon SageMaker | خدمات أمازون ويب

تستخدم شركة الوساطة العقارية John L.

ادمج Amazon SageMaker Data Wrangler مع تدفقات عمل MLOps

قم بزيادة أداء نموذج ML وتقليل وقت التدريب باستخدام خوارزميات Amazon SageMaker المضمنة مع نماذج مدربة مسبقًا

أضف AI للمحادثة إلى أي مركز اتصال مع Amazon Lex و Amazon Chime SDK

من نحن

البحث العمودي و Ai

الانطلاق

ابق على تواصل

حسابي