احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

احصل على مزيد من التحكم في أحمال عمل Amazon SageMaker Data Wrangler باستخدام مجموعات بيانات ذات معلمات ووظائف مجدولة

تعمل البيانات على تغيير كل مجال وكل عمل. ومع ذلك ، مع نمو البيانات بشكل أسرع مما يمكن لمعظم الشركات تتبعه ، فإن جمع البيانات والحصول على قيمة من تلك البيانات يعد أمرًا صعبًا للقيام به. أ استراتيجية البيانات الحديثة يمكن أن تساعدك في إنشاء نتائج أعمال أفضل باستخدام البيانات. توفر AWS المجموعة الأكثر اكتمالاً من الخدمات لـ رحلة بيانات شاملة لمساعدتك فتح القيمة من بياناتك وتحويلها إلى بصيرة.

يمكن لعلماء البيانات قضاء ما يصل إلى 80٪ من وقتهم في إعداد البيانات لمشاريع التعلم الآلي (ML). عملية التحضير هذه هي عمل غير متمايز ومضجر إلى حد كبير ، ويمكن أن تتضمن واجهات برمجة تطبيقات برمجة متعددة ومكتبات مخصصة. أمازون سيج ميكر داتا رانجلر يساعد علماء البيانات ومهندسي البيانات على تبسيط وتسريع إعداد البيانات الجدولية والسلاسل الزمنية وهندسة الميزات من خلال واجهة مرئية. يمكنك استيراد البيانات من مصادر بيانات متعددة ، مثل خدمة تخزين أمازون البسيطة (Amazon S3) ، أمازون أثينا, الأمازون الأحمر، أو حتى حلول الجهات الخارجية مثل ندفة الثلج or داتابريكس، ومعالجة بياناتك باستخدام أكثر من 300 عملية تحويل بيانات مضمنة ومكتبة من مقتطفات التعليمات البرمجية ، بحيث يمكنك تطبيع الميزات وتحويلها ودمجها بسرعة دون كتابة أي رمز. يمكنك أيضًا إحضار تحويلاتك المخصصة في PySpark أو SQL أو Pandas.

يوضح هذا المنشور كيف يمكنك جدولة وظائف إعداد البيانات الخاصة بك للتشغيل تلقائيًا. نستكشف أيضًا قدرة Data Wrangler الجديدة لمجموعات البيانات ذات المعلمات ، والتي تسمح لك بتحديد الملفات التي سيتم تضمينها في تدفق البيانات عن طريق URIs ذات المعلمات.

حل نظرة عامة

يدعم Data Wrangler الآن استيراد البيانات باستخدام URI ذي معلمات. يتيح ذلك مزيدًا من المرونة لأنه يمكنك الآن استيراد جميع مجموعات البيانات المطابقة للمعلمات المحددة ، والتي يمكن أن تكون من النوع String ، و Number ، و Datetime ، و Pattern ، في URI. بالإضافة إلى ذلك ، يمكنك الآن تشغيل وظائف تحويل Data Wrangler وفقًا لجدول زمني.

في هذا المنشور ، قمنا بإنشاء تدفق عينة باستخدام مجموعة بيانات Titanic لإظهار كيف يمكنك البدء في تجربة هاتين الميزتين الجديدتين من Data Wrangler. لتنزيل مجموعة البيانات ، ارجع إلى تايتانيك - التعلم الآلي من الكوارث.

المتطلبات الأساسية المسبقة

للحصول على جميع الميزات الموضحة في هذا المنشور ، تحتاج إلى تشغيل أحدث إصدار kernel من Data Wrangler. لمزيد من المعلومات ، يرجى الرجوع إلى تحديث البيانات رانجلر. بالإضافة إلى ذلك ، يجب أن تكون قيد التشغيل أمازون ساجميكر ستوديو JupyterLab 3. لعرض الإصدار الحالي وتحديثه ، ارجع إلى JupyterLab الإصدار.

هيكل الملف

بالنسبة لهذا العرض التوضيحي ، نتبع بنية ملف بسيطة يجب عليك تكرارها من أجل إعادة إنتاج الخطوات الموضحة في هذا المنشور.

  1. في الاستوديو ، إنشاء دفتر ملاحظات جديد.
  2. قم بتشغيل مقتطف الشفرة التالي لإنشاء بنية المجلد التي نستخدمها (تأكد من أنك في المجلد المطلوب في شجرة الملفات الخاصة بك):
    !mkdir titanic_dataset
    !mkdir titanic_dataset/datetime_data
    !mkdir titanic_dataset/datetime_data/2021
    !mkdir titanic_dataset/datetime_data/2022
    
    !mkdir titanic_dataset/datetime_data/2021/01 titanic_dataset/datetime_data/2021/02 titanic_dataset/datetime_data/2021/03 
    !mkdir titanic_dataset/datetime_data/2021/04 titanic_dataset/datetime_data/2021/05 titanic_dataset/datetime_data/2021/06
    !mkdir titanic_dataset/datetime_data/2022/01 titanic_dataset/datetime_data/2022/02 titanic_dataset/datetime_data/2022/03 
    !mkdir titanic_dataset/datetime_data/2022/04 titanic_dataset/datetime_data/2022/05 titanic_dataset/datetime_data/2022/06
    
    !mkdir titanic_dataset/datetime_data/2021/01/01 titanic_dataset/datetime_data/2021/02/01 titanic_dataset/datetime_data/2021/03/01 
    !mkdir titanic_dataset/datetime_data/2021/04/01 titanic_dataset/datetime_data/2021/05/01 titanic_dataset/datetime_data/2021/06/01
    !mkdir titanic_dataset/datetime_data/2022/01/01 titanic_dataset/datetime_data/2022/02/01 titanic_dataset/datetime_data/2022/03/01 
    !mkdir titanic_dataset/datetime_data/2022/04/01 titanic_dataset/datetime_data/2022/05/01 titanic_dataset/datetime_data/2022/06/01
    
    !mkdir titanic_dataset/train_1 titanic_dataset/train_2 titanic_dataset/train_3 titanic_dataset/train_4 titanic_dataset/train_5
    !mkdir titanic_dataset/train titanic_dataset/test

  3. نسخ train.csv و test.csv الملفات من مجموعة بيانات Titanic الأصلية إلى المجلدات titanic_dataset/train و titanic_dataset/test، على التوالي.
  4. قم بتشغيل مقتطف الشفرة التالي لملء المجلدات بالملفات الضرورية:
    import os
    import math
    import pandas as pd
    batch_size = 100
    
    #Get a list of all the leaf nodes in the folder structure
    leaf_nodes = []
    
    for root, dirs, files in os.walk('titanic_dataset'):
        if not dirs:
            if root != "titanic_dataset/test" and root != "titanic_dataset/train":
                leaf_nodes.append(root)
                
    titanic_df = pd.read_csv('titanic_dataset/train/train.csv')
    
    #Create the mini batch files
    for i in range(math.ceil(titanic_df.shape[0]/batch_size)):
        batch_df = titanic_df[i*batch_size:(i+1)*batch_size]
        
        #Place a copy of each mini batch in each one of the leaf folders
        for node in leaf_nodes:
            batch_df.to_csv(node+'/part_{}.csv'.format(i), index=False)

نقوم بتقسيم train.csv ملف مجموعة بيانات Titanic في تسعة ملفات مختلفة ، تسمى part_x، حيث x هو رقم الجزء. يحتوي الجزء 0 على أول 100 سجل ، والجزء 1 هو 100 التالي ، وهكذا حتى الجزء 8. يحتوي كل مجلد عقدة في شجرة الملفات على نسخة من الأجزاء التسعة من بيانات التدريب باستثناء train و test المجلدات التي تحتوي على ملفات train.csv و test.csv.

مجموعات البيانات ذات المعاملات

يمكن لمستخدمي Data Wrangler الآن تحديد معلمات لمجموعات البيانات المستوردة من Amazon S3. يتم تحديد معلمات مجموعة البيانات في URI للموارد ، ويمكن تغيير قيمتها ديناميكيًا ، مما يسمح بمزيد من المرونة لاختيار الملفات التي نريد استيرادها. يمكن أن تتكون المعلمات من أربعة أنواع من البيانات:

  • رقم الهاتف - يمكن أن تأخذ قيمة أي عدد صحيح
  • خيط - يمكن أن تأخذ قيمة أي سلسلة نصية
  • نمط - يمكن أن تأخذ قيمة أي تعبير عادي
  • التاريخ والوقت - يمكن أن تأخذ قيمة أي من تنسيقات التاريخ / الوقت المدعومة

في هذا القسم ، نقدم شرحًا تفصيليًا لهذه الميزة الجديدة. يتوفر هذا فقط بعد استيراد مجموعة البيانات الخاصة بك إلى التدفق الحالي وفقط لمجموعات البيانات المستوردة من Amazon S3.

  1. من تدفق البيانات ، اختر علامة الجمع (+) بجوار خطوة الاستيراد واختر تحرير مجموعة البيانات.
  2. الطريقة المفضلة (والأسهل) لإنشاء معلمات جديدة هي تمييز قسم من عنوان URL الخاص بك والاختيار إنشاء معلمة مخصصة في القائمة المنسدلة. تحتاج إلى تحديد أربعة أشياء لكل معلمة تريد إنشاءها:
    1. الاسم
    2. النوع
    3. القيمة الافتراضية
    4. الوصف

    احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.
    هنا قمنا بإنشاء معلمة نوع سلسلة تسمى filename_param بقيمة افتراضية train.csv. يمكنك الآن رؤية اسم المعلمة محاطًا بأقواس مزدوجة ، لتحل محل جزء URI الذي حددناه سابقًا. لأن القيمة المحددة لهذه المعلمة كانت train.csv، نرى الملف الآن train.csv المدرجة في جدول الاستيراد.
    احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

  3. عندما نحاول إنشاء وظيفة تحويل ، على تكوين الوظيفة الخطوة ، نرى الآن أ المعلمات ، حيث يمكننا رؤية قائمة بجميع المعلمات المحددة لدينا.
  4. يمنحنا اختيار المعلمة خيار تغيير قيمة المعلمة ، وفي هذه الحالة ، تغيير مجموعة بيانات الإدخال ليتم تحويلها وفقًا للتدفق المحدد.
    على افتراض أننا نغير قيمة filename_param تبدأ من train.csv إلى part_0.csv، تأخذ وظيفة التحويل الآن part_0.csv (بشرط أن يكون الملف بالاسم part_0.csv موجود ضمن نفس المجلد) مثل بيانات الإدخال الجديدة الخاصة به.
    احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.
  5. بالإضافة إلى ذلك ، إذا حاولت تصدير التدفق الخاص بك إلى وجهة Amazon S3 (عبر دفتر ملاحظات Jupyter) ، فسترى الآن خلية جديدة تحتوي على المعلمات التي حددتها.
    لاحظ أن المعلمة تأخذ قيمتها الافتراضية ، ولكن يمكنك تغييرها عن طريق استبدال قيمتها في ملف parameter_overrides القاموس (مع ترك مفاتيح القاموس دون تغيير).
    احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.
    بالإضافة إلى ذلك ، يمكنك إنشاء معلمات جديدة من ملف المعلمات UI.
  6. افتحه باختيار أيقونة المعلمات ({{}}) الموجود بجوار Go اختيار؛ يقع كلاهما بجوار قيمة مسار URI.
    احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.يفتح جدول بجميع المعلمات الموجودة حاليًا في ملف التدفق الخاص بك (filename_param عند هذه النقطة).
  7. يمكنك إنشاء معلمات جديدة للتدفق الخاص بك عن طريق الاختيار إنشاء معلمة.
    احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.
    تفتح نافذة منبثقة للسماح لك بإنشاء معلمة مخصصة جديدة.
  8. هنا ، قمنا بإنشاء ملف example_parameter كنوع رقم بقيمة افتراضية 0. هذه المعلمة المنشأة حديثًا مدرجة الآن في ملف المعلمات الطاولة. يؤدي التمرير فوق المعلمة إلى عرض الخيارات تعديل, حذفو إدراج.احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.
  9. من داخل المعلمات UI ، يمكنك إدراج إحدى المعلمات الخاصة بك في URI عن طريق تحديد المعلمة المطلوبة والاختيار إدراج.
    يؤدي هذا إلى إضافة المعلمة إلى نهاية URI الخاص بك. تحتاج إلى نقله إلى القسم المطلوب داخل URI الخاص بك.
    احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.
  10. قم بتغيير القيمة الافتراضية للمعلمة ، قم بتطبيق التغيير (من الشكل) ، اختر Go، واختر رمز التحديث لتحديث قائمة المعاينة باستخدام مجموعة البيانات المحددة بناءً على قيمة المعلمة المحددة حديثًا.احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.دعنا الآن نستكشف أنواع المعلمات الأخرى. افترض أن لدينا الآن مجموعة بيانات مقسمة إلى أجزاء متعددة ، حيث يحتوي كل ملف على رقم جزء.
  11. إذا أردنا تغيير رقم الملف ديناميكيًا ، فيمكننا تحديد معلمة Number كما هو موضح في لقطة الشاشة التالية.احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.لاحظ أن الملف المحدد هو الملف الذي يطابق الرقم المحدد في المعلمة.
    احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.الآن دعنا نوضح كيفية استخدام معلمة النمط. لنفترض أننا نريد استيراد جميع ملفات part_1.csv الملفات الموجودة في جميع المجلدات الموجودة أسفل امتداد titanic-dataset/ مجلد. يمكن أن تأخذ معلمات النمط أي تعبير عادي صالح ؛ هناك بعض أنماط regex الموضحة كأمثلة.
  12. قم بإنشاء معلمة نمط تسمى any_pattern لمطابقة أي مجلد أو ملف ضمن titanic-dataset/ مجلد بالقيمة الافتراضية .*لاحظ أن حرف البدل ليس علامة * واحدة (علامة النجمة) ولكنه يحتوي أيضًا على نقطة.
  13. تسليط الضوء على titanic-dataset/ جزء من المسار وإنشاء معلمة مخصصة. هذه المرة نختار نمط اكتب.احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.يحدد هذا النمط جميع الملفات التي تسمى part-1.csv من أي من المجلدات الموجودة أسفل titanic-dataset/.
    احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.يمكن استخدام المعلمة أكثر من مرة في المسار. في المثال التالي ، نستخدم المعلمة التي تم إنشاؤها حديثًا any_pattern مرتين في URI الخاص بنا لمطابقة أي من ملفات الجزء في أي من المجلدات الموجودة أسفل titanic-dataset/.
    احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.أخيرًا ، دعنا ننشئ معلمة Datetime. تعد معلمات التاريخ والوقت مفيدة عندما نتعامل مع مسارات مقسمة حسب التاريخ والوقت ، مثل تلك التي تم إنشاؤها بواسطة أمازون كينسيس داتا فايرهاوس (انظر التقسيم الديناميكي في Kinesis Data Firehose). في هذا العرض التوضيحي ، نستخدم البيانات الموجودة ضمن مجلد بيانات التاريخ والوقت.
  14. حدد جزء المسار الخاص بك الذي يمثل تاريخًا / وقتًا وقم بإنشاء معلمة مخصصة. اختر ال التاريخ والوقت نوع المعلمة.
    عند اختيار نوع البيانات Datetime ، تحتاج إلى ملء مزيد من التفاصيل.
  15. بادئ ذي بدء ، يجب عليك تقديم تنسيق التاريخ. يمكنك اختيار أي من تنسيقات التاريخ / الوقت المحددة مسبقًا أو إنشاء تنسيق مخصص.
    بالنسبة لتنسيقات التاريخ / الوقت المحددة مسبقًا ، توفر وسيلة الإيضاح مثالاً لتاريخ يطابق التنسيق المحدد. لهذا العرض التوضيحي ، نختار التنسيق س س س / ش ش / ي ي.احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.
  16. بعد ذلك ، حدد منطقة زمنية لقيم التاريخ / الوقت.
    على سبيل المثال ، قد يكون التاريخ الحالي هو 1 يناير 2022 في منطقة زمنية واحدة ، ولكن قد يكون 2 يناير 2022 في منطقة زمنية أخرى.
  17. أخيرًا ، يمكنك تحديد النطاق الزمني ، والذي يتيح لك تحديد نطاق الملفات التي تريد تضمينها في تدفق البيانات.
    يمكنك تحديد النطاق الزمني الخاص بك بالساعات أو الأيام أو الأسابيع أو الأشهر أو السنوات. في هذا المثال ، نريد الحصول على جميع الملفات من العام الماضي.
  18. قدم وصفًا للمعلمة واختر إنشاء.
    إذا كنت تستخدم مجموعات بيانات متعددة مع مناطق زمنية مختلفة ، فلن يتم تحويل الوقت تلقائيًا ؛ تحتاج إلى المعالجة المسبقة لكل ملف أو مصدر لتحويله إلى منطقة زمنية واحدة.احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.الملفات المحددة هي جميع الملفات الموجودة ضمن المجلدات المقابلة لبيانات العام الماضي.احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.
  19. الآن إذا أنشأنا وظيفة تحويل البيانات ، فيمكننا رؤية قائمة بجميع المعلمات المحددة لدينا ، ويمكننا تجاوز قيمها الافتراضية بحيث تختار وظائف التحويل الملفات المحددة.احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.
    احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

جدولة مهام المعالجة

يمكنك الآن جدولة مهام المعالجة لأتمتة تشغيل مهام تحويل البيانات وتصدير بياناتك المحولة إما إلى Amazon S3 أو متجر ميزات Amazon SageMaker. يمكنك جدولة الوظائف بالوقت والوتيرة التي تناسب احتياجاتك.

استخدام وظائف المعالجة المجدولة أمازون إيفينت بريدج القواعد لجدولة تشغيل الوظيفة. لذلك ، كشرط مسبق ، عليك التأكد من أن ملف إدارة الهوية والوصول AWS (IAM) الذي تستخدمه Data Wrangler ، وهي الأمازون SageMaker دور التنفيذ من مثيل Studio ، لديه أذونات لإنشاء قواعد EventBridge.

تكوين IAM

تابع التحديثات التالية على دور تنفيذ IAM SageMaker المقابل لمثيل Studio حيث يعمل تدفق Data Wrangler:

  1. إرفاق AmazonEventBridgeFullAccess السياسة المدارة.
  2. أرفق سياسة لمنح الإذن بإنشاء مهمة معالجة:
    {
    	"Version": "2012-10-17",
    	"Statement": [
    		{
    			"Effect": "Allow",
    			"Action": "sagemaker:StartPipelineExecution",
    			"Resource": "arn:aws:sagemaker:Region:AWS-account-id:pipeline/data-wrangler-*"
    		}
    	]
    }

  3. امنح EventBridge الإذن بتولي الدور عن طريق إضافة سياسة الثقة التالية:
    {
    	"Effect": "Allow",
    	"Principal": {
    		"Service": "events.amazonaws.com"
    	},
    	"Action": "sts:AssumeRole"
    }

بدلاً من ذلك ، إذا كنت تستخدم دورًا مختلفًا لتشغيل مهمة المعالجة ، فقم بتطبيق السياسات الموضحة في الخطوتين 2 و 3 على هذا الدور. للحصول على تفاصيل حول تكوين IAM ، يرجى الرجوع إلى أنشئ جدولاً لمعالجة البيانات الجديدة تلقائيًا.

ضع جدولاً

لإنشاء جدول ، قم بفتح التدفق الخاص بك في محرر تدفق البيانات رانجلر.

  1. على تدفق البيانات علامة التبويب، اختر خلق وظيفة.
  2. تكوين الحقول المطلوبة واختيار التالي ، 2. تكوين الوظيفة.
    احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.
  3. وسع جداول المنتسبين.
  4. اختار إنشاء جدول جديد.
    احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.
    إنشاء جدول جديد يفتح مربع الحوار ، حيث تحدد تفاصيل جدول مهمة المعالجة.
    يوفر مربع الحوار مرونة كبيرة لمساعدتك في تحديد الجدول الزمني. يمكنك ، على سبيل المثال ، تشغيل مهمة المعالجة في وقت محدد أو كل X ساعة ، في أيام محددة من الأسبوع.احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.
    يمكن أن يكون التواتر محببًا وفقًا لمستوى الدقائق.احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.
  5. حدد اسم الجدول والفترة الدورية ، ثم اختر إنشاء لحفظ الجدول.
  6. لديك الخيار لبدء مهمة المعالجة على الفور جنبًا إلى جنب مع الجدولة ، والتي تهتم بالتشغيلات المستقبلية ، أو ترك الوظيفة للتشغيل وفقًا للجدول الزمني فقط.
  7. يمكنك أيضًا تحديد جدول إضافي لوظيفة المعالجة نفسها.
    احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.
  8. لإنهاء الجدول الزمني لمهمة المعالجة ، اختر إنشاء.
    ترى رسالة "تمت جدولة الوظيفة بنجاح". بالإضافة إلى ذلك ، إذا اخترت ترك الوظيفة لتعمل وفقًا للجدول الزمني فقط ، فسترى ارتباطًا بقاعدة EventBridge التي أنشأتها للتو.احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

إذا اخترت رابط الجدولة ، تفتح علامة تبويب جديدة في المستعرض تعرض قاعدة EventBridge. في هذه الصفحة ، يمكنك إجراء المزيد من التعديلات على القاعدة وتتبع سجل الاستدعاء الخاص بها. لإيقاف تشغيل مهمة المعالجة المجدولة ، احذف قاعدة الحدث التي تحتوي على اسم الجدول.

احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

تُظهر قاعدة EventBridge أن خط أنابيب SageMaker هو هدفه ، والذي يتم تشغيله وفقًا للجدول المحدد ، ويتم استدعاء مهمة المعالجة كجزء من خط الأنابيب.

احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

لتتبع عمليات تشغيل خط أنابيب SageMaker ، يمكنك الرجوع إلى Studio واختيار ملف موارد SageMaker أيقونة ، اختر خطوط الأنابيب، واختر اسم خط الأنابيب الذي تريد تتبعه. يمكنك الآن رؤية جدول بكل عمليات التشغيل الحالية والسابقة وحالة خط الأنابيب هذا.

احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

يمكنك الاطلاع على مزيد من التفاصيل عن طريق النقر المزدوج فوق إدخال معين.

احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

تنظيف

عندما لا تستخدم Data Wrangler ، يوصى بإغلاق المثيل الذي يتم تشغيله عليه لتجنب تكبد رسوم إضافية.

لتجنب فقدان العمل ، احفظ تدفق البيانات قبل إيقاف تشغيل Data Wrangler.

  1. لحفظ تدفق البيانات في Studio ، اختر قم بتقديم، ثم اختر حفظ تدفق رانجلر البيانات. يقوم Data Wrangler تلقائيًا بحفظ تدفق البيانات الخاصة بك كل 60 ثانية.
  2. لإغلاق مثيل Data Wrangler ، في Studio ، اختر تشغيل المثيلات والنواة.
  3. تحت تشغيل التطبيقات، اختر رمز إيقاف التشغيل بجوار ملف sagemaker-data-wrangler-1.0 التطبيق.احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.
  4. اختار اغلاق كل شيء للتأكيد.احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.

يعمل Data Wrangler على مثيل ml.m5.4xlarge. يختفي هذا المثال من جريان الجري عند إغلاق تطبيق Data Wrangler.

بعد إغلاق تطبيق Data Wrangler ، يجب إعادة تشغيله في المرة التالية التي تفتح فيها ملف تدفق Data Wrangler. وهذا يمكن أن يستغرق بضع دقائق.

وفي الختام

في هذا المنشور ، أوضحنا كيف يمكنك استخدام المعلمات لاستيراد مجموعات البيانات الخاصة بك باستخدام تدفقات Data Wrangler وإنشاء وظائف تحويل البيانات عليها. تسمح مجموعات البيانات ذات المعاملات بمزيد من المرونة في مجموعات البيانات التي تستخدمها وتسمح لك بإعادة استخدام التدفقات الخاصة بك. لقد أوضحنا أيضًا كيف يمكنك إعداد وظائف مجدولة لأتمتة عمليات تحويل البيانات الخاصة بك وتصديرها إلى Amazon S3 أو Feature Store ، في الوقت والدورية التي تناسب احتياجاتك ، مباشرة من داخل واجهة مستخدم Data Wrangler.

لمعرفة المزيد حول استخدام تدفقات البيانات مع Data Wrangler ، ارجع إلى إنشاء واستخدام تدفق رانجلر البيانات و الأمازون SageMaker التسعير. لتبدأ مع داتا رانجلر ، انظر قم بإعداد بيانات ML مع Amazon SageMaker Data Wrangler.


عن المؤلفين

احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.ديفيد لاريدو هو مهندس نماذج أولية لفريق النماذج الأولية والهندسة السحابية في Amazon Web Services ، حيث ساعد في تطوير نماذج أولية متعددة للتعلم الآلي لعملاء AWS. لقد عمل في مجال التعلم الآلي على مدار السنوات الست الماضية ، حيث قام بتدريب نماذج ML وضبطها بدقة وتنفيذ خطوط أنابيب شاملة لإنتاج تلك النماذج. مجالات اهتمامه هي البرمجة اللغوية العصبية وتطبيقات ML و ML من طرف إلى طرف.

احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.جيفانيلدو ألفيس هو مهندس نماذج أولية مع فريق النماذج الأولية والهندسة السحابية في Amazon Web Services ، مما يساعد العملاء على الابتكار والتسريع من خلال إظهار فن الممكن على AWS ، بعد أن نفذ بالفعل عدة نماذج أولية حول الذكاء الاصطناعي. لديه مهنة طويلة في هندسة البرمجيات وعمل سابقًا كمهندس تطوير برمجيات في Amazon.com.br.

احصل على مزيد من التحكم في أعباء عمل Amazon SageMaker Data Wrangler من خلال مجموعات البيانات ذات المعلمات والوظائف المجدولة PlatoBlockchain Data Intelligence. البحث العمودي. منظمة العفو الدولية.أدريان فوينتيس هو مدير برنامج مع فريق النماذج الأولية والهندسة السحابية في Amazon Web Services ، وهو مبتكر للعملاء في التعلم الآلي ، وإنترنت الأشياء ، و blockchain. لديه أكثر من 15 عامًا من الخبرة في إدارة وتنفيذ المشاريع وعام واحد من الخدمة على AWS.

الطابع الزمني:

اكثر من التعلم الآلي من AWS