קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים עם פרמטרים ועבודות מתוזמנות

נתונים משנים כל תחום וכל עסק. עם זאת, כאשר הנתונים גדלים מהר יותר ממה שרוב החברות יכולות לעקוב אחריהם, איסוף נתונים והפקת ערך מהנתונים הללו הוא דבר מאתגר לעשות. א אסטרטגיית נתונים מודרנית יכול לעזור לך ליצור תוצאות עסקיות טובות יותר עם נתונים. AWS מספקת את מערך השירותים השלם ביותר עבור מסע נתונים מקצה לקצה כדי לעזור לך לפתוח ערך מהנתונים שלך ולהפוך את זה לתובנה.

מדעני נתונים יכולים להשקיע עד 80% מזמנם בהכנת נתונים לפרויקטים של למידת מכונה (ML). תהליך ההכנה הזה הוא ברובו עבודה לא מובחנת ומייגעת, ויכול לכלול מספר ממשקי API לתכנות וספריות מותאמות אישית. רנגלר הנתונים של אמזון SageMaker עוזר למדעני נתונים ומהנדסי נתונים לפשט ולהאיץ הכנת נתונים טבלאיים וסדרות זמן והנדסת תכונות באמצעות ממשק חזותי. אתה יכול לייבא נתונים ממקורות נתונים מרובים, כגון שירות אחסון פשוט של אמזון (אמזון S3), אמזונה אתנה, האדום של אמזון, או אפילו פתרונות של צד שלישי כמו פְּתִית שֶׁלֶג or DataBricks, ועבד את הנתונים שלך עם למעלה מ-300 טרנספורמציות נתונים מובנות וספרייה של קטעי קוד, כך שתוכל לנרמל, לשנות ולשלב תכונות במהירות מבלי לכתוב שום קוד. אתה יכול גם להביא את הטרנספורמציות המותאמות אישית שלך ב-PySpark, SQL או Pandas.

פוסט זה מדגים כיצד ניתן לתזמן את עבודות הכנת הנתונים שלך כך שיפעלו באופן אוטומטי. אנו גם בוחנים את היכולת החדשה של Data Wrangler של מערכי נתונים עם פרמטרים, המאפשרת לך לציין את הקבצים שייכללו בזרימת נתונים באמצעות URIs עם פרמטרים.

סקירת פתרונות

Data Wrangler תומך כעת בייבוא ​​נתונים באמצעות URI בעל פרמטרים. זה מאפשר גמישות נוספת מכיוון שכעת אתה יכול לייבא את כל מערכי הנתונים התואמים לפרמטרים שצוינו, שיכולים להיות מסוג String, Number, Datetime ו-Patern, ב-URI. בנוסף, כעת תוכל להפעיל את משימות השינוי ב-Data Wrangler שלך לפי לוח זמנים.

בפוסט זה, אנו יוצרים זרימה לדוגמה עם מערך הנתונים של Titanic כדי להראות כיצד ניתן להתחיל להתנסות בשתי התכונות החדשות הללו של Data Wrangler. להורדת מערך הנתונים, עיין ב טיטאניק - למידת מכונה מאסון.

תנאים מוקדמים

כדי לקבל את כל התכונות המתוארות בפוסט זה, עליך להפעיל את גרסת הליבה העדכנית ביותר של Data Wrangler. למידע נוסף, עיין ב עדכן Data Wrangler. בנוסף, אתה צריך לרוץ סטודיו SageMaker של אמזון JupyterLab 3. כדי להציג את הגרסה הנוכחית ולעדכן אותה, עיין ב גירסאות JupyterLab.

מבנה הקובץ

להדגמה זו, אנו עוקבים אחר מבנה קובץ פשוט שעליך לשכפל כדי לשחזר את השלבים המתוארים בפוסט זה.

  1. בסטודיו, ליצור מחברת חדשה.
  2. הפעל את קטע הקוד הבא כדי ליצור את מבנה התיקיות שבו אנו משתמשים (ודא שאתה בתיקייה הרצויה בעץ הקבצים שלך):
    !mkdir titanic_dataset
    !mkdir titanic_dataset/datetime_data
    !mkdir titanic_dataset/datetime_data/2021
    !mkdir titanic_dataset/datetime_data/2022
    
    !mkdir titanic_dataset/datetime_data/2021/01 titanic_dataset/datetime_data/2021/02 titanic_dataset/datetime_data/2021/03 
    !mkdir titanic_dataset/datetime_data/2021/04 titanic_dataset/datetime_data/2021/05 titanic_dataset/datetime_data/2021/06
    !mkdir titanic_dataset/datetime_data/2022/01 titanic_dataset/datetime_data/2022/02 titanic_dataset/datetime_data/2022/03 
    !mkdir titanic_dataset/datetime_data/2022/04 titanic_dataset/datetime_data/2022/05 titanic_dataset/datetime_data/2022/06
    
    !mkdir titanic_dataset/datetime_data/2021/01/01 titanic_dataset/datetime_data/2021/02/01 titanic_dataset/datetime_data/2021/03/01 
    !mkdir titanic_dataset/datetime_data/2021/04/01 titanic_dataset/datetime_data/2021/05/01 titanic_dataset/datetime_data/2021/06/01
    !mkdir titanic_dataset/datetime_data/2022/01/01 titanic_dataset/datetime_data/2022/02/01 titanic_dataset/datetime_data/2022/03/01 
    !mkdir titanic_dataset/datetime_data/2022/04/01 titanic_dataset/datetime_data/2022/05/01 titanic_dataset/datetime_data/2022/06/01
    
    !mkdir titanic_dataset/train_1 titanic_dataset/train_2 titanic_dataset/train_3 titanic_dataset/train_4 titanic_dataset/train_5
    !mkdir titanic_dataset/train titanic_dataset/test

  3. העתק train.csv ו test.csv קבצים ממערך הנתונים המקורי של Titanic לתיקיות titanic_dataset/train ו titanic_dataset/test, בהתאמה.
  4. הפעל את קטע הקוד הבא כדי לאכלס את התיקיות בקבצים הדרושים:
    import os
    import math
    import pandas as pd
    batch_size = 100
    
    #Get a list of all the leaf nodes in the folder structure
    leaf_nodes = []
    
    for root, dirs, files in os.walk('titanic_dataset'):
        if not dirs:
            if root != "titanic_dataset/test" and root != "titanic_dataset/train":
                leaf_nodes.append(root)
                
    titanic_df = pd.read_csv('titanic_dataset/train/train.csv')
    
    #Create the mini batch files
    for i in range(math.ceil(titanic_df.shape[0]/batch_size)):
        batch_df = titanic_df[i*batch_size:(i+1)*batch_size]
        
        #Place a copy of each mini batch in each one of the leaf folders
        for node in leaf_nodes:
            batch_df.to_csv(node+'/part_{}.csv'.format(i), index=False)

חילקנו את train.csv קובץ של מערך הנתונים של Titanic לתשעה קבצים שונים, בשם part_x, כאשר x הוא המספר של החלק. לחלק 0 יש את 100 הרשומות הראשונות, לחלק 1 את ה-100 הבאות, וכן הלאה עד לחלק 8. כל תיקיית צומת של עץ הקבצים מכילה עותק של תשעת החלקים של נתוני האימון פרט ל- train ו test תיקיות, המכילות train.csv ו test.csv.

מערכי נתונים עם פרמטרים

משתמשי Data Wrangler יכולים כעת לציין פרמטרים עבור מערכי הנתונים המיובאים מאמזון S3. פרמטרים של ערכות נתונים מצוינים ב-URI של המשאבים, וניתן לשנות את ערכו באופן דינמי, מה שמאפשר גמישות רבה יותר בבחירת הקבצים שברצוננו לייבא. פרמטרים יכולים להיות מארבעה סוגי נתונים:

  • מספר - יכול לקחת את הערך של כל מספר שלם
  • מחרוזת - יכול לקחת את הערך של כל מחרוזת טקסט
  • תבנית - יכול לקחת את הערך של כל ביטוי רגולרי
  • תאריך שעה - יכול לקחת את הערך של כל אחד מהפורמטים הנתמכים של תאריך/שעה

בחלק זה, אנו מספקים הדרכה על תכונה חדשה זו. זה זמין רק לאחר שאתה מייבא את מערך הנתונים שלך לזרימה הנוכחית שלך ורק עבור מערכי נתונים המיובאים מאמזון S3.

  1. מתוך זרימת הנתונים שלך, בחר את סימן הפלוס (+) לצד שלב הייבוא ​​ובחר ערוך מערך נתונים.
  2. השיטה המועדפת (והקלה ביותר) ליצירת פרמטרים חדשים היא על ידי הדגשת חלק מה-URI שלך ובחירה צור פרמטר מותאם אישית בתפריט הנפתח. עליך לציין ארבעה דברים עבור כל פרמטר שברצונך ליצור:
    1. שם
    2. סוּג
    3. ערך ברירת מחדל
    4. תיאור

    קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
    כאן יצרנו פרמטר מסוג String בשם filename_param עם ערך ברירת המחדל של train.csv. כעת אתה יכול לראות את שם הפרמטר מוקף בסוגריים כפולים, המחליף את החלק של ה-URI שהדגשנו בעבר. מכיוון שהערך המוגדר עבור פרמטר זה היה train.csv, כעת אנו רואים את הקובץ train.csv מופיע בטבלת הייבוא.
    קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  3. כאשר אנו מנסים ליצור עבודת טרנספורמציה, על הגדר עבודה צעד, אנו רואים כעת א פרמטרים סעיף, שבו נוכל לראות רשימה של כל הפרמטרים המוגדרים שלנו.
  4. בחירה בפרמטר נותנת לנו את האפשרות לשנות את ערך הפרמטר, במקרה זה, לשנות את מערך הנתונים של הקלט שיעבור טרנספורמציה בהתאם לזרימה המוגדרת.
    בהנחה שאנו משנים את הערך של filename_param החל מ- train.csv ל part_0.csv, עבודת השינוי לוקחת כעת part_0.csv (בתנאי שקובץ עם השם part_0.csv קיים תחת אותה תיקייה) כמו נתוני הקלט החדשים שלו.
    קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  5. בנוסף, אם תנסה לייצא את הזרימה שלך ליעד אמזון S3 (דרך מחברת Jupyter), אתה רואה כעת תא חדש המכיל את הפרמטרים שהגדרת.
    שים לב שהפרמטר לוקח את ערך ברירת המחדל שלו, אבל אתה יכול לשנות אותו על ידי החלפת הערך שלו ב- parameter_overrides מילון (תוך השארת מפתחות המילון ללא שינוי).
    קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
    בנוסף, אתה יכול ליצור פרמטרים חדשים מה- פרמטרים ממשק משתמש.
  6. פתח אותו על ידי בחירה בסמל הפרמטרים ({{}}) ממוקם ליד Go אוֹפְּצִיָה; שניהם ממוקמים ליד ערך נתיב URI.
    קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.נפתחת טבלה עם כל הפרמטרים הקיימים כעת בקובץ הזרימה שלך (filename_param בנקודה זו).
  7. אתה יכול ליצור פרמטרים חדשים עבור הזרימה שלך על ידי בחירה צור פרמטר.
    קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
    נפתח חלון מוקפץ המאפשר לך ליצור פרמטר מותאם אישית חדש.
  8. הנה, יצרנו חדש example_parameter כסוג מספר עם ערך ברירת מחדל של 0. פרמטר זה שנוצר לאחרונה מופיע כעת ב- פרמטרים שולחן. ריחוף מעל הפרמטר מציג את האפשרויות ערוך, מחק, ו הַבלָעָה.קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  9. מבפנים פרמטרים ממשק משתמש, אתה יכול להכניס אחד מהפרמטרים שלך ל-URI על ידי בחירת הפרמטר הרצוי ובחירה הַבלָעָה.
    זה מוסיף את הפרמטר לסוף ה-URI שלך. עליך להעביר אותו למקטע הרצוי בתוך ה-URI שלך.
    קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  10. שנה את ערך ברירת המחדל של הפרמטר, החל את השינוי (מהמודאל), בחר Go, ובחר בסמל הרענון כדי לעדכן את רשימת התצוגה המקדימה באמצעות מערך הנתונים שנבחר בהתבסס על ערך הפרמטר החדש שהוגדר.קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.כעת נבדוק סוגי פרמטרים אחרים. נניח שיש לנו כעת מערך נתונים מפוצל למספר חלקים, כאשר לכל קובץ יש מספר חלק.
  11. אם נרצה לשנות באופן דינמי את מספר הקובץ, נוכל להגדיר פרמטר Number כפי שמוצג בצילום המסך הבא.קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.שימו לב שהקובץ שנבחר הוא זה שתואם למספר שצוין בפרמטר.
    קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.כעת נדגים כיצד להשתמש בפרמטר Pattern. נניח שאנחנו רוצים לייבא את כל part_1.csv קבצים בכל התיקיות שמתחת ל- titanic-dataset/ תיקייה. פרמטרי דפוס יכולים לקחת כל ביטוי רגולרי חוקי; יש כמה דפוסים של ביטויים רגילים המוצגים כדוגמאות.
  12. צור פרמטר Pattern בשם any_pattern כדי להתאים לכל תיקיה או קובץ מתחת ל- titanic-dataset/ תיקייה עם ערך ברירת מחדל .*שים לב שהתו הכללי אינו * בודד (כוכבית) אלא יש לו גם נקודה.
  13. הדגש את ה titanic-dataset/ חלק מהנתיב וצור פרמטר מותאם אישית. הפעם אנחנו בוחרים את תבנית הקלד.קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.דפוס זה בוחר את כל הקבצים שנקראים part-1.csv מכל אחת מהתיקיות שמתחת titanic-dataset/.
    קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.ניתן להשתמש בפרמטר יותר מפעם אחת בנתיב. בדוגמה הבאה, אנו משתמשים בפרמטר החדש שנוצר שלנו any_pattern פעמיים ב-URI שלנו כדי להתאים לכל אחד מקבצי החלק בכל אחת מהתיקיות שמתחת titanic-dataset/.
    קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.לבסוף, בואו ניצור פרמטר Datetime. פרמטרי תאריך ושעה שימושיים כאשר אנו עוסקים בנתיבים המחולקים לפי תאריך ושעה, כמו אלה שנוצרו על ידי צינור אש נתונים של אמזון קינסי (ראה חלוקה דינמית ב-Kinesis Data Firehose). עבור הדגמה זו, אנו משתמשים בנתונים מתחת לתיקיית datetime-data.
  14. בחר את החלק של הנתיב שלך שהוא תאריך/שעה וצור פרמטר מותאם אישית. בחר את תאריך שעה סוג פרמטר.
    בעת בחירת סוג הנתונים Datetime, עליך למלא פרטים נוספים.
  15. קודם כל, עליך לספק פורמט תאריך. אתה יכול לבחור כל אחד מהפורמטים המוגדרים מראש של תאריך/שעה או ליצור פורמט מותאם אישית.
    עבור תבניות התאריך/שעה המוגדרות מראש, המקרא מספק דוגמה לתאריך התואם לפורמט שנבחר. להדגמה זו, אנו בוחרים את הפורמט yyyy/MM/dd.קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  16. לאחר מכן, ציין אזור זמן עבור ערכי התאריך/שעה.
    לדוגמה, התאריך הנוכחי עשוי להיות 1 בינואר 2022, באזור זמן אחד, אך יכול להיות 2 בינואר 2022, באזור זמן אחר.
  17. לבסוף, אתה יכול לבחור את טווח הזמן, המאפשר לך לבחור את טווח הקבצים שברצונך לכלול בזרימת הנתונים שלך.
    אתה יכול לציין את טווח הזמן שלך בשעות, ימים, שבועות, חודשים או שנים. עבור דוגמה זו, אנו רוצים לקבל את כל הקבצים מהשנה האחרונה.
  18. ספק תיאור של הפרמטר ובחר צור.
    אם אתה משתמש במספר מערכי נתונים עם אזורי זמן שונים, הזמן לא יומר אוטומטית; עליך לעבד מראש כל קובץ או מקור כדי להמיר אותו לאזור זמן אחד.קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.הקבצים שנבחרו הם כל הקבצים מתחת לתיקיות התואמות לנתוני השנה שעברה.קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  19. כעת, אם ניצור עבודת טרנספורמציה של נתונים, נוכל לראות רשימה של כל הפרמטרים המוגדרים שלנו, ונוכל לעקוף את ערכי ברירת המחדל שלהם כך שמשרות ההמרה שלנו יבחרו בקבצים שצוינו.קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
    קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

תזמון עבודות עיבוד

כעת אתה יכול לתזמן עבודות עיבוד כדי לבצע אוטומציה של הפעלת עבודות שינוי הנתונים וייצוא הנתונים שהשתנו לאמזון S3 או חנות הפונקציות של אמזון SageMaker. אתה יכול לתזמן את העבודות עם הזמן והמחזוריות המתאימים לצרכים שלך.

שימוש בעבודות עיבוד מתוזמנות אמזון EventBridge כללי לתזמן את הפעלת העבודה. לכן, כתנאי מוקדם, עליך לוודא כי AWS זהות וניהול גישה תפקיד (IAM) בשימוש על ידי Data Wrangler, כלומר אמזון SageMaker תפקיד ביצוע של מופע Studio, יש הרשאות ליצור חוקי EventBridge.

הגדר את IAM

המשך עם העדכונים הבאים על תפקיד הביצוע של IAM SageMaker המתאים למופע של Studio שבו פועל זרימת Data Wrangler:

  1. צרף את ה- AmazonEventBridgeFullAccess מדיניות מנוהלת.
  2. צרף מדיניות למתן הרשאה ליצור עבודת עיבוד:
    {
    	"Version": "2012-10-17",
    	"Statement": [
    		{
    			"Effect": "Allow",
    			"Action": "sagemaker:StartPipelineExecution",
    			"Resource": "arn:aws:sagemaker:Region:AWS-account-id:pipeline/data-wrangler-*"
    		}
    	]
    }

  3. הענק ל-EventBridge הרשאה לקבל את התפקיד על ידי הוספת מדיניות האמון הבאה:
    {
    	"Effect": "Allow",
    	"Principal": {
    		"Service": "events.amazonaws.com"
    	},
    	"Action": "sts:AssumeRole"
    }

לחלופין, אם אתה משתמש בתפקיד אחר להפעלת עבודת העיבוד, החל את המדיניות המתוארת בשלבים 2 ו-3 על תפקיד זה. לפרטים על תצורת IAM, עיין ב צור לוח זמנים לעיבוד אוטומטי של נתונים חדשים.

צור לוח זמנים

כדי ליצור לוח זמנים, פתח את הזרימה שלך בעורך הזרימה של Data Wrangler.

  1. על זרימת נתונים בחר, בחר צור עבודה.
  2. הגדר את השדות הנדרשים ובחר לאחר מכן, 2. הגדר עבודה.
    קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  3. לְהַרְחִיב לוחות זמנים של עמיתים.
  4. בחרו צור לוח זמנים חדש.
    קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
    השמיים צור לוח זמנים חדש תיפתח תיבת דו-שיח, שבה אתה מגדיר את הפרטים של לוח הזמנים של עבודת העיבוד.
    תיבת הדו-שיח מציעה גמישות רבה כדי לעזור לך להגדיר את לוח הזמנים. אתה יכול לקיים, למשל, את עבודת העיבוד בשעה מסוימת או כל X שעות, בימים ספציפיים בשבוע.קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
    המחזוריות יכולה להיות פרטנית עד לרמה של דקות.קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  5. הגדר את שם לוח הזמנים ואת המחזוריות ולאחר מכן בחר צור כדי לשמור את לוח הזמנים.
  6. יש לך אפשרות להתחיל את עבודת העיבוד מיד יחד עם התזמון, שדואג להרצה עתידית, או להשאיר את העבודה לפעול רק לפי לוח הזמנים.
  7. ניתן גם להגדיר לוח זמנים נוסף עבור אותה עבודת עיבוד.
    קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  8. כדי לסיים את לוח הזמנים של עבודת העיבוד, בחר צור.
    אתה רואה את ההודעה "עבודה תוזמנה בהצלחה". בנוסף, אם בחרת להשאיר את העבודה לפעול רק לפי לוח הזמנים, אתה רואה קישור לכלל EventBridge שיצרת זה עתה.קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

אם תבחר בקישור לוח הזמנים, תיפתח כרטיסייה חדשה בדפדפן המציגה את כלל EventBridge. בדף זה, תוכל לבצע שינויים נוספים בכלל ולעקוב אחר היסטוריית הפעלות שלו. כדי לעצור את הפעלת העיבוד המתוכנן שלך, מחק את כלל האירוע המכיל את שם התזמון.

קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כלל EventBridge מציג צינור של SageMaker כיעד שלו, המופעל בהתאם ללוח הזמנים שהוגדר, ואת עבודת העיבוד המופעלת כחלק מהצינור.

קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כדי לעקוב אחר הריצות של צינור SageMaker, אתה יכול לחזור לסטודיו, לבחור את משאבי SageMaker סמל, בחר צינורות, ובחר את שם הצינור שאחריו ברצונך לעקוב. כעת תוכל לראות טבלה עם כל הריצות הנוכחיות והקודמות והסטטוס של אותו צינור.

קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

תוכל לראות פרטים נוספים על ידי לחיצה כפולה על ערך ספציפי.

קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

לנקות את

כאשר אינך משתמש ב-Data Wrangler, מומלץ לכבות את המופע עליו הוא פועל כדי להימנע מחיובים נוספים.

כדי למנוע אובדן עבודה, שמור את זרימת הנתונים שלך לפני כיבוי Data Wrangler.

  1. כדי לשמור את זרימת הנתונים שלך בסטודיו, בחר שלח, ואז לבחור שמור את זרימת הנתונים של Wrangler. Data Wrangler שומר אוטומטית את זרימת הנתונים שלך כל 60 שניות.
  2. כדי לכבות את מופע Data Wrangler, ב-Studio, בחר מופעי ריצות וגרעינים.
  3. תַחַת הפעלת אפליקציות, בחר בסמל הכיבוי שליד sagemaker-data-wrangler-1.0 אפליקציה.קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.
  4. בחרו סגור את כולם כדי לאשר.קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

Data Wrangler פועל על מופע ml.m5.4xlarge. המקרה הזה נעלם מופעי ריצה כאשר אתה מכבה את אפליקציית Data Wrangler.

לאחר כיבוי אפליקציית Data Wrangler, עליה להפעיל מחדש בפעם הבאה שתפתח קובץ זרימה של Data Wrangler. זה יכול לקחת כמה דקות.

סיכום

בפוסט זה, הדגמנו כיצד אתה יכול להשתמש בפרמטרים כדי לייבא את מערכי הנתונים שלך באמצעות זרימות Data Wrangler וליצור עליהם עבודות טרנספורמציה של נתונים. מערכי נתונים עם פרמטר מאפשרים גמישות רבה יותר במערך הנתונים שבהם אתה משתמש ומאפשרים לך לעשות שימוש חוזר בזרימות שלך. הדגמנו גם כיצד ניתן להגדיר עבודות מתוזמנות כדי להפוך את השינויים והייצוא של הנתונים שלך לאוטומטיים ל-Amazon S3 או ל-Feature Store, בזמן ובמחזוריות המתאימים לצרכים שלך, ישירות מתוך ממשק המשתמש של Data Wrangler.

למידע נוסף על שימוש בזרימות נתונים עם Data Wrangler, עיין ב צור והשתמש ב-Data Wrangler Flow ו תמחור SageMaker של אמזון. כדי להתחיל עם Data Wrangler, ראה הכן את נתוני ה- ML עם Amazon SageMaker Data Wrangler.


על המחברים

קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.דיוויד לארדו הוא אדריכל אבות טיפוס עבור צוות הנדסת אב-טיפוס והנדסת ענן ב- Amazon Web Services, שם הוא עזר בפיתוח אבות-טיפוס מרובים של למידת מכונה עבור לקוחות AWS. הוא עבד בלמידת מכונה במשך 6 השנים האחרונות, הכשרה וכיוונון עדין של מודלים של ML והטמעת צינורות מקצה לקצה לייצור מודלים אלה. תחומי העניין שלו הם NLP, יישומי ML ו-ML מקצה לקצה.

קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.ג'יבנילדו אלבס הוא אדריכל אבות טיפוס בצוות הנדסת אבות טיפוס והנדסת ענן בשירותי האינטרנט של אמזון, שעוזר ללקוחות לחדש ולהאיץ על ידי הצגת אמנות האפשריות ב-AWS, לאחר שכבר הטמיעו מספר אבות טיפוס סביב בינה מלאכותית. יש לו קריירה ארוכה בהנדסת תוכנה ובעבר עבד כמהנדס פיתוח תוכנה ב-Amazon.com.br.

קבל שליטה רבה יותר בעומסי העבודה שלך ב-Amazon SageMaker Data Wrangler עם מערכי נתונים בעלי פרמטרים ועבודות מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.אדריאן פואנטס הוא מנהל תוכניות בצוות הנדסת אב-טיפוס והנדסת ענן בשירותי האינטרנט של אמזון, חדשני עבור לקוחות בתחום למידת מכונה, IoT ובלוקצ'יין. יש לו למעלה מ-15 שנות ניסיון בניהול ויישום פרויקטים ושנת כהונה אחת ב-AWS.

בול זמן:

עוד מ למידת מכונות AWS