הפעל את מחברות Amazon SageMaker Studio שלך כעבודות מחברת מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

הפעל את המחברות של Amazon SageMaker Studio שלך כעבודות מחברת מתוזמנות

סטודיו SageMaker של אמזון מספק פתרון מנוהל במלואו עבור מדעני נתונים לבנייה, אימון ופריסה אינטראקטיבית של מודלים של למידת מכונה (ML). בנוסף לחוויית ה-ML האינטראקטיבית, עובדי נתונים מחפשים גם פתרונות להפעלת מחשבים ניידים כעבודות ארעיות ללא צורך בשינוי קוד כמודולים של Python או ללמוד כלים ושיטות עבודה מומלצות של DevOps לאוטומציה של תשתית הפריסה שלהם. כמה מקרי שימוש נפוצים לעשות זאת כוללים:

  • מסקנות מודל הפועלות באופן קבוע להפקת דוחות
  • הגדלה של שלב הנדסת תכונה לאחר בדיקה ב-Studio מול קבוצת משנה של נתונים במופע קטן
  • אימון מחדש ופריסה של מודלים בקצב מסוים
  • ניתוח של הצוות שלך אמזון SageMaker שימוש בקצב רגיל

בעבר, כאשר מדעני נתונים רצו לקחת את הקוד שבנו באופן אינטראקטיבי על מחשבים ניידים ולהפעיל אותם כעבודות אצווה, הם עמדו בפני עקומת למידה תלולה באמצעות צינורות SageMaker של אמזון, AWS למבדה, אמזון EventBridge, או פתרונות אחרים שקשה להגדיר, להשתמש ולנהל.

עם משרות מחברת SageMaker, עכשיו אתה יכול להפעיל את המחברות שלך כפי שהן או באופן עם פרמטרים עם מספר לחיצות פשוטות מ- SageMaker Studio או SageMaker Studio Lab מִמְשָׁק. אתה יכול להפעיל את המחברות האלה לפי לוח זמנים או באופן מיידי. אין צורך שמשתמש הקצה ישנה את קוד המחברת הקיים שלו. בסיום העבודה, תוכל להציג את תאי המחברת המאוכלסים, כולל כל הדמיות!

בפוסט זה, אנו משתפים כיצד להפעיל את המחברות של SageMaker Studio שלך כעבודות מחברת מתוזמנות.

סקירת פתרונות

התרשים הבא ממחיש את ארכיטקטורת הפתרון שלנו. אנו משתמשים בתוסף SageMaker המותקן מראש כדי להפעיל מחברות כעבודה באופן מיידי או לפי לוח זמנים.

בסעיפים הבאים, אנו עוברים על השלבים ליצירת מחברת, הגדרת פרמטרים של תאים, התאמה אישית של אפשרויות נוספות ותזמון העבודה שלך. אנו כוללים גם מקרה שימוש לדוגמה.

תנאים מוקדמים

כדי להשתמש בעבודות מחברת SageMaker, עליך להפעיל אפליקציה JupyterLab 3 JupyterServer בתוך Studio. למידע נוסף על אופן השדרוג ל-JupyterLab 3, עיין ב הצג ועדכן את גרסת JupyterLab של אפליקציה מהמסוף. תהיה בטוח ש כבה ועדכן את SageMaker Studio כדי לאסוף את העדכונים האחרונים.

כדי להגדיר הגדרות עבודה שמריצות מחברות לפי לוח זמנים, ייתכן שיהיה עליך להוסיף הרשאות נוספות לתפקיד הביצוע של SageMaker.

ראשית, הוסף קשר אמון לתפקיד הביצוע של SageMaker שלך המאפשר events.amazonaws.com לקחת את תפקידך:

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Principal": {
                "Service": "sagemaker.amazonaws.com"
            },
            "Action": "sts:AssumeRole"
        },
        {
            "Effect": "Allow",
            "Principal": {
                "Service": "events.amazonaws.com"
            },
            "Action": "sts:AssumeRole"
        }
    ]
}

בנוסף, ייתכן שיהיה עליך ליצור ולצרף מדיניות מוטבעת לתפקיד הביצוע שלך. המדיניות שלהלן היא משלימה למאוד מתירנית AmazonSageMakerFullAccess מְדִינִיוּת. לסט מלא ומינימלי של הרשאות ראה התקנת מדיניות והרשאות.

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "VisualEditor0",
            "Effect": "Allow",
            "Action": [
                "events:TagResource",
                "events:DeleteRule",
                "events:PutTargets",
                "events:DescribeRule",
                "events:PutRule",
                "events:RemoveTargets",
                "events:DisableRule",
                "events:EnableRule"
            ],
            "Resource": "*",
            "Condition": {
              "StringEquals": {
                "aws:ResourceTag/sagemaker:is-scheduling-notebook-job": "true"
              }
            }
        },
        {
            "Sid": "VisualEditor1",
            "Effect": "Allow",
            "Action": "iam:PassRole",
            "Resource": "arn:aws:iam::*:role/*",
            "Condition": {
                "StringLike": {
                    "iam:PassedToService": "events.amazonaws.com"
                }
            }
        },
        {
            "Sid": "VisualEditor2",
            "Effect": "Allow",
            "Action": "sagemaker:ListTags",
            "Resource": "arn:aws:sagemaker:*:*:user-profile/*/*"
        }
    ]
}

צור עבודת מחברת

כדי להפעיל את המחברת כעבודת מחברת SageMaker, בחר את ה צור עבודת מחברת סמל.

הפעל את מחברות Amazon SageMaker Studio שלך כעבודות מחברת מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

לחלופין, תוכל לבחור (ללחוץ לחיצה ימנית) על המחברת שלך במערכת הקבצים ולבחור צור עבודה של מחברת.

הפעל את מחברות Amazon SageMaker Studio שלך כעבודות מחברת מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

ב צור עבודה בסעיף, פשוט בחר את סוג המופע המתאים לעבודה המתוזמנת שלך בהתבסס על עומס העבודה שלך: מופעים סטנדרטיים, מופעים מותאמים למחשב או מופעי מחשוב מואצים המכילים GPUs. אתה יכול לבחור כל אחד מהמופעים הזמינים עבור משרות הדרכה של SageMaker. לרשימה המלאה של מופעים זמינים, עיין ב תמחור SageMaker של אמזון.

הפעל את מחברות Amazon SageMaker Studio שלך כעבודות מחברת מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כאשר משימה הושלמה, תוכל להציג את קובץ מחברת הפלט עם התאים המאוכלסים בו, כמו גם את היומנים הבסיסיים מהריצות המשימה.

הפעל את מחברות Amazon SageMaker Studio שלך כעבודות מחברת מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

פרמטר תאים

בעת העברת מחברת לזרימת עבודה של ייצור, חשוב להיות מסוגלים לעשות שימוש חוזר באותה מחברת עם סטים שונים של פרמטרים לצורך מודולריות. לדוגמה, ייתכן שתרצה להגדיר פרמטרים של מיקום מערך הנתונים או ההיפרפרמטרים של המודל שלך, כך שתוכל לעשות שימוש חוזר באותה מחברת להדרכות רבות של מודלים שונים. עבודות מחברת SageMaker תומכות בכך באמצעות תגיות תאים. פשוט בחר את סמל גלגל השיניים הכפול בחלונית הימנית ובחר הוסף תגית. לאחר מכן תייג את התג כפרמטרים.

הפעל את מחברות Amazon SageMaker Studio שלך כעבודות מחברת מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כברירת מחדל, הפעלת העבודה של המחברת משתמשת בערכי הפרמטרים המצוינים במחברת, אך לחלופין, אתה יכול לשנות אותם כתצורה עבור עבודת המחברת שלך.

הפעל את מחברות Amazon SageMaker Studio שלך כעבודות מחברת מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

הגדר אפשרויות נוספות

בעת יצירת עבודת מחברת, אתה יכול להרחיב את ה אפשרויות נוספות כדי להתאים אישית את הגדרת התפקיד שלך. Studio יזהה אוטומטית את התמונה או הליבה שבה אתה משתמש במחברת שלך ותבחר אותה מראש עבורך. ודא שאימתת את הבחירה הזו.

אתה יכול גם לציין משתני סביבה או סקריפטים להפעלה כדי להתאים אישית את סביבת הריצה של המחברת שלך. לרשימת התצורות המלאה, ראה אפשרויות נוספות.

תזמן את העבודה שלך

כדי לתזמן את העבודה שלך, בחר רוץ לפי לוח זמנים ולהגדיר מרווח וזמן מתאימים. אז אתה יכול לבחור את עבודות מחברת לשונית הנראית לאחר בחירת סמל הבית. לאחר טעינת המחברת, בחר באפשרות הגדרות עבודה של מחברת לשונית כדי להשהות או להסיר את לוח הזמנים שלך.

הפעל את מחברות Amazon SageMaker Studio שלך כעבודות מחברת מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מקרה שימוש לדוגמה

לדוגמה שלנו, אנו מציגים זרימת עבודה של ML מקצה לקצה המכינה נתונים ממקור אמת קרקעית, מכשירה מודל מרענן מאותה פרק זמן, ולאחר מכן מפעילה הסקה על הנתונים העדכניים ביותר כדי ליצור תובנות ניתנות לפעולה. בפועל, ייתכן שתפעיל זרימת עבודה מלאה מקצה לקצה, או פשוט תפעיל שלב אחד בזרימת העבודה שלך. אתה יכול לתזמן א דבק AWS מושב אינטראקטיבי להכנת נתונים יומית, או הפעל עבודת מסקנות אצווה המייצרת תוצאות גרפיות ישירות במחברת הפלט שלך.

את המחברת המלאה עבור דוגמה זו ניתן למצוא אצלנו SageMaker דוגמאות מאגר GitHub. מקרה השימוש מניח שאנחנו חברת טלקומוניקציה שמחפשת לתזמן מחברת שחוזה נטייה צפויה של לקוחות בהתבסס על מודל שהוכשר עם הנתונים העדכניים ביותר שיש לנו.

כדי להתחיל, אנו אוספים את נתוני הלקוחות הזמינים ביותר לאחרונה ומבצעים עליהם עיבוד מקדים:

import pandas as pd
from synthetic_data import generate_data

previous_two_weeks_data = generate_data(5000, label_known=True)
todays_data = generate_data(300, label_known=False)

processed_prior_data = process_data(previous_two_weeks_data, label_known=True)
processed_todays_data = process_data(todays_data, label_known=False)

אנו מאמנים את המודל המרענן שלנו על נתוני האימון המעודכנים על מנת לבצע תחזיות מדויקות לגבי todays_data:

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import f1_score, confusion_matrix, ConfusionMatrixDisplay

y = np.ravel(processed_prior_data[["Churn"]])
x = processed_prior_data.drop(["Churn"], axis=1)

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)

clf = RandomForestClassifier(n_estimators=int(number_rf_estimators), criterion="gini")
clf.fit(x_train, y_train)

מכיוון שאנו מתכוונים לתזמן את המחברת הזו כדוח יומי, אנו רוצים ללכוד את ביצועי המודל המרענן שלנו במערך האימות שלנו כדי שנוכל להיות בטוחים בתחזיות העתידיות שלו. התוצאות בצילום המסך הבא הן מדוח ההסקה המתוכנן שלנו.

הפעל את מחברות Amazon SageMaker Studio שלך כעבודות מחברת מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

לבסוף, אתה רוצה ללכוד את התוצאות החזויות של הנתונים של היום לתוך מסד נתונים כדי שניתן יהיה לבצע פעולות על סמך התוצאות של מודל זה.

הפעל את מחברות Amazon SageMaker Studio שלך כעבודות מחברת מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

לאחר הבנת המחברת, אל תהסס להפעיל זאת כעבודה ארעית באמצעות ה רוץ עכשיו אפשרות שתוארה קודם לכן או בדוק את פונקציונליות התזמון.

לנקות את

אם עקבת אחר הדוגמה שלנו, הקפד להשהות או למחוק את לוח הזמנים של עבודת המחברת שלך כדי להימנע מחיובים שוטפים.

סיכום

הבאת מחברות לייצור עם עבודות מחברת SageMaker מפשטת מאוד את ההרמה הכבדה הבלתי מובדלת הנדרשת על ידי עובדי נתונים. בין אם אתה מתזמן תהליכי עבודה של ML מקצה לקצה או חלק מהפאזל, אנו ממליצים לך להכניס כמה מחברות לייצור באמצעות SageMaker Studio או SageMaker Studio Lab! למידע נוסף, ראה זרימות עבודה מבוססות מחברת.


על המחברים

שון מורגןשון מורגן הוא אדריכל בכיר ML Solutions ב-AWS. יש לו ניסיון בתחומי המוליכים למחצה והמחקר האקדמי, ומשתמש בניסיונו כדי לעזור ללקוחות להגיע ליעדים שלהם ב-AWS. בזמנו הפנוי שון הוא תורם/תחזק קוד פתוח להפעיל והוא מוביל קבוצות העניין המיוחדות עבור תוספות TensorFlow.

הפעל את מחברות Amazon SageMaker Studio שלך כעבודות מחברת מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.סומדה סוואמי הוא מנהל מוצר ראשי בחברת Amazon Web Services. הוא מוביל את צוות SageMaker Studio לבנות אותו לתוך ה-IDE הנבחר עבור תהליכי עבודה אינטראקטיביים של מדע נתונים ותהליכי הנדסת נתונים. הוא בילה את 15 השנים האחרונות בבניית מוצרי צריכה וארגונים אובססיביים על ידי לקוחות באמצעות Machine Learning. בזמנו הפנוי הוא אוהב לצלם את הגיאולוגיה המדהימה של דרום מערב אמריקה.

הפעל את מחברות Amazon SageMaker Studio שלך כעבודות מחברת מתוזמנות PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.אדוארד סאן הוא SDE בכיר שעובד עבור SageMaker Studio בשירותי האינטרנט של Amazon. הוא מתמקד בבניית פתרון ML אינטראקטיבי ובפישוט חווית הלקוח כדי לשלב את SageMaker Studio עם טכנולוגיות פופולריות בהנדסת נתונים ואקוסיסטם ML. בזמנו הפנוי, אדוארד מעריץ גדול של קמפינג, טיולים ודיג ונהנה מהזמן לבלות עם משפחתו.

בול זמן:

עוד מ למידת מכונות AWS