אם אתה משתמש בתצורת ברירת המחדל של מחזור החיים עבור הדומיין או פרופיל המשתמש שלך ב סטודיו SageMaker של אמזון ואת השימוש רנגלר הנתונים של אמזון SageMaker להכנת נתונים, אז הפוסט הזה הוא בשבילך. בפוסט זה, אנו מראים כיצד ניתן ליצור זרימת Data Wrangler ולהשתמש בה להכנת נתונים בסביבת Studio עם תצורת ברירת מחדל של מחזור חיים.
Data Wrangler היא יכולת של אמזון SageMaker מה שהופך את זה למהיר יותר עבור מדעני נתונים ומהנדסים להכין נתונים ליישומי למידת מכונה (ML) באמצעות ממשק חזותי. הכנת נתונים היא שלב מכריע במחזור החיים של ML, ו-Data Wrangler מספקת פתרון מקצה לקצה לייבוא, לחקור, לשנות, להציג ולעבד נתונים עבור ML בחוויה ויזואלית ודלת קוד. זה מאפשר לך להתחבר בקלות ובמהירות לרכיבי AWS כמו שירות אחסון פשוט של אמזון (אמזון S3), אמזונה אתנה, האדום של אמזון, ו תצורת אגם AWS, ומקורות חיצוניים כמו Snowflake ו-DataBricks DeltaLake. Data Wrangler תומך בסוגי נתונים סטנדרטיים כגון CSV, JSON, ORC ופרקט.
אפליקציות Studio הן אפליקציות אינטראקטיביות המאפשרות את הממשק הוויזואלי, עריכת הקוד וחוויית הריצה של Studio. סוגי אפליקציות יכולים להיות Jupyter Server או Kernel Gateway:
- שרת Jupyter – מאפשר גישה לממשק הוויזואלי עבור Studio. כל משתמש בסטודיו מקבל אפליקציית Jupyter Server משלו.
- שער ליבה - מאפשר גישה לסביבת ריצת הקוד ולקרנלים עבור מחברות הסטודיו והטרמינלים שלך. למידע נוסף, ראה Jupyter Kernel Gateway.
תצורות מחזור חיים (LCCs) הם סקריפטים של מעטפת לאוטומטיות של התאמה אישית עבור סביבות הסטודיו שלך, כגון התקנת הרחבות JupyterLab, טעינת מערכי נתונים מראש והגדרת מאגרי קוד מקור. סקריפטים של LCC מופעלים על ידי אירועי מחזור החיים של Studio, כגון הפעלת מחברת Studio חדשה. כדי להגדיר תצורת מחזור חיים כברירת מחדל עבור הדומיין או פרופיל המשתמש שלך באופן תכנותי, תוכל ליצור משאב חדש או לעדכן משאב קיים. כדי לשייך תצורת מחזור חיים כברירת מחדל, תחילה עליך ליצור תצורת מחזור חיים בעקבות השלבים ב יצירה ושיוך תצורת מחזור חיים
הערה: תצורות ברירת המחדל של מחזור החיים המוגדרות ברמת הדומיין עוברות בירושה על ידי כל המשתמשים, בעוד שאלו שהוגדרו ברמת המשתמש מיועדות למשתמש ספציפי. אם תחיל את תצורת מחזור החיים ברמת התחום וגם ברמת פרופיל המשתמש בו-זמנית, תצורת מחזור החיים ברמת פרופיל המשתמש מקבלת עדיפות והיא מוחלת על היישום ללא קשר לתצורת מחזור החיים המוחלת ברמת התחום. למידע נוסף, ראה הגדרת תצורות ברירת מחדל של מחזור חיים.
Data Wrangler מקבל את תצורת מחזור החיים של Kernel Gateway המוגדרת כברירת מחדל, אך חלק מהפקודות המוגדרות בתצורת מחזור החיים של Kernel Gateway המוגדרות כברירת מחדל אינן חלות על Data Wrangler, מה שעלול לגרום ל-Data Wrangler להיכשל בהפעלתו. צילום המסך הבא מציג דוגמה להודעת שגיאה שאתה עשוי לקבל בעת הפעלת זרימת Data Wrangler. זה עשוי לקרות רק עם תצורות ברירת מחדל של מחזור חיים ולא עם תצורות של מחזור חיים.
סקירת פתרונות
לקוחות המשתמשים בתצורת ברירת המחדל של מחזור החיים ב-Studio יכולים לעקוב אחר הפוסט הזה ולהשתמש בבלוק הקוד שסופק בתוך סקריפט תצורת מחזור החיים כדי להפעיל אפליקציית Data Wrangler ללא שגיאות.
הגדר את תצורת ברירת המחדל של מחזור החיים
כדי להגדיר תצורת מחזור חיים ברירת מחדל, עליך להוסיף אותה ל- DefaultResourceSpec
מסוג האפליקציה המתאים. ההתנהגות של תצורת מחזור החיים שלך תלויה אם היא נוספה ל- DefaultResourceSpec
של אפליקציית Jupyter Server או Kernel Gateway:
- אפליקציות Jupyter Server – כאשר מוסיפים ל-
DefaultResourceSpec
של אפליקציית Jupyter Server, סקריפט ברירת המחדל של תצורת מחזור החיים פועל אוטומטית כאשר המשתמש מתחבר ל-Studio בפעם הראשונה או מפעיל מחדש את Studio. אתה יכול להשתמש בזה כדי לבצע אוטומציה של פעולות הגדרה חד פעמיות עבור סביבת המפתחים של Studio, כגון התקנת הרחבות למחברת או הגדרת ריפו של GitHub. לדוגמא לכך, ראה התאם אישית את Amazon SageMaker Studio באמצעות תצורות מחזור חיים. - אפליקציות Kernel Gateway – כאשר מוסיפים ל-
DefaultResourceSpec
של אפליקציית Kernel Gateway, Studio כברירת מחדל לבחירת סקריפט תצורת מחזור החיים מהמפעיל של Studio. אתה יכול להפעיל מחברת או מסוף עם סקריפט ברירת המחדל או לבחור אחד אחר מרשימת תצורות מחזור החיים.
תצורת מחזור חיים של Kernel Gateway המוגדרת כברירת מחדל ב DefaultResourceSpec
חל על כל תמונות Kernel Gateway בדומיין Studio, אלא אם כן תבחר בסקריפט אחר מהרשימה המוצגת במפעיל של Studio.
כשאתה עובד עם תצורות של מחזור חיים עבור Studio, אתה יוצר תצורת מחזור חיים ומצרף אותה לדומיין Studio או לפרופיל המשתמש שלך. לאחר מכן תוכל להפעיל יישום Jupyter Server או Kernel Gateway כדי להשתמש בתצורת מחזור החיים.
הטבלה הבאה מסכמת את השגיאות האלו שאתה עלול להיתקל בהן בעת הפעלת יישום Data Wrangler עם תצורות ברירת מחדל של מחזור החיים.
רמה שבה תצורת מחזור החיים מוחל |
צור זרימת רנגלר נתונים עובד (או) שגיאה |
הדרך לעקיפת הבעיה |
תְחוּם | שגיאת בקשה שגויה | החל את הסקריפט (ראה למטה) |
פרופיל משתמש | שגיאת בקשה שגויה | החל את הסקריפט (ראה למטה) |
בקשה | עובד - אין בעיה | לא דרוש |
כאשר אתה משתמש בתצורת ברירת המחדל של מחזור החיים המשויכת ל-Studio ו-Data Wrangler (אפליקציית Kernel Gateway), אתה עלול להיתקל בכשל באפליקציית Kernel Gateway. בפוסט זה, אנו מדגימים כיצד להגדיר את תצורת ברירת המחדל של מחזור החיים כראוי כדי לא לכלול פקודות פועלות באפליקציית Data Wrangler, כך שלא תיתקל בכשל באפליקציית Kernel Gateway.
נניח שאתה רוצה להתקין א git-clone-repo script כתצורת ברירת המחדל של מחזור החיים שבודקת מאגר Git מתחת לתיקיית הבית של המשתמש באופן אוטומטי כאשר שרת Jupyter מופעל. בואו נסתכל על כל תרחיש של החלת תצורת מחזור חיים (דומיין, פרופיל משתמש או רמת אפליקציה).
החל תצורת מחזור חיים ברמת הדומיין או פרופיל המשתמש של Studio
כדי להחיל את ברירת המחדל של תצורת מחזור החיים של Kernel Gateway ברמת התחום של Studio או פרופיל המשתמש, השלם את השלבים בסעיף זה. אנו מתחילים עם הוראות לרמת פרופיל המשתמש.
בסקריפט תצורת מחזור החיים שלך, עליך לכלול את בלוק הקוד הבא שבודק ומדלג על אפליקציית Data Wrangler Kernel Gateway:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler'
<remainder of LCC here within in else block – this contains some pip install, etc>
fi
לדוגמה, בואו נשתמש ב- התסריט הבא כמקור שלנו (שים לב שהתיקיה לשכפול ה-repo משתנה אליה /root from /home/sagemaker-user
):
# Clones a git repository into the user's home folder
#!/bin/bash set -eux # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL
הסקריפט החדש שהשתנה נראה כך:
#!/bin/bash
set -eux
STATUS=$(
python3 -c "import sagemaker_dataprep"
echo $?
)
if [ "$STATUS" -eq 0 ]; then
echo 'Instance is of Type Data Wrangler'
else
echo 'Instance is not of Type Data Wrangler' # Replace this with the URL of your git repository
export REPOSITORY_URL="https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git" git -C /root clone $REPOSITORY_URL fi
אתה יכול לשמור את הסקריפט הזה בתור git_command_test.sh
.
כעת אתה מפעיל סדרה של פקודות בטרמינל או בשורת הפקודה. אתה צריך להגדיר את ממשק שורת הפקודה של AWS (AWS CLI) כדי ליצור אינטראקציה עם AWS. אם לא הגדרת את AWS CLI, עיין ב קביעת תצורה של ה- AWS CLI.
- להמיר את
git_command_test.sh
קובץ בפורמט Base64. דרישה זו מונעת שגיאות עקב קידוד של מרווחים ומעברי שורות. - צור תצורת מחזור חיים של Studio. הפקודה הבאה יוצרת תצורת מחזור חיים שפועלת עם השקת אפליקציית Kernel Gateway משויכת:
- השתמש בקריאת ה-API הבאה כדי ליצור פרופיל משתמש חדש עם תצורת מחזור חיים משויכת:
לחלופין, אם ברצונך ליצור דומיין Studio כדי לשייך את תצורת מחזור החיים שלך ברמת הדומיין, או לעדכן את פרופיל המשתמש או הדומיין, תוכל לבצע את השלבים ב הגדרת תצורות ברירת מחדל של מחזור חיים.
- כעת תוכל להפעיל את אפליקציית Studio שלך מלוח הבקרה של SageMaker.
- בסביבת הסטודיו שלך, ב- שלח בתפריט, בחר חדש ו זרימת רנגלר נתונים.זרימת Data Wrangler החדשה אמורה להיפתח ללא בעיות.
- כדי לאמת את השיבוט של Git, אתה יכול לפתוח משגר חדש בסטודיו.
- תַחַת מחברות ומשאבי מחשוב, בחר את המחברת Python 3 ואת מדע נתונים תמונת SageMaker כדי להתחיל את הסקריפט שלך כסקריפט ברירת המחדל שלך לתצורת מחזור החיים.
אתה יכול לראות את ה-Git משוכפל אליו /root
בצילום המסך הבא.
החלטנו בהצלחה את תצורת ברירת המחדל של מחזור החיים של הליבה ברמת פרופיל המשתמש ויצרנו זרימת Data Wrangler. כדי להגדיר ברמת הדומיין של Studio, השינוי היחיד הוא במקום ליצור פרופיל משתמש, אתה מעביר את ה-ARN של תצורת מחזור החיים ב- יצירת-דומיין שיחה.
החל תצורת מחזור חיים ברמת היישום
אם תחיל את תצורת מחזור החיים של Kernel Gateway המוגדרת כברירת מחדל ברמת היישום, לא יהיו לך בעיות משום ש-Data Wrangler מדלגת על תצורת מחזור החיים שהוחלה ברמת היישום.
סיכום
בפוסט זה, הראינו כיצד להגדיר את תצורת ברירת המחדל של מחזור החיים שלך כראוי עבור Studio כאשר אתה משתמש ב-Data Wrangler עבור דרישות הכנת נתונים והדמיה.
לסיכום, אם אתה צריך להשתמש ברירת המחדל תצורת מחזור חיים עבור Studio כדי להפוך התאמה אישית לאוטומטית לסביבות הסטודיו שלך ולהשתמש ב-Data Wrangler להכנת נתונים, אתה יכול להחיל את תצורת מחזור החיים של Kernel Gateway כברירת מחדל ברמת פרופיל המשתמש או רמת התחום של Studio עם בלוק הקוד המתאים כלול בתצורת מחזור החיים שלך, כך שתצורת ברירת המחדל של מחזור החיים בודקת את זה. ומדלג על אפליקציית Data Wrangler Kernel Gateway.
למידע נוסף, עיין במשאבים הבאים:
- תיעוד תצורת מחזור החיים של Amazon SageMaker Studio
- סטודיו SageMaker של אמזון
- מאגר של סקריפטים לדוגמה של תצורת מחזור חיים
- איתור באגים בתצורות מחזור חיים
על הכותבים
ראג'קומאר סמפאטקומאר הוא מנהל חשבון טכני ראשי ב-AWS, המספק ללקוחות הדרכה על יישור טכנולוגיה עסקית ותומך בהמצאה מחדש של המודלים והתהליכים של תפעול הענן שלהם. הוא נלהב בענן ולמידת מכונה. Raj הוא גם מומחה למידת מכונה ועובד עם לקוחות AWS כדי לתכנן, לפרוס ולנהל את עומסי העבודה והארכיטקטורות של AWS שלהם.
ויקי ג'אנג הוא מהנדס פיתוח תוכנה באמזון SageMaker. היא נלהבת מפתרון בעיות. בזמנה הפנוי היא נהנית לצפות בסרטי בלשים ולשחק בדמינטון.
רהול נאברה הוא יועץ ניתוח נתונים בשירותים מקצועיים של AWS. עבודתו הנוכחית מתמקדת באפשר ללקוחות לבנות את עומסי העבודה של הנתונים ולמידת המכונה שלהם ב-AWS. בזמנו הפנוי הוא נהנה לשחק קריקט וכדורעף.
- Coinsmart. בורסת הביטקוין והקריפטו הטובה באירופה.
- Platoblockchain. Web3 Metaverse Intelligence. ידע מוגבר. גישה חופשית.
- CryptoHawk. רדאר אלטקוין. ניסיון חינם.
- מקור: https://aws.amazon.com/blogs/machine-learning/use-amazon-sagemaker-data-wrangler-in-amazon-sagemaker-studio-with-a-default-lifecycle-configuration/
- "
- 100
- a
- אודות
- גישה
- חֶשְׁבּוֹן
- פעולות
- הוסיף
- תעשיות
- אמזון בעברית
- ניתוח
- API
- האפליקציה
- ישים
- בקשה
- יישומים
- יישומית
- החל
- מריחה
- מתאים
- אפליקציות
- עמית
- המשויך
- אוטומטי
- באופן אוטומטי
- AWS
- כי
- להלן
- לחסום
- גבול
- הפסקות
- לִבנוֹת
- שיחה
- לגרום
- שינוי
- בדיקות
- בחרו
- ענן
- קוד
- להשלים
- רכיבים
- לחשב
- תְצוּרָה
- לְחַבֵּר
- יועץ
- מכיל
- לִשְׁלוֹט
- לִיצוֹר
- נוצר
- יוצר
- יוצרים
- קריקט
- מכריע
- נוֹכְחִי
- לקוחות
- נתונים
- ניתוח נתונים
- להפגין
- תלוי
- לפרוס
- עיצוב
- מפתח
- צעצועי התפתחות
- אחר
- תחום
- כל אחד
- בקלות
- הד
- לאפשר
- מאפשר
- מה שמאפשר
- מקצה לקצה
- מהנדס
- מהנדסים
- סביבה
- אירועים
- דוגמה
- קיימים
- ניסיון
- לחקור
- סיומות
- כשלון
- מהר יותר
- ראשון
- firsttime
- תזרים
- מתמקד
- לעקוב
- הבא
- פוּרמָט
- החל מ-
- שער כניסה
- Git
- GitHub
- לקרות
- גובה
- כאן
- עמוד הבית
- איך
- איך
- HTTPS
- תמונה
- תמונות
- לכלול
- כלול
- מידע
- להתקין
- למשל
- אינטראקטיבי
- מִמְשָׁק
- בעיות
- IT
- לשגר
- השקה
- למידה
- רמה
- קו
- רשימה
- נראה
- מכונה
- למידת מכונה
- עושה
- לנהל
- מנהל
- יכול
- ML
- מודלים
- יותר
- סרטים
- מחברה
- לפתוח
- מבצע
- מְקוֹרִי
- שֶׁלוֹ
- לוח
- לוהט
- משחק
- להכין
- מנהל
- בעיה
- תהליך
- תהליכים
- מקצועי
- פּרוֹפִיל
- מספק
- מתן
- מהירות
- מאגר
- לבקש
- דרישות
- משאב
- משאבים
- הפעלה
- ריצה
- אותו
- שמור
- מדע
- מדענים
- סדרה
- שירותים
- סט
- הצבה
- התקנה
- פָּגָז
- לְהַצִיג
- פָּשׁוּט
- So
- תוכנה
- פיתוח תוכנה
- מוצק
- פִּתָרוֹן
- פותר
- כמה
- קוד מקור
- מומחה
- ספציפי
- תֶקֶן
- התחלה
- התחלות
- אחסון
- סטודיו
- בהצלחה
- מסייע
- תומך
- טכני
- מסוף
- מבחן
- השמיים
- זמן
- לשנות
- מופעל
- סוגים
- תחת
- עדכון
- להשתמש
- משתמשים
- ראיה
- מה
- אם
- בתוך
- לְלֹא
- תיק עבודות
- עובד