אמזון SageMaker מציעה מספר דרכים להפעיל עבודות עיבוד נתונים מבוזרות עם Apache Spark, מסגרת מחשוב מבוזר פופולרית לעיבוד נתונים גדולים.
אתה יכול להפעיל יישומי Spark באופן אינטראקטיבי מ סטודיו SageMaker של אמזון על ידי חיבור מחברות SageMaker Studio והפעלות אינטראקטיביות של AWS Glue כדי להפעיל משרות Spark עם אשכול ללא שרת. עם הפעלות אינטראקטיביות, אתה יכול לבחור Apache Spark או Ray כדי לעבד בקלות מערכי נתונים גדולים, מבלי לדאוג לניהול אשכולות.
לחלופין, אם אתה צריך יותר שליטה על הסביבה, אתה יכול להשתמש במיכל SageMaker Spark בנוי מראש כדי להפעיל יישומי Spark כעבודות אצווה באשכול מבוזר מנוהל במלואו עם עיבוד אמזון SageMaker. אפשרות זו מאפשרת לבחור מספר סוגים של מופעים (מוטב מחשוב, אופטימיזציה לזיכרון ועוד), מספר הצמתים באשכול ותצורת האשכול, ובכך לאפשר גמישות רבה יותר לעיבוד נתונים ואימון מודלים.
לבסוף, אתה יכול להפעיל יישומי Spark על ידי חיבור מחברות Studio עם אמזון EMR אשכולות, או על ידי הפעלת אשכול Spark שלך ענן מחשוב אלסטי של אמזון (אמזון EC2).
כל האפשרויות הללו מאפשרות לך ליצור ולאחסן יומני אירועי Spark כדי לנתח אותם באמצעות ממשק המשתמש מבוסס האינטרנט הנקרא בדרך כלל ממשק המשתמש של Spark, המריץ שרת Spark History כדי לנטר את ההתקדמות של יישומי Spark, לעקוב אחר השימוש במשאבים ולפתור שגיאות.
בפוסט זה, אנו משתפים את א פִּתָרוֹן להתקנה והרצה של Spark History Server ב- SageMaker Studio וגישה לממשק המשתמש של Spark ישירות מה-SageMaker Studio IDE, לניתוח יומני Spark המיוצרים על ידי שירותי AWS שונים (AWS Glue Interactive Sessions, SageMaker Processing Jobs ו-Amazon EMR) ומאוחסנים ב- שירות אחסון פשוט של אמזון (אמזון S3) דלי.
סקירת פתרונות
הפתרון משלב את Spark History Server באפליקציית Jupyter Server ב-SageMaker Studio. זה מאפשר למשתמשים לגשת ליומני Spark ישירות מה-SageMaker Studio IDE. שרת ההיסטוריה המשולב של Spark תומך בפעולות הבאות:
- גישה ליומנים שנוצרו על ידי SageMaker Processing Jobs Spark
- גישה ליומנים שנוצרו על ידי יישומי AWS Glue Spark
- גישה ליומנים שנוצרו על ידי אשכולות Spark בניהול עצמי ואמזון EMR
ממשק שורת פקודה שירות (CLI) שנקרא sm-spark-cli
מסופק גם לאינטראקציה עם ממשק המשתמש של Spark ממסוף המערכת של SageMaker Studio. ה sm-spark-cli
מאפשר ניהול Spark History Server מבלי לעזוב את SageMaker Studio.
הפתרון מורכב מסקריפטים של מעטפת המבצעים את הפעולות הבאות:
- התקן את Spark בשרת Jupyter עבור פרופילי משתמש של SageMaker Studio או עבור שטח משותף של SageMaker Studio
- התקן את
sm-spark-cli
עבור פרופיל משתמש או מרחב משותף
התקן את ממשק המשתמש של Spark באופן ידני בדומיין של SageMaker Studio
כדי לארח את ממשק המשתמש של Spark ב-SageMaker Studio, בצע את השלבים הבאים:
- בחרו מסוף מערכת מהמשגר של SageMaker Studio.
- הפעל את הפקודות הבאות במסוף המערכת:
ייקח כמה שניות להשלמת הפקודות.
- לאחר השלמת ההתקנה, תוכל להפעיל את ממשק המשתמש של Spark באמצעות השימוש המצורף
sm-spark-cli
ולגשת אליו מדפדפן אינטרנט על ידי הפעלת הקוד הבא:
sm-spark-cli start s3://DOC-EXAMPLE-BUCKET/<SPARK_EVENT_LOGS_LOCATION>
ניתן להגדיר את מיקום S3 שבו מאוחסנים יומני האירועים המיוצרים על ידי SageMaker Processing, AWS Glue או Amazon EMR בעת הפעלת יישומי Spark.
עבור מחברות SageMaker Studio ו-AWS Glue Interactive Sessions, אתה יכול להגדיר את מיקום יומן האירועים Spark ישירות מהמחברת באמצעות sparkmagic
גַרעִין.
השמיים sparkmagic
הקרנל מכיל קבוצה של כלים לאינטראקציה עם אשכולות Spark מרוחקים באמצעות מחברות. זה מציע קסם (%spark
, %sql
) פקודות להפעלת קוד Spark, ביצוע שאילתות SQL והגדרת הגדרות Spark כמו זיכרון מבצע וליבות.
עבור עבודת SageMaker Processing, אתה יכול להגדיר את מיקום יומן האירועים של Spark ישירות מ- SageMaker Python SDK.
עיין בתיעוד של AWS למידע נוסף:
אתה יכול לבחור את כתובת האתר שנוצרה כדי לגשת לממשק המשתמש של Spark.
צילום המסך הבא מציג דוגמה של ממשק המשתמש של Spark.
אתה יכול לבדוק את המצב של שרת ההיסטוריה של Spark על ידי שימוש ב- sm-spark-cli status
הפקודה במסוף Studio System.
אתה יכול גם לעצור את שרת ההיסטוריה של Spark בעת הצורך.
הפוך את התקנת ממשק המשתמש של Spark לאוטומטי למשתמשים בדומיין של SageMaker Studio
כמנהל IT, אתה יכול להפוך את ההתקנה לאוטומטית עבור משתמשי SageMaker Studio באמצעות א תצורת מחזור החיים. ניתן לעשות זאת עבור כל פרופילי המשתמשים תחת תחום SageMaker Studio או עבור פרופילים ספציפיים. לִרְאוֹת התאם אישית את Amazon SageMaker Studio באמצעות תצורות מחזור חיים לקבלת פרטים נוספים.
אתה יכול ליצור תצורת מחזור חיים מתוך install-history-server.sh סקריפט וצרף אותו לדומיין קיים של SageMaker Studio. ההתקנה מופעלת עבור כל פרופילי המשתמש בדומיין.
ממסוף המוגדר עם ה ממשק שורת הפקודה של AWS (AWS CLI) והרשאות מתאימות, הפעל את הפקודות הבאות:
לאחר הפעלת שרת Jupyter מחדש, ממשק המשתמש של Spark וה- sm-spark-cli
יהיה זמין בסביבת SageMaker Studio שלך.
לנקות את
בחלק זה, אנו מראים לך כיצד לנקות את ממשק המשתמש של Spark בדומיין של SageMaker Studio, באופן ידני או אוטומטי.
הסר ידנית את ממשק המשתמש של Spark
כדי להסיר ידנית את ממשק המשתמש של Spark ב-SageMaker Studio, בצע את השלבים הבאים:
- בחרו מסוף מערכת במשגר של SageMaker Studio.
- הפעל את הפקודות הבאות במסוף המערכת:
הסר את ההתקנה של ממשק המשתמש של Spark באופן אוטומטי עבור כל פרופילי המשתמש של SageMaker Studio
כדי להסיר אוטומטית את ממשק המשתמש של Spark ב-SageMaker Studio עבור כל פרופילי המשתמש, בצע את השלבים הבאים:
- במסוף SageMaker בחר תחומים בחלונית הניווט, ולאחר מכן בחר את התחום של SageMaker Studio.
- בדף פרטי הדומיין, נווט אל סביבה TAB.
- בחר את תצורת מחזור החיים עבור ממשק המשתמש של Spark ב-SageMaker Studio.
- בחרו לנתק.
- מחק והפעל מחדש את אפליקציות Jupyter Server עבור פרופילי המשתמש של SageMaker Studio.
סיכום
בפוסט זה, שיתפנו פתרון שבו תוכלו להשתמש כדי להתקין במהירות את ממשק המשתמש של Spark ב-SageMaker Studio. עם ממשק המשתמש של Spark המתארח ב- SageMaker, צוותי למידת מכונה (ML) וצוותי הנדסת נתונים יכולים להשתמש במחשוב ענן ניתן להרחבה כדי לגשת ולנתח יומני Spark מכל מקום ולהאיץ את העברת הפרויקט שלהם. מנהלי IT יכולים לתקן ולזרז את אספקת הפתרון בענן ולהימנע מהתפשטות של סביבות פיתוח מותאמות אישית עבור פרויקטי ML.
כל הקוד המוצג כחלק מהפוסט הזה זמין ב- מאגר GitHub.
על הכותבים
ג'וזפה אנג'לו פורצ'לי הוא ארכיטקט פתרונות מומחה ללימוד מכונה ראשי עבור שירותי האינטרנט של אמזון. עם מספר שנים של הנדסת תוכנה ורקע ML, הוא עובד עם לקוחות בכל סדר גודל כדי להבין את הצרכים העסקיים והטכניים שלהם ולתכנן פתרונות AI ו-ML שעושים את השימוש הטוב ביותר ב-AWS Cloud וב-Amazon Machine Learning. הוא עבד על פרויקטים בתחומים שונים, כולל MLOps, ראייה ממוחשבת ו-NLP, הכוללים מערך רחב של שירותי AWS. בזמנו הפנוי, ג'וזפה נהנה לשחק כדורגל.
ברונו פיסטון הוא אדריכל פתרונות AI/ML מומחה ל-AWS שבסיסו במילאנו. הוא עובד עם לקוחות בכל סדר גודל, עוזר להם להבין את הצרכים הטכניים שלהם ולעצב פתרונות AI ו-ML שעושים את השימוש הטוב ביותר ב-AWS Cloud וב-Amazon Machine Learning. תחום המומחיות שלו כולל למידת מכונה מקצה לקצה, תעשייתי למידת מכונה ובינה מלאכותית גנרטיבית. הוא נהנה לבלות עם חבריו ולחקור מקומות חדשים, כמו גם לנסוע ליעדים חדשים.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. רכב / רכבים חשמליים, פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- BlockOffsets. מודרניזציה של בעלות על קיזוז סביבתי. גישה כאן.
- מקור: https://aws.amazon.com/blogs/machine-learning/host-the-spark-ui-on-amazon-sagemaker-studio/
- :יש ל
- :הוא
- :איפה
- $ למעלה
- 1
- 100
- 12
- 7
- 8
- 9
- a
- אודות
- גישה
- גישה
- פעולות
- נוסף
- מידע נוסף
- מנהל
- AI
- AI / ML
- תעשיות
- להתיר
- מאפשר
- גם
- אמזון בעברית
- אמזון
- אמזון EMR
- למידת מכונת אמזון
- אמזון SageMaker
- סטודיו SageMaker של אמזון
- אמזון שירותי אינטרנט
- an
- לנתח
- ניתוח
- ו
- כל
- בְּכָל מָקוֹם
- אַפָּשׁ
- האפליקציה
- יישומים
- מתאים
- אפליקציות
- ARE
- AS
- לצרף
- אוטומטי
- באופן אוטומטי
- זמין
- לְהִמָנַע
- AWS
- דבק AWS
- רקע
- מבוסס
- BE
- הטוב ביותר
- גָדוֹל
- נתונים גדולים
- רחב
- דפדפן
- עסקים
- by
- נקרא
- CAN
- CD
- לבדוק
- בחרו
- ענן
- אשכול
- קוד
- בדרך כלל
- להשלים
- לחשב
- המחשב
- ראייה ממוחשבת
- מחשוב
- תְצוּרָה
- מוגדר
- מקשר
- מורכב
- קונסול
- מכולה
- מכיל
- לִשְׁלוֹט
- לִיצוֹר
- מנהג
- לקוחות
- נתונים
- עיבוד נתונים
- מערכי נתונים
- מסירה
- עיצוב
- יעדים
- פרטים
- צעצועי התפתחות
- אחר
- ישירות
- מופץ
- מחשוב מבוזר
- תיעוד
- תחום
- תחומים
- עשה
- בקלות
- או
- מאפשר
- מה שמאפשר
- סוף
- הנדסה
- סביבה
- סביבות
- שגיאות
- אירוע
- דוגמה
- קיימים
- לְזַרֵז
- היכרות
- מעטים
- שדה
- גמישות
- הבא
- כדורגל
- בעד
- מסגרת
- חופשי
- חברים
- החל מ-
- לגמרי
- ליצור
- נוצר
- גנרטטיבית
- AI Generative
- יותר
- he
- עזרה
- שֶׁלוֹ
- היסטוריה
- המארח
- אירח
- איך
- איך
- HTML
- http
- HTTPS
- if
- in
- כולל
- כולל
- מידע
- להתקין
- התקנה
- התקנה
- משולב
- משלב
- אינטראקציה
- אינטראקטיבי
- מִמְשָׁק
- אל תוך
- מעורב
- IT
- עבודה
- מקומות תעסוקה
- jpg
- גָדוֹל
- למידה
- עזיבה
- מעגל החיים
- כמו
- קו
- מיקום
- היכנס
- מכונה
- למידת מכונה
- קסם
- לעשות
- הצליח
- ניהול
- ניהול
- באופן ידני
- זכרון
- מילאן
- ML
- MLOps
- מודל
- צג
- יותר
- שם
- נווט
- ניווט
- צורך
- נחוץ
- צרכי
- חדש
- NLP
- צמתים
- מחברה
- מספר
- of
- המיוחדות שלנו
- on
- יחידות
- אופטימיזציה
- אפשרות
- אפשרויות
- or
- יותר
- עמוד
- זגוגית
- חלק
- לְבַצֵעַ
- הרשאות
- מקומות
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- משחק
- פופולרי
- הודעה
- מנהל
- תהליך
- תהליך
- מיוצר
- פּרוֹפִיל
- פרופילים
- התקדמות
- פּרוֹיֶקט
- פרויקטים
- ובלבד
- פיתון
- שאילתות
- מהירות
- RAY
- מרחוק
- משאב
- הפעלה
- ריצה
- פועל
- בעל חכמים
- להרחבה
- סקריפטים
- Sdk
- שניות
- סעיף
- לִרְאוֹת
- ללא שרת
- שירותים
- הפעלות
- סט
- הגדרות
- כמה
- שיתוף
- משותף
- פָּגָז
- לְהַצִיג
- הראה
- הופעות
- פָּשׁוּט
- מידה
- תוכנה
- הנדסת תוכנה
- פִּתָרוֹן
- פתרונות
- לעורר
- מומחה
- ספציפי
- מְהִירוּת
- הוצאה
- לערום
- התחלה
- מצב
- צעדים
- עצור
- אחסון
- חנות
- מאוחסן
- סטודיו
- תומך
- מערכת
- לקחת
- צוותי
- טכני
- מסוף
- זֶה
- השמיים
- שֶׁלָהֶם
- אותם
- אז
- בכך
- אלה
- זֶה
- דרך
- זמן
- ל
- כלים
- לעקוב
- הדרכה
- נסיעה
- סוגים
- ui
- תחת
- להבין
- כתובת האתר
- נוֹהָג
- להשתמש
- משתמש
- ממשק משתמש
- משתמשים
- באמצעות
- תועלת
- חזון
- דרכים
- we
- אינטרנט
- דפדפן אינטרנט
- שירותי אינטרנט
- המבוסס על האינטרנט
- טוֹב
- מתי
- אשר
- יצטרך
- עם
- לְלֹא
- עבד
- עובד
- שנים
- אתה
- זפירנט