מארח את ממשק המשתמש של Spark ב-Amazon SageMaker Studio | שירותי האינטרנט של אמזון

מארח את ממשק המשתמש של Spark ב-Amazon SageMaker Studio | שירותי האינטרנט של אמזון

אמזון SageMaker מציעה מספר דרכים להפעיל עבודות עיבוד נתונים מבוזרות עם Apache Spark, מסגרת מחשוב מבוזר פופולרית לעיבוד נתונים גדולים.

אתה יכול להפעיל יישומי Spark באופן אינטראקטיבי מ סטודיו SageMaker של אמזון על ידי חיבור מחברות SageMaker Studio והפעלות אינטראקטיביות של AWS Glue כדי להפעיל משרות Spark עם אשכול ללא שרת. עם הפעלות אינטראקטיביות, אתה יכול לבחור Apache Spark או Ray כדי לעבד בקלות מערכי נתונים גדולים, מבלי לדאוג לניהול אשכולות.

לחלופין, אם אתה צריך יותר שליטה על הסביבה, אתה יכול להשתמש במיכל SageMaker Spark בנוי מראש כדי להפעיל יישומי Spark כעבודות אצווה באשכול מבוזר מנוהל במלואו עם עיבוד אמזון SageMaker. אפשרות זו מאפשרת לבחור מספר סוגים של מופעים (מוטב מחשוב, אופטימיזציה לזיכרון ועוד), מספר הצמתים באשכול ותצורת האשכול, ובכך לאפשר גמישות רבה יותר לעיבוד נתונים ואימון מודלים.

לבסוף, אתה יכול להפעיל יישומי Spark על ידי חיבור מחברות Studio עם אמזון EMR אשכולות, או על ידי הפעלת אשכול Spark שלך ענן מחשוב אלסטי של אמזון (אמזון EC2).

כל האפשרויות הללו מאפשרות לך ליצור ולאחסן יומני אירועי Spark כדי לנתח אותם באמצעות ממשק המשתמש מבוסס האינטרנט הנקרא בדרך כלל ממשק המשתמש של Spark, המריץ שרת Spark History כדי לנטר את ההתקדמות של יישומי Spark, לעקוב אחר השימוש במשאבים ולפתור שגיאות.

בפוסט זה, אנו משתפים את א פִּתָרוֹן להתקנה והרצה של Spark History Server ב- SageMaker Studio וגישה לממשק המשתמש של Spark ישירות מה-SageMaker Studio IDE, לניתוח יומני Spark המיוצרים על ידי שירותי AWS שונים (AWS Glue Interactive Sessions, SageMaker Processing Jobs ו-Amazon EMR) ומאוחסנים ב- שירות אחסון פשוט של אמזון (אמזון S3) דלי.

סקירת פתרונות

הפתרון משלב את Spark History Server באפליקציית Jupyter Server ב-SageMaker Studio. זה מאפשר למשתמשים לגשת ליומני Spark ישירות מה-SageMaker Studio IDE. שרת ההיסטוריה המשולב של Spark תומך בפעולות הבאות:

  • גישה ליומנים שנוצרו על ידי SageMaker Processing Jobs Spark
  • גישה ליומנים שנוצרו על ידי יישומי AWS Glue Spark
  • גישה ליומנים שנוצרו על ידי אשכולות Spark בניהול עצמי ואמזון EMR

ממשק שורת פקודה שירות (CLI) שנקרא sm-spark-cli מסופק גם לאינטראקציה עם ממשק המשתמש של Spark ממסוף המערכת של SageMaker Studio. ה sm-spark-cli מאפשר ניהול Spark History Server מבלי לעזוב את SageMaker Studio.

מארח את ממשק המשתמש של Spark ב-Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

הפתרון מורכב מסקריפטים של מעטפת המבצעים את הפעולות הבאות:

  • התקן את Spark בשרת Jupyter עבור פרופילי משתמש של SageMaker Studio או עבור שטח משותף של SageMaker Studio
  • התקן את sm-spark-cli עבור פרופיל משתמש או מרחב משותף

התקן את ממשק המשתמש של Spark באופן ידני בדומיין של SageMaker Studio

כדי לארח את ממשק המשתמש של Spark ב-SageMaker Studio, בצע את השלבים הבאים:

  1. בחרו מסוף מערכת מהמשגר ​​של SageMaker Studio.

מארח את ממשק המשתמש של Spark ב-Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  1. הפעל את הפקודות הבאות במסוף המערכת:
curl -LO https://github.com/aws-samples/amazon-sagemaker-spark-ui/releases/download/v0.1.0/amazon-sagemaker-spark-ui-0.1.0.tar.gz
tar -xvzf amazon-sagemaker-spark-ui-0.1.0.tar.gz cd amazon-sagemaker-spark-ui-0.1.0/install-scripts
chmod +x install-history-server.sh
./install-history-server.sh

ייקח כמה שניות להשלמת הפקודות.

  1. לאחר השלמת ההתקנה, תוכל להפעיל את ממשק המשתמש של Spark באמצעות השימוש המצורף sm-spark-cli ולגשת אליו מדפדפן אינטרנט על ידי הפעלת הקוד הבא:

sm-spark-cli start s3://DOC-EXAMPLE-BUCKET/<SPARK_EVENT_LOGS_LOCATION>

ניתן להגדיר את מיקום S3 שבו מאוחסנים יומני האירועים המיוצרים על ידי SageMaker Processing, AWS Glue או Amazon EMR בעת הפעלת יישומי Spark.

עבור מחברות SageMaker Studio ו-AWS Glue Interactive Sessions, אתה יכול להגדיר את מיקום יומן האירועים Spark ישירות מהמחברת באמצעות sparkmagic גַרעִין.

השמיים sparkmagic הקרנל מכיל קבוצה של כלים לאינטראקציה עם אשכולות Spark מרוחקים באמצעות מחברות. זה מציע קסם (%spark, %sql) פקודות להפעלת קוד Spark, ביצוע שאילתות SQL והגדרת הגדרות Spark כמו זיכרון מבצע וליבות.

מארח את ממשק המשתמש של Spark ב-Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

עבור עבודת SageMaker Processing, אתה יכול להגדיר את מיקום יומן האירועים של Spark ישירות מ- SageMaker Python SDK.

מארח את ממשק המשתמש של Spark ב-Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

עיין בתיעוד של AWS למידע נוסף:

מארח את ממשק המשתמש של Spark ב-Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

אתה יכול לבחור את כתובת האתר שנוצרה כדי לגשת לממשק המשתמש של Spark.

מארח את ממשק המשתמש של Spark ב-Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

צילום המסך הבא מציג דוגמה של ממשק המשתמש של Spark.

מארח את ממשק המשתמש של Spark ב-Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

אתה יכול לבדוק את המצב של שרת ההיסטוריה של Spark על ידי שימוש ב- sm-spark-cli status הפקודה במסוף Studio System.

מארח את ממשק המשתמש של Spark ב-Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

אתה יכול גם לעצור את שרת ההיסטוריה של Spark בעת הצורך.

מארח את ממשק המשתמש של Spark ב-Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

הפוך את התקנת ממשק המשתמש של Spark לאוטומטי למשתמשים בדומיין של SageMaker Studio

כמנהל IT, אתה יכול להפוך את ההתקנה לאוטומטית עבור משתמשי SageMaker Studio באמצעות א תצורת מחזור החיים. ניתן לעשות זאת עבור כל פרופילי המשתמשים תחת תחום SageMaker Studio או עבור פרופילים ספציפיים. לִרְאוֹת התאם אישית את Amazon SageMaker Studio באמצעות תצורות מחזור חיים לקבלת פרטים נוספים.

אתה יכול ליצור תצורת מחזור חיים מתוך install-history-server.sh סקריפט וצרף אותו לדומיין קיים של SageMaker Studio. ההתקנה מופעלת עבור כל פרופילי המשתמש בדומיין.

ממסוף המוגדר עם ה ממשק שורת הפקודה של AWS (AWS CLI) והרשאות מתאימות, הפעל את הפקודות הבאות:

curl -LO https://github.com/aws-samples/amazon-sagemaker-spark-ui/releases/download/v0.1.0/amazon-sagemaker-spark-ui-0.1.0.tar.gz
tar -xvzf amazon-sagemaker-spark-ui-0.1.0.tar.gz cd amazon-sagemaker-spark-ui-0.1.0/install-scripts LCC_CONTENT=`openssl base64 -A -in install-history-server.sh` aws sagemaker create-studio-lifecycle-config --studio-lifecycle-config-name install-spark-ui-on-jupyterserver --studio-lifecycle-config-content $LCC_CONTENT --studio-lifecycle-config-app-type JupyterServer --query 'StudioLifecycleConfigArn' aws sagemaker update-domain --region {YOUR_AWS_REGION} --domain-id {YOUR_STUDIO_DOMAIN_ID} --default-user-settings '{ "JupyterServerAppSettings": { "DefaultResourceSpec": { "LifecycleConfigArn": "arn:aws:sagemaker:{YOUR_AWS_REGION}:{YOUR_STUDIO_DOMAIN_ID}:studio-lifecycle-config/install-spark-ui-on-jupyterserver", "InstanceType": "system" }, "LifecycleConfigArns": [ "arn:aws:sagemaker:{YOUR_AWS_REGION}:{YOUR_STUDIO_DOMAIN_ID}:studio-lifecycle-config/install-spark-ui-on-jupyterserver" ] }}'

לאחר הפעלת שרת Jupyter מחדש, ממשק המשתמש של Spark וה- sm-spark-cli יהיה זמין בסביבת SageMaker Studio שלך.

לנקות את

בחלק זה, אנו מראים לך כיצד לנקות את ממשק המשתמש של Spark בדומיין של SageMaker Studio, באופן ידני או אוטומטי.

הסר ידנית את ממשק המשתמש של Spark

כדי להסיר ידנית את ממשק המשתמש של Spark ב-SageMaker Studio, בצע את השלבים הבאים:

  1. בחרו מסוף מערכת במשגר של SageMaker Studio.

מארח את ממשק המשתמש של Spark ב-Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  1. הפעל את הפקודות הבאות במסוף המערכת:
cd amazon-sagemaker-spark-ui-0.1.0/install-scripts chmod +x uninstall-history-server.sh
./uninstall-history-server.sh

הסר את ההתקנה של ממשק המשתמש של Spark באופן אוטומטי עבור כל פרופילי המשתמש של SageMaker Studio

כדי להסיר אוטומטית את ממשק המשתמש של Spark ב-SageMaker Studio עבור כל פרופילי המשתמש, בצע את השלבים הבאים:

  1. במסוף SageMaker בחר תחומים בחלונית הניווט, ולאחר מכן בחר את התחום של SageMaker Studio.

מארח את ממשק המשתמש של Spark ב-Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  1. בדף פרטי הדומיין, נווט אל סביבה TAB.
  2. בחר את תצורת מחזור החיים עבור ממשק המשתמש של Spark ב-SageMaker Studio.
  3. בחרו לנתק.

מארח את ממשק המשתמש של Spark ב-Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

  1. מחק והפעל מחדש את אפליקציות Jupyter Server עבור פרופילי המשתמש של SageMaker Studio.

מארח את ממשק המשתמש של Spark ב-Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

סיכום

בפוסט זה, שיתפנו פתרון שבו תוכלו להשתמש כדי להתקין במהירות את ממשק המשתמש של Spark ב-SageMaker Studio. עם ממשק המשתמש של Spark המתארח ב- SageMaker, צוותי למידת מכונה (ML) וצוותי הנדסת נתונים יכולים להשתמש במחשוב ענן ניתן להרחבה כדי לגשת ולנתח יומני Spark מכל מקום ולהאיץ את העברת הפרויקט שלהם. מנהלי IT יכולים לתקן ולזרז את אספקת הפתרון בענן ולהימנע מהתפשטות של סביבות פיתוח מותאמות אישית עבור פרויקטי ML.

כל הקוד המוצג כחלק מהפוסט הזה זמין ב- מאגר GitHub.


על הכותבים

מארח את ממשק המשתמש של Spark ב-Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.ג'וזפה אנג'לו פורצ'לי הוא ארכיטקט פתרונות מומחה ללימוד מכונה ראשי עבור שירותי האינטרנט של אמזון. עם מספר שנים של הנדסת תוכנה ורקע ML, הוא עובד עם לקוחות בכל סדר גודל כדי להבין את הצרכים העסקיים והטכניים שלהם ולתכנן פתרונות AI ו-ML שעושים את השימוש הטוב ביותר ב-AWS Cloud וב-Amazon Machine Learning. הוא עבד על פרויקטים בתחומים שונים, כולל MLOps, ראייה ממוחשבת ו-NLP, הכוללים מערך רחב של שירותי AWS. בזמנו הפנוי, ג'וזפה נהנה לשחק כדורגל.

מארח את ממשק המשתמש של Spark ב-Amazon SageMaker Studio | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.ברונו פיסטון הוא אדריכל פתרונות AI/ML מומחה ל-AWS שבסיסו במילאנו. הוא עובד עם לקוחות בכל סדר גודל, עוזר להם להבין את הצרכים הטכניים שלהם ולעצב פתרונות AI ו-ML שעושים את השימוש הטוב ביותר ב-AWS Cloud וב-Amazon Machine Learning. תחום המומחיות שלו כולל למידת מכונה מקצה לקצה, תעשייתי למידת מכונה ובינה מלאכותית גנרטיבית. הוא נהנה לבלות עם חבריו ולחקור מקומות חדשים, כמו גם לנסוע ליעדים חדשים.

בול זמן:

עוד מ למידת מכונות AWS