שיטות עבודה מומלצות עבור אימון בריכות חמות מנוהלות של אמזון SageMaker

Amazon SageMaker Training Managed Warm Pools נותן לך את הגמישות להצטרף לשימוש חוזר ולהחזיק בתשתית הבסיסית למשך פרק זמן מוגדר על ידי המשתמש. זה נעשה תוך שמירה על היתרון של העברת ההרמה הכבדה הבלתי מובחנת של ניהול מופעי מחשוב לתוך אימון דגמי אמזון SageMaker. בפוסט זה, אנו מתארים את היתרונות העיקריים ונקודות הכאב בהן מתייחס SageMaker Training Managed Warm Pools, כמו גם מדדים ושיטות עבודה מומלצות.

סקירה כללית של בריכות חמות מנוהלות באימון SageMaker

אימון מודלים של SageMaker היא יכולת מנוהלת במלואה שמסובבת מופעים לכל עבודה, מכשירה דגם, מפעילה ואז מטה מופעים לאחר העבודה. אתה מחויב רק עבור משך המשרה עד לשנייה. היכולת המנוהלת במלואה הזו נותנת לך את החופש להתמקד באלגוריתם למידת מכונה (ML) שלך ולא לדאוג להרמה כבדה ללא הבחנה כמו ניהול תשתית בזמן אימון הדגמים שלך.

מנגנון זה מחייב זמן הפעלה סופי עבור עבודת הדרכה. למרות זמן ההפעלה הזה, המכונה גם זמן הפעלה בהפעלה קרה, נמוך למדי, חלק ממקרי השימוש התובעניים ביותר שלנו עבור לקוחות דורשים זמני הפעלה נמוכים עוד יותר, כמו פחות מ-20 שניות. ישנם שני מקרי שימוש בולטים שיש להם דרישות אלה:

  • הראשון הוא ניסוי ML פעיל על ידי מדעני נתונים המשתמשים ב- אמזון SageMaker פלטפורמת הדרכה, במיוחד בזמן אימון דגמים גדולים, כמו GPT3, הדורשים איטרציות מרובות כדי להגיע למצב מוכן לייצור.
  • השני הוא השקה פרוגרמטית של מספר גדול (בסדר של כמה מאות או אלפים) של עבודות רצופות באותו סוג של מופעים בקצב מתוזמן. לדוגמה, חיפוש פרמטרים או אימון מצטבר.

עבור מקרי שימוש כאלה, לכל שנייה שהושקעה בתקורה, כמו זמן ההפעלה לעבודת הדרכה, יש השפעה מצטברת על כל העבודות הללו.

עם SageMaker Training Managed Warm Pools, למדעני נתונים ומהנדסי ML יש את היכולת להצטרף כדי לשמור על מופעי אימון של SageMaker או אשכולות מרובי מופעים חמים למשך זמן מוגדר מראש וניתן להגדרה מחדש (keep_alive_period_in_seconds) לאחר סיום כל עבודת הדרכה. אז למרות שאתה חוטף קנס של התחלה קרה עבור עבודת האימון הראשונה שפועלת על מופע או אשכול, עבור כל עבודות ההדרכה הבאות, המופעים כבר פועלים. כתוצאה מכך, עבודות ההכשרה הבאות הללו שמתחילות במופע לפני ה keep_alive_period_in_seconds תוקפו אינו כרוך בזמן האתחול בהפעלה קרה. זה יכול להפחית את זמני ההפעלה של עבודת האימון לפחות מ-20 שניות (P90).

מדעני נתונים ומהנדסי ML יכולים להשתמש ב- SageMaker Training Managed Warm Pools כדי לשמור על חום של מופעים בודדים או מרובים בין ריצות אימון לצורך ניסויים או להפעיל מספר עבודות ברציפות על אותו אשכול יחיד או מרובה מופעים. אתה משלם רק עבור משך משרות ההדרכה והאפשרות להגדרה מחדש keep_alive_period_in_seconds כמו בכל מקום אחר שאתה מציין עבור כל מופע בודד.

למעשה, עם SageMaker Training Managed Warm Pools, אתה מקבל שילוב של ניצול מופעים מנוהלים של SageMaker עם היכולת להצטרף ולספק קיבולת וניהול עצמי של ניצול לפרקי זמן קצרים. מרווחים אלה ניתנים להגדרה לפני עבודה, אבל אם במהלך keep_alive_period_in_seconds מרווח, אתה צריך להפחית או להגדיל אותו, אתה יכול לעשות זאת. מגדיל ל keep_alive_period_in_seconds ניתן לעשות זאת במרווחים של עד 60 דקות, כאשר פרק זמן מקסימלי עבור מופע או אשכול הוא 7 ימים.

כדי להתחיל עם בריכות חמות, ראשית לבקש הגדלת מכסת בריכה חמהואז ציין את keep_alive_period_in_seconds פרמטר בעת תחילת עבודת הדרכה.

מבחני ביצועים

ביצענו בדיקות בנצ'מרק כדי למדוד את זמן השהייה באתחול עבודה באמצעות תמונת TensorFlow של 1.34 ג'יגה-בייט, 2 ג'יגה-בייט של נתונים ומצבי קלט של נתוני אימון שונים (Amazon FSx, Fast File Mode, File Mode). הבדיקות נערכו על פני מגוון סוגי מופעים ממשפחות m4, c4, m5 ו-c5 באזור us-east-2. זמן האתחול נמדד כזמן יצירת העבודה עד תחילת עבודת ההדרכה בפועל במופעים. העבודות הראשונות שהתחילו את האשכול ויצרו את הבריכה החמה היו עם חביון הפעלה של 2-3 דקות. זמן אחזור גבוה יותר זה נובע מהזמן שלוקח לספק את התשתית, להוריד את התמונה ולהוריד את הנתונים. העבודות שנעשו לאחר מכן שהשתמשו באשכול הבריכה החמה היו עם זמן הפעלה של כ-20 שניות עבור מצב קובץ מהיר (FFM) או אמזון FSx, ו-70 שניות עבור מצב קובץ (FM). דלתא זו היא תוצאה של FM שדורש הורדה של כל מערך הנתונים מאמזון S3 לפני תחילת העבודה.

הבחירה שלך במצב קלט נתוני אימון משפיעה על זמן האתחול, אפילו עם בריכות חמות. הנחיות לגבי מצב קלט לבחור נמצא בסעיף שיטות עבודה מומלצות בהמשך הפוסט הזה.

הטבלה הבאה מסכמת את זמן האחזור של הפעלת העבודה P90 עבור מצבי הזנת נתוני אימון שונים.

מצב קלט נתונים חביון הפעלה P90 (שניות)
עבודה ראשונה משרות בבריכה חמה (משרה שנייה ואילך)
FSx 136 19
מצב קובץ מהיר 143 21
מצב קובץ 176 70

שיטות עבודה מומלצות לשימוש בבריכות חמות

בסעיף הבא, אנו חולקים כמה שיטות עבודה מומלצות בעת שימוש בבריכות חמות.

מתי כדאי להשתמש בבריכות חמות?

בריכות חמות מומלצות בתרחישים הבאים:

  • אתה מתנסה באופן אינטראקטיבי ומכוון את התסריט שלך על פני סדרה של עבודות קצרות.
  • אתה מפעיל אופטימיזציה של היפרפרמטרים בקנה מידה גדול בהתאמה אישית (לדוגמה, Syne Tune).
  • יש לך תהליך אצווה שמריץ מספר גדול (בסדר של כמה מאות או אלפים) של עבודות רצופות באותו סוג של מופעים בקצב יומי או שבועי. לדוגמה, הכשרת מודל ML לכל עיר.

בריכות חמות אינן מומלצות כאשר אין זה סביר שמישהו יעשה שימוש חוזר בבריכה החמה לפני שתפוגה. לדוגמה, עבודה אחת ארוכה שפועלת דרך צינור ML אוטומטי.

צמצם למינימום את משך זמן ההפעלה של אימון בבריכה חמה

עבודות הדרכה שעושות שימוש חוזר בבריכה חמה מתחילות מהר יותר מהעבודה הראשונה שיצרה את הבריכה החמה. זה נובע מכך שמופעי ה-ML פועלים בין משימות עם תמונת Docker של מיכל הדרכה במטמון כדי לדלג על משיכת ה-container מ מרשם מיכל אלסטי של אמזון (Amazon ECR). עם זאת, גם בעת שימוש חוזר בבריכה חמה, שלבי אתחול מסוימים מתרחשים עבור כל העבודות. אופטימיזציה של שלבים אלה יכולה להפחית את זמן תחילת העבודה שלך (הן העבודות הראשונות והן העבודות הבאות). שקול את הדברים הבאים:

  • מצב קלט נתוני אימון יכול להשפיע על זמן האתחול - ערוצי קלט נתוני אימון מנוהלים נוצרים מחדש עבור כל עבודת הכשרה, ותורמים לאיחור את תחילת העבודה. אז ביצוע ניסויים ראשוניים על מערך נתונים קטן יותר יאפשר זמן הפעלה מהיר יותר (וזמן אימון מהיר יותר). לשלבים מאוחרים יותר של ניסוי, כאשר יש צורך במערך נתונים גדול, שקול להשתמש בסוג מצב קלט שיש לו זמן אתחול מינימלי או קבוע. לדוגמה, מצב קלט FILE מעתיק את כל מערך הנתונים שירות אחסון פשוט של אמזון (Amazon S3) למופע האימון, שגוזל זמן עבור מערכי נתונים גדולים (אפילו עם בריכות חמות). מצב קובץ מהיר מתאים יותר להשהיית הפעלה נמוכה יותר מכיוון שרק מטא נתונים של אובייקט S3 צריכים להיקרא מאמזון S3 לפני שהעומס יכול להתחיל. ה אמזון FSx עבור ברק, או מערכת הקבצים של אמזון אלסטית מצב קלט של מערכת הקבצים (Amazon EFS), בעל זמן אתחול קבוע ללא קשר למספר הקבצים במערכת הקבצים, מה שמועיל כאשר עובדים עם מערך נתונים גדול.
    למידע נוסף על איך לבחור ערוץ קלט, ראה בחר את מקור הנתונים הטוב ביותר עבור עבודת ההדרכה שלך ב-Amazon SageMaker.
  • צמצם את התקנת חבילות בזמן ריצה – כל התקנת תוכנה שמתרחשת במהלך אתחול קונטיינר, למשל, pip או מערכת ההפעלה apt-get של Python, תגדיל את זמן האחזור של עבודת האימון. מזעור זמן האתחול הזה מחייב ביצוע פשרה בין הגמישות והפשטות של התקנות זמן ריצה לעומת התקנה בזמן בניית קונטיינר. אם אתה משתמש במיכל Docker משלך עם SageMaker, עיין ב התאמת מיכל Docker משלך לעבודה עם SageMaker. אם אתה מסתמך על תמונות מיכל של SageMaker שנבנו מראש, תצטרך להאריך מכולה בנויה מראש ולנהל במפורש את המכולות הללו. שקול זאת אם התקנות זמן הריצה שלך מגדילות משמעותית את זמן האחזור של האתחול.
  • הימנע מעדכון תמונת Docker שלך לעתים קרובות - אם אתה משתמש במיכל Docker משלך עם SageMaker, נסה להימנע מלעדכן אותו בכל הפעלה. אם תמונת ה-Docker תשתנה בין הגשת העבודה, הבריכה החמה תעשה שימוש חוזר, אך תהליך ההפעלה יצטרך למשוך מחדש את תמונת המכולה מאמזון ECR במקום לעשות שימוש חוזר בתמונת מיכל שמורה במטמון. אם יש לעדכן את תמונת Docker, הגבל את העדכונים לשכבת Docker האחרונה כדי לנצל את היתרונות של שכבת Docker. באופן אידיאלי, עליך להסיר את תוכן Dockerfile שסביר שישתנה במהלך איטרציות, כמו היפרפרמטר, הגדרות מערך נתונים וקוד ה-ML עצמו. כדי לחזור על קוד ML מבלי שתצטרך לבנות מחדש תמונות Docker עם כל שינוי, אתה יכול לאמץ את פרדיגמת ה-framework המכיל את דגימת הכלים של SageMaker Training Toolkit. אם תרצה לפתח מיכל מסגרת עם קוד משלך, עיין בזה הדרכה של אמזון SageMaker.

שתף בריכות חמות בין מספר משתמשים

כשאתה עובד עם צוות גדול של מדעני נתונים, אתה יכול לשתף בריכות חמות שיש התאמת קריטריונים לתפקיד, כגון אותו הדבר AWS זהות וניהול גישה (IAM) תפקיד או תמונת מכיל.

בואו נסתכל על ציר זמן לדוגמה. משתמש-1 מתחיל עבודת הדרכה שמסיימת ומביאה לבריכה חמה חדשה שנוצרה. כאשר משתמש-2 מתחיל עבודת הדרכה, העבודה תעשה שימוש חוזר בבריכה החמה הקיימת, וכתוצאה מכך תתחיל עבודה מהירה. בזמן שהעבודה של משתמש-2 פועלת כשהבריכה החמה בשימוש, אם משתמש אחר יתחיל עבודת אימון, תיווצר בריכה חמה שנייה.

התנהגות שימוש חוזר זה עוזרת להפחית עלויות על ידי שיתוף בריכות חמות בין משתמשים שמתחילים בעבודות דומות. אם ברצונך להימנע משיתוף בריכות חמות בין משתמשים, אז אין צורך בעבודות של משתמשים התאמת קריטריונים לתפקיד (לדוגמה, עליהם להשתמש בתפקיד IAM אחר).

הודע למשתמשים על סיום העבודה

בעת שימוש בבריכות חמות לניסויים, אנו ממליצים ליידע את המשתמשים כאשר עבודתם הושלמה. זה מאפשר למשתמשים לחדש את הניסויים לפני שהבריכה החמה יפוג או להפסיק הבריכה החמה אם אין בה עוד צורך. אתה יכול גם מפעיל אוטומטית התראות דרך אמזון EventBridge.

כלים נוספים לניסויים מהירים ופתרון בעיות הדרכה

עם בריכות חמות, אתה יכול להתחיל עבודה תוך פחות מ-20 שניות. תרחישים מסוימים דורשים ניסויים אינטראקטיביים מעשיים בזמן אמת ופתרון בעיות. הקוד הפתוח SageMaker SSH Helper ספריית מאפשר לך להפגיז לתוך מיכל הדרכה של SageMaker ולבצע פיתוח וניפוי באגים מרחוק.

סיכום

עם SageMaker Training Managed Warm Pools, אתה יכול לשמור על מופעי חומרת האימון של הדגם שלך חמים לאחר כל עבודה למשך תקופה מוגדרת. זה יכול להפחית את זמן האתחול עבור עבודת אימון מודל עד פי 8. בריכות חמות מנוהלות של SageMaker הדרכה זמינות בכל אזורי ה-AWS הציבוריים שבהם זמין אימון מודל SageMaker.

כדי להתחיל, ראה רכבת באמצעות בריכות חמות מנוהלות SageMaker.


על המחברים

רומי דאטהד"ר רומי דאטה  הוא מנהל בכיר של ניהול מוצר בצוות Amazon SageMaker האחראי על הדרכה, עיבוד וחנות תכונות. הוא נמצא ב-AWS למעלה מ-4 שנים, מחזיק במספר תפקידי מנהיגות בניהול מוצר ב-SageMaker, S3 ו-IoT. לפני AWS הוא עבד בתפקידי ניהול מוצר, הנדסה ומנהיגות תפעולית שונים ב-IBM, Texas Instruments ו-Nvidia. יש לו תואר שני ודוקטורט. בהנדסת חשמל ומחשבים מאוניברסיטת טקסס באוסטין, ותואר שני במנהל עסקים מבית הספר לעסקים של אוניברסיטת שיקגו.

שיטות עבודה מומלצות עבור Amazon SageMaker Training Managed Warm Pools PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.ארון נגארג'אן הוא מהנדס ראשי עם צוות Amazon SageMaker המתמקד בתחומי ההדרכה וה-MLOps. הוא היה עם צוות SageMaker משנת ההשקה, נהנה לתרום לתחומים שונים ב- SageMaker כולל מסקנות בזמן אמת ומוצרי Model Monitor. הוא אוהב לחקור את החוץ באזור צפון מערב האוקיינוס ​​השקט ולטפס על הרים.

שיטות עבודה מומלצות עבור Amazon SageMaker Training Managed Warm Pools PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.איימי אתה הוא מנהל פיתוח תוכנה ב-AWS SageMaker. היא מתמקדת באיחוד צוות מהנדסי תוכנה כדי לבנות, לתחזק ולפתח יכולות חדשות של פלטפורמת SageMaker Training המסייעת ללקוחות להכשיר את דגמי ה-ML שלהם בצורה יעילה וקלה יותר. יש לה תשוקה לטכנולוגיית ML ו-AI, במיוחד הקשורה לתדמית וחזון מלימודי התואר. בזמנה הפנוי היא אוהבת לעבוד על מוזיקה ואמנות עם משפחתה.

שיטות עבודה מומלצות עבור Amazon SageMaker Training Managed Warm Pools PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. סיפי לי היא מהנדסת תוכנה באמזון AI, שם היא עובדת על בניית פלטפורמות למידת מכונה של אמזון והייתה חלק מצוות ההשקה של Amazon SageMaker. בזמנה הפנוי היא אוהבת לנגן ולקרוא.

שיטות עבודה מומלצות עבור Amazon SageMaker Training Managed Warm Pools PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.ג'נה ז'או הוא מהנדס פיתוח תוכנה ב-AWS SageMaker. היא נלהבת מטכנולוגיית ML/AI והתמקדה בבניית פלטפורמת SageMaker Training המאפשרת ללקוחות לאמן במהירות ובקלות מודלים של למידת מכונה. מחוץ לעבודה, היא נהנית לטייל ולבלות עם משפחתה.

שיטות עבודה מומלצות עבור Amazon SageMaker Training Managed Warm Pools PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.פאראס מהרה הוא מנהל מוצר בכיר ב-AWS. הוא מתמקד בסיוע בבניית אמזון SageMaker הדרכה ועיבוד. בזמנו הפנוי, פאראס נהנה לבלות עם משפחתו ולרכוב על אופני כביש באזור המפרץ. אתה יכול למצוא אותו על לינקדין.

שיטות עבודה מומלצות עבור Amazon SageMaker Training Managed Warm Pools PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.גילי נחום הוא ארכיטקט פתרונות מומחה בינה מלאכותית/ML בכיר שעובד כחלק מצוות למידת מכונה של אמזון EMEA. גילי נלהב מהאתגרים של הכשרת מודלים של למידה עמוקה, וכיצד למידת מכונה משנה את העולם כפי שאנו מכירים אותו. בזמנו הפנוי גילי נהנה לשחק טניס שולחן.

שיטות עבודה מומלצות עבור Amazon SageMaker Training Managed Warm Pools PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.אוליבייה קרוצ'אנט הוא אדריכל פתרונות מומחה למידת מכונה ב-AWS, שבסיסה בצרפת. אוליבייה עוזרת ללקוחות AWS - החל מסטארט-אפים קטנים ועד לארגונים גדולים - לפתח ולפרוס יישומי למידת מכונה בדרגת ייצור. בזמנו הפנוי הוא נהנה לקרוא מאמרי מחקר ולחקור את השממה עם חברים ובני משפחה.

שיטות עבודה מומלצות עבור Amazon SageMaker Training Managed Warm Pools PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.אמילי וובר הצטרף ל-AWS מיד לאחר השקת SageMaker, ומאז הוא מנסה לספר על כך לעולם! מלבד בניית חוויות ML חדשות ללקוחות, אמילי נהנית לעשות מדיטציה וללמוד בודהיזם טיבטי.

בול זמן:

עוד מ למידת מכונות AWS