צמצם את צריכת האנרגיה בעומסי העבודה של למידת המכונה שלך עד 90% עם מאיצים ייעודיים של AWS | שירותי האינטרנט של אמזון

צמצם את צריכת האנרגיה בעומסי העבודה של למידת המכונה שלך עד 90% עם מאיצים ייעודיים של AWS | שירותי האינטרנט של אמזון

מהנדסי למידת מכונה (ML) התמקדו באופן מסורתי באיזון בין אימון מודל ועלות פריסה לעומת ביצועים. יותר ויותר, קיימות (יעילות אנרגטית) הופכת ליעד נוסף עבור הלקוחות. זה חשוב מכיוון שאימון מודלים של ML ולאחר מכן שימוש במודלים המאומנים לביצוע חיזויים (מסק) יכולים להיות משימות עתירות אנרגיה. בנוסף, יותר ויותר יישומים סביבנו נהיו חדורים ב-ML, ויישומים חדשים המופעלים על ידי ML ​​נוצרים מדי יום. דוגמה פופולרית היא ChatGPT של OpenAI, המופעלת על ידי מודל שפה גדול (LMM) חדיש. להשוואה, GPT-3, LLM מהדור הקודם בעל 175 מיליארד פרמטרים ודורש חודשים של הכשרה ללא הפסקה על אשכול של אלפי מעבדים מואצים. ה מחקר Carbontracker מעריך שאימון GPT-3 מאפס עשוי לפלוט עד 85 טון מטרי של שווי ערך CO2, באמצעות אשכולות של מאיצי חומרה מיוחדים.

ישנן מספר דרכים שבהן AWS מאפשרת למתרגלים ב-ML להפחית את ההשפעה הסביבתית של עומסי העבודה שלהם. דרך אחת היא באמצעות מתן הדרכה מרשימה סביב תכנון עומסי העבודה של ה-AI/ML שלך לקיימות. דרך נוספת היא על ידי הצעת שירותי אימון ותזמור ML מנוהלים כגון סטודיו SageMaker של אמזון, אשר מפרק ומגדיל באופן אוטומטי את משאבי ה-ML כאשר אינו בשימוש, ומספק שורה של כלים מחוץ לקופסה החוסכים בעלויות ומשאבים. גורם מרכזי נוסף הוא הפיתוח של מאיצים יעילים באנרגיה, בעלי ביצועים גבוהים להדרכה ופריסה של מודלים של ML.

המיקוד של פוסט זה הוא על החומרה כמנוף ל-ML בר-קיימא. אנו מציגים את התוצאות של ניסויי ביצועים והפקת כוח עדכניים שבוצעו על ידי AWS, המכמתים את היתרונות של יעילות האנרגיה שניתן לצפות לה בעת העברת עומסי העבודה של הלמידה העמוקת שלך ממואצים אחרים המואצים להסקת מסקנות והדרכה. ענן מחשוב אלסטי של אמזון (Amazon EC2) מופעים ל Afer Inferentia ו AWS Trainium. Inferentia ו-Trainium הם התוספת האחרונה של AWS לפורטפוליו של מאיצים ייעודיים תוכנן במיוחד על ידי אמזון מעבדות אנאפורנה להסקת ML ועומסי עבודה.

AWS Inferentia ו-AWS Trainium ל-ML בר-קיימא

כדי לספק לך מספרים מציאותיים של פוטנציאל החיסכון באנרגיה של AWS Inferentia ו-AWS Trainium ביישום בעולם האמיתי, ערכנו מספר ניסויי שוואת כוח. עיצבנו אמות מידה אלה תוך התחשבות בקריטריונים העיקריים הבאים:

  • ראשית, רצינו לוודא שקלטנו צריכת אנרגיה ישירה המיוחסת לעומס העבודה של הבדיקה, כולל לא רק מאיץ ה-ML אלא גם המחשוב, הזיכרון והרשת. לכן, במערך הבדיקה שלנו, מדדנו צריכת חשמל ברמה זו.
  • שנית, בעת הפעלת עומסי ההדרכה וההסקת העבודה, וידאנו שכל המופעים פועלים במגבלות החומרה הפיזיות שלהם ונקטנו מדידות רק לאחר הגבלה זו כדי להבטיח השוואה.
  • לבסוף, רצינו להיות בטוחים שניתן להשיג את החיסכון באנרגיה המדווח בפוסט זה ביישום מעשי בעולם האמיתי. לכן, השתמשנו במקרים נפוצים של שימוש ב-ML בהשראת הלקוח לצורך ביצוע השוואות ובדיקות.

התוצאות מדווחות בסעיפים הבאים.

ניסוי היסק: הבנת מסמכים בזמן אמת עם LayoutLM

היסק, בניגוד לאימון, הוא עומס עבודה מתמשך, בלתי מוגבל, שאין לו נקודת סיום מוגדרת. לכן הוא מהווה חלק גדול מצריכת המשאבים לכל החיים של עומס עבודה ב-ML. קבלת מסקנות נכונה היא המפתח להשגת ביצועים גבוהים, עלות נמוכה וקיימות (יעילות אנרגטית טובה יותר) לאורך מחזור החיים המלא של ML. עם משימות מסקנות, לקוחות בדרך כלל מעוניינים להשיג שיעור מסקנות מסוים כדי לעמוד בקצב הביקוש לצריכה.

הניסוי המוצג בפוסט זה הוא בהשראת מקרה שימוש להבנת מסמך בזמן אמת, שהוא יישום נפוץ בתעשיות כמו בנקאות או ביטוח (לדוגמה, לתביעות או עיבוד טופס בקשה). באופן ספציפי, אנו בוחרים פריסה LM, דגם שנאי מיומן מראש המשמש לעיבוד תמונה של מסמכים וחילוץ מידע. אנו מגדירים יעד SLA של 1,000,000 מסקנות לשעה, ערך שנחשב לרוב כזמן אמת, ולאחר מכן מציינים שתי תצורות חומרה המסוגלות לעמוד בדרישה זו: אחת באמצעות מקרים של אמזון EC2 Inf1, הכוללת AWS Inferentia, ואחת שמשתמשת במופעי EC2 מואצים דומים המותאמים למשימות מסקנות. במהלך הניסוי, אנו עוקבים אחר מספר אינדיקטורים למדידת ביצועי מסקנות, עלות ויעילות אנרגטית של שתי תצורות החומרה. התוצאות מוצגות באיור הבא.

צמצם את צריכת האנרגיה בעומסי העבודה של למידת המכונה שלך עד 90% עם מאיצים ייעודיים של AWS | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

תוצאות, עלות ויעילות אנרגטית של מדדי מסקנות

AWS Inferentia מספקת תפוקת מסקנות גבוהה פי 6.3. כתוצאה מכך, עם Inferentia, אתה יכול להריץ את אותו עומס עבודה של הבנת מסמך מבוסס-LayoutLM בזמן אמת בפחות מופעים (6 מופעי AWS Inferentia לעומת 33 מופעי EC2 מואצים אחרים עם אופטימיזציה להסקת הסקים, שווה ערך להפחתה של 82%), להשתמש בפחות מעשירית (-92%) מכל האנרגיה תוך עלות משמעותית של 2D דולר בתהליך, תוך עלות משמעותית של 25D דולר בתהליך. למיליון מסקנות, שווה ערך להפחתה של 91% בעלויות).

ניסוי אימון: אימון BERT Large מאפס

אימון, בניגוד להסקת מסקנות, הוא תהליך סופי שחוזר על עצמו בתדירות נמוכה בהרבה. מהנדסי ML מעוניינים בדרך כלל בביצועי אשכול גבוהים כדי לצמצם את זמן האימון תוך שמירה על עלויות בשליטה. יעילות אנרגטית היא דאגה משנית (עם זאת גוברת). עם AWS Trainium, אין החלטה אחרת: מהנדסי ML יכולים להפיק תועלת מביצועי אימון גבוהים תוך אופטימיזציה לעלות והפחתת ההשפעה הסביבתית.

כדי להמחיש זאת, אנו בוחרים BERT גדול, מודל שפה פופולרי המשמש למקרי שימוש בהבנת שפה טבעית כגון מענה על שאלות מבוסס צ'טבוט וחיזוי תגובה לשיחה. אימון מודל BERT Large בעל ביצועים טובים מאפס דורש בדרך כלל עיבוד של 450 מיליון רצפים. אנו משווים שתי תצורות אשכולות, כל אחת בגודל קבוע של 16 מופעים ומסוגלת לאמן את BERT Large מאפס (450 מיליון רצפים מעובדים) תוך פחות מיממה. הראשון משתמש במופעי EC2 מואצים מסורתיים. ההגדרה השנייה משתמשת מופעי Amazon EC2 Trn1 עם AWS Trainium. שוב, אנו מסמנים את שתי התצורות במונחים של ביצועי אימון, עלות והשפעה סביבתית (יעילות אנרגטית). התוצאות מוצגות באיור הבא.

צמצם את צריכת האנרגיה בעומסי העבודה של למידת המכונה שלך עד 90% עם מאיצים ייעודיים של AWS | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

תוצאות, עלות ויעילות אנרגטית של מדדי אימון

בניסויים, מופעים מבוססי AWS Trainium עלו על מופעי ה-EC2 המואצים המותאמים לאימונים השוות בפקטור של 1.7 במונחים של רצפים מעובדים לשעה, וקיצצו את זמן האימון הכולל ב-43% (2.3 שעות לעומת 4 שעות במקרי EC2 מואצים דומים). כתוצאה מכך, בעת שימוש באשכול מופע מבוסס Trainium, צריכת האנרגיה הכוללת לאימון BERT Large מאפס נמוכה בכ-29% בהשוואה לאשכול בגודל זהה של מופעי EC2 מואצים דומים. שוב, יתרונות הביצועים והיעילות האנרגטית הללו מגיעים גם עם שיפורים משמעותיים בעלויות: עלות האימון לעומס העבודה של BERT ML נמוכה בכ-62% במופעי Trainium (787 דולר ארה"ב לעומת 2091 דולר לריצת אימון מלאה).

תחילת העבודה עם מאיצים ייעודיים של AWS עבור ML

למרות שהניסויים שנערכו כאן כולם משתמשים במודלים סטנדרטיים מתחום עיבוד השפה הטבעית (NLP), AWS Inferentia ו-AWS Trainium מצטיינים עם ארכיטקטורות מודל מורכבות רבות אחרות כולל LLMs והמאתגרות ביותר AI ייצור ארכיטקטורות שמשתמשים בונים (כגון GPT-3). מאיצים אלה מצליחים במיוחד עם דגמים עם יותר מ-10 מיליארד פרמטרים, או מודלים של ראייה ממוחשבת כמו דיפוזיה יציבה (ראה הנחיות התאמה לאדריכלות מודל לפרטים נוספים). ואכן, רבים מהלקוחות שלנו כבר משתמשים ב-Inferentia ו-Trainium עבור מגוון רחב של מקרי שימוש ב-ML.

כדי להפעיל את עומסי העבודה של למידה עמוקה מקצה לקצה על מופעים מבוססי AWS Inferentia ו-AWS Trainium, אתה יכול להשתמש AWS נוירון. Neuron היא ערכת פיתוח תוכנה מקצה לקצה (SDK) הכוללת מהדר למידה עמוקה, זמן ריצה וכלים המשולבים באופן טבעי במסגרות ה-ML הפופולריות ביותר כמו TensorFlow ו-PyTorch. אתה יכול להשתמש ב- Neuron SDK כדי להעביר בקלות את עומסי העבודה הקיימים של TensorFlow או PyTorch ללמידה עמוקה של ML ל-Inferentia ו-Trainium ולהתחיל לבנות מודלים חדשים באמצעות אותן מסגרות ML ידועות. להגדרה קלה יותר, השתמש באחד משלנו Amazon Machine Images (AMIs) ללמידה עמוקה, שמגיעות עם רבות מהחבילות והתלות הנדרשות. אפילו יותר פשוט: אתה יכול להשתמש ב-Amazon SageMaker Studio, שתומך באופן טבעי ב-TensorFlow ו-PyTorch ב-Inferentia ו-Trainium (ראה aws-samples repo GitHub לדוגמה).

הערה אחרונה: בעוד ש-Inferentia ו-Trainium נבנו ייעודיים לעומסי עבודה של למידה עמוקה, אלגוריתמי ML רבים ופחות מורכבים יכולים לתפקד היטב במופעים מבוססי CPU (לדוגמה, XGBoost ו-LightGBM וגם כמה רשתות CNN). במקרים אלו, הגירה ל AWS Graviton3 עשוי להפחית באופן משמעותי את ההשפעה הסביבתית של עומסי העבודה שלך ב-ML. מופעים מבוססי AWS Graviton צורכים עד 60% פחות אנרגיה עבור אותם ביצועים מאשר מופעי EC2 מואצים דומים.

סיכום

קיימת תפיסה שגויה נפוצה שהפעלת עומסי עבודה של ML בצורה בת קיימא וחסכונית באנרגיה פירושה הקרבה בביצועים או בעלות. עם מאיצים ייעודיים של AWS ללמידת מכונה, מהנדסי ML לא צריכים לעשות את הפשרה הזו. במקום זאת, הם יכולים להפעיל את עומסי העבודה של הלמידה העמוקה שלהם על חומרת למידה עמוקה מיוחדת במיוחד, כגון AWS Inferentia ו-AWS Trainium, שעולה משמעותית על סוגי מופעי EC2 מואצים דומים, ומספקת עלות נמוכה יותר, ביצועים גבוהים יותר ויעילות אנרגטית טובה יותר - עד 90% - הכל בו זמנית. כדי להתחיל להפעיל את עומסי העבודה שלך ב-ML על Inferentia ו-Trainium, בדוק את תיעוד AWS Neuron או לסובב אחד מה מחברות לדוגמה. אתה יכול גם לצפות בהרצאת AWS re:Invent 2022 קיימות וסיליקון AWS (SUS206), המכסה רבים מהנושאים הנידונים בפוסט זה.


על הכותבים

צמצם את צריכת האנרגיה בעומסי העבודה של למידת המכונה שלך עד 90% עם מאיצים ייעודיים של AWS | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.קרסטן שרור הוא אדריכל פתרונות ב-AWS. הוא תומך בלקוחות במינוף נתונים וטכנולוגיה כדי להניע את הקיימות של תשתית ה-IT שלהם ולבנות פתרונות מונעי נתונים המאפשרים פעולות בר קיימא בתחומי התעשייה שלהם. קרסטן הצטרף ל-AWS בעקבות לימודי הדוקטורט שלו למידת מכונה יישומית וניהול תפעול. הוא באמת נלהב מפתרונות טכנולוגיים לאתגרים חברתיים ואוהב לצלול עמוק לתוך השיטות וארכיטקטורות האפליקציות העומדות בבסיס הפתרונות הללו.

צמצם את צריכת האנרגיה בעומסי העבודה של למידת המכונה שלך עד 90% עם מאיצים ייעודיים של AWS | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.קמרן חאן הוא מנהל מוצר טכני אב במעבדות AWS Annapurna. הוא עובד בשיתוף פעולה הדוק עם לקוחות AI/ML כדי לעצב את מפת הדרכים עבור חידושי סיליקון ייעודיים של AWS שיצאו ממעבדות אנאפורנה של אמזון. ההתמקדות הספציפית שלו היא בשבבי למידה עמוקה מואצת, כולל AWS Trainium ו-AWS Inferentia. לקמרן 18 שנות ניסיון בתעשיית המוליכים למחצה. לקמרן יש למעלה מעשור של ניסיון בסיוע למפתחים להשיג את יעדי ה-ML שלהם.

בול זמן:

עוד מ למידת מכונות AWS