נתח את ההוצאה של אמזון SageMaker וקביעת הזדמנויות אופטימיזציה של עלויות בהתבסס על שימוש, חלק 5: אירוח

הועלה מחדש על ידי אפלטון

עוקב: 0

בשנת 2021, השקנו תמיכה בשירותי AWS פרואקטיביים כחלק מ תמיכה ב-AWS Enterprise לְתַכְנֵן. מאז השקתו, עזרנו למאות לקוחות לייעל את עומסי העבודה שלהם, להגדיר מעקות בטיחות ולשפר את הנראות של העלות והשימוש של עומסי למידת המכונה (ML) שלהם.

בסדרת פוסטים זו, אנו חולקים לקחים שנלמדו על אופטימיזציה של עלויות ב אמזון SageMaker. ב חלק 1, הראינו כיצד להתחיל להשתמש סייר עלויות AWS לזהות הזדמנויות לאופטימיזציה של עלויות ב- SageMaker. בפוסט זה, אנו מתמקדים בסביבות מסקנות של SageMaker: הסקת מסקנות בזמן אמת, טרנספורמציה של אצווה, הסקה אסינכרונית והסקה ללא שרת.

SageMaker מציע אפשרויות מסקנות מרובות לבחירתך בהתבסס על דרישות עומס העבודה שלך:

הסקה בזמן אמת עבור דרישות מקוונות, זמן אחזור נמוך או תפוקה גבוהה
הפיכת אצווה לעיבוד לא מקוון, מתוזמן וכאשר אינך זקוק לנקודת קצה מתמשכת
הסקה אסינכרונית עבור כאשר יש לך מטענים גדולים עם זמני עיבוד ארוכים ואתה רוצה לעמוד בתור בקשות
מסקנות ללא שרת עבור כאשר יש לך דפוסי תנועה לסירוגין או בלתי צפויים ואתה יכול לסבול התחלות קרות

בסעיפים הבאים, נדון בכל אפשרות הסקה ביתר פירוט.

מסקנות בזמן אמת של SageMaker

כאשר אתה יוצר נקודת קצה, SageMaker מצרף חנות בלוקים אלסטית של אמזון (Amazon EBS) נפח אחסון ל ענן מחשוב אלסטי של אמזון (Amazon EC2) מופע המארח את נקודת הקצה. זה נכון לכל סוגי המופעים שאינם מגיעים עם אחסון SSD. מכיוון שסוגי המופעים d* מגיעים עם אחסון NVMe SSD, SageMaker לא מצרף נפח אחסון EBS למופעי מחשוב ML אלה. מתייחס נפחי אחסון של מופע מארח עבור גודל נפחי האחסון ש-SageMaker מצרף עבור כל סוג מופע עבור נקודת קצה בודדת ועבור נקודת קצה מרובת דגמים.

העלות של נקודות קצה של SageMaker בזמן אמת מבוססת על השעה לכל מופע הנצרכת עבור כל מופע בזמן שנקודת הקצה פועלת, העלות של חודש ג'יגה-בייט של אחסון מסודר (נפח EBS), כמו גם נתוני GB שעובדו פנימה והחוצה של מופע נקודת הקצה, כפי שמתואר ב תמחור SageMaker של אמזון. ב-Cost Explorer, תוכל להציג עלויות נקודות קצה בזמן אמת על ידי החלת מסנן על סוג השימוש. השמות של סוגי שימוש אלה בנויים באופן הבא:

REGION-Host:instanceType (לדוגמה, USE1-Host:ml.c5.9xlarge)
REGION-Host:VolumeUsage.gp2 (לדוגמה, USE1-Host:VolumeUsage.gp2)
REGION-Hst:Data-Bytes-Out (לדוגמה, USE2-Hst:Data-Bytes-In)
REGION-Hst:Data-Bytes-Out (לדוגמה, USW2-Hst:Data-Bytes-Out)

כפי שמוצג בצילום המסך הבא, סינון לפי סוג השימוש Host: יציג רשימה של סוגי שימוש בזמן אמת באירוח בחשבון.

אתה יכול לבחור סוגי שימוש ספציפיים או לבחור בחר הכל ולבחור החל כדי להציג את פירוט העלויות של שימוש באירוח בזמן אמת של SageMaker. כדי לראות את התפלגות העלות והשימוש לפי שעות מופע, עליך לבטל את הבחירה בכל REGION-Host:VolumeUsage.gp2 סוגי שימוש לפני החלת מסנן סוגי השימוש. תוכל גם להחיל מסננים נוספים כגון מספר חשבון, סוג מופע EC2, תג הקצאת עלויות, אזור ו יותר. צילום המסך הבא מציג גרפי עלות ושימוש עבור סוגי השימוש באירוח שנבחרו.

בנוסף, אתה יכול לחקור את העלות הקשורה למופע אירוח אחד או יותר על ידי שימוש ב- סוג מופע לְסַנֵן. צילום המסך הבא מציג פירוט עלויות ושימוש עבור אירוח מופע ml.p2.xlarge.

באופן דומה, ניתן להציג את העלות עבור נתוני GB שעובדו ועובדו החוצה על ידי בחירת סוגי השימוש המשויכים כמסנן מיושם, כפי שמוצג בצילום המסך הבא.

לאחר שהשגת את התוצאות הרצויות שלך עם מסננים וקבוצות, תוכל להוריד את התוצאות שלך על ידי בחירה הורד כ-CSV או שמור את הדוח על ידי בחירה שמור לספריית הדוחות. להדרכה כללית על שימוש ב-Cost Explorer, עיין ב המראה החדש של AWS Cost Explorer ומקרי שימוש נפוצים.

לחלופין, אתה יכול להפעיל דוחות עלות ושימוש של AWS (AWS CUR) כדי לקבל תובנות לגבי נתוני העלות והשימוש בחשבונות שלך. AWS CUR מכיל פרטי צריכת AWS לפי שעה. זה מאוחסן ב שירות אחסון פשוט של אמזון (Amazon S3) בחשבון המשלם, המאגד נתונים עבור כל החשבונות המקושרים. אתה יכול להריץ שאילתות כדי לנתח מגמות בשימוש שלך ולנקוט פעולה מתאימה כדי לייעל את העלות. אמזונה אתנה הוא שירות שאילתות ללא שרת שבו אתה יכול להשתמש כדי לנתח את הנתונים מ-AWS CUR באמזון S3 באמצעות SQL רגיל. מידע נוסף ושאילתות לדוגמה ניתן למצוא ב- ספריית שאילתות AWS CUR.

אתה יכול גם להזין נתוני AWS CUR לתוך אמזון קוויקסייט, שבו אתה יכול לחתוך ולחתוך אותו בכל דרך שתרצה למטרות דיווח או הדמיה. להנחיות, ראה כיצד אוכל להטמיע ולדמיין את דוח העלות והשימוש של AWS (CUR) לתוך Amazon QuickSight.

אתה יכול לקבל מידע ברמת המשאב כגון ARN נקודת קצה, סוגי מופעי נקודת קצה, תעריף מופעים לשעה, שעות שימוש יומיות ועוד מ-AWS CUR. אתה יכול גם לכלול תגיות של הקצאת עלויות בשאילתה שלך לרמת פירוט נוספת. השאילתה הבאה לדוגמה מחזירה שימוש בזמן אמת במשאבי אירוח ב-3 החודשים האחרונים עבור חשבון המשלם הנתון:

SELECT bill_payer_account_id, line_item_usage_account_id, line_item_resource_id AS endpoint_arn, line_item_usage_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d') AS day_line_item_usage_start_date, SUM(CAST(line_item_usage_amount AS DOUBLE)) AS sum_line_item_usage_amount, line_item_unblended_rate, SUM(CAST(line_item_unblended_cost AS DECIMAL(16,8))) AS sum_line_item_unblended_cost, line_item_blended_rate, SUM(CAST(line_item_blended_cost AS DECIMAL(16,8))) AS sum_line_item_blended_cost, line_item_line_item_description, line_item_line_item_type FROM customer_all WHERE line_item_usage_start_date >= date_trunc('month',current_date - interval '3' month) AND line_item_product_code = 'AmazonSageMaker' AND line_item_line_item_type IN ('DiscountedUsage', 'Usage', 'SavingsPlanCoveredUsage') AND line_item_usage_type like '%Host%' AND line_item_operation = 'RunInstance' AND bill_payer_account_id = 'xxxxxxxxxxxx' GROUP BY bill_payer_account_id, line_item_usage_account_id, line_item_resource_id, line_item_usage_type, line_item_unblended_rate, line_item_blended_rate, line_item_line_item_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d'), line_item_line_item_description ORDER BY line_item_resource_id, day_line_item_usage_start_date

צילום המסך הבא מציג את התוצאות שהתקבלו מהפעלת השאילתה באמצעות Athena. למידע נוסף, עיין ב שאילתת דוחות עלויות ושימוש באמצעות Amazon Athena.

התוצאה של השאילתה מראה את נקודת הקצה הזו mme-xgboost-housing עם מופע ml.x4.xlarge מדווח על 24 שעות של זמן ריצה במשך מספר ימים רצופים. תעריף המופע הוא $0.24 לשעה והעלות היומית להפעלה במשך 24 שעות היא $5.76.

תוצאות AWS CUR יכולות לעזור לך לזהות דפוסים של נקודות קצה הפועלות במשך ימים רצופים בכל אחד מהחשבונות המקושרים, כמו גם נקודות קצה עם העלות החודשית הגבוהה ביותר. זה גם יכול לעזור לך להחליט אם ניתן למחוק את נקודות הקצה בחשבונות שאינם ייצור כדי לחסוך בעלויות.

בצע אופטימיזציה של עלויות עבור נקודות קצה בזמן אמת

מנקודת מבט של ניהול עלויות, חשוב לזהות מופעים שלא מנוצלים (או גדולים מדי) ולהתאים את גודל המופע והספירות, במידת הצורך, לדרישות עומס העבודה. מדדי מערכת נפוצים כמו ניצול CPU/GPU וניצול זיכרון נכתבים אמזון CloudWatch עבור כל מופעי האירוח. עבור נקודות קצה בזמן אמת, SageMaker הופך מספר מדדים נוספים לזמינים ב-CloudWatch. חלק מהמדדים הנפוצים המנוטרים כוללים ספירת שיחות ושגיאות 4xx/5xx. לרשימה מלאה של מדדים, עיין ב עקוב אחר אמזון SageMaker עם אמזון CloudWatch.

המדד CPUUtilization מספק את סכום הניצול של כל ליבת מעבד בודדת. ניצול המעבד של כל טווח ליבה הוא 0-100. לדוגמה, אם ישנם ארבעה מעבדים, ה- CPUUtilization הטווח הוא 0-400%. המדד MemoryUtilization הוא אחוז הזיכרון המשמש את המכילים במופע. טווח ערכים זה הוא 0-100%. צילום המסך הבא מציג דוגמה למדדי CloudWatch CPUUtilization ו MemoryUtilization עבור מופע נקודת קצה ml.m4.10xlarge שמגיע עם 40 vCPUs וזיכרון של 160 GiB.

גרפים של מדדים אלה מציגים ניצול מקסימלי של מעבד של כ-3,000%, שזה שווה ערך ל-30 vCPUs. המשמעות היא שנקודת קצה זו אינה מנצלת יותר מ-30 מעבדי vCPU מתוך הקיבולת הכוללת של 40 מעבדי vCPU. באופן דומה, ניצול הזיכרון נמוך מ-6%. באמצעות מידע זה, אתה יכול אולי להתנסות עם מופע קטן יותר שיכול להתאים לצורך המשאב הזה. יתר על כן, ה CPUUtilization מדד מציג דפוס קלאסי של ביקוש תקופתי גבוה ונמוך למעבד, מה שהופך את נקודת הקצה הזו למועמדת טובה לשינוי קנה מידה אוטומטי. אתה יכול להתחיל עם מופע קטן יותר ולהרחיב תחילה ככל שדרישת המחשוב שלך משתנה. למידע, ראה קנה מידה מידה של דגמי SageMaker של אמזון.

SageMaker נהדר לבדיקת דגמים חדשים מכיוון שאתה יכול בקלות לפרוס אותם בסביבת בדיקות A/B באמצעות גרסאות ייצור, ואתה משלם רק על מה שאתה משתמש בו. כל וריאנט ייצור פועל על מופע מחשוב משלו ואתה מחויב לפי שעה של מופע שנצרכה עבור כל מופע בזמן שהווריאציה פועלת.

SageMaker גם תומך גרסאות צל, בעלי אותם רכיבים כמו וריאנט ייצור ופועלים על מופע מחשוב משלהם. עם גרסאות צללים, SageMaker פורס את המודל באופן אוטומטי בסביבת בדיקה, מנתב עותק של בקשות ההסקה שהתקבלו על ידי מודל הייצור למודל הבדיקה בזמן אמת, ואוספת מדדי ביצועים כמו חביון ותפוקה. זה מאפשר לך לאמת כל רכיב מועמד חדש בערימת ההגשה של המודל שלך לפני שמקדם אותו לייצור.

כשתסיים עם הבדיקות שלך ואינך משתמש יותר בנקודת הקצה או בווריאציות, עליך למחוק אותה כדי לחסוך בעלויות. מכיוון שהדגם מאוחסן באמזון S3, ניתן ליצור אותו מחדש לפי הצורך. אתה יכול לזהות את נקודות הקצה הללו באופן אוטומטי ולנקוט פעולות מתקנות (כגון מחיקתן) על ידי שימוש אירועי CloudWatch של אמזון ו AWS למבדה פונקציות. לדוגמה, אתה יכול להשתמש ב- Invocations מדד כדי לקבל את המספר הכולל של בקשות שנשלחו לנקודת קצה של מודל ולאחר מכן לזהות אם נקודות הקצה לא היו פעילות במשך מספר השעות האחרונות (ללא פניות לאורך תקופה מסוימת, כגון 24 שעות).

אם יש לך כמה מופעי נקודת קצה שלא מנוצלים, שקול אפשרויות אירוח כגון נקודות קצה מרובות-מודלים (MME), נקודות קצה מרובות מכולות (MCEs), ו צינורות מסקנות סדרתיות כדי לאחד את השימוש בפחות מופעי נקודות קצה.

לפריסת מודל מסקנות בזמן אמת וא-סינכרוני, תוכל לייעל עלות וביצועים על ידי פריסת מודלים ב- SageMaker באמצעות AWS Graviton. AWS Graviton היא משפחה של מעבדים שתוכננו על ידי AWS המספקים את ביצועי המחיר הטובים ביותר וחסכוניים יותר באנרגיה מאשר עמיתיהם x86. להדרכה על פריסת מודל ML למופעים מבוססי AWS Graviton ופרטים על היתרון בביצועי המחיר, עיין ב- הפעל עומסי עבודה של מסקנות למידת מכונה במופעים מבוססי AWS Graviton עם Amazon SageMaker. SageMaker גם תומך Afer Inferentia מאיצים דרך ה ml.inf2 משפחת מופעים לפריסת מודלים של ML להסקה בזמן אמת וא-סינכרונית. אתה יכול להשתמש במופעים אלה ב- SageMaker כדי להשיג ביצועים גבוהים בעלות נמוכה עבור מודלים של בינה מלאכותית (AI), כולל מודלים של שפות גדולות (LLMs) ושנאי ראייה.

בנוסף, תוכלו להשתמש אמזון SageMaker Inference Recommend כדי להריץ בדיקות עומס ולהעריך את היתרונות של ביצועי המחיר של פריסת המודל שלך במופעים אלה. להדרכה נוספת על זיהוי אוטומטי של נקודות קצה סרק של SageMaker, כמו גם גודל נכון ושינוי קנה מידה אוטומטי עבור נקודות קצה SageMaker, עיין ב- הבטח משאבי מחשוב יעילים ב- Amazon SageMaker.

המרת אצווה של SageMaker

מסקנות אצווה, או מסקנות לא מקוונות, הוא תהליך של יצירת תחזיות על קבוצת תצפיות. תחזיות לא מקוונות מתאימות למערכי נתונים גדולים יותר ובמקרים שבהם אתה יכול להרשות לעצמך להמתין מספר דקות או שעות לתגובה.

העלות עבור טרנספורמציה אצווה של SageMaker מבוססת על השעה לכל מופע שנצרכה עבור כל מופע בזמן שעבודת המרת האצווה פועלת, כמתואר ב תמחור SageMaker של אמזון. ב-Cost Explorer, אתה יכול לחקור עלויות טרנספורמציה אצווה על ידי החלת מסנן על סוג השימוש. השם של סוג שימוש זה בנוי כ REGION-Tsform:instanceType (לדוגמה, USE1-Tsform:ml.c5.9xlarge).

כפי שמוצג בצילום המסך הבא, סינון לפי סוג שימוש Tsform: יציג רשימה של סוגי שימוש בהמרת אצווה של SageMaker בחשבון.

נתח את ההוצאה של Amazon SageMaker וקבע הזדמנויות לאופטימיזציה של עלויות בהתבסס על השימוש, חלק 5: אירוח | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

אתה יכול לבחור סוגי שימוש ספציפיים או לבחור בחר הכל ולבחור החל כדי להציג את פירוט העלויות של שימוש במופעי טרנספורמציה אצווה עבור הסוגים שנבחרו. כפי שהוזכר קודם לכן, אתה יכול גם להחיל מסננים נוספים. צילום המסך הבא מציג גרפי עלות ושימוש עבור סוגי השימוש בהמרת אצווה שנבחרו.

מטב עלויות עבור שינוי אצווה

טרנספורמציה אצווה של SageMaker מחייבת אותך רק עבור המופעים שבהם נעשה שימוש בזמן שהעבודות שלך פועלות. אם הנתונים שלך כבר נמצאים באמזון S3, אז אין עלות לקריאת נתוני קלט מאמזון S3 וכתיבת נתוני פלט לאמזון S3. כל אובייקטי הפלט מנסים להעלות לאמזון S3. אם כולם מוצלחים, משימת ההמרה האצווה מסומנת כהשלמה. אם אובייקט אחד או יותר נכשלים, עבודת המרת האצווה מסומנת ככשלה.

חיובים עבור עבודות שינוי אצווה חלים בתרחישים הבאים:

העבודה מוצלחת
כישלון עקב ClientError והמיכל הדגם הוא SageMaker או מסגרת מנוהלת SageMaker
כישלון עקב AlgorithmError or ClientError ומיכל הדגם הוא מיכל מותאם אישית משלך (BYOC)

להלן כמה מהשיטות המומלצות לאופטימיזציה של עבודת שינוי אצווה של SageMaker. המלצות אלו יכולות להפחית את זמן הריצה הכולל של עבודת המרת האצווה שלך, ובכך להוזיל עלויות:

לקבוע אסטרטגיית אצווה ל MultiRecord ו SplitType ל Line אם אתה צריך את עבודת המרת האצווה כדי ליצור מיני אצוות מקובץ הקלט. אם הוא לא יכול לפצל אוטומטית את מערך הנתונים למיני אצוות, אתה יכול לחלק אותו למיני אצוות על ידי הכנסת כל אצווה לקובץ קלט נפרד, הממוקם בדלי מקור הנתונים S3.
ודא שגודל האצווה מתאים לזיכרון. SageMaker בדרך כלל מטפל בזה באופן אוטומטי; עם זאת, כאשר מחלקים אצווה באופן ידני, יש לכוונן זאת על סמך הזיכרון.
טרנספורמציה אצווה מחלקת את אובייקטי S3 בקלט לפי מפתח וממפה את האובייקטים הללו למופעים. כאשר יש לך מספר קבצים, מופע אחד עשוי לעבד input1.csv, ומופע אחר עשוי לעבד input2.csv. אם יש לך קובץ קלט אחד אבל אתחול מופעי מחשוב מרובים, רק מופע אחד מעבד את קובץ הקלט ושאר המופעים לא פעילים. ודא שמספר הקבצים שווה או גדול ממספר המופעים.
אם יש לך מספר גדול של קבצים קטנים, זה עשוי להיות מועיל לשלב מספר קבצים למספר קטן של קבצים גדולים יותר כדי להפחית את זמן האינטראקציה של Amazon S3.
אם אתה משתמש ב- CreateTransformJob API, אתה יכול להפחית את הזמן שלוקח להשלים עבודות טרנספורמציה אצווה על ידי שימוש בערכים אופטימליים עבור פרמטרים כגון MaxPayloadInMB, MaxConcurrentTransforms, או אסטרטגיית אצווה:
- MaxConcurrentTransforms מציין את המספר המרבי של בקשות מקבילות שניתן לשלוח לכל מופע בעבודת טרנספורמציה. הערך האידיאלי עבור MaxConcurrentTransforms שווה למספר ליבות vCPU במופע.
- MaxPayloadInMB הוא הגודל המרבי המותר של המטען, ב-MB. הערך ב MaxPayloadInMB חייב להיות גדול או שווה לגודל של רשומה בודדת. כדי להעריך את גודל הרשומה ב-MB, חלק את גודל מערך הנתונים במספר הרשומות. כדי להבטיח שהרשומות יתאימו לגודל המטען המרבי, אנו ממליצים להשתמש בערך קצת יותר גדול. ערך ברירת המחדל הוא 6 MB.
- MaxPayloadInMB לא צריך להיות גדול מ-100 MB. אם תציין את האופציונלי MaxConcurrentTransforms פרמטר, ואז הערך של (MaxConcurrentTransforms * MaxPayloadInMB) אסור גם לעלות על 100 MB.
- במקרים שבהם המטען עשוי להיות גדול באופן שרירותי ומשודר באמצעות קידוד HTTP chunked, הגדר את הערך MaxPayloadInMB ל-0. תכונה זו פועלת רק באלגוריתמים נתמכים. נכון לעכשיו, האלגוריתמים המובנים של SageMaker אינם תומכים בקידוד HTTP chunked.
משימות מסקנות אצווה הן בדרך כלל מועמדות טובות לשינוי קנה מידה אופקי. כל עובד בתוך אשכול יכול לפעול על תת-קבוצה שונה של נתונים ללא צורך בהחלפת מידע עם עובדים אחרים. AWS מציעה אפשרויות אחסון ומחשוב מרובות המאפשרות קנה מידה אופקי. אם מופע בודד אינו מספיק כדי לעמוד בדרישות הביצועים שלך, שקול להשתמש במספר מופעים במקביל כדי לפזר את עומס העבודה. לשיקולים מרכזיים בעת תכנון עבודות טרנספורמציה אצווה, עיין ב מסקנות אצווה בקנה מידה עם אמזון SageMaker.
עקוב באופן רציף אחר מדדי הביצועים של משימות השינוי באצווה של SageMaker שלך באמצעות CloudWatch. חפש צווארי בקבוק, כגון ניצול גבוה של CPU או GPU, שימוש בזיכרון או תפוקת רשת, כדי לקבוע אם עליך להתאים גדלי מופעים או תצורות.
SageMaker משתמש ב-Amazon S3 API להעלאה מרובה חלקים להעלות תוצאות מעבודת טרנספורמציה אצווה לאמזון S3. אם מתרחשת שגיאה, התוצאות שהועלו יוסרו מאמזון S3. במקרים מסוימים, כמו כאשר מתרחשת הפסקת רשת, העלאה מרובה חלקית לא שלמה עשויה להישאר ב-Amazon S3. כדי למנוע דמי אחסון, אנו ממליצים להוסיף את מדיניות דלי S3 לכללי מחזור החיים של דלי S3. מדיניות זו מוחקת העלאות לא שלמות מרובי חלקים שעשויות להיות מאוחסנות בדלי S3. למידע נוסף, ראה ניהול מחזור חיי האחסון שלך.

מסקנות אסינכרוניות של SageMaker

הסקה אסינכרונית היא בחירה מצוינת עבור עומסי עבודה רגישים לעלות עם עומסים גדולים ותעבורה מתפרצת. בקשות עשויות להימשך עד שעה אחת לעיבוד ולהן גודל עומס של עד 1 GB, כך שהיא מתאימה יותר לעומסי עבודה שיש להם דרישות חביון רגועות.

הפעלת נקודות קצה אסינכרוניות שונה מנקודות קצה בזמן אמת. במקום להעביר מטען של בקשה באופן סינכרוני עם הבקשה, אתה מעלה את המטען לאמזון S3 ומעביר URI S3 כחלק מהבקשה. באופן פנימי, SageMaker מנהלת תור עם בקשות אלו ומעבדת אותן. במהלך יצירת נקודת קצה, ניתן לציין אופציונלי שירות התראה פשוט של אמזון (Amazon SNS) נושא לקבלת הודעות הצלחה או שגיאה. כאשר תקבל את ההודעה שבקשת ההסקה שלך עובדה בהצלחה, תוכל לגשת לתוצאה במיקום הפלט של Amazon S3.

העלות עבור הסקת מסקנות אסינכרונית מבוססת על כל מופע-שעה הנצרכת עבור כל מופע בזמן שנקודת הקצה פועלת, עלות של חודש GB של אחסון מסודר, וכן נתוני GB מעובדים במופע נקודת הקצה ומחוצה לו, כמתואר ב- תמחור SageMaker של אמזון. ב-Cost Explorer, אתה יכול לסנן עלויות מסקנות אסינכרוניות על ידי החלת מסנן על סוג השימוש. השם של סוג שימוש זה בנוי כ REGION-AsyncInf:instanceType (לדוגמה, USE1-AsyncInf:ml.c5.9xlarge). שים לב שסוגי השימוש המעובדים בנפח GB ו-GB נתונים זהים לנקודות קצה בזמן אמת, כפי שהוזכר קודם לכן בפוסט זה.

כפי שמוצג בצילום המסך הבא, סינון לפי סוג השימוש AsyncInf: ב-Cost Explorer מציג פירוט עלויות לפי סוגי שימוש אסינכרוניים בנקודות קצה.

כדי לראות את התפלגות העלות והשימוש לפי שעות מופע, עליך לבטל את הבחירה בכל REGION-Host:VolumeUsage.gp2 סוגי שימוש לפני החלת מסנן סוגי השימוש. אתה יכול גם להחיל מסננים נוספים. מידע ברמת המשאב כגון ARN של נקודת קצה, סוגי מופעי נקודת קצה, תעריף מופעים לשעה ושעות שימוש יומיות ניתן לקבל מ-AWS CUR. להלן דוגמה לשאילתת AWS CUR להשגת שימוש במשאבי אירוח אסינכרוני ב-3 החודשים האחרונים:

SELECT bill_payer_account_id, line_item_usage_account_id, line_item_resource_id AS endpoint_arn, line_item_usage_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d') AS day_line_item_usage_start_date, SUM(CAST(line_item_usage_amount AS DOUBLE)) AS sum_line_item_usage_amount, line_item_unblended_rate, SUM(CAST(line_item_unblended_cost AS DECIMAL(16,8))) AS sum_line_item_unblended_cost, line_item_blended_rate, SUM(CAST(line_item_blended_cost AS DECIMAL(16,8))) AS sum_line_item_blended_cost, line_item_line_item_description, line_item_line_item_type FROM customer_all WHERE line_item_usage_start_date >= date_trunc('month',current_date - interval '3' month) AND line_item_product_code = 'AmazonSageMaker' AND line_item_line_item_type IN ('DiscountedUsage', 'Usage', 'SavingsPlanCoveredUsage') AND line_item_usage_type like '%AsyncInf%' AND line_item_operation = 'RunInstance' GROUP BY bill_payer_account_id, line_item_usage_account_id, line_item_resource_id, line_item_usage_type, line_item_unblended_rate, line_item_blended_rate, line_item_line_item_type, DATE_FORMAT((line_item_usage_start_date),'%Y-%m-%d'), line_item_line_item_description ORDER BY line_item_resource_id, day_line_item_usage_start_date

צילום המסך הבא מציג את התוצאות שהתקבלו מהפעלת שאילתת AWS CUR באמצעות Athena.

התוצאה של השאילתה מראה את נקודת הקצה הזו sagemaker-abc-model-5 עם מופע ml.m5.xlarge מדווח על 24 שעות של זמן ריצה במשך מספר ימים רצופים. תעריף המופע הוא $0.23 לשעה והעלות היומית להפעלה במשך 24 שעות היא $5.52.

כפי שהוזכר קודם לכן, תוצאות AWS CUR יכולות לעזור לך לזהות דפוסים של נקודות קצה הפועלות במשך ימים רצופים, כמו גם נקודות קצה עם העלות החודשית הגבוהה ביותר. זה גם יכול לעזור לך להחליט אם ניתן למחוק את נקודות הקצה בחשבונות שאינם ייצור כדי לחסוך בעלויות.

בצע אופטימיזציה של עלויות עבור מסקנות אסינכרוניות

בדיוק כמו נקודות הקצה בזמן אמת, העלות עבור נקודות קצה אסינכרוניות מבוססת על השימוש בסוג המופע. לכן, חשוב לזהות מופעים שלא מנוצלים ולשנות את גודלם בהתאם לדרישות עומס העבודה. על מנת לנטר נקודות קצה אסינכרוניות, SageMaker מייצרת מספר מדדים כמו ApproximateBacklogSize, HasBacklogWithoutCapacity, ועוד זמין ב-CloudWatch. מדדים אלה יכולים להציג בקשות בתור עבור מופע וניתן להשתמש בהם לשינוי קנה מידה אוטומטי של נקודת קצה. הסקה אסינכרונית של SageMaker כוללת גם מדדים ברמת המארח. למידע על מדדים ברמת המארח, ראה SageMaker משרות ומדדי נקודות קצה. מדדים אלה יכולים להראות ניצול משאבים שיכול לעזור לך בגודל נכון של המופע.

SageMaker תומך קנה מידה אוטומטי עבור נקודות קצה אסינכרוניות. שלא כמו נקודות קצה מתארחות בזמן אמת, נקודות קצה אסינכרוניות של הסקה תומכות בהקטנת מופעים לאפס על ידי הגדרת הקיבולת המינימלית לאפס. עבור נקודות קצה אסינכרוניות, SageMaker ממליצה בחום ליצור תצורת מדיניות עבור קנה מידה של מעקב אחר יעד עבור מודל פרוס (וריאציה). אתה צריך להגדיר את מדיניות קנה המידה שהתרחבה ב- ApproximateBacklogPerInstance מדד מותאם אישית והגדר את MinCapacity ערך לאפס.

הסקה אסינכרונית מאפשרת לך לחסוך בעלויות על ידי שינוי קנה מידה אוטומטי של ספירת המופעים לאפס כאשר אין בקשות לעיבוד, כך שאתה משלם רק כאשר נקודת הקצה שלך מעבדת בקשות. בקשות המתקבלות כאשר יש אפס מופעים ממוקמות בתור לעיבוד לאחר שנקודת הקצה מגדילה. לכן, עבור מקרי שימוש שיכולים לסבול עונש של התחלה קרה של כמה דקות, אתה יכול אופציונלי להקטין את ספירת המופעים של נקודות הקצה לאפס כאשר אין בקשות מתקיימות ולהגדיל בחזרה עם הגעת בקשות חדשות. זמן התחלה קרה תלוי בזמן הדרוש להפעלת נקודת קצה חדשה מאפס. כמו כן, אם הדגם עצמו גדול, הזמן יכול להיות ארוך יותר. אם העבודה שלך צפויה להימשך זמן רב יותר מזמן העיבוד של שעה אחת, ייתכן שתרצה לשקול שינוי אצווה של SageMaker.

בנוסף, תוכל גם לשקול את זמן התור של הבקשה שלך בשילוב עם זמן העיבוד כדי לבחור את סוג המופע. לדוגמה, אם מקרה השימוש שלך יכול לסבול שעות של זמן המתנה, אתה יכול לבחור מופע קטן יותר כדי לחסוך בעלויות.

להדרכה נוספת לגבי גודל נכון של מופע ושינוי קנה מידה אוטומטי עבור נקודות קצה של SageMaker, עיין ב הבטח משאבי מחשוב יעילים ב- Amazon SageMaker.

מסקנות ללא שרת

הסקת שרת ללא שרת מאפשרת לך לפרוס מודלים של ML להסקה מבלי שתצטרך להגדיר או לנהל את התשתית הבסיסית. בהתבסס על נפח הבקשות להסקת מסקנות שהדגם שלך מקבל, מסקנות ללא שרת של SageMaker מסדרת באופן אוטומטי, מדרג ומכבה את קיבולת המחשוב. כתוצאה מכך, אתה משלם רק עבור זמן החישוב כדי להפעיל את קוד ההסקה שלך וכמות הנתונים המעובדים, לא עבור זמן סרק. עבור נקודות קצה ללא שרת, אין צורך בהקצאת מופעים. אתה צריך לספק את גודל זיכרון ובמקביליות מרבית. מכיוון שנקודות קצה ללא שרת מספקות משאבי מחשוב על פי דרישה, נקודת הקצה שלך עשויה לחוות כמה שניות נוספות של השהייה (התחלה קרה) עבור הפנייה הראשונה לאחר תקופת סרק. אתה משלם עבור קיבולת המחשוב המשמשת לעיבוד בקשות להסקת מסקנות, שחויבו לפי אלפית השנייה, חודש ג'יגה-בייט של אחסון מסודר, וכמות הנתונים שעובדו. טעינת המחשוב תלויה בתצורת הזיכרון שתבחר.

ב-Cost Explorer, אתה יכול לסנן עלויות של נקודות קצה ללא שרת על ידי החלת מסנן על סוג השימוש. השם של סוג שימוש זה בנוי כ REGION-ServerlessInf:Mem-MemorySize (לדוגמה, USE2-ServerlessInf:Mem-4GB). שים לב שסוגי השימוש המעובדים בנפח GB ו-GB נתונים זהים לנקודות קצה בזמן אמת.

תוכל לראות את פירוט העלויות על ידי החלת מסננים נוספים כגון מספר חשבון, סוג מופע, אזור ועוד. צילום המסך הבא מציג את פירוט העלויות על ידי החלת מסננים עבור סוג השימוש בהסקת מסקנות ללא שרת.

בצע אופטימיזציה של עלות עבור מסקנות ללא שרת

בעת קביעת התצורה של נקודת הקצה ללא שרת, אתה יכול לציין את גודל הזיכרון ואת המספר המרבי של הפעלות בו-זמנית. מסקנות ללא שרת של SageMaker מקצה אוטומטית משאבי מחשוב פרופורציונליים לזיכרון שבחרת. אם תבחר בגודל זיכרון גדול יותר, למיכל שלך יש גישה ליותר מעבדי vCPU. עם הסקת הסקה ללא שרת, אתה משלם רק עבור קיבולת המחשוב המשמשת לעיבוד בקשות הסקת מסקנות, שחויב באלפית השנייה, וכמות הנתונים המעובדים. טעינת המחשוב תלויה בתצורת הזיכרון שתבחר. גדלי הזיכרון שאתה יכול לבחור הם 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB ו-6144 MB. התמחור גדל עם עליות גודל הזיכרון, כפי שמוסבר ב תמחור SageMaker של אמזון, לכן חשוב לבחור את גודל הזיכרון הנכון. ככלל, גודל הזיכרון צריך להיות גדול לפחות כמו גודל הדגם שלך. עם זאת, מומלץ להתייחס לניצול הזיכרון בעת החלטה על גודל זיכרון נקודת הקצה, בנוסף לגודל הדגם עצמו.

שיטות עבודה מומלצות כלליות לאופטימיזציה של עלויות מסקנות של SageMaker

ייעול עלויות אירוח אינו אירוע חד פעמי. זהו תהליך מתמשך של ניטור תשתית פרוסה, דפוסי שימוש וביצועים, וגם מעקב אחר פתרונות חדשניים חדשים ש-AWS משחררת שיכולים להשפיע על העלות. שקול את השיטות המומלצות הבאות:

בחר סוג מופע מתאים - SageMaker תומך במספר סוגי מופעים, כל אחד עם שילובים משתנים של מעבד, GPU, זיכרון ויכולות אחסון. בהתבסס על דרישות המשאבים של המודל שלך, בחר סוג מופע המספק את המשאבים הדרושים ללא הקצאת יתר. למידע על סוגי מופעים זמינים של SageMaker, המפרטים שלהם והדרכה לגבי בחירת המופע הנכון, עיין ב- הבטח משאבי מחשוב יעילים ב- Amazon SageMaker.
בדוק באמצעות מצב מקומי – על מנת לזהות כשלים וניפוי באגים מהר יותר, מומלץ לבדוק את הקוד והמיכל (במקרה של BYOC) ב מצב מקומי לפני הפעלת עומס העבודה של מסקנות במופע SageMaker המרוחק. מצב מקומי הוא דרך מצוינת לבדוק את הסקריפטים שלך לפני הפעלתם בסביבת אירוח מנוהלת של SageMaker.
בצע אופטימיזציה של מודלים כדי להיות ביצועיים יותר - מודלים לא אופטימליים יכולים להוביל לזמני ריצה ארוכים יותר ולצרוך יותר משאבים. אתה יכול לבחור להשתמש ביותר או מופעים גדולים יותר כדי לשפר את הביצועים; עם זאת, זה מוביל לעלויות גבוהות יותר. על ידי אופטימיזציה של המודלים שלך כך שיהיו ביצועיים יותר, ייתכן שתוכל להוזיל עלויות על ידי שימוש בפחות או מופעים קטנים יותר תוך שמירה על מאפייני ביצועים זהים או טובים יותר. אתה יכול להשתמש אמזון SageMaker Neo עם מסקנות של SageMaker לאופטימיזציה אוטומטית של דגמים. לפרטים נוספים ודוגמאות, ראה מטב את ביצועי המודל באמצעות Neo.
השתמש בתגים ובכלים לניהול עלויות – כדי לשמור על הנראות לעומסי העבודה שלך, מומלץ להשתמש בתגים וכן בכלים לניהול עלויות של AWS כגון תקציבי AWS, ה מסוף חיוב AWSותכונת החיזוי של Cost Explorer. אתה יכול גם לבחון את תוכניות החיסכון של SageMaker כמודל תמחור גמיש. למידע נוסף על אפשרויות אלה, עיין ב חלק 1 בסדרה זו.

סיכום

בפוסט זה, סיפקנו הנחיות לגבי ניתוח עלויות ושיטות עבודה מומלצות בעת שימוש באפשרויות הסקת מסקנות של SageMaker. מכיוון שלמידת מכונה מבססת את עצמה ככלי רב עוצמה בכל תעשיות, ההכשרה וההפעלה של מודלים של ML צריכים להישאר חסכוניים. SageMaker מציע ערכת תכונות רחבה ועמוקת להקלה על כל שלב בצנרת ה-ML ומספקת הזדמנויות לאופטימיזציה של עלויות מבלי להשפיע על הביצועים או הזריזות. פנה לצוות ה-AWS שלך לקבלת הדרכה עלויות לגבי עומסי העבודה שלך ב- SageMaker.

על הכותבים

דיפאלי רג'אלה הוא מומחה בכיר בינה מלאכותית/ML ב-AWS. היא עובדת עם לקוחות ארגוניים המספקים הדרכה טכנית עם שיטות עבודה מומלצות לפריסה ותחזוקה של פתרונות AI/ML באקוסיסטם של AWS. היא עבדה עם מגוון רחב של ארגונים על מקרי שימוש שונים של למידה עמוקה הכוללים NLP וראייה ממוחשבת. היא נלהבת להעצים ארגונים למנף AI גנרטיבי כדי לשפר את חווית השימוש שלהם. בזמנה הפנוי היא נהנית מסרטים, מוזיקה וספרות.

אורי רוזנברג הוא המנהל הטכני מומחה AI ו-ML לאירופה, המזרח התיכון ואפריקה. בהתבסס מישראל, אורי פועל להעצמת לקוחות ארגוניים בכל הקשור ל-ML לתכנן, לבנות ולהפעיל בקנה מידה. בזמנו הפנוי הוא אוהב רכיבה על אופניים, טיולים וטיפוס רוקנרול.