צמצם את השהיית ההסקה בזמן אמת על ידי שימוש באסטרטגיות ניתוב של אמזון SageMaker

הועלה מחדש על ידי אפלטון

עוקב: 0

אמזון SageMaker עושה את זה פשוט לפרוס מודלים של למידת מכונה (ML) להסקת מסקנות בזמן אמת ומציע מבחר רחב של מופעי ML המתפרשים על מעבדים ומאיצים כגון Afer Inferentia. כשירות מנוהל במלואו, אתה יכול להגדיל את פריסת המודלים שלך, למזער עלויות מסקנות ולנהל את המודלים שלך בצורה יעילה יותר בייצור עם נטל תפעולי מופחת. נקודת קצה של מסקנות בזמן אמת של SageMaker מורכבת מנקודת קצה של HTTPs וממופעי ML שנפרסים על פני מספר אזורי זמינות לזמינות גבוהה. SageMaker קנה מידה אוטומטי של יישום יכול להתאים באופן דינמי את מספר מופעי ML המסופקים עבור מודל בתגובה לשינויים בעומס העבודה. נקודת הקצה מפיצה באופן אחיד בקשות נכנסות למופעי ML באמצעות אלגוריתם עגול.

כאשר מודלים של ML הפרוסים במופעים מקבלים קריאות API ממספר רב של לקוחות, הפצה אקראית של בקשות יכולה לעבוד טוב מאוד כאשר אין הרבה שונות בבקשות ובתגובות שלך. אבל במערכות עם עומסי עבודה בינה מלאכותית, בקשות ותגובות יכולות להיות משתנות ביותר. במקרים אלה, לעתים קרובות רצוי לבצע איזון עומסים על ידי התחשבות בקיבולת ובניצול של המופע ולא באיזון עומס אקראי.

בפוסט זה, אנו דנים באסטרטגיית ניתוב הבקשות הפחות מצטיינות (LOR) של SageMaker וכיצד היא יכולה למזער את השהייה עבור סוגים מסוימים של עומסי עבודה מסקנות בזמן אמת על ידי התחשבות בקיבולת ובניצול של מופעי ML. אנו מדברים על היתרונות שלו על פני מנגנון הניתוב המוגדר כברירת מחדל וכיצד אתה יכול להפעיל LOR עבור פריסות המודל שלך. לבסוף, אנו מציגים ניתוח השוואתי של שיפורים בחביון עם LOR לעומת אסטרטגיית הניתוב המוגדרת כברירת מחדל של ניתוב אקראי.

אסטרטגיית SageMaker LOR

כברירת מחדל, לנקודות הקצה של SageMaker יש אסטרטגיית ניתוב אקראית. SageMaker תומך כעת באסטרטגיית LOR, המאפשרת ל-SageMaker לנתב בקשות בצורה מיטבית למופע המתאים ביותר לשרת אותה בקשה. SageMaker מאפשר זאת על ידי ניטור העומס של המופעים מאחורי נקודת הקצה שלך, והמודלים או רכיבי ההסקה שנפרסים בכל מופע.

הדיאגרמה האינטראקטיבית הבאה מציגה את מדיניות ניתוב ברירת המחדל שבה בקשות המגיעות לנקודות הקצה של המודל מועברות באופן אקראי למופעי ML.

צמצם למינימום את זמן השהיה של הסקת מסקנות על ידי שימוש באסטרטגיות ניתוב של Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

הדיאגרמה האינטראקטיבית הבאה מציגה את אסטרטגיית הניתוב שבה SageMaker תנתב את הבקשה למופע בעל מספר הבקשות הנמוך ביותר.

באופן כללי, ניתוב LOR עובד היטב עבור מודלים בסיסיים או מודלים של בינה מלאכותית כאשר המודל שלך מגיב בתוך מאות אלפיות שניות לדקות. אם לתגובת הדגם שלך יש זמן אחזור נמוך יותר (עד מאות אלפיות שניות), אתה עשוי להפיק תועלת רבה יותר מניתוב אקראי. ללא קשר, אנו ממליצים לבדוק ולזהות את אלגוריתם הניתוב הטוב ביותר עבור עומסי העבודה שלך.

כיצד להגדיר אסטרטגיות ניתוב של SageMaker

SageMaker מאפשר לך כעת להגדיר את RoutingStrategy פרמטר בזמן יצירת ה EndpointConfiguration עבור נקודות קצה. השונה RoutingStrategy הערכים הנתמכים על ידי SageMaker הם:

LEAST_OUTSTANDING_REQUESTS
RANDOM

להלן דוגמה לפריסה של מודל על נקודת קצה של הסקת מסקנות שבה LOR מופעלת:

צור את תצורת נקודת הקצה על ידי הגדרה RoutingStrategy as LEAST_OUTSTANDING_REQUESTS:

endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "instance_type", "InitialInstanceCount": initial_instance_count, ….. "RoutingConfig": { 'RoutingStrategy': 'LEAST_OUTSTANDING_REQUESTS'} }, ],
)

צור את נקודת הקצה באמצעות תצורת נקודת הקצה (ללא שינוי):

create_endpoint_response = sm_client.create_endpoint( EndpointName="endpoint_name", EndpointConfigName="endpoint_config_name"
)

תוצאות ביצועים

הרצנו מדדי ביצועים כדי למדוד את זמן ההסקה מקצה לקצה ואת התפוקה של codegen2-7B דגם מתארח במופעים של ml.g5.24xl עם ניתוב ברירת מחדל ונקודות קצה של ניתוב חכם. מודל CodeGen2 שייך למשפחת המודלים של שפה אוטורגרסיבית ומייצר קוד הפעלה כאשר מקבלים הנחיה באנגלית.

בניתוח שלנו, הגדלנו את מספר המופעים של ml.g5.24xl מאחורי כל נקודת קצה עבור כל ריצת בדיקה ככל שמספר המשתמשים במקביל גדל, כפי שמוצג בטבלה הבאה.

מִבְחָן	מספר משתמשים במקביל	מספר מופעים
1	4	1
2	20	5
3	40	10
4	60	15
5	80	20

מדדנו את חביון P99 מקצה לקצה עבור שתי נקודות הקצה וצפינו בשיפור של 4-33% בהשהיה כאשר מספר המקרים גדל מ-5 ל-20, כפי שמוצג בגרף הבא.

באופן דומה, ראינו שיפור של 15-16% בתפוקה לדקה למופע כאשר מספר המקרים גדל מ-5 ל-20.

זה ממחיש כי ניתוב חכם מסוגל לשפר את חלוקת התעבורה בין נקודות הקצה, מה שמוביל לשיפורים בהשהיה מקצה לקצה ובתפוקה הכוללת.

סיכום

בפוסט זה, הסברנו את אסטרטגיות הניתוב של SageMaker ואת האפשרות החדשה לאפשר ניתוב LOR. הסברנו כיצד להפעיל את LOR וכיצד זה יכול להועיל לפריסות המודל שלך. מבחני הביצועים שלנו הראו שיפורים בהשהייה ובתפוקה במהלך הסקת מסקנות בזמן אמת. למידע נוסף על תכונות הניתוב של SageMaker, עיין ב תיעוד. אנו ממליצים לך להעריך את עומסי העבודה המסקנות שלך ולקבוע אם אתה מוגדר בצורה מיטבית עם אסטרטגיית הניתוב.

על הכותבים

צמצם למינימום את זמן השהיה של הסקת מסקנות על ידי שימוש באסטרטגיות ניתוב של Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. פארק ג'יימס הוא אדריכל פתרונות בשירותי האינטרנט של אמזון. הוא עובד עם Amazon.com כדי לתכנן, לבנות ולפרוס פתרונות טכנולוגיים ב-AWS, ויש לו עניין מיוחד בבינה מלאכותית ולמידת מכונה. בזמן הפנוי הוא נהנה לחפש תרבויות חדשות, חוויות חדשות, ולהישאר מעודכן בטרנדים הטכנולוגיים העדכניים ביותר. אתה יכול למצוא אותו על לינקדין.

Venugopal Pai הוא אדריכל פתרונות ב-AWS. הוא מתגורר בבנגלורו, הודו, ועוזר ללקוחות מקוריים דיגיטליים להגדיל ולמטב את היישומים שלהם ב-AWS.

דייוויד ניג'נדה הוא מהנדס פיתוח תוכנה בכיר בצוות אמזון SageMaker, שעובד כעת על שיפור תהליכי עבודה של למידת מכונה בייצור, כמו גם על השקת תכונות מסקנות חדשות. בזמנו הפנוי, הוא מנסה לשמור על קשר עם ילדיו.

דיפטי ראגה הוא מהנדס פיתוח תוכנה בצוות אמזון SageMaker. עבודתה הנוכחית מתמקדת בבניית תכונות לאירוח מודלים של למידת מכונה ביעילות. בזמנה הפנוי היא נהנית לטייל, לטייל ולגדל צמחים.

אלן טאן הוא מנהל מוצר בכיר ב- SageMaker, המוביל מאמצים בהסקת דגמים גדולים. הוא נלהב ליישם למידת מכונה לתחום האנליטיקה. מחוץ לעבודה, הוא נהנה בחוץ.

דוואל פאטל הוא אדריכל ראשי למידת מכונה ב-AWS. הוא עבד עם ארגונים החל מארגונים גדולים ועד סטארט-אפים בינוניים על בעיות הקשורות למחשוב מבוזר ובינה מלאכותית. הוא מתמקד בלמידה עמוקה כולל תחומי NLP ו-Computer Vision. הוא עוזר ללקוחות להשיג מסקנות מודל עם ביצועים גבוהים על SageMaker.

הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
מקור: https://aws.amazon.com/blogs/machine-learning/minimize-real-time-inference-latency-by-using-amazon-sagemaker-routing-strategies/

בול זמן: 30 בנובמבר 2023

בול זמן: יאן 6, 2023

הועלה מחדש על ידי אפלטון

זיהוי קלט יריבות באמצעות Amazon SageMaker Model Monitor ו-Amazon SageMaker Debugger

הגדר הרשאות מותאמות אישית תוך דקות עם Amazon SageMaker Role Manager דרך AWS CDK | שירותי האינטרנט של אמזון

סדר את התמלילים שלך לפסקאות עם Amazon Transcribe | שירותי האינטרנט של אמזון

שפר את הממשל של מודלים של למידת מכונה שלך עם Amazon SageMaker

AWS Inferentia ו-AWS Trainium מספקים את העלות הנמוכה ביותר לפריסת דגמי Llama 3 באמזון SageMaker JumpStart | שירותי האינטרנט של אמזון

כיצד תומסון רויטרס מספקת תוכניות מנוי תוכן מותאמות אישית בקנה מידה באמצעות Amazon Personalize

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן