היכרות עם ערכת הכלים של Amazon SageMaker Serverless Inference Benchmarking

הועלה מחדש על ידי אפלטון

עוקב: 0

Amazon SageMaker Serverless Inference היא אפשרות להסקת מסקנות שתכליתה מקלה עליך לפרוס ולהתאים מודלים של למידת מכונה (ML). הוא מספק מודל של תשלום לפי שימוש, שהוא אידיאלי עבור שירותים שבהם הפעלות לנקודות קצה הן נדירות ובלתי ניתנות לחיזוי. שלא כמו נקודת קצה אירוח בזמן אמת, שמגובה במופע ארוך טווח, משאבי מחשוב עבור נקודות קצה ללא שרת מסופקים לפי דרישה, ובכך מבטל את הצורך לבחור סוגי מופעים או לנהל מדיניות קנה מידה.

הארכיטקטורה ברמה הגבוהה הבאה ממחישה כיצד פועלת נקודת קצה ללא שרת. לקוח מפעיל נקודת קצה, אשר מגובה על ידי תשתית מנוהלת AWS.

עם זאת, נקודות קצה ללא שרת נוטות להתחלות קרות בסדר גודל של שניות, ולכן הן מתאימות יותר לעומסי עבודה לסירוגין או בלתי צפויים.

כדי לעזור לקבוע אם נקודת קצה ללא שרת היא אפשרות הפריסה הנכונה מנקודת מבט של עלות וביצועים, פיתחנו את SageMaker Serverless Inference Benchmarking Toolkit, שבודק תצורות שונות של נקודות קצה ומשווה את האופטימלי ביותר מול מופע אירוח דומה בזמן אמת.

בפוסט זה, אנו מציגים את ערכת הכלים ומספקים סקירה כללית של התצורה והפלטים שלו.

סקירת פתרונות

אתה יכול להוריד את ערכת הכלים ולהתקין אותה מ- GitHub ריפו. תחילת העבודה היא קלה: פשוט התקן את הספרייה, צור א דגם SageMaker, וספק את שם הדגם שלך יחד עם קובץ בפורמט של קווי JSON המכיל קבוצה לדוגמה של פרמטרי הזמנה, כולל גוף המטען וסוג התוכן. פונקציית נוחות מסופקת כדי להמיר רשימה של ארגומנטים לדוגמה להפעלת קובץ JSON שורות או קובץ חמוץ עבור מטענים בינאריים כגון תמונות, וידאו או אודיו.

התקן את ערכת הכלים

ראשית התקן את ספריית ההשוואה בסביבת Python שלך באמצעות pip:

pip install sm-serverless-benchmarking

אתה יכול להריץ את הקוד הבא מ-an סטודיו SageMaker של אמזון למשל, מופע מחברת SageMaker, או כל מופע עם גישה פרוגרמטית ל-AWS והמתאים AWS זהות וניהול גישה הרשאות (IAM). הרשאות IAM הנדרשות מתועדות ב- GitHub ריפו. להנחיות נוספות ומדיניות לדוגמה עבור IAM, עיין ב כיצד עובד Amazon SageMaker עם IAM. קוד זה מריץ מדד עם ערכת ברירת מחדל של פרמטרים במודל המצפה לקלט CSV עם שתי רשומות לדוגמה. זה נוהג טוב לספק סט מייצג של דוגמאות כדי לנתח את הביצועים של נקודת הקצה עם עומסי קלט שונים.

from sm_serverless_benchmarking import benchmark
from sm_serverless_benchmarking.utils import convert_invoke_args_to_jsonl
model_name = ""
example_invoke_args = [
        {'Body': '1,2,3,4,5', "ContentType": "text/csv"},
        {'Body': '6,7,8,9,10', "ContentType": "text/csv"}
        ]
example_args_file = convert_invoke_args_to_jsonl(example_invoke_args,
output_path=".")
r = benchmark.run_serverless_benchmarks(model_name, example_args_file)

בנוסף, אתה יכול להפעיל את ה-benchmark כעבודת SageMaker Processing, שעשויה להיות אפשרות אמינה יותר עבור בנצ'מרקים ארוכי טווח עם מספר רב של קריאות. ראה את הקוד הבא:

from sm_serverless_benchmarking.sagemaker_runner import run_as_sagemaker_job
run_as_sagemaker_job(
                    role="",
                    model_name="",
                    invoke_args_examples_file="",
                    )

שים לב שזה יגרור עלות נוספת של הפעלת מופע של ml.m5.large SageMaker Processing למשך כל תקופת ההשוואה.

שתי השיטות מקבלות מספר פרמטרים להגדרה, כגון רשימה של תצורות זיכרון שיש לבצע בהשוואה ומספר הפעמים שכל תצורה תופעל. ברוב המקרים, אפשרויות ברירת המחדל צריכות להספיק כנקודת התחלה, אך עיין ב- GitHub ריפו לרשימה מלאה ותיאורים של כל פרמטר.

תצורת השוואת ביצועים

לפני שמתעמקים במה עושה ה-benchmark ובאילו תפוקות הוא מייצר, חשוב להבין כמה מושגי מפתח בכל הנוגע להגדרת נקודות קצה ללא שרת.

יש שתי אפשרויות תצורה מרכזיות: MemorySizeInMB ו MaxConcurrency. MemorySizeInMB מגדיר את כמות הזיכרון המוקצה למופע, ויכול להיות 1024 MB, 2048 MB, 3072 MB, 4096 MB, 5120 MB או 6144 MB. מספר ה-vCPUs גם משתנה באופן יחסי לכמות הזיכרון שהוקצתה. ה MaxConcurrency פרמטר מתאים כמה בקשות בו-זמנית שנקודת קצה מסוגלת לשרת. עם MaxConcurrency מתוך 1, נקודת קצה ללא שרת יכולה לעבד רק בקשה בודדת בכל פעם.

לסיכום, ה MemorySizeInMB פרמטר מספק מנגנון להרחבה אנכית, המאפשר לך להתאים את משאבי הזיכרון והמחשוב לשרת דגמים גדולים יותר, בעוד MaxConcurrency מספק מנגנון להרחבה אופקית, המאפשר לנקודת הקצה שלך לעבד בקשות במקביל יותר.

העלות של תפעול נקודת קצה נקבעת במידה רבה על ידי גודל הזיכרון, ואין עלות הקשורה להגדלת המקיפות המקסימלית. עם זאת, יש מגבלת חשבון לפי אזור עבור בו זמנית מקסימלית בכל נקודות הקצה. מתייחס נקודות קצה ומכסות של SageMaker למגבלות העדכניות ביותר.

השוואת תפוקות

בהתחשב בכך, המטרה של השוואת נקודת קצה ללא שרת היא לקבוע את הגדרת גודל הזיכרון החסכונית והאמינה ביותר, ואת המינימום במקבילות המקסימלית שיכולה להתמודד עם דפוסי התעבורה הצפויים שלך.

כברירת מחדל, הכלי מריץ שני אמות מידה. הראשון הוא מדד יציבות, אשר פורס נקודת קצה עבור כל אחת מתצורות הזיכרון שצוינו ומפעיל כל נקודת קצה עם מטענים לדוגמה שסופקו. המטרה של רף זה היא לקבוע את ההגדרה היעילה והיציבה ביותר של MemorySizeInMB. ה-benchmark לוכד את זמן האחזור של הפניה ומחשב את העלות הצפויה לכל הפניה עבור כל נקודת קצה. לאחר מכן הוא משווה את העלות מול מופע אירוח דומה בזמן אמת.

כאשר ההשוואה הושלמה, הכלי מייצר מספר תפוקות במפרט שצוין result_save_path ספרייה עם מבנה הספריות הבא:

├── benchmarking_report
├── concurrency_benchmark_raw_results
├── concurrency_benchmark_summary_results
├── cost_analysis_summary_results
├── stability_benchmark_raw_results
├── stability_benchmark_summary_results

השמיים benchmarking_report הספרייה מכילה דוח מאוחד עם כל תפוקות הסיכום שאנו מתארים בפוסט זה. ספריות נוספות מכילות תפוקות גולמיות ותפוקות ביניים שבהן תוכל להשתמש לניתוחים נוספים. עיין ב GitHub ריפו לתיאור מפורט יותר של כל חפץ פלט.

הבה נבחן כמה תפוקות מידוד ממשיות עבור נקודת קצה המשרתת דגם MobileNetV2 TensorFlow של ראייה ממוחשבת. אם תרצה לשחזר דוגמה זו, עיין ב- מחברות לדוגמה ספרייה בריפו של GitHub.

הפלט הראשון בדוח המאוחד הוא טבלת סיכום המספקת את מדדי האחזור המינימליים, הממוצעים, הבינוניים והמקסימליים עבור כל אחד מהם. MemorySizeInMB תצורת גודל זיכרון מוצלחת. כפי שמוצג בטבלה הבאה, זמן האחזור הממוצע להתקשרות (invocation_latency_mean) המשיך להשתפר כאשר תצורת הזיכרון הוגדלה ל-3072 MB, אך הפסיקה להשתפר לאחר מכן.