מסקנות מודל בסיס למאות דגמים עם אמזון SageMaker - חלק 1

הועלה מחדש על ידי אפלטון

עוקב: 0

ככל שהדמוקרטיזציה של מודלים בסיסיים (FMs) הופכת נפוצה יותר והביקוש לשירותים מוגברים בינה מלאכותית עולה, ספקי תוכנה כשירות (SaaS) מחפשים להשתמש בפלטפורמות למידת מכונה (ML) התומכות במספר דיירים - עבור מדעני נתונים פנימיים בארגון שלהם ולקוחות חיצוניים. יותר ויותר חברות מבינות את הערך של שימוש ב-FM ליצירת תוכן מותאם אישית ויעיל עבור הלקוחות שלהן. כוונון עדין של FMs על הנתונים שלך יכול להגביר באופן משמעותי את דיוק המודלים עבור מקרה השימוש הספציפי שלך, בין אם זה יצירת דוא"ל מכירתי תוך שימוש בהקשר של ביקור בדף, יצירת תשובות חיפוש המותאמות לשירותי החברה, או אוטומציה של תמיכת לקוחות על ידי הדרכה על שיחות היסטוריות.

אספקת אירוח מודל AI גנרטיבי כשירות מאפשרת לכל ארגון לשלב בקלות, לבחון פיילוט ולפרוס FMs בקנה מידה בצורה חסכונית, מבלי להזדקק למומחיות AI פנימית. זה מאפשר לחברות להתנסות עם מקרי שימוש בבינה מלאכותית כמו תוכן מכירות ושיווק מותאמים אישית, חיפוש חכם וזרימות עבודה מותאמות אישית של שירות לקוחות. על ידי שימוש במודלים יצירתיים מתארחים המכוונים היטב על נתוני לקוחות מהימנים, עסקים יכולים לספק את הרמה הבאה של יישומי AI מותאמים אישית ויעילים כדי לעסוק טוב יותר ולשרת את הלקוחות שלהם.

אמזון SageMaker מציע אפשרויות שונות להסקת ML, כולל זמן אמת, אסינכרוני והמרת אצווה. פוסט זה מתמקד במתן הנחיות מרשם לגבי אירוח FM בקנה מידה חסכוני. באופן ספציפי, אנו דנים בעולם המהיר והמגיב של הסקת מסקנות בזמן אמת, תוך בחינת אפשרויות שונות להסקת מסקנות בזמן אמת עבור FM.

לצורך מסקנות, ארכיטקטורות AI/ML מרובות דיירים צריכות לשקול את הדרישות לנתונים ולמודלים, כמו גם את משאבי המחשוב הנדרשים לביצוע הסקת מסקנות ממודלים אלה. חשוב לשקול כיצד פרוסים דגמי AI/ML מרובי דיירים - באופן אידיאלי, על מנת לנצל באופן מיטבי מעבדים ו-GPUs, עליך להיות מסוגל לתכנן פתרון מסקנות שיכול לשפר את תפוקת ההגשה ולהפחית עלויות על ידי הבטחת הפצת המודלים על פני תשתית המחשוב בצורה יעילה. בנוסף, לקוחות מחפשים פתרונות שיעזרו להם לפרוס ארכיטקטורת הסקת שיטות עבודה מומלצות ללא צורך לבנות הכל מאפס.

SageMaker Inference הוא שירות אירוח ML מנוהל במלואו. הוא תומך בבניית יישומי AI גנרטיביים תוך עמידה בתקנים רגולטוריים כמו FedRAMP. SageMaker מאפשר קנה מידה חסכוני עבור עומסי עבודה בהסקת תפוקה גבוהה. הוא תומך בעומסי עבודה מגוונים כולל מסקנות בזמן אמת, אסינכרוניות והסקת אצווה על חומרה כמו AWS Inferentia, AWS Graviton, NVIDIA GPUs ומעבדי אינטל. SageMaker נותנת לך שליטה מלאה על אופטימיזציות, בידוד עומסי עבודה ו-containerization. זה מאפשר לך לבנות בינה מלאכותית גנרטיבית כפתרון שירות בקנה מידה עם תמיכה בפריסות מרובות דגמים וריבוי מכולות.

אתגרים של אירוח מודלים של קרן בקנה מידה

להלן כמה מהאתגרים באירוח FM להסקת מסקנות בקנה מידה:

טביעת זיכרון גדולה - מכשירי FM עם עשרות או מאות מיליארדי פרמטרים של דגם עולים לעתים קרובות על קיבולת הזיכרון של שבב מאיץ בודד.
רובוטריקים איטיים - פענוח אוטומטי במכשירי FM, במיוחד עם רצפי קלט ופלט ארוכים, מחמיר את פעולות ה-I/O של הזיכרון. זה מגיע לשיאו בתקופות חביון לא מקובלות, המשפיעות לרעה על מסקנות בזמן אמת.
עלות - FMs מחייבים מאיצי ML המספקים גם זיכרון גבוה וגם כוח חישוב גבוה. השגת תפוקה גבוהה והשהייה נמוכה מבלי להקריב אף אחת מהן היא משימה מיוחדת, הדורשת הבנה עמוקה של אופטימיזציה משותפת של האצת חומרה-תוכנה.
זמן יציאה לשוק ארוך יותר - ביצועים אופטימליים ממכשירי FM דורשים כוונון קפדני. תהליך כוונון מיוחד זה, יחד עם המורכבות של ניהול התשתיות, מביא למחזורי זמן לשוק ממושכים.
בידוד עומסי עבודה - אירוח FM בקנה מידה גדול מציג אתגרים במזעור רדיוס הפיצוץ וטיפול בשכנים רועשים. היכולת לשנות את קנה המידה של כל FM בתגובה לדפוסי תנועה ספציפיים לדגם דורשת הרמה כבדה.
קנה מידה למאות FMs - הפעלת מאות FM בו-זמנית מציגה תקורה תפעולית משמעותית. ניהול אפקטיבי של נקודות קצה, חלוקה מתאימה והקצאת מאיץ ושינוי קנה מידה ספציפי למודל הן משימות שמתארכות במורכבות ככל שנפרסים יותר מודלים.

פונקציות כושר

ההחלטה על אפשרות האירוח הנכונה היא חשובה מכיוון שהיא משפיעה על משתמשי הקצה המוצגים על ידי היישומים שלך. למטרה זו, אנו שואלים את המושג של פונקציות כושר, אשר נטבע על ידי ניל פורד ועמיתיו מ-AWS Partner Thought Works בעבודתם בניית ארכיטקטורות אבולוציוניות. פונקציות הכושר מספקות הערכה מרשימה של אפשרויות אירוח שונות בהתבסס על המטרות שלך. פונקציות הכושר עוזרות לך להשיג את הנתונים הדרושים כדי לאפשר את ההתפתחות המתוכננת של הארכיטקטורה שלך. הם קובעים ערכים מדידים כדי להעריך עד כמה הפתרון שלך קרוב להשגת היעדים שהגדרת. ניתן וצריך להתאים את פונקציות הכושר ככל שהארכיטקטורה מתפתחת כדי להנחות תהליך שינוי רצוי. זה מספק לאדריכלים כלי להנחות את הצוותים שלהם תוך שמירה על אוטונומיה של הצוות.

אנו מציעים לשקול את פונקציות הכושר הבאות בבואנו לבחור באפשרות הנכונה להסקת FM בקנה מידה וחסכוני:

גודל דגם הקרן - FMs מבוססים על שנאים. רובוטריקים איטיים ותאבי זיכרון ביצירת רצפי טקסט ארוכים בשל הגודל העצום של הדגמים. מודלים של שפה גדולה (LLMs) הם סוג של FM שכאשר משתמשים בהם ליצירת רצפי טקסט, הם זקוקים לכמויות אדירות של כוח מחשוב ומתקשים לגשת לזיכרון הזמין ברוחב פס גבוה (HBM) ולקיבולת המחשוב. הסיבה לכך היא שחלק גדול מרוחב הפס הזמין של הזיכרון נצרך על ידי טעינת הפרמטרים של הדגם ועל ידי תהליך פענוח אוטומטי רגרסיבי. כתוצאה מכך, אפילו עם כמויות אדירות של כוח מחשוב, FMs מוגבלים על ידי זיכרון קלט/פלט ומגבלות חישוב. לכן, גודל הדגם קובע הרבה החלטות, כמו למשל האם המודל יתאים למאיץ בודד או דורשים מאיצי ML מרובים באמצעות ריסוק מודל על המופע כדי להפעיל את ההסקה בתפוקה גבוהה יותר. דגמים עם יותר מ-3 מיליארד פרמטרים יתחילו בדרך כלל לדרוש מאיצי ML מרובים מכיוון שהדגם עשוי שלא להתאים להתקן מאיץ אחד.
השהיית ביצועים והסקת FM – מודלים ויישומים רבים של ML הם קריטיים לזמן השהייה, שבהם זמן ההסקה חייב להיות בגבולות המצוינים על ידי יעד ברמת השירות. זמן השהייה של הסקת FM תלויה במספר רב של גורמים, כולל:
- גודל דגם FM - גודל הדגם, כולל קוונטיזציה בזמן ריצה.
- חומרה - חישוב (TFLOPS), גודל HBM ורוחב פס, רוחב פס רשת, מהירות חיבור בין מופעים ורוחב פס אחסון.
- סביבת תוכנה – שרת מודלים, ספריית מודל מקבילית, מנוע אופטימיזציה של מודלים, ביצועי תקשורת קולקטיביים, ארכיטקטורת רשת מודל, קוונטיזציה ומסגרת ML.
- הפקודה – אורך קלט ופלט והיפרפרמטרים.
- השהיית קנה מידה - זמן קנה המידה בתגובה לתנועה.
- חביון התחלה קרה - תכונות כמו חימום מוקדם של עומס הדגם יכולות להפחית את זמן האחזור של ההתחלה הקרה בטעינת ה-FM.
בידוד עומסי עבודה - זה מתייחס לדרישות בידוד עומסי עבודה מנקודת מבט של רגולציה ותאימות, כולל הגנה על סודיות ושלמות מודלים ואלגוריתמים של בינה מלאכותית, סודיות נתונים במהלך הסקת AI והגנה על קניין רוחני של בינה מלאכותית (IP) מפני גישה לא מורשית או מנקודת מבט של ניהול סיכונים. לדוגמה, אתה יכול להפחית את ההשפעה של אירוע אבטחה על ידי צמצום מכוון של רדיוס הפיצוץ או על ידי מניעת שכנים רועשים.
יעילות מחיר – פריסה ותחזוקה של מודל FM ויישום ML על מסגרת ניתנת להרחבה הוא תהליך עסקי קריטי, והעלויות עשויות להשתנות מאוד בהתאם לבחירות שנעשו לגבי תשתית אירוח מודל, אפשרות אירוח, מסגרות ML, מאפייני מודל ML, אופטימיזציות, מדיניות קנה מידה , ועוד. עומסי העבודה חייבים לנצל את תשתית החומרה בצורה מיטבית כדי להבטיח שהעלות תישאר בשליטה. פונקציית כושר זו מתייחסת ספציפית לעלות התשתית, שהיא חלק מהעלות הכוללת של בעלות (TCO). עלויות התשתית הן העלויות המשולבות עבור אחסון, רשת ומחשוב. זה גם קריטי להבין מרכיבים אחרים של TCO, כולל עלויות תפעול ועלויות אבטחה ותאימות. עלויות תפעול הן העלויות המשולבות של תפעול, ניטור ותחזוקה של תשתית ה-ML. העלויות התפעוליות מחושבות כמספר המהנדסים הנדרשים בהתבסס על כל תרחיש והשכר השנתי של המהנדסים, מצטבר על פני תקופה מסוימת. הם מותאמים אוטומטית לאפס לכל דגם כאשר אין תנועה כדי לחסוך בעלויות.
בקרת מערכות ותקשורת - זה כולל:
- תקורה תפעולית בניהול מאות חברות FM להסקת מסקנות בפלטפורמת ריבוי דיירים.
- היכולת לארוז מספר FMs בנקודת קצה אחת ובקנה מידה אחד לכל דגם.
- הפעלת קנה מידה ברמת המופע והמודל ברמת מיכל המבוסס על דפוסי עומס עבודה.
- תמיכה בקנה מידה למאות FMs לכל נקודת קצה.
- תמיכה במיקום ראשוני של הדגמים בצי וטיפול במאיצים לא מספיקים.

ייצוג הממדים בתפקודי כושר

אנו משתמשים בתרשים עכביש, הנקרא לפעמים גם תרשים מכ"ם, כדי לייצג את הממדים בפונקציות הכושר. תרשים עכביש משמש לעתים קרובות כאשר אתה רוצה להציג נתונים על פני כמה ממדים ייחודיים. מימדים אלה הם בדרך כלל כמותיים, ובדרך כלל נעים בין אפס לערך מקסימלי. הטווח של כל מימד מנורמל זה לזה, כך שכאשר אנו מציירים את תרשים העכבישים שלנו, אורך הקו מאפס לערך המרבי של ממד יהיה זהה עבור כל מימד.

התרשים הבא ממחיש את תהליך קבלת ההחלטות הכרוך בבחירת הארכיטקטורה שלך ב- SageMaker. כל רדיוס בטבלת העכבישים הוא אחת מפונקציות הכושר שתקבע עדיפות כשאתה בונה את פתרון ההסקה שלך.

הסקת מודל יסודי בקנה מידה למאות דגמים עם Amazon SageMaker - חלק 1 | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

באופן אידיאלי, תרצה צורה שהיא שווה צלעות על פני כל הצדדים (מחומש). זה מראה שאתה מסוגל לבצע אופטימיזציה בכל פונקציות הכושר. אבל המציאות היא שזה יהיה מאתגר להשיג את הצורה הזו - ככל שתעדיפו פונקציית כושר אחת, זה ישפיע על הקווים עבור הרדיוס השני. זה אומר שתמיד יהיו פשרות בהתאם למה שהכי חשוב עבור יישום הבינה המלאכותית הגנרטיבית שלך, ויהיה לך גרף שיהיה מוטה לכיוון רדיוס ספציפי. זה הקריטריונים שאתה עשוי להיות מוכן לבטל את סדר העדיפויות לטובת האחרים בהתאם לאופן שבו אתה רואה כל פונקציה. בתרשים שלנו, המשקל המטרי של כל פונקציית כושר מוגדר ככזה - ככל שהערך נמוך יותר, כך הוא פחות אופטימלי עבור אותה פונקציית כושר (למעט גודל הדגם, ובמקרה זה ככל שהערך גבוה יותר, כך גודלו של דֶגֶם).

לדוגמה, ניקח מקרה שימוש שבו תרצה להשתמש במודל סיכום גדול (כגון Anthropic Claude) כדי ליצור סיכומי עבודה של מקרי שירות והתקשרויות עם לקוחות על סמך נתוני מקרה והיסטוריית לקוחות. יש לנו את תרשים העכבישים הבא.

הסקת מודל יסודי בקנה מידה למאות דגמים עם Amazon SageMaker - חלק 1 | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

מכיוון שזה עשוי להיות כרוך בנתוני לקוחות רגישים, אתה בוחר לבודד את עומס העבודה הזה ממודלים אחרים ולארח אותו בנקודת קצה של דגם יחיד, מה שעלול להפוך את זה למאתגר להרחיב את קנה המידה, כי אתה צריך לסובב ולנהל נקודות קצה נפרדות עבור כל FM. אפליקציית הבינה המלאכותית הגנרטיבית שאיתה אתה משתמש במודל נמצאת בשימוש על ידי סוכני שירות בזמן אמת, כך שהשהייה ותפוקה הם בראש סדר העדיפויות, ומכאן הצורך להשתמש בסוגי מופעים גדולים יותר, כגון P4De. במצב זה, העלות עשויה להיות גבוהה יותר מכיוון שהעדיפות היא בידוד, חביון ותפוקה.

מקרה שימוש נוסף יהיה ארגון שירות הבונה אפליקציית צ'טבוט של שאלות ותשובות המותאמת אישית למספר רב של לקוחות. תרשים העכבישים הבא משקף את סדר העדיפויות שלהם.

הסקת מודל יסודי בקנה מידה למאות דגמים עם Amazon SageMaker - חלק 1 | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

ייתכן שיהיה צורך להתאים כל חווית צ'טבוט לכל לקוח ספציפי. הדגמים שבהם נעשה שימוש עשויים להיות קטנים יותר יחסית (FLAN-T5-XXL, Llama 7B ו-k-NN), וכל צ'אטבוט פועל בסט שעות ייעודיות עבור אזורי זמן שונים בכל יום. הפתרון עשוי לכלול גם Retrieval Augmented Generation (RAG) עם מסד נתונים המכיל את כל פריטי בסיס הידע לשימוש עם מסקנות בזמן אמת. אין נתונים ספציפיים ללקוח המוחלפים דרך הצ'אטבוט הזה. זמן האחזור של התחלה קרה נסבל מכיוון שהצ'אטבוטים פועלים בלוח זמנים מוגדר. עבור מקרה שימוש זה, אתה יכול לבחור ארכיטקטורת נקודות קצה מרובת דגמים, וייתכן שתוכל למזער את העלות על ידי שימוש בסוגי מופעים קטנים יותר (כמו G5) ועלול להפחית את התקורה התפעולית על ידי אירוח של מספר מודלים בכל נקודת קצה בקנה מידה. למעט בידוד עומס עבודה, לפונקציות הכושר במקרה שימוש זה עשויה להיות עדיפות שווה יותר, והחלונות ממוזערים במידה מסוימת.

דוגמה אחרונה אחת תהיה יישום יצירת תמונות באמצעות מודל כמו Stable Diffusion 2.0, שהוא מודל של 3.5 מיליארד פרמטרים. תרשים העכבישים שלנו הוא כדלקמן.

הסקת מודל יסודי בקנה מידה למאות דגמים עם Amazon SageMaker - חלק 1 | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

זוהי אפליקציה מבוססת מנוי המשרתת אלפי FM ולקוחות. זמן התגובה צריך להיות מהיר מכיוון שכל לקוח מצפה לתפנית מהירה של פלטי תמונה. התפוקה היא קריטית גם כן מכיוון שיהיו מאות אלפי בקשות בכל שנייה נתונה, כך שסוג המופע יצטרך להיות סוג מופע גדול יותר, כמו P4D שיש לו מספיק GPU וזיכרון. בשביל זה אתה יכול לשקול בניית נקודת קצה מרובת מכולות המארח עותקים מרובים של המודל כדי לבטל יצירת תמונה מקבוצת בקשה אחת לאחרת. במקרה שימוש זה, על מנת לתעדף זמן חביון ותפוקה ולהתאים לדרישת המשתמשים, עלות המחשוב ובידוד עומס העבודה תהיה הפשרה.

החלת פונקציות כושר לבחירת אפשרות אירוח FM

בסעיף זה, אנו מראים לך כיצד ליישם את פונקציות הכושר הקודמות בבחירת אפשרות אירוח FM הנכונה במכשירי FM של SageMaker בקנה מידה.

נקודות קצה של SageMaker בדגם יחיד

נקודות קצה של SageMaker בדגם יחיד מאפשרות לך לארח FM אחד על קונטיינר המתארח במופעים ייעודיים עבור זמן אחזור נמוך ותפוקה גבוהה. נקודות קצה אלו מנוהלות באופן מלא ותומכות בקנה מידה אוטומטי. אתה יכול להגדיר את נקודת הקצה של דגם יחיד כנקודת קצה מסודרת שבה אתה מעביר את תצורת תשתית נקודות הקצה כגון סוג המופע וספירת המופעים, כאשר SageMaker משיק אוטומטית משאבי מחשוב ומרחיב אותם פנימה והחוצה בהתאם למדיניות השינוי האוטומטי. אתה יכול להתאים לאירוח מאות דגמים באמצעות מספר נקודות קצה של מודל יחיד ולהשתמש ב-a ארכיטקטורה מבוססת תאים להגברת הגמישות והקטנת רדיוס הפיצוץ.

בעת הערכת פונקציות כושר עבור נקודת קצה של דגם יחיד, שקול את הדברים הבאים:

גודל דגם הקרן – זה מתאים אם יש לך דגמים שלא יכולים להתאים לזיכרון של מאיץ ML בודד ולכן זקוקים למספר מאיצים במופע.
השהיית ביצועים והסקת FM - זה רלוונטי עבור יישומי AI גנרטיביים קריטיים.
בידוד עומסי עבודה - ייתכן שהיישום שלך יצטרך ענן מחשוב אלסטי של אמזון (Amazon EC2) בידוד ברמת המופעים עקב סיבות תאימות לאבטחה. כל FM יקבל נקודת סיום נפרדת ולא ישתף את מופע EC2 עם דגם אחר. לדוגמה, ניתן לבודד עומס עבודה של מודלים הקשורים ל-HIPAA (כגון מודל זיהוי PHI) בנקודת קצה נפרדת עם תצורת קבוצת אבטחה ייעודית עם בידוד רשת. אתה יכול לבודד את עומס העבודה של המודל מבוסס ה-GPU שלך מאחרים בהתבסס על מופעי EC2 מבוססי Nitro כמו p4dn כדי לבודד אותם מעומסי עבודה פחות מהימנים. מופעי EC2 מבוססי Nitro System מספקים גישה ייחודית לווירטואליזציה ובידוד, המאפשרים לך לאבטח ולבודד עיבוד נתונים רגיש ממפעילי AWS ותוכנות בכל עת. הוא מספק את המימד החשוב ביותר של מחשוב חסוי כסט מהותי, המוגדר כברירת מחדל, של הגנות מתוכנת המערכת וממפעילי הענן. אפשרות זו תומכת גם בפריסת דגמי AWS Marketplace המסופקים על ידי ספקי דגמים של צד שלישי ב- SageMaker.

נקודות קצה מרובות של SageMaker

SageMaker נקודות קצה מרובות-מודלים (MMEs) מאפשרים לך לארח יחד דגמים מרובים בליבת GPU, לשתף מופעי GPU מאחורי נקודת קצה על פני מספר דגמים, ולטעון ולפרוק באופן דינמי מודלים על סמך התעבורה הנכנסת. עם זה, אתה יכול לחסוך משמעותית בעלויות ולהשיג את המחיר-ביצועים הטובים ביותר.

MMEs הם הבחירה הטובה ביותר אם אתה צריך לארח דגמים קטנים יותר שיכולים להתאים כולם למאיץ ML יחיד במופע. יש לשקול אסטרטגיה זו אם יש לך מספר גדול (עד אלפים) של מודלים בגודל דומה (פחות ממיליארד פרמטרים) שתוכל להגיש באמצעות קונטיינר משותף בתוך מופע, ואין לך צורך לגשת לכל הדגמים ב- אותו זמן. אתה יכול לטעון את הדגם שצריך להשתמש בו ולאחר מכן לפרוק אותו עבור דגם אחר.

MMEs מיועדים גם לאירוח משותף של מודלים המשתמשים באותה מסגרת ML מכיוון שהם משתמשים בקונטיינר המשותף לטעינת דגמים מרובים. לכן, אם יש לך שילוב של מסגרות ML בצי הדגמים שלך (כגון PyTorch ו-TensorFlow), נקודת קצה של SageMaker עם InferenceComponents היא בחירה טובה יותר. אנו דנים InferenceComponents עוד בהמשך הפוסט הזה.

לבסוף, מכשירי MME מתאימים ליישומים שיכולים לסבול קנס של זמן אחזור של התחלה קרה מדי פעם מכיוון שניתן להוריד מודלים בשימוש נדיר לטובת מודלים המופעלים לעתים קרובות. אם יש לך זנב ארוך של דגמים שנגישים אליהם לעתים רחוקות, נקודת קצה מרובת דגמים יכולה לשרת ביעילות את התעבורה הזו ולאפשר חיסכון משמעותי בעלויות.

שקול את הדברים הבאים בעת הערכת מתי להשתמש ב-MMEs:

גודל דגם הקרן – ייתכן שיש לך דגמים שמתאימים ל-HBM של מאיץ ML יחיד במופע ולכן אין צורך במספר מאיצים.
השהיית ביצועים והסקת FM - יתכן שיש לך יישומי AI גנרטיביים שיכולים לסבול זמן השהיית התחלה קרה כאשר הדגם מתבקש ואינו נמצא בזיכרון.
בידוד עומסי עבודה - שקול שכל הדגמים חולקים את אותו מיכל.
בקרת מערכות ותקשורת - שקול את הדברים הבאים:
- אתה יכול לארוז דגמים מרובים בנקודת קצה אחת ובקנה מידה אחד לכל דגם ומופע ML.
- אתה יכול להפעיל קנה מידה אוטומטי ברמת המופע בהתבסס על דפוסי עומס עבודה.
- MMEs תומכים בקנה מידה לאלפי דגמים לכל נקודת קצה. אינך צריך לשמור על קנה מידה אוטומטי ותצורת פריסה לכל דגם.
- אתה יכול להשתמש בפריסה חמה בכל פעם שהמודל מתבקש על ידי בקשת ההסקה.
- אתה יכול לטעון את הדגמים באופן דינמי לפי בקשת ההסקה ולפרוק בתגובה ללחץ הזיכרון.
- אתה יכול זמן לחלוק את המשאבים הבסיסיים עם המודלים.
יעילות מחיר - שקול לחלוק זמן את המשאב בין המודלים על ידי טעינה ופריקה דינמית של המודלים, וכתוצאה מכך חיסכון בעלויות.

נקודת קצה של מסקנות של SageMaker עם InferenceComponents

נקודת הסיום החדשה של SageMaker עם InferenceComponents מספק גישה ניתנת להרחבה לאירוח FM מרובים בנקודת קצה אחת ושינוי קנה מידה לכל דגם. הוא מספק לך שליטה דקיקה להקצאת משאבים (מאיצים, זיכרון, מעבד) והגדרת מדיניות קנה מידה אוטומטי על בסיס דגם על מנת לקבל תפוקה בטוחה וביצועים צפויים, ותוכל לנהל את ניצול המחשוב על פני מספר דגמים בנפרד. אם יש לך הרבה דגמים בגדלים משתנים ודפוסי תנועה שאתה צריך לארח, וגדלי הדגמים לא מאפשרים להם להשתלב בזיכרון של מאיץ אחד, זו האפשרות הטובה ביותר. זה גם מאפשר לך לשנות קנה מידה לאפס כדי לחסוך בעלויות, אבל דרישות האחזור של האפליקציה שלך צריכות להיות גמישות מספיק כדי לקחת בחשבון זמן התחלה קרה של דגמים. אפשרות זו מאפשרת לך את הגמישות הגדולה ביותר בניצול המחשוב שלך כל עוד מספיק בידוד ברמת המכולה לכל לקוח או FM. לפרטים נוספים על נקודת הקצה החדשה של SageMaker עם InferenceComponents, עיין בפוסט המפורט הפחת את עלויות פריסת המודל ב-50% בממוצע באמצעות התכונות העדכניות ביותר של Amazon SageMaker.

שקול את הדברים הבאים כאשר אתה קובע מתי עליך להשתמש בנקודת קצה עם InferenceComponents:

גודל דגם הקרן – זה מתאים לדגמים שאינם יכולים להיכנס לזיכרון של מאיץ ML בודד ולכן זקוקים למספר מאיצים במופע.
השהיית ביצועים והסקת FM - זה מתאים ליישומי AI גנרטיביים קריטיים.
בידוד עומסי עבודה - ייתכן שיש לך יישומים שבהם בידוד ברמת המכולה מספיק.
בקרת מערכות ותקשורת - שקול את הדברים הבאים:
- אתה יכול לארוז מספר FMs בנקודת קצה אחת וקנה מידה לכל דגם.
- אתה יכול להפעיל קנה מידה ברמת המופע והמודל ברמת מיכל בהתבסס על דפוסי עומס עבודה.
- שיטה זו תומכת בקנה מידה למאות FMs לכל נקודת קצה. אינך צריך להגדיר את מדיניות קנה המידה האוטומטי עבור כל דגם או מיכל.
- הוא תומך במיקום הראשוני של הדגמים בצי ובטיפול במאיצים לא מספיקים.
יעילות מחיר - ניתן לשנות קנה מידה לאפס לכל דגם כאשר אין תנועה כדי לחסוך בעלויות.

אריזה של מספר FMs על אותה נקודת קצה: קיבוץ מודלים

קביעת אסטרטגיית ארכיטקטורת ההסקות שאתה משתמש ב- SageMaker תלויה בסדר העדיפויות והדרישות של היישום שלך. ספקי SaaS מסוימים מוכרים לתוך סביבות מוסדרות המטילות דרישות בידוד קפדניות - צריך שתהיה להם אפשרות שתאפשר להם להציע לחלק מה-FM שלהם או לכולן את האפשרות להיות פריסה במודל ייעודי. אבל כדי לייעל את העלויות ולהשיג יתרונות לגודל, לספקי SaaS צריכים להיות גם סביבות מרובות דיירים שבהן הם מארחים מספר FMs על פני סט משותף של משאבי SageMaker. לרוב הארגונים תהיה ככל הנראה סביבת אירוח היברידית שבה יש להם גם נקודות קצה של מודל יחיד וגם נקודות קצה מרובות מודל או ריבוי מכולות כחלק מארכיטקטורת SageMaker שלהם.

תרגיל קריטי שתצטרכו לבצע בעת בניית סביבת הסקת מסקנות מבוזרת זו הוא לקבץ את המודלים שלכם עבור כל סוג של ארכיטקטורה, שתצטרכו להגדיר בנקודות הקצה של SageMaker. ההחלטה הראשונה שתצטרך לקבל היא סביב דרישות בידוד עומס עבודה - תצטרך לבודד את ה-FM שצריכים להיות בנקודות הקצה הייעודיות שלהם, בין אם זה מסיבות אבטחה, הפחתת רדיוס הפיצוץ והסיכון השכנים הרועשים, או מפגש SLAs קפדניים עבור חביון.

שנית, תצטרך לקבוע אם ה-FMs משתלבים במאיץ ML בודד או דורשים מספר מאיצים, מהם גדלי הדגמים ומהם דפוסי התנועה שלהם. מודלים בגדלים דומים המשרתים ביחד לתמיכה בפונקציה מרכזית יכולים באופן הגיוני להיות מקובצים יחד על ידי אירוח משותף של מספר מודלים בנקודת קצה, מכיוון שהם יהיו חלק מיישום עסקי אחד המנוהל על ידי צוות מרכזי. עבור אירוח משותף של מספר מודלים באותה נקודת קצה, יש לבצע תרגיל קיבוץ כדי לקבוע אילו דגמים יכולים לשבת במופע בודד, במיכל בודד או במספר מיכלים.

קיבוץ המודלים עבור MMEs

MMEs מתאימים ביותר לדגמים קטנים יותר (פחות ממיליארד פרמטרים שיכולים להתאים למאיץ יחיד) והם בגודל דומה בגודלם ובזמן האחזור של הפניה. וריאציה מסוימת בגודל הדגם מקובלת; לדוגמה, של זנדסק הדגמים נעים בין 10-50 מגה-בייט, מה שעובד מצוין, אבל וריאציות בגודל גדולות פי 10, 50 או פי 100 אינן מתאימות. דגמים גדולים יותר עלולים לגרום למספר גבוה יותר של טעינות ופריקות של דגמים קטנים יותר כדי להכיל מספיק שטח זיכרון, מה שעלול לגרום להשהייה נוספת בנקודת הקצה. הבדלים במאפייני הביצועים של דגמים גדולים יותר עלולים גם לצרוך משאבים כמו CPU בצורה לא אחידה, מה שעלול להשפיע על דגמים אחרים במופע.

המודלים המקובצים יחד ב-MME צריכים להיות בעלי דפוסי תעבורה מדורגים כדי לאפשר לך לחלוק מחשוב בין המודלים לצורך מסקנות. דפוסי הגישה והשהיית ההסקה שלך צריכים גם לאפשר זמן התחלה קרה בזמן שאתה עובר בין דגמים.

להלן כמה מהקריטריונים המומלצים לקיבוץ המודלים עבור MMEs:

דגמים קטנים יותר - השתמש במודלים עם פחות ממיליארד פרמטרים
גודל דגם - קבץ דגמים בגודל דומה ואירח שותף לאותה נקודת קצה
זמן השהייה של הפניה - קבץ מודלים עם דרישות חביון הפעלה דומות שיכולים לסבול התחלות קרות
חומרה – קבץ את המודלים באמצעות אותו סוג מופע EC2 הבסיסי

קיבוץ המודלים עבור נקודת קצה עם InferenceComponents

נקודת קצה של SageMaker עם InferenceComponents הוא המתאים ביותר לאירוח FMs גדולים יותר (מעל מיליארד פרמטרים) בקנה מידה הדורשים מאיצי ML מרובים או התקנים במופע EC1. אפשרות זו מתאימה לעומסי עבודה רגישים לזמן השהייה ויישומים שבהם די בבידוד ברמת המכולה. להלן כמה מהקריטריונים המומלצים לקיבוץ המודלים עבור נקודת קצה עם מרובים InferenceComponents:

חומרה – קבץ את המודלים באמצעות אותו סוג מופע EC2 הבסיסי
גודל דגם – קיבוץ הדגם לפי גודל הדגם מומלץ אך לא חובה

<br> סיכום

בפוסט זה, בדקנו שלוש אפשרויות להסקת ML בזמן אמת (נקודות קצה בודדות, נקודות קצה מרובות מודל ונקודות קצה עם InferenceComponents) ב- SageMaker כדי לארח ביעילות FMs בקנה מידה חסכוני. אתה יכול להשתמש בחמש פונקציות הכושר כדי לעזור לך לבחור את אפשרות האירוח הנכונה של SageMaker עבור FMs בקנה מידה. קבץ את ה-FMs וארח אותם יחד בנקודות קצה של SageMaker מסקנות תוך שימוש בקריטריונים המומלצים לקיבוץ. בנוסף לפונקציות הכושר שדנו בהן, אתה יכול להשתמש בטבלה הבאה כדי להחליט איזו אפשרות אירוח משותפת של SageMaker היא הטובה ביותר למקרה השימוש שלך. אתה יכול למצוא דוגמאות קוד עבור כל אחת מאפשרויות אירוח FM ב- SageMaker במאגרים הבאים של GitHub: נקודת קצה אחת של SageMaker, נקודת קצה מרובת דגמים, ו InferenceComponents נקודת סיום.

.	נקודת קצה של דגם יחיד	נקודת קצה מרובת דגמים	נקודת קצה עם InferenceComponents
מחזור חיים של דגם	API לניהול	נתיב דינמי דרך Amazon S3	API לניהול
סוגי מופעים נתמכים	מעבד, יחיד וריבוי GPU, מופעים מבוססי AWS Inferentia	מעבד, מופעים מבוססי GPU יחיד	מעבד, יחיד וריבוי GPU, מופעים מבוססי AWS Inferentia
פירוט מטרי	נקודת קצה	נקודת קצה	נקודת קצה ומיכל
פירוט קנה המידה	דוגמה של ML	דוגמה של ML	מכולה
התנהגות קנה מידה	קנה מידה עצמאי של מופעי ML	דגמים נטענים ונפרקים מהזיכרון	קנה מידה עצמאי של מיכל
הצמדת דגם	.	ניתן לפרוק דגמים על סמך זיכרון	ניתן להגדיר כל מיכל כך שיטען או ייפרק תמיד
דרישות מיכל	SageMaker בנוי מראש, תואם SageMaker Bring Your Own Container (BYOC)	MMS, Triton, BYOC עם חוזי MME	SageMaker בנוי מראש, BYOC תואם SageMaker
אפשרויות ניתוב	קשר אקראי או לפחות	חלון אקראי, דביק עם פופולריות	קשר אקראי או לפחות
הקצאת חומרה לדגם	מוקדש לדגם בודד	משותף	ייעודי לכל מיכל
מספר הדגמים הנתמכים	יחיד	אלף	מאות
הזרמת תגובה	נתמך	לא נתמך	נתמך
לכידת נתונים	נתמך	לא נתמך	לא נתמך
בדיקת צללים	נתמך	לא נתמך	לא נתמך
רב גרסאות	נתמך	לא ישים	לא נתמך
דגמי AWS Marketplace	נתמך	לא ישים	לא נתמך

על המחברים

הסקת מודל יסודי בקנה מידה למאות דגמים עם Amazon SageMaker - חלק 1 | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. מהראן נג'פי, דוקטורט, הוא ארכיטקט פתרונות בכיר עבור AWS המתמקד בפתרונות AI/ML ו-SaaS בקנה מידה.

דוואל פאטל הוא אדריכל ראשי למידת מכונה ב-AWS. הוא עבד עם ארגונים החל מארגונים גדולים ועד סטארט-אפים בינוניים על בעיות הקשורות למחשוב מבוזר ובינה מלאכותית. הוא מתמקד בלמידה עמוקה כולל תחומי NLP ו-Computer Vision. הוא עוזר ללקוחות להשיג מסקנות מודל עם ביצועים גבוהים על SageMaker.

הסקת מודל יסודי בקנה מידה למאות דגמים עם Amazon SageMaker - חלק 1 | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. ריאלה דה-ז'סוס הוא אדריכל פתרונות ראשי ב-AWS שסייע בהצלחה ללקוחות ארגוניים שונים באזור DC, מרילנד ווירג'יניה לעבור לענן. עוזרת לקוחות ויועצת טכנית, היא עוזרת לארגונים כמו Heroku/Salesforce להשיג הצלחה בפלטפורמת AWS. היא תומכת נלהבת של נשים ב-IT ומאוד נלהבת למצוא דרכים לשימוש יצירתי בטכנולוגיה ובנתונים כדי לפתור אתגרים יומיומיים.

הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
מקור: https://aws.amazon.com/blogs/machine-learning/scale-foundation-model-inference-to-hundreds-of-models-with-amazon-sagemaker-part-1/

בול זמן: 30 בנובמבר 2023

בול זמן: אוגוסט 11, 2022

הועלה מחדש על ידי אפלטון

עקוב אחר ניסויי ה-ML שלך מקצה לקצה עם בקרת גרסאות נתונים וניסויי אמזון SageMaker

בנה זרימת עבודה לאישור וקידום מודלים של אמזון SageMaker עם התערבות אנושית | שירותי האינטרנט של אמזון

T-Mobile US, Inc. משתמשת בבינה מלאכותית דרך Amazon Transcribe ו-Amazon Translate כדי להעביר דואר קולי בשפה לפי בחירת הלקוחות שלהם | שירותי האינטרנט של אמזון

בניית יישומי AI גנרטיביים המוכנים לייצור לחיפוש ארגוני באמצעות צינורות Haystack ו-Amazon SageMaker JumpStart עם LLMs | שירותי האינטרנט של אמזון

האץ תגובת אסון עם ראייה ממוחשבת לצילומי לוויין באמצעות Amazon SageMaker ו-Amazon Augmented AI

היכרות עם תוכנית המודלים המותאמים אישית של מרכז החדשנות של AWS Generative AI עבור קלוד האנתרופי | שירותי האינטרנט של אמזון

בנו גלאי חריגות באיכות אוויר באמצעות Amazon Lookout for Metrics

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן