אנו נרגשים להכריז על גרסה חדשה של מפעילי אמזון SageMaker עבור Kubernetes באמצעות בקרי AWS עבור Kubernetes (ACK). ACK היא מסגרת לבניית בקרים מותאמים אישית של Kubernetes, כאשר כל בקר מתקשר עם API של שירות AWS. בקרים אלה מאפשרים למשתמשי Kubernetes לספק משאבי AWS כמו דליים, מסדי נתונים או תורי הודעות פשוט על ידי שימוש בממשק ה-API של Kubernetes.
לשחרר v1.2.9 של SageMaker ACK Operators מוסיף תמיכה עבור מרכיבי מסקנות, שעד כה היו זמינים רק דרך ה-API של SageMaker וערכות פיתוח התוכנה של AWS (SDK). רכיבי הסקה יכולים לעזור לך לייעל את עלויות הפריסה ולהפחית את זמן ההשהיה. עם יכולות רכיבי ההסקה החדשות, אתה יכול לפרוס מודל יסוד אחד או יותר (FMs) באותו אמזון SageMaker נקודת קצה ושליטה בכמה מאיצים וכמה זיכרון שמור לכל FM. זה עוזר לשפר את ניצול המשאבים, מפחית את עלויות פריסת המודל בממוצע ב-50%, ומאפשר לך להתאים את נקודות הקצה יחד עם מקרי השימוש שלך. לפרטים נוספים, ראה Amazon SageMaker מוסיפה יכולות הסקת מסקנות חדשות כדי לסייע בהפחתת עלויות הפריסה והשהייה של מודל היסוד.
הזמינות של רכיבי הסקת מסקנות באמצעות בקר SageMaker מאפשרת ללקוחות המשתמשים ב-Kubernetes כמישור הבקרה שלהם לנצל את היתרון של רכיבי הסקה תוך פריסת הדגמים שלהם על SageMaker.
בפוסט זה, אנו מראים כיצד להשתמש ב- SageMaker ACK Operators כדי לפרוס רכיבי מסקנות של SageMaker.
איך ACK עובד
להדגים איך ACK עובד, בואו נסתכל על דוגמה באמצעות שירות אחסון פשוט של אמזון (אמזון S3). בתרשים הבא, אליס היא משתמשת Kubernetes שלנו. היישום שלה תלוי בקיומו של דלי S3 בשם my-bucket
.
זרימת העבודה מורכבת מהשלבים הבאים:
- אליס מתקשרת אל
kubectl apply
, עובר בקובץ שמתאר Kubernetes משאב מותאם אישית מתאר את דלי ה-S3 שלה.kubectl apply
מעביר את הקובץ הזה, שנקרא א גלוי, לשרת Kubernetes API הפועל בצומת הבקר Kubernetes. - שרת ה-API של Kubernetes מקבל את המניפסט המתאר את דלי S3 וקובע אם לאליס יש הרשאות כדי ליצור משאב מותאם אישית של סוג
s3.services.k8s.aws/Bucket
, וכי המשאב המותאם אישית מעוצב כהלכה. - אם אליס מורשית והמשאב המותאם אישית חוקי, שרת ה-API של Kubernetes כותב את המשאב המותאם אישית שלו
etcd
חנות מידע. - לאחר מכן הוא עונה לאליס שהמשאב המותאם אישית נוצר.
- בשלב זה, שירות ACK בקר עבור Amazon S3, שפועל על צומת עובד של Kubernetes בהקשר של Kubernetes רגיל תרמיל, מקבל הודעה כי משאב מותאם אישית חדש מסוגו
s3.services.k8s.aws/Bucket
נוצר. - בקר השירות ACK עבור Amazon S3 מתקשר לאחר מכן עם ה-API של Amazon S3, וקורא ל- S3 CreateBucket API כדי ליצור את הדלי ב-AWS.
- לאחר תקשורת עם ה-API של Amazon S3, בקר השירות של ACK קורא לשרת ה-API של Kubernetes כדי לעדכן את המשאב המותאם אישית מצב עם מידע שקיבל מאמזון S3.
מרכיבי מפתח
יכולות ההסקה החדשות מבוססות על נקודות הקצה של SageMaker בזמן אמת. כמו קודם, אתה יוצר את נקודת הקצה של SageMaker עם תצורת נקודת קצה המגדירה את סוג המופע וספירת המופעים הראשונית עבור נקודת הקצה. המודל מוגדר במבנה חדש, רכיב מסקנות. כאן, אתה מציין את מספר המאיצים וכמות הזיכרון שברצונך להקצות לכל עותק של דגם, יחד עם חפצי הדגם, תמונת המיכל ומספר עותקי הדגם לפריסה.
אתה יכול להשתמש ביכולות ההסקה החדשות מ סטודיו SageMaker של אמזון, ה SageMaker Python SDK, ערכות SDK של AWS, ו ממשק שורת הפקודה של AWS (AWS CLI). הם גם נתמכים על ידי AWS CloudFormation. עכשיו אתה גם יכול להשתמש בהם עם מפעילי SageMaker עבור Kubernetes.
סקירת פתרונות
עבור הדגמה זו, אנו משתמשים בבקר SageMaker כדי לפרוס עותק של דגם דולי v2 7B ועותק של דגם FLAN-T5 XXL מ רכזת דוגמניות פנים מחבקות על נקודת קצה של SageMaker בזמן אמת תוך שימוש ביכולות ההסקה החדשות.
תנאים מוקדמים
כדי לעקוב אחריו, צריך להיות לך אשכול Kubernetes עם בקר SageMaker ACK v1.2.9 ומעלה מותקן. לקבלת הוראות כיצד לספק א שירות קוברנט של אמזון (אמזון EKS) אשכול עם ענן מחשוב אלסטי של אמזון (Amazon EC2) צמתים מנוהלים של לינוקס באמצעות eksctl, ראה תחילת העבודה עם Amazon EKS – eksctl. להנחיות להתקנת בקר SageMaker, עיין ב למידת מכונה עם בקר ACK SageMaker.
אתה צריך גישה למופעים מואצים (GPUs) לאירוח ה-LLMs. פתרון זה משתמש במופע אחד של ml.g5.12xlarge; אתה יכול לבדוק את הזמינות של מופעים אלה בחשבון AWS שלך ולבקש מופעים אלה לפי הצורך באמצעות בקשת הגדלת מכסות שירות, כפי שמוצג בצילום המסך הבא.
צור רכיב מסקנות
כדי ליצור את רכיב ההסקה שלך, הגדר את ה EndpointConfig
, Endpoint
, Model
, ו InferenceComponent
קבצי YAML, דומים לאלה המוצגים בסעיף זה. להשתמש kubectl apply -f <yaml file>
כדי ליצור את משאבי Kubernetes.
אתה יכול לרשום את הסטטוס של המשאב באמצעות kubectl describe <resource-type>
; לדוגמה, kubectl describe inferencecomponent
.
אתה יכול גם ליצור את רכיב ההסקה ללא משאב מודל. עיין בהנחיות המופיעות ב- תיעוד API לקבלת פרטים נוספים.
EndpointConfig YAML
להלן הקוד עבור קובץ EndpointConfig:
נקודת קצה YAML
להלן הקוד לקובץ Endpoint:
דגם YAML
להלן הקוד עבור קובץ המודל:
InferenceComponent YAMLs
בקבצי YAML הבאים, בהתחשב בכך שהמופע ml.g5.12xlarge מגיע עם 4 GPUs, אנו מקצים 2 GPUs, 2 CPUs ו-1,024 MB של זיכרון לכל דגם:
להפעיל מודלים
כעת תוכל להפעיל את הדגמים באמצעות הקוד הבא:
עדכן רכיב מסקנות
כדי לעדכן רכיב הסקה קיים, אתה יכול לעדכן את קבצי YAML ולאחר מכן להשתמש kubectl apply -f <yaml file>
. להלן דוגמה לקובץ מעודכן:
מחק רכיב מסקנות
כדי למחוק רכיב הסקה קיים, השתמש בפקודה kubectl delete -f <yaml file>
.
זמינות ומחירים
יכולות ההסקה החדשות של SageMaker זמינות היום באזורי AWS מזרח ארה"ב (אוהיו, צפון וירג'יניה), ארה"ב מערב (אורגון), אסיה פסיפיק (ג'קרטה, מומבאי, סיאול, סינגפור, סידני, טוקיו), קנדה (מרכז), אירופה ( פרנקפורט, אירלנד, לונדון, שטוקהולם), המזרח התיכון (איחוד האמירויות) ודרום אמריקה (סאו פאולו). לפרטי מחירים, בקר תמחור SageMaker של אמזון.
סיכום
בפוסט זה, הראינו כיצד להשתמש ב- SageMaker ACK Operators כדי לפרוס רכיבי מסקנות של SageMaker. הפעל את אשכול Kubernetes שלך ופרוס את ה-FM שלך באמצעות יכולות ההסקה החדשות של SageMaker היום!
על הכותבים
ראג'ש רמצ'נדר הוא מהנדס ML ראשי בשירותים מקצועיים ב-AWS. הוא עוזר ללקוחות בשלבים שונים במסע ה-AI/ML וה-GenAI שלהם, מאלה שרק בתחילת הדרך ועד לאלו שמובילים את העסק שלהם עם אסטרטגיית AI-first.
עמית ערורה הוא אדריכל מומחה בינה מלאכותית ו-ML בשירותי האינטרנט של אמזון, שעוזר ללקוחות ארגוניים להשתמש בשירותי למידת מכונה מבוססי ענן כדי להגדיל במהירות את החידושים שלהם. הוא גם מרצה נלווה בתוכנית MS Data Science and Analytics באוניברסיטת ג'ורג'טאון בוושינגטון די.סי.
סוריאנש סינג הוא מהנדס פיתוח תוכנה ב-AWS SageMaker ועובד על פיתוח פתרונות תשתית מבוזרים ב-ML עבור לקוחות AWS בקנה מידה.
סאוראב טריקאנדה הוא מנהל מוצר בכיר עבור Amazon SageMaker Inference. הוא נלהב לעבוד עם לקוחות ומוטיבציה היא המטרה של דמוקרטיזציה של למידת מכונה. הוא מתמקד באתגרי ליבה הקשורים לפריסת יישומי ML מורכבים, מודלים של ML מרובי דיירים, אופטימיזציות עלויות והפיכת פריסת מודלים של למידה עמוקה לנגישה יותר. בזמנו הפנוי, סאוראב נהנה לטייל, ללמוד על טכנולוגיות חדשניות, לעקוב אחר TechCrunch ולבלות עם משפחתו.
ג'ונה ליו הוא מהנדס פיתוח תוכנה בצוות אמזון SageMaker. עבודתה הנוכחית מתמקדת בסיוע למפתחים לארח ביעילות מודלים של למידת מכונה ולשפר ביצועי מסקנות. היא נלהבת מניתוח נתונים מרחביים ושימוש בבינה מלאכותית כדי לפתור בעיות חברתיות.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://aws.amazon.com/blogs/machine-learning/use-kubernetes-operators-for-new-inference-capabilities-in-amazon-sagemaker-that-reduce-llm-deployment-costs-by-50-on-average/
- :יש ל
- :הוא
- :איפה
- $ למעלה
- 1
- 10
- 100
- 20
- 7
- 9
- 98
- a
- אודות
- מֵעַל
- מוּאָץ
- מאיצים
- גישה
- נגיש
- חֶשְׁבּוֹן
- מוסיף
- נלווה
- יתרון
- AI
- AI / ML
- ירייה
- תעשיות
- להקצות
- להתיר
- לאורך
- גם
- אמזון בעברית
- אמזון
- אמזון SageMaker
- אמזון שירותי אינטרנט
- אמריקה
- כמות
- an
- אנליזה
- ניתוח
- ו
- להכריז
- API
- בקשה
- יישומים
- החל
- ARE
- AS
- אסיה
- אסיה פסיפיק
- At
- מורשה
- זמינות
- זמין
- מְמוּצָע
- AWS
- היה
- לפני
- גוּף
- לִבנוֹת
- בִּניָן
- עסקים
- by
- קליפורניה
- שיחה
- נקרא
- קוראים
- שיחות
- CAN
- קנדה
- יכולות
- מקרים
- מֶרכָּזִי
- האתגרים
- לבדוק
- קלי
- אשכול
- קוד
- מגיע
- הפקודה
- תקשורת
- מורכב
- רְכִיב
- רכיבים
- לחשב
- תְצוּרָה
- מוגדר
- מורכב
- לבנות
- מכולה
- מכולות
- הקשר
- לִשְׁלוֹט
- בקר
- העתק
- ליבה
- עלות
- עלויות
- לספור
- לִיצוֹר
- נוצר
- נוֹכְחִי
- מנהג
- לקוחות
- נתונים
- ניתוח נתונים
- מדע נתונים
- מאגרי מידע
- עמוק
- למידה עמוקה
- לְהַגדִיר
- מגדיר
- הדגמה
- דמוקרטיזציה
- להפגין
- תלוי
- לפרוס
- פריסה
- פריסה
- לתאר
- מתאר
- המתאר
- פרטים
- קובע
- מפתחים
- מתפתח
- צעצועי התפתחות
- תרשים
- כל אחד
- מזרח
- יעילות
- מאפשר
- נקודת קצה
- מהנדס
- מִפְעָל
- סביבה
- אירופה
- דוגמה
- נרגש
- קיום
- קיימים
- פָּנִים
- משפחה
- שלח
- קבצים
- אש
- מתמקד
- לעקוב
- הבא
- בעד
- קרן
- מסגרת
- פרנקפורט
- החל מ-
- גנאי
- גאורגטאון
- מקבל
- GitHub
- נתן
- מטרה
- GPUs
- גדול
- הדרכה
- יש
- he
- לעזור
- עזרה
- עוזר
- לה
- כאן
- שֶׁלוֹ
- המארח
- אירוח
- איך
- איך
- HTML
- http
- HTTPS
- if
- תמונה
- לייבא
- לשפר
- in
- להגדיל
- מידע
- תשתית
- בתחילה
- חידושים
- חדשני
- טכנולוגיות חדשניות
- תשומות
- מותקן
- התקנה
- למשל
- הוראות
- אירלנד
- בעיות
- IT
- שֶׁלָה
- מסע
- jpeg
- jpg
- ג'סון
- רק
- סוג
- חֶבִיוֹן
- מוביל
- למידה
- מאפשר לי
- כמו
- קו
- לינוקס
- רשימה
- לחיות
- LLM
- לונדון
- נראה
- מכונה
- למידת מכונה
- עשייה
- הצליח
- מנהל
- רב
- זכרון
- הודעה
- מידע נוסף
- אמצע
- המזרח התיכון
- ML
- מודל
- מודלים
- יותר
- מוטיבציה
- MS
- הרבה
- מומבאי
- שם
- שם
- צורך
- נחוץ
- חדש
- צומת
- צמתים
- נוֹרמָלִי
- עַכשָׁיו
- מספר
- of
- אוהיו
- on
- ONE
- יחידות
- רק
- מפעילי
- אופטימיזציות
- מטב
- or
- אורגון
- שלנו
- פסיפיק
- מעברי
- חולף
- לוהט
- ביצועים
- מקום
- מטוס
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- נקודה
- הודעה
- תמחור
- מנהל
- בעיות
- המוצר
- מנהל מוצר
- מקצועי
- תָכְנִית
- כמו שצריך
- ובלבד
- אַספָּקָה
- פיתון
- מהר
- זמן אמת
- קיבלו
- מקבל
- להפחית
- מפחית
- להתייחס
- אזורים
- קָשׁוּר
- לבקש
- שמור
- משאב
- משאבים
- ריצה
- בעל חכמים
- SageMaker Inference
- אותו
- סולם
- מדע
- sdks
- סעיף
- לִרְאוֹת
- לחצני מצוקה לפנסיונרים
- סיאול
- שרת
- שרות
- שירותים
- היא
- צריך
- לְהַצִיג
- הראה
- הראה
- דומה
- פָּשׁוּט
- בפשטות
- סינגפור
- חברתי
- תוכנה
- פיתוח תוכנה
- פִּתָרוֹן
- פתרונות
- לפתור
- דרום
- דרום אמריקה
- מרחבית
- מומחה
- מפרט
- הוצאה
- שלבים
- החל
- מצב
- צעדים
- אחסון
- חנות
- אִסטרָטֶגִיָה
- תמיכה
- נתמך
- סידני
- לקחת
- נבחרת
- TechCrunch
- טכנולוגיות
- זֶה
- השמיים
- שֶׁלָהֶם
- אותם
- אז
- אלה
- הֵם
- זֶה
- אלה
- דרך
- זמן
- ל
- היום
- יַחַד
- טוקיו
- סוג
- איחוד האמירויות הערביות
- אוניברסיטה
- עד
- עדכון
- מְעוּדכָּן
- על
- us
- להשתמש
- משתמש
- משתמשים
- שימושים
- באמצעות
- v1
- תקף
- שונים
- גרסה
- באמצעות
- וירג'יניה
- לְבַקֵר
- רוצה
- וושינגטון
- דֶרֶך..
- we
- אינטרנט
- שירותי אינטרנט
- היו
- מערב
- אשר
- בזמן
- מי
- למה
- עם
- בתוך
- לְלֹא
- תיק עבודות
- עובד
- זרימת עבודה
- עובד
- עובד
- יאמל
- אתה
- זפירנט