כיצד אמזון מיוזיק משתמשת ב-SageMaker עם NVIDIA כדי לייעל את הביצועים והעלות של אימון ML והסקת מסקנות

הועלה מחדש על ידי אפלטון

עוקב: 0

בעולם הדינמי של סטרימינג הלאה אמזון מוסיקה, כל חיפוש אחר שיר, פודקאסט או פלייליסט מכיל סיפור, מצב רוח או מבול של רגשות שמחכים לחשיפה. חיפושים אלה משמשים שער לתגליות חדשות, חוויות אהובות וזיכרונות מתמשכים. סרגל החיפוש אינו רק מציאת שיר; זה על מיליוני המשתמשים הפעילים שמתחילים את המסע האישי שלהם לתוך העולם העשיר והמגוון שיש לאמזון מיוזיק להציע.

אספקת חווית לקוח מעולה כדי למצוא באופן מיידי את המוזיקה שמשתמשים מחפשים דורשת פלטפורמה שהיא גם חכמה וגם רספונסיבית. Amazon Music משתמשת בכוחה של AI כדי להשיג זאת. עם זאת, אופטימיזציה של חווית הלקוח תוך ניהול עלות ההדרכה וההסקת מודלים של AI המניעים את היכולות של סרגל החיפוש, כמו בדיקת איות בזמן אמת וחיפוש וקטורי, קשה בתקופות שיא של תנועה.

אמזון SageMaker מספק מערך שירותים מקצה לקצה המאפשר לאמזון מיוזיק לבנות, לאמן ולפרוס בענן AWS במינימום מאמץ. על ידי טיפול בהרמה הכבדה הבלתי מובחנת, SageMaker מאפשר לך להתמקד בעבודה על מודלים של למידת מכונה (ML) שלך, ולא לדאוג לדברים כמו תשתית. כחלק ממודל האחריות המשותפת, SageMaker דואגת שהשירותים שהם מספקים יהיו אמינים, ביצועיים וניתנים להרחבה, תוך שאתם מוודאים שהיישום של דגמי ה-ML מנצל בצורה הטובה ביותר את היכולות ש-SageMaker מספקת.

בפוסט זה, אנו עוברים על המסע שעברה Amazon Music כדי לייעל את הביצועים והעלות באמצעות SageMaker ו-NVIDIA Triton Inference Server ו-TensorRT. אנו צוללים עמוק לתוך מראה כיצד פועל סרגל החיפוש הפשוט לכאורה, אך המורכב הזה, ומבטיח מסע בלתי שבור אל היקום של Amazon Music עם עיכובים מתסכלים של שגיאות הקלדה ותוצאות חיפוש רלוונטיות בזמן אמת.

Amazon SageMaker ו-NVIDIA: אספקת יכולות חיפוש וקטור ובדיקת איות מהיר ומדויק

Amazon Music מציעה ספרייה עצומה של למעלה מ-100 מיליון שירים ומיליוני פרקי פודקאסט. עם זאת, מציאת השיר או הפודקאסט הנכונים יכולה להיות מאתגרת, במיוחד אם אינך יודע את השם המדויק, האמן או האלבום, או שאילתת החיפוש היא רחבה מאוד, כגון "פודקאסטים של חדשות".

אמזון מיוזיק נקטה בגישה דו-כיוונית לשיפור תהליך החיפוש והשליפה. הצעד הראשון הוא הצגת חיפוש וקטור (הידוע גם בשם אחזור מבוסס הטמעה), טכניקת ML שיכולה לעזור למשתמשים למצוא את התוכן הרלוונטי ביותר שהם מחפשים על ידי שימוש בסמנטיקה של התוכן. השלב השני כולל הצגת מודל של תיקון איות מבוסס שנאי בערימת החיפוש. זה יכול להיות מועיל במיוחד בעת חיפוש מוזיקה, מכיוון שמשתמשים לא תמיד יודעים את האיות המדויק של כותרת השיר או שם האמן. תיקון איות יכול לעזור למשתמשים למצוא את המוזיקה שהם מחפשים גם אם הם עושים שגיאת כתיב בשאילתת החיפוש שלהם.

הצגת דגמי שנאי בצנרת של חיפוש ושליפה (ביצירת הטמעת שאילתות הדרושה לחיפוש וקטור ומודל ה-Seq2Seq Transformer הגנרטיבי בתיקון איות) עשויה להוביל לעלייה משמעותית בהשהיה הכוללת, ולהשפיע לרעה על חווית הלקוח. לכן, זה הפך לעדיפות עליונה עבורנו לייעל את זמן ההסקה בזמן אמת למודלים של חיפוש וקטור ותיקון איות.

Amazon Music ו-NVIDIA חברו יחד כדי להביא את חווית הלקוח הטובה ביותר לשורת החיפוש, תוך שימוש ב-SageMaker כדי ליישם יכולות בדיקת איות מהירות ומדויקות והצעות חיפוש סמנטיות בזמן אמת תוך שימוש בטכניקות מבוססות חיפוש וקטור. הפתרון כולל שימוש באירוח של SageMaker המופעל על ידי מופעי G5 המשתמשים ב-NVIDIA A10G Tensor Core GPUs, הנתמכים על ידי SageMaker, NVIDIA Triton Inference Server Container, ו- NVIDIA TensorRT פורמט דגם. על ידי הפחתת זמן ההסקה של מודל בדיקת האיות ל-25 אלפיות שניות בשיא תעבורת, והפחתת זמן השהייה של יצירת הטמעת שאילתות חיפוש ב-63% בממוצע ובעלות של 73% בהשוואה להסקה מבוססת CPU, Amazon Music העלתה את ביצועי סרגל החיפוש.

בנוסף, כשהכשירה את מודל הבינה המלאכותית כדי לספק תוצאות מדויקות, אמזון מיוזיק השיגה האצה עצומה של פי 12 בזמן האימון עבור דגם שנאי ה-BART רצף לרצף של מתקן כישוף, וחסכה להם זמן וכסף, על ידי אופטימיזציה של ניצול ה-GPU שלהם.

Amazon Music שיתפה פעולה עם NVIDIA כדי לתעדף את חוויית החיפוש של הלקוח וליצור סרגל חיפוש עם פונקציונליות של בדיקת איות וחיפוש וקטור אופטימליים היטב. בסעיפים הבאים, אנו חולקים מידע נוסף על האופן שבו אופטימיזציות אלו תוכננו.

אופטימיזציה של אימון עם GPUs Tensor Core של NVIDIA

השגת גישה ל-NVIDIA Tensor Core GPU לאימון מודלים של שפות גדולות אינה מספיקה כדי ללכוד את הפוטנציאל האמיתי שלו. ישנם שלבי אופטימיזציה מרכזיים שחייבים לקרות במהלך האימון על מנת למקסם את ניצול ה-GPU במלואו. עם זאת, GPU לא מנוצל ללא ספק יוביל לשימוש לא יעיל במשאבים, משכי אימון ממושכים ועלויות תפעול מוגברות.

במהלך השלבים הראשוניים של האימון מתקן האיות BART (בארט-בסיס) דגם שנאי במופע SageMaker ml.p3.24xlarge (8 NVIDIA V100 Tensor Core GPUs), ניצול ה-GPU של Amazon Music היה בסביבות 35%. כדי למקסם את היתרונות של הכשרה מואצת של NVIDIA GPU, ארכיטקטי הפתרונות של AWS ו-NVIDIA תמכו ב-Amazon Music בזיהוי אזורים למיטובים, במיוחד סביב גודל האצווה ופרמטרי הדיוק. שני פרמטרים מכריעים אלה משפיעים על היעילות, המהירות והדיוק של אימון מודלים של למידה עמוקה.

האופטימיזציות שהתקבלו הניבו ניצול V100 GPU חדש ומשופר, יציב בסביבות 89%, והפחית באופן דרסטי את זמן האימון של Amazon Music מ-3 ימים ל-5-6 שעות. על ידי החלפת גודל האצווה מ-32 ל-256 ושימוש בטכניקות אופטימיזציה כמו ריצה אימון דיוק מעורב אוטומטי במקום להשתמש רק בדייקנות FP32, Amazon Music הצליחה לחסוך זמן וכסף כאחד.

התרשים הבא ממחיש את העלייה של 54% בנקודת האחוז בניצול ה-GPU לאחר אופטימיזציות.

האיור הבא ממחיש את התאוצה בזמן האימון.

הגידול הזה בגודל האצווה אפשר ל-NVIDIA GPU לעבד משמעותית יותר נתונים במקביל על פני מספר ליבות Tensor, וכתוצאה מכך זמן אימון מואץ. עם זאת, חשוב לשמור על איזון עדין עם הזיכרון, מכיוון שגדלי אצווה גדולים יותר דורשים יותר זיכרון. גם הגדלת גודל האצווה וגם שימוש בדיוק מעורב יכולים להיות קריטיים בפתיחת הכוח של NVIDIA Tensor Core GPUs.

לאחר שהמודל הוכשר להתכנסות, הגיע הזמן לבצע אופטימיזציה לפריסת מסקנות בסרגל החיפוש של אמזון מיוזיק.

תיקון איות: הסקת מודל BART

בעזרת מופעי SageMaker G5 ו-NVIDIA Triton Inference Server (תוכנת הגשת הסקות בקוד פתוח), כמו גם NVIDIA TensorRT, SDK להסקת למידה עמוקה בעלת ביצועים גבוהים הכוללת אופטימיזציית הסקת מסקנות וזמן ריצה, אמזון מיוזיק מגבילה את בדיקת האיות שלהם BART (בארט-בסיס) זמן השהייה של מסקנות שרת עד 25 אלפיות שניות בלבד בתעבורה שיא. זה כולל תקורה כמו איזון עומסים, עיבוד מקדים, הסקת מודלים וזמני עיבוד לאחר.

NVIDIA Triton Inference Server מספק שני קצה אחורי מסוגים שונים: אחד לאירוח דגמים ב-GPU, ו-Python backend שבו אתה יכול להביא קוד מותאם אישית משלך שישמש בשלבי עיבוד מקדים ואחרי עיבוד. האיור הבא ממחיש את ערכת אנסמבל מודל.

אמזון מיוזיק בנתה את ה-BART שלה צינור מסקנות על ידי הפעלת שלבי עיבוד מקדים (אסימון טקסט) ועיבוד שלאחר (אסימונים לטקסט) במעבדים, בעוד ששלב ביצוע המודל פועל על NVIDIA A10G Tensor Core GPUs. קצה אחורי של Python יושב באמצע שלבי העיבוד המקדים והפוסט-עיבוד, ואחראי לתקשורת עם דגמי ה-BART שהוסבו TensorRT וכן עם רשתות המקודד/מפענחים. TensorRT מגביר את ביצועי ההסקות עם כיול מדויק, היתוך שכבות וטנסור, כוונון אוטומטי של ליבה, זיכרון טנזור דינמי, ביצוע ריבוי זרם והיתוך זמן.

האיור הבא ממחיש את העיצוב ברמה הגבוהה של מודולי המפתח המרכיבים את צינור ההסקה של מודל BART של מתקן האיות.

חיפוש וקטור: שאילתה הטמעת משפט הדור BERT מסקנות מודל

התרשים הבא ממחיש את השיפור של 60% בהשהיה (משרת P90 800–900 TPS) בעת שימוש בפלטפורמת ה-NVIDIA AI Inference Platform בהשוואה לקו בסיס מבוסס מעבד.

הטבלה הבאה מציגה שיפור של 70% בעלות בעת שימוש בפלטפורמת NVIDIA AI Inference Platform בהשוואה לקו בסיס מבוסס מעבד.

האיור הבא ממחיש SDK להסקת למידה עמוקה בעלת ביצועים גבוהים. הוא כולל אופטימיזציית הסקת מסקנות למידה עמוקה וזמן ריצה המספק חביון נמוך ותפוקה גבוהה עבור יישומי מסקנות.

כדי להשיג תוצאות אלו, אמזון מיוזיק התנסתה בכמה פרמטרים שונים של פריסת Triton באמצעות מנתח מודלים של טריטון, כלי שעוזר למצוא את תצורת הדגם הטובה ביותר של NVIDIA Triton כדי לפרוס הסקה יעילה. כדי לייעל את הסקת המודל, Triton מציע תכונות כמו אצווה דינמית וביצוע מודל במקביל, ויש לו תמיכת מסגרת ליכולות גמישות אחרות. האצווה הדינמית אוספת בקשות מסקנות, ומקבצת אותן בצורה חלקה לקבוצות על מנת למקסם את התפוקה, כל זאת תוך הבטחת תגובות בזמן אמת למשתמשי אמזון מיוזיק. יכולת ביצוע המודל במקביל משפרת עוד יותר את ביצועי ההסקה על ידי אירוח עותקים מרובים של הדגם על אותו GPU. לבסוף, על ידי ניצול מנתח מודלים של טריטון, אמזון מיוזיק הצליחה לכוונן בקפידה את האצווה הדינמית ולדגמן פרמטרים של אירוח מסקנות בו-זמנית כדי למצוא הגדרות אופטימליות שממקסמות את ביצועי ההסקות באמצעות סימולציה של תעבורה.

סיכום

אופטימיזציה של תצורות עם Triton Inference Server ו-TensorRT ב- SageMaker אפשרה לאמזון מיוזיק להשיג תוצאות יוצאות דופן עבור צינורות אימון והסקה כאחד. פלטפורמת SageMaker היא הפלטפורמה הפתוחה מקצה לקצה עבור בינה מלאכותית של ייצור, המספקת זמן מהיר לערך וגיוון לתמיכה בכל מקרי השימוש העיקריים בבינה מלאכותית בחומרה ותוכנה. על ידי אופטימיזציה של ניצול V100 GPU לאימון ומעבר ממעבדים למופעי G5 באמצעות NVIDIA A10G Tensor Core GPUs, כמו גם על ידי שימוש בתוכנת NVIDIA אופטימלית כמו Triton Inference Server ו-TensorRT, חברות כמו Amazon Music יכולות לחסוך זמן וכסף תוך שיפור הביצועים בשניהם הדרכה והסקת מסקנות, המתורגמות ישירות לחוויית לקוח טובה יותר ועלויות תפעול נמוכות יותר.

SageMaker מטפל בהרמה הכבדה הבלתי מובחנת עבור אימון ואירוח ML, ומאפשר לאמזון מיוזיק לספק פעולות ML אמינות וניתנות להרחבה על פני חומרה ותוכנה כאחד.

אנו ממליצים לך לבדוק שעומסי העבודה שלך עוברים אופטימיזציה באמצעות SageMaker על ידי הערכה תמידית של בחירות החומרה והתוכנה שלך כדי לראות אם יש דרכים בהן תוכל להשיג ביצועים טובים יותר עם ירידה בעלויות.

למידע נוסף על NVIDIA AI ב-AWS, עיין בפרטים הבאים:

על המחברים

כיצד אמזון מיוזיק משתמשת ב-SageMaker עם NVIDIA כדי לייעל את הביצועים והעלות של אימון ML וביצועי מסקנות | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. סידהארט שארמה הוא מוביל טכני של למידת מכונה בצוות מדע ומודלים באמזון מיוזיק. הוא מתמחה בבעיות דוגמנות הקשורות לחיפוש, אחזור, דירוג ו-NLP. לסידהארת' יש רקע עשיר בעבודה על בעיות למידת מכונה בקנה מידה גדול הרגישות לזמן השהייה, למשל מיקוד מודעות, אחזור רב מודאלי, הבנת שאילתות חיפוש וכו'. לפני העבודה באמזון מיוזיק, סידהארת' עבד בחברות כמו Meta, Walmart Labs, Rakuten על בעיות ML ממוקדות במסחר אלקטרוני. סידהארט בילה חלק מוקדם של הקריירה שלו בעבודה עם סטארט-אפים בתחום הפרסומות באזור המפרץ.

כיצד אמזון מיוזיק משתמשת ב-SageMaker עם NVIDIA כדי לייעל את הביצועים והעלות של אימון ML וביצועי מסקנות | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. טארון שארמה הוא מנהל פיתוח תוכנה המוביל את הרלוונטיות לחיפוש מוזיקה באמזון. צוות המדענים ומהנדסי ML שלו אחראי לספק תוצאות חיפוש רלוונטיות ומותאמות אישית ללקוחות אמזון מיוזיק.

כיצד אמזון מיוזיק משתמשת ב-SageMaker עם NVIDIA כדי לייעל את הביצועים והעלות של אימון ML וביצועי מסקנות | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. פארק ג'יימס הוא אדריכל פתרונות בשירותי האינטרנט של אמזון. הוא עובד עם Amazon.com כדי לתכנן, לבנות ולפרוס פתרונות טכנולוגיים ב-AWS, ויש לו עניין מיוחד בבינה מלאכותית ולמידת מכונה. בזמן הפנוי הוא נהנה לחפש תרבויות חדשות, חוויות חדשות ולהישאר מעודכן בטרנדים הטכנולוגיים העדכניים ביותר. אתה יכול למצוא אותו באתר לינקדין.

קשיטיס גופטה הוא אדריכל פתרונות ב-NVIDIA. הוא נהנה לחנך את לקוחות הענן על טכנולוגיות GPU AI שיש ל-NVIDIA להציע ולסייע להם בהאצת יישומי למידת המכונה ולמידה עמוקה שלהם. מחוץ לעבודה, הוא נהנה לרוץ, לטייל ולצפות בחיות בר.

ג'יהונג ליו הוא ארכיטקט פתרונות בצוות ספק שירותי הענן ב-NVIDIA. הוא מסייע ללקוחות באימוץ פתרונות למידת מכונה ו-AI הממנפים את המחשוב המואץ של NVIDIA כדי להתמודד עם אתגרי ההכשרה וההסקות שלהם. בשעות הפנאי שלו הוא נהנה מאוריגמי, פרויקטים של עשה זאת בעצמך ולשחק כדורסל.

כיצד אמזון מיוזיק משתמשת ב-SageMaker עם NVIDIA כדי לייעל את הביצועים והעלות של אימון ML וביצועי מסקנות | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. טוגרול קונוק הוא ארכיטקט פתרונות בכיר ב-NVIDIA, המתמחה בהדרכה בקנה מידה גדול, למידה עמוקה מולטי-מודאלית ומחשוב מדעי בעל ביצועים גבוהים. לפני NVIDIA, הוא עבד בתעשיית האנרגיה, והתמקד בפיתוח אלגוריתמים להדמיה חישובית. כחלק מהדוקטורט שלו, הוא עבד על למידה עמוקה מבוססת פיזיקה עבור סימולציות מספריות בקנה מידה. בשעות הפנאי הוא אוהב לקרוא, לנגן בגיטרה ובפסנתר.

אליוט טריאנה איזאזה הוא מנהל קשרי מפתחים ב-NVIDIA המעצים את ה-AI MLOps, DevOps, Scientists ו-AWS של אמזון לשלוט בערימת המחשוב של NVIDIA להאצה ואופטימיזציה של מודלים Generative AI Foundation החל מאצירת נתונים, הדרכה של GPU, הסקת מודלים ופריסה של מופעי AWS GPU . בנוסף, אליוט הוא רוכב הרים נלהב, גולש סקי, טניס ופוקר.

הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
מקור: https://aws.amazon.com/blogs/machine-learning/how-amazon-music-uses-sagemaker-with-nvidia-to-optimize-ml-training-and-inference-performance-and-cost/

בול זמן: 21 בנובמבר 2023

בול זמן: מר 1, 2023

הועלה מחדש על ידי אפלטון

הצגת כוונון פופולריות עבור פריטים דומים באמזון התאמה אישית | שירותי האינטרנט של אמזון

מאגרי ידע ב-Amazon Bedrock מפשטים כעת שאילת שאלות על מסמך בודד | שירותי האינטרנט של אמזון

צמצם את צריכת האנרגיה בעומסי העבודה של למידת המכונה שלך עד 90% עם מאיצים ייעודיים של AWS | שירותי האינטרנט של אמזון

Amazon SageMaker עם TensorBoard: סקירה כללית של חוויית TensorBoard מתארחת

הגדלת עסקאות הונאה באמצעות נתונים סינתטיים באמזון SageMaker

שפר את הממשל של מודלים של למידת מכונה שלך עם Amazon SageMaker

פשט למידה מתמשכת של מודלים מותאמים אישית של Amazon Comprehend באמצעות גלגל תנופה של Comprehend

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן