שפר את ביצועי התפוקה של דגמי Llama 2 באמצעות Amazon SageMaker

הועלה מחדש על ידי אפלטון

עוקב: 0

אנו נמצאים בנקודת פיתול מרגשת באימוץ הנרחב של למידת מכונה (ML), ואנו מאמינים שרוב חוויות הלקוחות והיישומים יומצאו מחדש עם AI גנרטיבי. AI גנרטיבי יכול ליצור תוכן ורעיונות חדשים, כולל שיחות, סיפורים, תמונות, סרטונים ומוזיקה. כמו רוב הבינה המלאכותית, הבינה המלאכותית הגנרטיבית מופעלת על ידי מודלים של ML - מודלים גדולים מאוד שמאומנים על כמויות עצומות של נתונים ומכונה בדרך כלל מודלים בסיסיים (FMs). FMs מבוססים על שנאים. רובוטריקים איטיים ותאבי זיכרון ביצירת רצפי טקסט ארוכים בשל הגודל העצום של הדגמים. מודלים של שפה גדולים (LLMs) המשמשים ליצירת רצפי טקסט זקוקים לכמויות אדירות של כוח מחשוב ומתקשים לגשת לזיכרון ברוחב פס גבוה (HBM) ולקיבולת המחשוב. הסיבה לכך היא שחלק גדול מרוחב הפס הזמין של הזיכרון נצרך על ידי טעינת הפרמטרים של הדגם ועל ידי תהליך פענוח אוטומטי רגרסיביכתוצאה מכך, אפילו עם כמויות עצומות של כוח מחשוב, LLMs מוגבלים על ידי זיכרון קלט/פלט ומגבלות חישוב, ומונעים מהם לנצל את מלוא היתרונות של משאבי החומרה הזמינים.

בסך הכל, להסקת מסקנות יצירתיות של LLMs יש שלושה אתגרים עיקריים (לפי פופ וחב'. 2022):

טביעת זיכרון גדולה עקב פרמטרים מסיביים של דגם ומצב חולף במהלך הפענוח. הפרמטרים לרוב עולים על הזיכרון של שבב מאיץ בודד. תשומת לב מטמונים של ערך מפתח דורשים גם זיכרון משמעותי.
יכולת הקבלה נמוכה מגדילה את זמן ההשהיה, במיוחד עם טביעת הרגל הגדולה של הזיכרון, הדורשת העברות נתונים משמעותיות לטעינת פרמטרים ומטמונים לליבות מחשוב בכל שלב. כתוצאה מכך יש צורך ברוחב פס כולל גבוה של הזיכרון כדי לעמוד ביעדי השהייה.
קנה מידה ריבועי של חישוב מנגנון קשב ביחס לאורך הרצף מרכיב את האתגרים החישוביים והחביון.

אצווה היא אחת הטכניקות להתמודדות עם אתגרים אלו. אצווה מתייחסת לתהליך של שליחת רצפי קלט מרובים יחד ל-LLM ובכך לייעל את הביצועים של הסקת ה-LLM. גישה זו עוזרת לשפר את התפוקה מכיוון שאין צורך לטעון פרמטרים של מודל עבור כל רצף קלט. ניתן לטעון את הפרמטרים פעם אחת ולהשתמש בהם לעיבוד רצפי קלט מרובים. אצווה מנצלת ביעילות את רוחב הפס HBM של המאיץ, וכתוצאה מכך ניצול מחשוב גבוה יותר, תפוקה משופרת והסקה חסכונית.

פוסט זה בוחן טכניקות למקסם את התפוקה באמצעות טכניקות אצווה להסקה מחוללת מקבילה ב-LLMs. אנו דנים בשיטות אצווה שונות כדי להפחית את טביעת הרגל של הזיכרון, להגביר את יכולת ההקבלה ולהפחית את קנה המידה הריבועי של תשומת הלב כדי להגביר את התפוקה. המטרה היא להשתמש באופן מלא בחומרה כמו HBM ומאיצים כדי להתגבר על צווארי בקבוק בזיכרון, I/O וחישוב. לאחר מכן נדגיש כיצד אמזון SageMaker מיכלי למידה עמוקה (DLC) יכולים לעזור בטכניקות אלו. לבסוף, אנו מציגים ניתוח השוואתי של שיפורים בתפוקה עם כל אסטרטגיית אצווה ב- SageMaker באמצעות LMI DLCs כדי לשפר את התפוקה עבור דגמים כמו לאמה v2. אתה יכול למצוא מחברת לדוגמה נלווית ב- SageMaker דוגמת מאגר GitHub.

הסקת מסקנות עבור מודלים של שפות גדולות (LLMs)

פענוח אוטורגרסיבי הוא התהליך שבו מודלים של שפה כמו GPT מייצרים פלט טקסט אחד בכל פעם. זה כולל הזנה רקורסיבית של אסימונים שנוצרו בחזרה לתוך המודל כחלק מרצף הקלט על מנת לחזות את האסימונים הבאים. השלבים הם כדלקמן:

הדגם מקבל את האסימונים הקודמים ברצף כקלט. עבור השלב הראשון, זוהי הוראת ההתחלה שסופק על ידי המשתמש.
המודל חוזה התפלגות על אוצר המילים עבור האסימון הבא.
האסימון בעל ההסתברות החזויה הגבוהה ביותר נבחר ומצורף לרצף הפלט. שלבים 2 ו-3 הם חלק מה- פִּעַנוּחַ נכון לכתיבת שורות אלו, שיטות הפענוח הבולטות ביותר הן חיפוש חמדני, חיפוש קרן, חיפוש ניגודי ודגימה.
האסימון החדש הזה מתווסף לרצף הקלט עבור שלב הפענוח הבא.
המודל חוזר על שלבים אלה, ומייצר אסימון חדש אחד בכל שלב, עד להפקת סמן של סוף הרצף או להגיע לאורך הפלט הרצוי.

מודל הגשה עבור לימודי תואר שני

הגשת מודלים עבור LLMs מתייחסת לתהליך של קבלת בקשות קלט להפקת טקסט, הסקת מסקנות והחזרת התוצאות ליישומים המבקשים. להלן מושגי מפתח המעורבים בהגשת מודלים:

לקוחות מייצרים מספר בקשות להסיק, כאשר כל בקשה מורכבת מרצף של אסימונים או הנחיות קלט
בקשות מתקבלות על ידי שרת ההסקות (לדוגמה, DJLSserving, לפידרבס, טריטון, או חיבוק פנים TGI)
שרת ההסקות מקבץ את בקשות ההסקה ומתזמן את האצווה למנוע הביצוע הכולל ספריות חלוקת מודלים (כגון רובוטריקים-NeuronX, DeepSpeed, להאיץ, או FasterTransformer) להפעלת המעבר קדימה (חיזוי רצף אסימון הפלט) במודל השפה הינרטיבי
מנוע הביצוע מייצר אסימוני תגובה ושולח את התגובה בחזרה לשרת ההסקות
שרת ההסקות משיב ללקוחות עם התוצאות שנוצרו

שפר את ביצועי התפוקה של דגמי Llama 2 באמצעות Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

ישנם אתגרים בתזמון ברמת הבקשה כאשר שרת ההסקות מקיים אינטראקציה עם מנוע הביצוע ברמת הבקשה, כגון כל בקשה באמצעות תהליך Python, הדורש עותק נפרד של המודל, שהוא מגביל זיכרון. לדוגמה, כפי שמוצג באיור הבא, אתה יכול להכיל רק עותק בודד של דגם בגודל 80 GB במופע למידת מכונה (ML) עם 96 GB של זיכרון מכשיר מאיץ כולל. תצטרך לטעון עותק נוסף של המודל כולו אם תרצה להגיש בקשות נוספות במקביל. זה לא זיכרון וחסכוני.

שפר את ביצועי התפוקה של דגמי Llama 2 באמצעות Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

כעת, לאחר שאנו מבינים את האתגרים שמציבים תזמון ברמת הבקשה, בואו נסתכל על טכניקות אצווה שונות שיכולות לסייע באופטימיזציה של התפוקה.

טכניקות אצווה

בחלק זה, אנו מסבירים טכניקות אצווה שונות ומראים כיצד ליישם אותן באמצעות SageMaker מיכל LMI.

שפר את ביצועי התפוקה של דגמי Llama 2 באמצעות Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

ישנם שני סוגים עיקריים של אצווה עבור בקשות להסיק:

צד הלקוח (סטטי) - בדרך כלל, כאשר לקוח שולח בקשה לשרת, השרת יעבד כל בקשה ברצף כברירת מחדל, שאינה אופטימלית לתפוקה. כדי לייעל את התפוקה, הלקוח מקבץ את בקשות ההסקה במטען היחיד והשרת מיישם את היגיון העיבוד המקדים כדי לפרק את האצווה למספר בקשות ומריץ את ההסקה עבור כל בקשה בנפרד. באפשרות זו, הלקוח צריך לשנות את הקוד עבור אצווה והפתרון מחובר באופן הדוק לגודל האצווה.
בצד השרת (דינמי) - טכניקה נוספת לעיבוד אצווה היא להשתמש בהסקה כדי לסייע בהשגת האצווה בצד השרת. כאשר בקשות הסקה עצמאיות מגיעות לשרת, שרת ההסקה יכול לקבץ אותן באופן דינמי לקבוצות גדולות יותר בצד השרת. שרת ההסקות יכול לנהל את האצווה כדי לעמוד ביעד השהייה שצוין, ולמקסם את התפוקה תוך הישארות בטווח ההשהיה הרצוי. שרת ההסקות מטפל בזה באופן אוטומטי, כך שאין צורך בשינויי קוד בצד הלקוח. האצווה בצד השרת כוללת טכניקות שונות למיטוב התפוקה עוד יותר עבור מודלים של שפות גנרטיביות המבוססות על הפענוח האוטו-רגרסיבי. טכניקות אצווה אלו כוללות אצווה דינמית, אצווה רציפה ו- PagedAttention (vLLM) אצווה.

אצווה דינמית

אצווה דינמית מתייחסת לשילוב בקשות הקלט ושליחתן יחד כאצווה להסקה. אצווה דינמית היא טכניקת אצווה גנרית בצד השרת שעובדת עבור כל המשימות, כולל ראייה ממוחשבת (CV), עיבוד שפה טבעית (NLP) ועוד.

במיכל LMI, אתה יכול להגדיר את אצווה הבקשות בהתבסס על ההגדרות הבאות ב הגשה.נכסים:

גודל_ אצווה - מתייחס לגודל האצווה
max_batch_delay – מתייחס לעיכוב המקסימלי עבור צבירת אצווה

אם אחד מהספים הללו מתקיים (עמידה בגודל האצווה המרבי או השלמת תקופת ההמתנה), אזי אצווה חדשה מוכנה ונדחפת למודל להסקת מסקנות. התרשים הבא מציג את האצווה הדינמית של בקשות עם אורכי רצף קלט שונים המעובדים יחד על ידי המודל.

שפר את ביצועי התפוקה של דגמי Llama 2 באמצעות Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

אתה יכול ליישם אצווה דינמית ב- SageMaker על ידי קביעת התצורה של מיכל ה-LMI הגשה.נכסים באופן הבא:

#Dynamic Batching
engine=Python
option.entryPoint=djl_python.huggingface
batch_size=64 #example
max_batch_delay=1000 #example
option.tensor_parallel_degree=2 #example

למרות שאצווה דינמית יכולה לספק גידול של עד פי ארבעה בתפוקה בהשוואה ללא אצווה, אנו רואים ששימוש ב-GPU אינו אופטימלי במקרה זה מכיוון שהמערכת לא יכולה לקבל אצווה נוספת עד שכל הבקשות יסתיימו בעיבוד.

אצווה רציפה

אצווה רציפה היא אופטימיזציה ספציפית ליצירת טקסט. זה משפר את התפוקה ואינו מקריב את הזמן עד להשהייה של בייט ראשון. אצווה רציפה (ידוע גם בשם איטרטיבי or אצווה מתגלגלת) נותן מענה לאתגר של זמן GPU סרק ומתבסס על גישת האצווה הדינמית על ידי דחיפה מתמשכת של בקשות חדשות יותר באצווה. התרשים הבא מציג אצווה מתמשכת של בקשות. כאשר בקשות 2 ו-3 מסתיימות לעיבוד, מתוזמנת קבוצה נוספת של בקשות.

שפר את ביצועי התפוקה של דגמי Llama 2 באמצעות Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

הדיאגרמה האינטראקטיבית הבאה צוללת לעומק כיצד פועלת אצווה רציפה.

שפר את ביצועי התפוקה של דגמי Llama 2 באמצעות Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

(דרך ארץ: https://github.com/InternLM/lmdeploy)

אתה יכול להשתמש בטכניקה רבת עוצמה כדי להפוך LLMs ויצירת טקסט ליעילים: שמירה במטמון של כמה ממטריצות הקשב. המשמעות היא שהמעבר הראשון של הנחיה שונה מהמעברים הקדמיים הבאים. עבור המעבר הראשון, עליך לחשב את כל מטריצת הקשב, בעוד שהמעקבים רק דורשים ממך לחשב את הקשב האסימון החדש. המעבר הראשון נקרא מילוי מראש בכל בסיס הקוד הזה, בעוד שהמעקבים נקראים לְפַעֲנֵחַ. מכיוון ש-prefill הוא הרבה יותר יקר מפענוח, אנחנו לא רוצים לעשות את זה כל הזמן, אבל שאילתה שפועלת כרגע עושה כנראה פענוח. אם אנו רוצים להשתמש באצווה רציפה כפי שהוסבר קודם לכן, עלינו להפעיל מילוי מראש בשלב מסוים על מנת ליצור את מטריצת הקשב הנדרשת כדי להצטרף לקבוצת הפענוח.

טכניקה זו עשויה לאפשר גידול של עד פי 20 בתפוקה בהשוואה ללא אצווה על ידי ניצול יעיל של ה-GPUs בטלים.

אתה יכול לכוונן את הפרמטרים הבאים serving.properties של מיכל LMI לשימוש באצווה רציפה:

מנוע – מנוע זמן הריצה של הקוד. הערכים כוללים Python, DeepSpeed, FasterTransformer, ו MPI. להשתמש MPI כדי לאפשר אצווה רציפה.
אצווה_מתגלגלת - מאפשר אצווה ברמת איטרציה באמצעות אחת מהאסטרטגיות הנתמכות. הערכים כוללים auto, scheduler, ו lmi-dist. אנו משתמשים lmi-dist להפעלת אצווה רציפה עבור Llama 2.
גודל_גלגול_מקסימום – מגביל את מספר הבקשות במקביל באצווה הרציפה. ברירת המחדל היא 32.
max_rolling_batch_prefill_tokens – מגביל את מספר האסימונים לאחסון במטמון. יש לכוונן את זה על סמך גודל אצווה ואורך רצף קלט כדי למנוע את חוסר הזיכרון של GPU. זה נתמך רק מתי rolling_batch=lmi-dist. ההמלצה שלנו היא להגדיר את הערך על סמך מספר הבקשות במקביל x הזיכרון הנדרש לאחסון אסימוני קלט ואסימוני פלט לכל בקשה.

להלן קוד לדוגמה עבור serving.properties להגדרת אצווה רציפה:

#Continuous Batching
engine=MPI
option.entryPoint=djl_python.huggingface
option.rolling_batch=auto
option.max_rolling_batch_size=64 #example
option.paged_attention=false
option.max_rolling_batch_prefill_tokens=16080 #example
option.tensor_parallel_degree=2 #example

PagedAttention אצווה

בתהליך הפענוח האוטורגרסיבי, כל אסימוני הקלט ל-LLM מייצרים את טנסורי מפתח הקשב והערך שלהם, וטנסורים אלו נשמרים בזיכרון ה-GPU כדי ליצור אסימונים הבאים. טנזורי המפתח והערכים האלו מכונה לעתים קרובות ה- מטמון KV or מטמון תשומת הלב. לפי העיתון vLLM: הגשת LLM קלה, מהירה וזולה עם PagedAttention, מטמון KV לוקח עד 1.7 GB עבור רצף בודד ב-Llama 13B. זה גם דינמי. גודלו תלוי באורך הרצף, שהוא מאוד משתנה ובלתי צפוי. כתוצאה מכך, ניהול יעיל של מטמון KV מהווה אתגר משמעותי. המאמר מצא שמערכות קיימות מבזבזות 60-80% מהזיכרון בגלל פיצול ושימור יתר.

PagedAttention הוא אלגוריתם אופטימיזציה חדש שפותח על ידי UC Berkeley המשפר את תהליך האצווה הרציף על ידי מתן אפשרות למטמון הקשב (KV cache) להיות לא רציף על ידי הקצאת זיכרון בדפים או בלוקים בגודל קבוע. זה בהשראת זיכרון וירטואלי ומושגי החלפה המשמשים מערכות הפעלה.

לפי מאמר vLLM, מטמון הקשב של כל רצף של אסימונים מחולק לבלוקים וממוף לבלוקים פיזיים דרך טבלת בלוקים. במהלך חישוב הקשב, ליבת PagedAttention יכולה להשתמש בטבלת הבלוקים כדי להביא ביעילות את הבלוקים מהזיכרון הפיזי. זה מביא להפחתה משמעותית של בזבוז זיכרון ומאפשר גודל אצווה גדול יותר, ניצול מוגברת של GPU ותפוקה גבוהה יותר. האיור הבא ממחיש את חלוקת מטמון הקשב לדפים לא רציפים.

שפר את ביצועי התפוקה של דגמי Llama 2 באמצעות Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

התרשים הבא מציג דוגמה להסקה עם PagedAttention. השלבים המרכזיים הם:

הבקשה להסיק מתקבלת עם הנחית קלט.
בשלב המילוי המוקדם, תשומת הלב מחושבת וערכי מפתח מאוחסנים בזיכרון פיזי לא רציף וממופים לבלוקים לוגיים של ערך מפתח. מיפוי זה מאוחסן בטבלת בלוק.
הוראת הקלט מופעלת דרך המודל (מעבר קדימה) כדי ליצור את אסימון התגובה הראשון. במהלך יצירת אסימון התגובה, נעשה שימוש במטמון הקשב משלב המילוי המוקדם.
במהלך יצירת אסימון עוקב, אם הבלוק הפיזי הנוכחי מלא, זיכרון נוסף מוקצה באופן לא רציף, מה שמאפשר הקצאה בדיוק בזמן.

שפר את ביצועי התפוקה של דגמי Llama 2 באמצעות Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

PagedAttention מסייע בשימוש כמעט אופטימלי בזיכרון ובהפחתת בזבוז זיכרון. זה מאפשר לקבץ יותר בקשות יחד, וכתוצאה מכך לעלייה משמעותית בתפוקה של הסקת מסקנות.

הקוד הבא הוא דוגמה serving.properties להגדרת אצווה של PagedAttention במיכל LMI ב- SageMaker:

#Paged Attention Batching
engine=MPI
option.entryPoint=djl_python.huggingface
option.rolling_batch=auto
option.max_rolling_batch_size=64 #example
option.paged_attention=true
option.max_rolling_batch_prefill_tokens=16080 #example
option.tensor_parallel_degree=2 #example

מתי להשתמש באיזו טכניקת אצווה

האיור הבא מסכם את טכניקות האצווה בצד השרת יחד עם הדוגמה serving.properties ב-LMI על SageMaker.

שפר את ביצועי התפוקה של דגמי Llama 2 באמצעות Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

הטבלה הבאה מסכמת את טכניקות האצווה השונות ואת מקרי השימוש בהן.

	PagedAttention Batching	אצווה רציפה	אצווה דינמית	אצווה בצד הלקוח	אין אצווה
איך זה עובד	תמיד למזג בקשות חדשות ברמת האסימון יחד עם בלוקים מדפים ולעשות הסקת אצווה.	תמיד למזג בקשה חדשה ברמת האסימון ולבצע הסקת אצווה.	מיזוג הבקשה החדשה ברמת הבקשה; יכול לעכב כמה אלפיות שניות ליצירת אצווה.	הלקוח אחראי לאגד מספר בקשות הסקת מסקנות באותו מטען לפני שליחתו לשרת ההסקות.	כשמגיעה בקשה, הפעל את ההסקה מיד.
כשזה עובד הכי טוב	זוהי הגישה המומלצת עבור נתמך דגמי מפענח בלבד. זה מתאים לעומסי עבודה מותאמים לתפוקה. זה ישים רק למודלים של יצירת טקסט.	בקשות במקביל מגיעות בזמנים שונים עם אותה אסטרטגיית פענוח. זה מתאים לעומסי עבודה מותאמים לתפוקה. זה ישים רק למודלים של יצירת טקסט.	בקשות במקביל מגיעות בזמנים שונים עם אותה אסטרטגיית פענוח. זה מתאים לעומסי עבודה רגישים לזמן תגובה הזקוקים לתפוקה גבוהה יותר. זה חל על קורות חיים, NLP וסוגים אחרים של דגמים.	זה מתאים למקרים של שימוש בהסקת מסקנות לא מקוונות שאין להם אילוצי חביון כדי למקסם את התפוקה.	בקשות להסקה נדירות או בקשות להסקת הסקה עם אסטרטגיות פענוח שונות. זה מתאים לעומסי עבודה עם צרכי אחזור קפדניים של זמן תגובה.

השוואת תפוקה של טכניקות אצווה שונות עבור מודל מחולל גדול ב- SageMaker

ביצענו השוואת ביצועים על א Lama v2 7B מודל על SageMaker באמצעות מיכל LMI וטכניקות האצווה השונות שנדונו בפוסט זה עם בקשות נכנסות במקביל של 50 ומספר כולל של בקשות של 5,000.

השתמשנו בשלוש הנחיות קלט שונות באורכים משתנים עבור מבחן הביצועים. באצווה מתמשכת ו- PagedAttention, אורכי אסימוני הפלט נקבעו ל-64, 128 ו-256 עבור שלוש הנחיות הקלט, בהתאמה. עבור אצווה דינמית, השתמשנו באורך אסימון פלט עקבי של 128 אסימונים. פרסנו עבור הבדיקה נקודות קצה של SageMaker עם סוג מופע של ml.g5.24xlarge. הטבלה הבאה מכילה את תוצאות מבחני השוואת הביצועים.

מספר סימוכין	אסטרטגיית אצווה	בקשות לשנייה ב-ml.g5.24xlarge
LLaMA2-7b	אצווה דינמית	3.24
LLaMA2-7b	אצווה רציפה	6.92
LLaMA2-7b	PagedAttention Batching	7.41

אנו רואים עלייה של פי 2.3 בערך בתפוקה על ידי שימוש ב-PagedAttention אצווה בהשוואה לאצווה דינמית עבור מודל Llama2-7B ב- SageMaker באמצעות מיכל LMI.

סיכום

בפוסט זה, הסברנו טכניקות אצווה שונות להסקת LLMs וכיצד זה עוזר להגדיל את התפוקה. הראינו כיצד טכניקות אופטימיזציה של זיכרון יכולות להגביר את יעילות החומרה על ידי שימוש באצווה מתמשכת ו- PagedAttention ולספק ערכי תפוקה גבוהים יותר מאשר אצווה דינמית. ראינו עלייה של פי 2.3 בערך בתפוקה על ידי שימוש באצווה של PagedAttention בהשוואה לאצווה דינמית עבור דגם Llama2-7B ב- SageMaker באמצעות מיכל LMI. אתה יכול למצוא את המחברת המשמשת לבדיקת טכניקות האצווה השונות GitHub.

על המחברים

שפר את ביצועי התפוקה של דגמי Llama 2 באמצעות Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. גגן סינג הוא מנהל חשבונות טכניים בכיר ב-AWS, שם הוא שותף עם סטארט-אפים מקוריים דיגיטליים כדי לסלול את דרכם להצלחה עסקית מוגברת. עם נישה בהנעת יוזמות למידת מכונה, הוא ממנף את Amazon SageMaker, תוך שימת דגש על פתרונות למידה עמוקה ויצירתיות בינה מלאכותית. בזמנו הפנוי, גאגן מוצא נחמה בטרקים בשבילי ההימלאיה ובהשקעת ז'אנרים מוזיקליים מגוונים.

שפר את ביצועי התפוקה של דגמי Llama 2 באמצעות Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. דוואל פאטל הוא אדריכל ראשי למידת מכונה ב-AWS. הוא עבד עם ארגונים החל מארגונים גדולים ועד סטארט-אפים בינוניים על בעיות הקשורות למחשוב מבוזר ובינה מלאכותית. הוא מתמקד בלמידה עמוקה כולל תחומי NLP ו-Computer Vision. הוא עוזר ללקוחות להשיג מסקנות מודל עם ביצועים גבוהים על SageMaker.

שפר את ביצועי התפוקה של דגמי Llama 2 באמצעות Amazon SageMaker | Amazon Web Services PlatoBlockchain Data Intelligence. חיפוש אנכי. איי. Venugopal Pai הוא אדריכל פתרונות ב-AWS. הוא מתגורר בבנגלורו, הודו, ועוזר ללקוחות מקוריים דיגיטליים להגדיל ולמטב את היישומים שלהם ב-AWS.

הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
מקור: https://aws.amazon.com/blogs/machine-learning/improve-throughput-performance-of-llama-2-models-using-amazon-sagemaker/

בול זמן: ספטמבר 25, 2023

בול זמן: אפריל 15, 2022

הועלה מחדש על ידי אפלטון

צור צינורות לבניית מודלים של Amazon SageMaker ופרוס דגמי R באמצעות RStudio ב-Amazon SageMaker

השתמש בלמידת מכונה מבלי לכתוב שורת קוד אחת עם Amazon SageMaker Canvas | שירותי האינטרנט של אמזון

אוטומציה והטמעת בקרת גרסאות עבור שאלות נפוצות של Amazon Kendra

התאם אישית את תוצאות החיפוש שלך עם שילוב של Amazon Personalize ו-Amazon OpenSearch Service | שירותי האינטרנט של אמזון

פרוס פתרון לכידת נתונים של למידת מכונה ב-AWS Lambda

הפוך את התהליך לשינוי רקע תמונה באמצעות Amazon Bedrock ו-AWS Step Functions | שירותי האינטרנט של אמזון

עיבוד מסמכים חכם עם שירותי AWS AI ו-Analytics בתעשיית הביטוח: חלק 2

אודות

חיפוש אנכי ו- Ai

פלטפורמה

שמור על קשר

חֶשְׁבּוֹן