מהי המסגרת והתצורה האופטימלית לאירוח מודלים של שפה גדולה (LLMs) עבור יישומי AI מחוללים לייצור טקסט? למרות שפע האפשרויות לשרת LLM, זו שאלה שקשה לענות עליה בשל גודל הדגמים, ארכיטקטורות מודלים משתנות, דרישות ביצועים של אפליקציות ועוד. ה אמזון SageMaker מיכל דגם גדול (LMI). עושה את זה פשוט לשרת LLMs על ידי חיבור שורה של מסגרות וטכניקות שונות המייעלות את הפריסה של LLMs. למיכל LMI יש ערימת הגשה עוצמתית הנקראת הגשת DJL זה אגנוסטי ל-LLM הבסיסי. הוא מספק פרמטרים של תצורה ברמת המערכת שניתן לכוונן לצורך מיצוי הביצועים הטובים ביותר של תשתית האירוח עבור LLM נתון. יש לו גם תמיכה באופטימיזציות אחרונות כמו אצווה מתמשכת, הידועה גם בשם אצווה איטרטיבית או אצווה מתגלגלת, המספקת שיפורים משמעותיים בתפוקה.
במוקדם יותר פוסט, הראינו כיצד ניתן להשתמש במיכל ה-LMI כדי לפרוס את משפחת הדגמים של Falcon ב- SageMaker. בפוסט זה, אנו מדגימים כיצד לשפר את התפוקה והשהייה של הגשת Falcon-40B עם טכניקות כמו אצווה מתמשכת. אנו גם מספקים הבנה אינטואיטיבית של פרמטרי תצורה המסופקים על ידי מיכל SageMaker LMI שיכול לעזור לך למצוא את התצורה הטובה ביותר עבור היישום שלך בעולם האמיתי.
יסודות הסקת הסקת טקסט עבור לימודי LLM
בואו נסתכל תחילה על כמה עקרונות בסיסיים כיצד לבצע הסקה עבור LLMs ליצירת טקסט.
העברה קדימה, הפעלות ומטמון KV
בהינתן רצף קלט של אסימונים, הם מופעלים ב-a forward pass
על פני כל השכבות של ה-LLM (כמו פלקון) כדי ליצור את האסימון הבא. א forward pass
מתייחס לתהליך של נתוני קלט המועברים דרך רשת עצבית כדי לייצר פלט. במקרה של יצירת טקסט, המעבר קדימה כרוך בהזנת סיד ראשוני או הקשר למודל השפה ויצירת התו או האסימון הבא ברצף. כדי ליצור רצף של טקסט, התהליך נעשה לעתים קרובות באופן איטרטיבי, כלומר הוא חוזר על עצמו עבור כל שלב או מיקום ברצף הפלט. בכל איטרציה המודל יוצר את התו או האסימון הבא, שהופך לחלק מהטקסט שנוצר, ותהליך זה נמשך עד להפקת אורך הטקסט הרצוי.
יצירת טקסט עם מודלים של שפה כמו Falcon או GPT הם autoregressive
. המשמעות היא שהמודל מייצר אסימון אחד בכל פעם תוך התניה על האסימונים שנוצרו קודם לכן. במילים אחרות, בכל איטרציה, המודל לוקח את הטקסט שנוצר קודם לכן כקלט ומנבא את האסימון הבא בהתבסס על ההקשר הזה. כפי שהוזכר ב vLLM: הגשת LLM קלה, מהירה וזולה עם PagedAttention, בתהליך הפענוח האוטורגרסיבי הזה, כל אסימוני הקלט ל-LLM מייצרים את טנסורי מפתח הקשב והערך שלהם, והטנסורים הללו נשמרים בזיכרון ה-GPU כדי ליצור את האסימונים הבאים. טנזורי המפתח והערכים האלו מכונה לעתים קרובות ה- KV cache
.
מילוי מראש ופענוח שלבים
בתהליך פענוח אוטורגרסיבי, כמו זה המשמש ביצירת טקסט עם מודלים של שפה כגון פלקון, ישנם בדרך כלל שני שלבים עיקריים: prefill
שלב ו decode
שלב. שלבים אלה חיוניים ליצירת טקסט קוהרנטי ורלוונטי מבחינה הקשרית.
שלב המילוי המוקדם כולל את הדברים הבאים:
- הקשר ראשוני – שלב המילוי המוקדם מתחיל בהקשר ראשוני או טקסט ראשוני שסופק על ידי המשתמש. ההקשר הראשוני הזה יכול להיות משפט, ביטוי, או אפילו רק מילה בודדת. הוא קובע את נקודת המוצא ליצירת טקסט ומספק הקשר למה שיבוא אחר כך.
- מיזוג דגם – ההקשר המסופק משמש להתניה של מודל השפה. המודל לוקח את ההקשר הזה כקלט ומייצר את האסימון הבא (מילה או תו) ברצף על סמך הבנתו את ההקשר.
- יצירת אסימונים - המודל יוצר אסימון אחד בכל פעם, מנבא מה אמור לבוא בהמשך בטקסט. אסימון זה מצורף להקשר, ומרחיב אותו למעשה.
- תהליך איטרטיבי – תהליך יצירת האסימונים חוזר על עצמו באופן איטרטיבי. בכל שלב, המודל יוצר אסימון תוך התחשבות בהקשר המעודכן, שכולל כעת את האסימונים שנוצרו בשלבים הקודמים.
שלב המילוי המקדים נמשך עד שמתקיים תנאי עצירה שנקבע מראש. תנאי זה יכול להיות אורך מקסימלי עבור הטקסט שנוצר, אסימון ספציפי המסמן את סוף הטקסט, או כל קריטריון אחר שנקבע על ידי המשתמש או האפליקציה.
שלב הפענוח כולל את הדברים הבאים:
- סיום – לאחר שלב המילוי המוקדם, יש לך טקסט שנוצר חלקית שעשוי להיות לא שלם או מנותק בשלב מסוים. שלב הפענוח אחראי על השלמת הטקסט כדי להפוך אותו לקוהרנטי ונכון מבחינה דקדוקית.
- המשך מהאסימון האחרון – בשלב הפענוח, המודל מתחיל מהאסימון האחרון שנוצר בשלב המילוי המוקדם. הוא משתמש באסימון הזה כהקשר הראשוני ומייצר את האסימון הבא כדי להמשיך את הטקסט.
- השלמה איטרטיבית – כמו בשלב ה-prefill, תהליך יצירת האסימונים הוא שוב איטרטיבי. המודל יוצר אסימון אחד בכל פעם, תוך התניה באסימונים הקודמים ברצף.
- מצב עצירה – לשלב הפענוח יש גם מצב עצירה, שעשוי להיות זהה לשלב המילוי המוקדם, כגון הגעה לאורך מקסימלי או מפגש עם אסימון סוף טקסט. כאשר תנאי זה מתקיים, תהליך היצור נעצר.
השילוב של שלבי המילוי המוקדם והפענוח מאפשר למודלים אוטורגרסיביים ליצור טקסט שמתבסס על הקשר ראשוני ומייצר רצפים קוהרנטיים, רלוונטיים מבחינה הקשרית ועקביים מבחינה הקשרית של טקסט.
עיין מערכת הגשה מבוזרת לדגמים גנרטיביים מבוססי שנאי להסבר מפורט על התהליך.
אופטימיזציה של תפוקה באמצעות אצווה דינמית
עד כה, דיברנו רק על קלט בודד. בפועל, אנו מצפים להתמודד עם בקשות מרובות המגיעות באופן אקראי מלקוחות האפליקציה לצורך מסקנות במקביל או בצורה מדורגת. בדרך המסורתית, ניתן להשתמש באצווה בסיסית כדי להגדיל את התפוקה ואת ניצול משאבי המחשוב של ה-GPU. אצווה היא למעשה שילוב של ייצוגים מספריים של יותר מבקשה אחת באצווה וביצוע ריצות מקבילות של מעברים אוטומטיים קדימה. אצווה חכמה זו מתבצעת בצד ההגשה. ניתן להגדיר את שרת DJLServing של SageMaker LMI כך שיצרף יחד מספר בקשות לעיבודן במקביל על ידי הגדרת הפרמטרים הבאים ב- הגשה.נכסים:
- max_batch_delay = 100 - ההשהיה המקסימלית לצבירה של אצווה באלפיות שניות. ערך ברירת המחדל הוא 100 מילישניות.
- גודל_ אצווה = 32 - גודל האצווה הדינמי. ברירת המחדל היא 1.
זה בעצם מראה ש-DJLServing יעמיד בתור בקשות למשך 100 מילישניות בכל פעם, או אם מספר הבקשות שנמצאות בתור מגיע ל-batch_size שצוין, האצווה תתזמן לפעול ל-backend להסקת הסקה. זה ידוע בשם dynamic batching
. זה דינמי מכיוון שגודל האצווה עשוי להשתנות בין אצווה בהתאם למספר הבקשות שנוספו במהלך הזמן הזה. עם זאת, מכיוון שלבקשות עשויות להיות מאפיינים שונים, (לדוגמה, בקשות מסוימות עשויות להיות בצורת 20 אסימוני קלט ו-500 אסימוני פלט, בעוד שאחרות עשויות להיות הפוכות, עם 500 אסימוני קלט אך רק 20 עבור פלט), חלק מהבקשות עשויות עיבוד מלא מהר יותר מאחרים באותה אצווה. זה עלול לגרום לחוסר ניצול של ה-GPU בזמן ההמתנה לכל הבקשות בטיסה באצווה כדי להשלים את שלב הפענוח שלה, גם אם יש בקשות נוספות הממתינות לעיבוד בתור. התרשים הבא ממחיש תהליך זה.
אופטימיזציה של תפוקה באמצעות אצווה רציפה
עם continuous batching
, ידוע גם כ iterative
or rolling
אצווה, אנו מנצלים את ההבדלים בין שלבי המילוי המוקדם לפענוח. כדי להפעיל אצווה רציפה, DJServing מספק את התצורות הנוספות הבאות לפי serving.properties:
- מנוע=MPI - אנו ממליצים להשתמש במנוע MPI עבור אצווה רציפה.
- option.rolling_batch=auto או lmi-dist - אנו ממליצים להשתמש באוטו מכיוון שהוא יבחר אוטומטית את אלגוריתם האצווה המתגלגל המתאים ביותר יחד עם אופטימיזציות אחרות בעתיד.
- option.max_rolling_batch_size=32 - זה מגביל את מספר הבקשות במקביל. ברירת המחדל היא 32.
עם אצווה מתמשכת, ערימת ההגשה (DJLServing) לא ממתינה לכל הבקשות בטיסה באצווה כדי להשלים את שלב הפענוח שלה. במקום זאת, בהפסקות לוגיות (בסוף איטרציה אחת בשלב הפענוח), הוא מושך פניות נוספות הממתינות בתור בזמן שהאצווה הנוכחית עדיין בעיבוד (ומכאן השם אצווה מתגלגלת). הוא מבצע בדיקה זו עבור בקשות ממתינות בסוף כל איטרציה של שלב הפענוח. זכור, עבור כל בקשה, עלינו להפעיל את שלב המילוי המוקדם ואחריו את שלב הפענוח הרציף. מכיוון שאנו יכולים לעבד את כל האסימונים מההנחיה הראשונית של בקשה במקביל לשלב המילוי המוקדם שלה, בכל פעם שנשלפת בקשה חדשה, אנו משהים זמנית את שלב הפענוח של בקשות בטיסה של האצווה - אנו שומרים באופן זמני את מטמון ה-KV שלה. והפעלות בזיכרון ולהפעיל את שלב המילוי מראש של הבקשות החדשות.
ניתן להגדיר את גודל המטמון עם האפשרות הבאה:
לאחר השלמת המילוי מראש, אנו משלבים את הבקשות החדשות והבקשות הישנות המושהות באצווה מתגלגלת חדשה, שיכולה להמשיך עם שלב הפענוח שלהן במקביל. שים לב שהבקשות הישנות שהושהו יכולות להמשיך את שלב הפענוח שלהן מהמקום שבו הן הפסיקו והבקשות החדשות יתחילו מהאסימון החדש הראשון שלהן.
אולי כבר הבנתם שאצווה מתמשכת היא גישה כמעט דומה שבה אנו מקבילים באופן טבעי משימות בחיי היומיום שלנו. יש לנו הודעות, אימיילים, הודעות טלפוניות (בקשות חדשות שעלולות להיות חדשות) שמגיעות בזמנים אקראיים (בדומה למספר בקשות שמגיעות בצורה אקראית מדורגת עבור GPUs). כל זה קורה בזמן שאנחנו ממשיכים להשלים את המשימות שלנו בטיסה - חיבור מיילים, קידוד, השתתפות בפגישות (בדומה למשימות העיבוד הנוכחיות ב-GPUs). בהפסקות הגיוניות, אנו משהים את המשימות שלנו בטיסה ובודקים את ההתראות שלנו כדי להחליט אם נדרשת פעולה כלשהי מצידנו, ואם ישנה, אנו מוסיפים אותה למשימות שלנו בטיסה (אצווה מתגלגלת בחיים האמיתיים), או לשים אותו ברשימת מטלות (התור).
חיבור הכל ביחד: איך לחשוב על ניצול זיכרון של GPUs
מומלץ לטעון את המודל שלך כדי לראות איזו תצורה היא החסכונית ביותר עבור מקרה השימוש העסקי שלך. כדי לבנות הבנה, בואו נראה את טביעת הרגל של הזיכרון של ה-GPUs בזמן שהדגם נטען וכאשר בקשות עוקבות מעובדות באצווה מתגלגלת. עבור פוסט זה, נניח שאנו טוענים את דגם Falcon-40B על אחד ממופעי המופעים של G5 שמותקנים עם NVIDIA A10G GPUs, כל אחד עם 24 GB של זיכרון. שים לב שהבנה דומה חלה על סוגי המופעים p3, p4 ו-p5, המגיעים עם סדרת ה-V100, A100 ו-H100 GPU.
להלן סקירה כללית של קבלת ערך משוער של הזיכרון הכולל הנדרש לשרת Falcon-40B:
- גודל דגם = מספר פרמטרי הדגם (40 מיליארד עבור Falcon-40B) x 4 בתים לפרמטר (עבור FP32) = 160 GB
- הזיכרון הכולל המשוער הנדרש לטעינת Falcon-40B להסקת מסקנות = גודל דגם (=160 GB) + מטמון KV (מטמון תשומת לב) (=*20 GB) + תקורה נוספת של זיכרון על ידי ML Frameworks (בערך 2 GB)
עבור Falcon-40B, אם נדחוס את המודל על ידי כימת המודל לסוג הנתונים bfloat16 (2 בתים), גודל המודל יהפוך ל-80 GB לערך. כפי שאתה יכול לראות, זה עדיין גדול יותר מהזיכרון שנתמך על ידי התקן מאיץ אחד, אז אנחנו צריכים לאמץ טכניקת חלוקה (ריסוק) מודלים עם מכשיר מיוחד מקביליות טנזור (TP) מתקרבים ומרסקים את המודל על פני התקני מאיץ מרובים. נניח שבחרנו ב-g5.24xlarge, שיש לו 4 מכשירי A10G GPU. אם אנו מגדירים את DJLServing (serving.properties) עם הדברים הבאים, אנו יכולים לצפות ש-80 GB של משקלי הדגם יתחלקו שווה בשווה על פני כל 4 ה-GPUs:
עם tensor_parallel_degree
מוגדר ל-4, כ-20 GB מזיכרון ה-GPU של 24 GB (כ-84%) כבר מנוצלים עוד לפני שעובדה בקשה בודדת. שאר ה-16% של ה-GPU ישמשו עבור מטמון KV עבור הבקשות הנכנסות. ייתכן שלתרחיש העסקי שלך ודרישות האחזור והתפוקה שלו, 2-3 GB מהזיכרון שנותר זה די והותר. אם לא, אתה יכול להגדיל את גודל המופע ל-g5.48xlarge, שיש לו 8 GPUs ומשתמש ב-tensor_parallel_degree שהוגדר ל-8. במקרה כזה, רק כ-10 GB מהזיכרון הזמין של 24 GB של כל GPU מנוצל עבור משקלי הדגם. יש בערך 60% מה-GPU הנותר עבור ההפעלה והמטמון KV. באופן אינטואיטיבי, אנו יכולים לראות שתצורה זו עשויה לאפשר לנו תפוקה גבוהה יותר. בנוסף, מכיוון שיש לנו חיץ גדול יותר כעת, אנו יכולים להגדיל את max_rolling_batch_prefill_tokens ו גודל_גלגול_מקסימום פרמטרים כדי לייעל עוד יותר את התפוקה. יחד, שני הפרמטרים הללו ישלטו בהקצאות המוקדמות של מילויי ההפעלה וה-KV מטמון עבור הדגם. מספר גדול יותר עבור שני הפרמטרים הללו יתחבר לתפוקה גדולה יותר, בהנחה שיש לך מספיק מאגר עבור מטמון KV בזיכרון ה-GPU.
אצווה רציפה עם PagedAttention
PagedAttention הוא אלגוריתם אופטימיזציה חדש שפותח על ידי UC Berkeley המשפר את תהליך האצווה הרציף על ידי מתן אפשרות למטמון הקשב (KV cache) להיות לא רציף על ידי הקצאת זיכרון בדפים או בלוקים בגודל קבוע. זה בהשראת זיכרון וירטואלי ומושגי החלפה המשמשים מערכות הפעלה.
בהתאם vLLM נייר, מטמון הקשב של כל רצף של אסימונים מחולק לבלוקים וממוף לבלוקים פיזיים דרך טבלת בלוקים. במהלך חישוב הקשב, ליבת PagedAttention יכולה להשתמש בטבלת הבלוקים כדי להביא ביעילות את הבלוקים מהזיכרון הפיזי. זה מביא להפחתה משמעותית של בזבוז זיכרון ומאפשר גודל אצווה גדול יותר, ניצול מוגברת של GPU ותפוקה גבוהה יותר.
השוואה בין ביצועים
כדי להבטיח בדיקת עומס יעילה של תצורת הפריסה שלך, מומלץ להתחיל בהתחשב בתרחיש העסקי ולהגדיר בבירור את המאפיינים של הקלט והפלט עבור היישום מבוסס LLM. לדוגמה, אם אתה עובד על מקרה שימוש לסיכום מוקד טלפוני, הקלט יכול להיות מורכב מטקסט גדול יותר, כגון תמלול צ'אט של 500 אסימונים בין סוכן שירות לקוחות ללקוח, אבל הפלט עשוי להיות קטן יותר יחסית, בסביבות 100 אסימונים, המייצגים סיכום של התמליל. מצד שני, אם אתה עובד על תרחיש יצירת קוד, הקלט יכול להיות קצר עד 15 אסימונים, כמו "כתוב יישום יעיל ב-Python לתיאור כל משאבי EC2, כולל עימוד", אבל הפלט יכול להיות הרבה גדול יותר, מגיע ל-500 אסימונים. חשוב גם לשקול אם השגת זמן אחזור נמוך יותר או מיקסום התפוקה הם העדיפות העליונה עבור התרחיש הספציפי שלך.
לאחר השגת הבנה מקיפה של התרחיש העסקי, תוכל לנתח ולקבוע את התצורה האופטימלית עבור סביבת האירוח שלך. בהקשר זה, סביבת האירוח כוללת מרכיבי מפתח שונים, לרבות סוג המופע ופרמטרי תצורה אחרים כגון תואר_מקביל טנזור, גודל_גלגול_מקסימום, max_rolling_batch_prefill_tokens, ועוד. המטרה שלנו היא לזהות את ההגדרה האפקטיבית ביותר כדי לתמוך בדרישות איכות הפלט בזמן התגובה, התפוקה והמודל שלנו.
בניתוח שלנו, הדגמנו את הביצועים כדי להמחיש את היתרונות של אצווה רציפה על פני אצווה דינמית מסורתית. השתמשנו בתצורות המפורטות בטבלה הבאה ב-serving.properties עבור אצווה דינמית ואצווה איטרטיבית, באמצעות מיכל LMI ב- SageMaker.
אצווה דינמית | אצווה רציפה | אצווה רציפה עם PagedAttention |
מנוע=Python option.model_id=tiiuae/falcon-40b option.tensor_parallel_degree=8 option.dtype=fp16 batch_size=4 max_batch_delay=100 option.trust_remote_code = true |
מנוע = MPI option.model_id = {{s3_url}} option.trust_remote_code = true option.tensor_parallel_degree = 8 option.max_rolling_batch_size = 32 option.rolling_batch = אוטומטי option.dtype = fp16 option.max_rolling_batch_prefill_tokens = 1024 option.paged_attention = שקר |
מנוע = MPI option.model_id = {{s3_url}} option.trust_remote_code = true option.tensor_parallel_degree = 8 option.max_rolling_batch_size = 32 option.rolling_batch = אוטומטי option.dtype = fp16 option.max_rolling_batch_prefill_tokens = 1024 option.paged_attention = נכון |
שתי התצורות סומנו עבור Falcon-40B עם סוג הנתונים FP16 שנפרס על ml.g5.48xlarge בכמה תרחישים שונים המייצגים יישומים בעולם האמיתי:
- מספר קטן של אסימוני קלט עם מספר גדול של אסימונים שנוצרים - בתרחיש זה, מספר אסימוני הקלט נקבע ל-32 ונוצרו 128 אסימונים חדשים
אסטרטגיית אצווה | תפוקה (אסימונים/שנייה) | חביון p90 (שניות) |
אצווה דינמית | 5.53 | 58.34 |
אצווה רציפה | 56.04 | 4.74 |
אצווה רציפה עם PagedAttention | 59.18 | 4.76 |
- קלט גדול עם מספר קטן של אסימונים שנוצרים - כאן, אנו קובעים את מספר אסימוני הקלט ל-256 ומבקשים מה-LLM לסכם את הקלט ל-32 אסימונים
אסטרטגיית אצווה | תפוקה (אסימונים/שנייה) | חביון p90 (שניות) |
אצווה דינמית | 19.96 | 59.31 |
אצווה רציפה | 46.69 | 3.88 |
אצווה רציפה עם PagedAttention | 44.75 | 2.67 |
אנו יכולים לראות כי אצווה מתמשכת עם PagedAttention מספקת שיפור תפוקה של פי 10 בתרחיש 1 ופי 2.3 בתרחיש 2 בהשוואה לשימוש באצווה דינמית ב- SageMaker תוך שימוש במיכל LMI.
סיכום
בפוסט זה, בדקנו כיצד LLMs משתמשים בזיכרון והסברנו כיצד אצווה רציפה משפרת את התפוקה באמצעות מיכל LMI ב- SageMaker. הדגמנו את היתרונות של אצווה רציפה עבור Falcon-40B באמצעות מיכל LMI ב- SageMaker על ידי הצגת תוצאות בנצ'מרק. אתה יכול למצוא את הקוד ב- GitHub ריפו.
על הכותבים
אבהי שיוודיטיה הוא ארכיטקט פתרונות בכיר ב-AWS, שעובד עם ארגוני ארגונים אסטרטגיים גלובליים כדי להקל על אימוץ שירותי AWS בתחומים כמו בינה מלאכותית, מחשוב מבוזר, רשתות ואחסון. המומחיות שלו טמונה בלמידה עמוקה בתחומי עיבוד שפה טבעית (NLP) וראייה ממוחשבת. Abhi מסייע ללקוחות בפריסת מודלים של למידת מכונה בעלי ביצועים גבוהים ביעילות בתוך המערכת האקולוגית של AWS.
דוואל פאטל הוא אדריכל ראשי למידת מכונה ב-AWS. הוא עבד עם ארגונים החל מארגונים גדולים ועד סטארט-אפים בינוניים על בעיות הקשורות למחשוב מבוזר ובינה מלאכותית. הוא מתמקד בלמידה עמוקה כולל תחומי NLP ו-Computer Vision. הוא עוזר ללקוחות להשיג מסקנות מודל עם ביצועים גבוהים על SageMaker.
פינאק פניגרהי עובד עם לקוחות לבניית פתרונות מונעי למידת מכונה לפתרון בעיות עסקיות אסטרטגיות ב-AWS. כאשר אינו עוסק בלמידת מכונה, ניתן למצוא אותו מטייל, קורא ספר או צופה בספורט.
אבהי סודהאני ממלא תפקיד של אדריכל פתרונות AI/ML בכיר ב-AWS, שם הוא מתמחה בהצעת מומחיות טכנית והדרכה בנושא פתרונות AI ו-ML Generative ללקוחות. ההתמקדות העיקרית שלו היא לסייע לעסקים מקוריים דיגיטליים לממש את מלוא הפוטנציאל של טכנולוגיות AI ו-ML Generative, ולאפשר להם להשיג את היעדים העסקיים שלהם ביעילות. מעבר למאמצים המקצועיים שלו, אבהי מפגין תשוקה עזה לעיסוקים אינטלקטואליים כמו קריאה, כמו גם עיסוק בפעילויות המקדמות רווחה גופנית ונפשית, כגון יוגה, מדיטציה.
צ'ינג לאן הוא מהנדס פיתוח תוכנה ב-AWS. הוא עבד על כמה מוצרים מאתגרים באמזון, כולל פתרונות ML ביצועים גבוהים ומערכת רישום ביצועים גבוהים. הצוות של צ'ינג השיק בהצלחה את המודל הראשון של מיליארד פרמטרים בפרסום באמזון עם זמן אחזור נמוך מאוד. לצ'ינג יש ידע מעמיק באופטימיזציית התשתית והאצת הלמידה העמוקה.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://aws.amazon.com/blogs/machine-learning/improve-performance-of-falcon-models-with-amazon-sagemaker/
- :יש ל
- :הוא
- :לֹא
- :איפה
- $ למעלה
- 1
- 10
- 100
- 15%
- 150
- 160
- 17
- 20
- 24
- 28
- 32
- 33
- 40
- 500
- 7
- 8
- 80
- 9
- a
- אודות
- שפע
- מאיץ
- להשיג
- השגתי
- לרוחב
- פעולה
- הפעלה
- הפעלות
- פעילויות
- להוסיף
- הוסיף
- נוסף
- בנוסף
- לְאַמֵץ
- אימוץ
- יתרון
- פרסום
- לאחר
- שוב
- סוֹכֵן
- - צבירה
- AI
- AI / ML
- אַלגוֹרִיתְם
- תעשיות
- להתיר
- מאפשר
- מאפשר
- כמעט
- לאורך
- כְּבָר
- גם
- אמזון בעברית
- אמזון SageMaker
- אמזון שירותי אינטרנט
- an
- אנליזה
- לנתח
- ו
- לענות
- כל
- ישים
- בקשה
- יישומים
- גישה
- מתאים
- לְהִתְקַרֵב
- בערך
- ARE
- אזורים
- סביב
- מלאכותי
- בינה מלאכותית
- AS
- לעזור
- אסיסטים
- לְהַנִיחַ
- At
- תשומת לב
- המכונית
- באופן אוטומטי
- זמין
- AWS
- קצה אחורי
- מבוסס
- בסיסי
- בעיקרון
- BE
- כי
- הופך להיות
- היה
- לפני
- להתחיל
- להיות
- בנצ 'מרק
- מדוד
- הטבות
- ברקלי
- הטוב ביותר
- בֵּין
- מעבר
- B
- לחסום
- אבני
- ספר
- הפסקות
- מביאים
- חיץ
- לִבנוֹת
- בונה
- עסקים
- עסקים
- אבל
- by
- סליק
- שיחה
- מוקד טלפוני
- נקרא
- CAN
- מקרה
- מרכז
- אתגר
- שינוי
- אופי
- מאפיינים
- זול
- לבדוק
- נבחר
- בבירור
- לקוחות
- קוד
- סִמוּל
- קוהרנטי
- שילוב
- לשלב
- שילוב
- איך
- מגיע
- מגיע
- לעומת
- להשלים
- מַשׁלִים
- מַקִיף
- חישוב
- המחשב
- ראייה ממוחשבת
- מחשוב
- מושגים
- במקביל
- מצב
- תְצוּרָה
- מוגדר
- לשקול
- בהתחשב
- עִקבִי
- מכולה
- הקשר
- להמשיך
- ממשיך
- רציף
- לִשְׁלוֹט
- לתקן
- עלות תועלת
- יכול
- זוג
- הקריטריונים
- מכריע
- נוֹכְחִי
- כיום
- לקוח
- שירות לקוחות
- לקוחות
- חותך
- יומי
- נתונים
- עסקה
- להחליט
- פענוח
- עמוק
- למידה עמוקה
- בְּרִירַת מֶחדָל
- הגדרה
- עיכוב
- להפגין
- מופגן
- תלוי
- לפרוס
- פרס
- פריסה
- פריסה
- רצוי
- למרות
- מְפוֹרָט
- לקבוע
- מפותח
- צעצועי התפתחות
- מכשיר
- התקנים
- ההבדלים
- אחר
- דיגיטלי
- מופץ
- מחשוב מבוזר
- מחולק
- עושה
- לא
- תחומים
- עשה
- מונע
- ראוי
- משך
- בְּמַהֲלָך
- דינמי
- כל אחד
- מוקדם יותר
- קל
- המערכת האקולוגית
- אפקטיבי
- יעילות
- יעיל
- יעילות
- אלמנטים
- מיילים
- מה שמאפשר
- מקיף
- פוגש
- לעודד
- סוף
- מאמצים
- מרתק
- מנוע
- מהנדס
- מספיק
- לְהַבטִיחַ
- מִפְעָל
- חברות
- סביבה
- באותה מידה
- אֲפִילוּ
- דוגמה
- מוצגים
- לצפות
- מומחיות
- מוסבר
- הסבר
- מאריך
- לְהַקֵל
- משפחה
- רחוק
- אופנה
- מהר
- מהר יותר
- האכלה
- מעטים
- שלח
- ראשון
- מבט ראשון
- לסדר
- קבוע
- להתמקד
- מתמקד
- לעקוב
- בעקבות
- הבא
- עָקֵב
- בעד
- קדימה
- מצא
- מסגרת
- מסגרות
- החל מ-
- מלא
- יסודות
- נוסף
- עתיד
- זכייה
- ליצור
- נוצר
- מייצר
- יצירת
- דור
- גנרטטיבית
- AI Generative
- מקבל
- נתן
- גלוֹבָּלִי
- Go
- GPU
- GPUs
- יותר
- הדרכה
- יד
- מתרחש
- קשה
- יש
- he
- לעזור
- עוזר
- ומכאן
- כאן
- גָבוֹהַ
- ביצועים גבוהים
- גבוה יותר
- טיול
- שֶׁלוֹ
- מחזיק
- המארח
- אירוח
- איך
- איך
- אולם
- HTML
- HTTPS
- לזהות
- להתבטל
- if
- להמחיש
- מדגים
- הפעלה
- חשוב
- לשפר
- השבחה
- שיפורים
- משפר
- in
- באחר
- מעמיק
- כולל
- כולל
- נכנס
- להגדיל
- גדל
- תשתית
- בתחילה
- קלט
- השראה
- מותקן
- למשל
- אִינטֶלֶקְטוּאַלִי
- מוֹדִיעִין
- אינטליגנטי
- אל תוך
- אינטואיטיבי
- IT
- איטרציה
- שֶׁלָה
- jpg
- רק
- שמר
- מפתח
- ידע
- ידוע
- שפה
- גָדוֹל
- מפעלים גדולים
- גדול יותר
- אחרון
- חֶבִיוֹן
- הושק
- שכבות
- למידה
- עזבו
- אורך
- שקרים
- כמו
- גבולות
- רשימה
- חי
- LLM
- לִטעוֹן
- טוען
- רישום
- הגיוני
- נראה
- נראה
- נמוך
- להוריד
- מכונה
- למידת מכונה
- ראשי
- לעשות
- עושה
- רב
- מקסום
- מקסימום
- מאי..
- משמעות
- אומר
- פגישות
- זכרון
- נפשי
- מוּזְכָּר
- הודעות
- נפגש
- יכול
- מילי שניות
- ML
- מודל
- מודלים
- יותר
- רוב
- הרבה
- מספר
- שם
- יליד
- טבעי
- עיבוד שפה טבעית
- צורך
- רשת
- רשתות
- עצבי
- רשת עצבית
- חדש
- הבא
- NLP
- הודעה..
- הודעות
- עַכשָׁיו
- מספר
- Nvidia
- מטרה
- יעדים
- of
- כבוי
- הצעה
- לעתים קרובות
- זקן
- on
- ONE
- רק
- עַל גַבֵּי
- פועל
- מערכות הפעלה
- אופטימלי
- אופטימיזציה
- מטב
- אפשרות
- אפשרויות
- or
- ארגונים
- אחר
- אחרים
- שלנו
- תפוקה
- יותר
- סקירה
- דפים
- דִפּוּף
- מאמר
- מקביל
- פרמטר
- פרמטרים
- חלק
- משתתף
- לעבור
- עבר
- מעברי
- תשוקה
- הפסקה
- מושהה
- תלוי ועומד
- עבור
- לְבַצֵעַ
- ביצועים
- ביצוע
- שלב
- טלפון
- גופני
- לבחור
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- נקודה
- עמדה
- אפשרי
- הודעה
- פוטנציאל
- פוטנציאל
- חזק
- תרגול
- ניבוי
- תחזית
- קודם
- קוֹדֶם
- יְסוֹדִי
- מנהל
- עדיפות
- בעיות
- להמשיך
- תהליך
- מעובד
- תהליך
- לייצר
- ייצור
- מוצרים
- מקצועי
- לקדם
- נכסים
- לספק
- ובלבד
- מספק
- מושך
- גם
- פיתון
- איכות
- שאלה
- אקראי
- טִוּוּחַ
- במקום
- הגעה
- קריאה
- עולם אמיתי
- הבין
- מימוש
- לאחרונה
- להמליץ
- מוּמלָץ
- הפחתה
- מכונה
- מתייחס
- קָשׁוּר
- יחסית
- רלוונטי
- נותר
- לזכור
- חזר
- החליף
- לייצג
- המייצג
- לבקש
- בקשות
- נדרש
- דרישות
- משאבים
- תגובה
- אחראי
- תוצאה
- תוצאות
- גִלגוּל
- הפעלה
- פועל
- בעל חכמים
- אותו
- שמור
- תרחיש
- תרחישים
- מתוכנן
- לִרְאוֹת
- זרע
- לחצני מצוקה לפנסיונרים
- משפט
- רצף
- סדרה
- לשרת
- שרת
- שרות
- שירותים
- הגשה
- סט
- סטים
- הצבה
- התקנה
- כמה
- צוּרָה
- sharding
- קצר
- צריך
- הראה
- הופעות
- צד
- אותות
- משמעותי
- דומה
- פָּשׁוּט
- יחיד
- מידה
- קטן
- קטן יותר
- So
- תוכנה
- פיתוח תוכנה
- פתרונות
- לפתור
- כמה
- מיוחד
- מתמחה
- ספציפי
- מפורט
- ספורט
- לערום
- התמחות
- שלבים
- התחלה
- החל
- התחלות
- חברות סטארט
- שלב
- צעדים
- עוד
- סְתִימָה
- עוצר
- אחסון
- פשוט
- אסטרטגי
- עסק אסטרטגי
- חזק
- בהצלחה
- כזה
- לסכם
- סיכום
- תמיכה
- נתמך
- מערכת
- מערכות
- שולחן
- לקחת
- לוקח
- נטילת
- משימות
- נבחרת
- טכני
- טכניקה
- טכניקות
- טכנולוגיות
- מבחן
- בדיקות
- טֶקסט
- מֵאֲשֶׁר
- זֶה
- השמיים
- הבלוק
- העתיד
- שֶׁלָהֶם
- אותם
- שם.
- אלה
- הֵם
- לחשוב
- זֶה
- דרך
- תפוקה
- זמן
- פִּי
- ל
- יַחַד
- אסימון
- מטבעות
- חלק עליון
- סה"כ
- tp
- מסורתי
- תמליל
- שתיים
- סוג
- סוגים
- בדרך כלל
- בְּסִיסִי
- הבנה
- עד
- מְעוּדכָּן
- us
- להשתמש
- במקרה להשתמש
- מְשׁוּמָשׁ
- משתמש
- שימושים
- באמצעות
- מנוצל
- ערך
- שונים
- משתנה
- מאוד
- וירטואלי
- חזון
- לחזות
- לחכות
- הַמתָנָה
- היה
- לבזבז
- צופה
- דֶרֶך..
- we
- אינטרנט
- שירותי אינטרנט
- טוֹב
- היו
- מה
- מתי
- ואילו
- אם
- אשר
- בזמן
- יצטרך
- חלונות
- עם
- בתוך
- Word
- מילים
- עבד
- עובד
- עובד
- X
- יוגה
- אתה
- זפירנט