אנו נמצאים בנקודת פיתול מרגשת באימוץ הנרחב של למידת מכונה (ML), ואנו מאמינים שרוב חוויות הלקוחות והיישומים יומצאו מחדש עם AI גנרטיבי. AI גנרטיבי יכול ליצור תוכן ורעיונות חדשים, כולל שיחות, סיפורים, תמונות, סרטונים ומוזיקה. כמו רוב הבינה המלאכותית, הבינה המלאכותית הגנרטיבית מופעלת על ידי מודלים של ML - מודלים גדולים מאוד שמאומנים על כמויות עצומות של נתונים ומכונה בדרך כלל מודלים בסיסיים (FMs). FMs מבוססים על שנאים. רובוטריקים איטיים ותאבי זיכרון ביצירת רצפי טקסט ארוכים בשל הגודל העצום של הדגמים. מודלים של שפה גדולים (LLMs) המשמשים ליצירת רצפי טקסט זקוקים לכמויות אדירות של כוח מחשוב ומתקשים לגשת לזיכרון ברוחב פס גבוה (HBM) ולקיבולת המחשוב. הסיבה לכך היא שחלק גדול מרוחב הפס הזמין של הזיכרון נצרך על ידי טעינת הפרמטרים של הדגם ועל ידי תהליך פענוח אוטומטי רגרסיביכתוצאה מכך, אפילו עם כמויות עצומות של כוח מחשוב, LLMs מוגבלים על ידי זיכרון קלט/פלט ומגבלות חישוב, ומונעים מהם לנצל את מלוא היתרונות של משאבי החומרה הזמינים.
בסך הכל, להסקת מסקנות יצירתיות של LLMs יש שלושה אתגרים עיקריים (לפי פופ וחב'. 2022):
- טביעת זיכרון גדולה עקב פרמטרים מסיביים של דגם ומצב חולף במהלך הפענוח. הפרמטרים לרוב עולים על הזיכרון של שבב מאיץ בודד. תשומת לב מטמונים של ערך מפתח דורשים גם זיכרון משמעותי.
- יכולת הקבלה נמוכה מגדילה את זמן ההשהיה, במיוחד עם טביעת הרגל הגדולה של הזיכרון, הדורשת העברות נתונים משמעותיות לטעינת פרמטרים ומטמונים לליבות מחשוב בכל שלב. כתוצאה מכך יש צורך ברוחב פס כולל גבוה של הזיכרון כדי לעמוד ביעדי השהייה.
- קנה מידה ריבועי של חישוב מנגנון קשב ביחס לאורך הרצף מרכיב את האתגרים החישוביים והחביון.
אצווה היא אחת הטכניקות להתמודדות עם אתגרים אלו. אצווה מתייחסת לתהליך של שליחת רצפי קלט מרובים יחד ל-LLM ובכך לייעל את הביצועים של הסקת ה-LLM. גישה זו עוזרת לשפר את התפוקה מכיוון שאין צורך לטעון פרמטרים של מודל עבור כל רצף קלט. ניתן לטעון את הפרמטרים פעם אחת ולהשתמש בהם לעיבוד רצפי קלט מרובים. אצווה מנצלת ביעילות את רוחב הפס HBM של המאיץ, וכתוצאה מכך ניצול מחשוב גבוה יותר, תפוקה משופרת והסקה חסכונית.
פוסט זה בוחן טכניקות למקסם את התפוקה באמצעות טכניקות אצווה להסקה מחוללת מקבילה ב-LLMs. אנו דנים בשיטות אצווה שונות כדי להפחית את טביעת הרגל של הזיכרון, להגביר את יכולת ההקבלה ולהפחית את קנה המידה הריבועי של תשומת הלב כדי להגביר את התפוקה. המטרה היא להשתמש באופן מלא בחומרה כמו HBM ומאיצים כדי להתגבר על צווארי בקבוק בזיכרון, I/O וחישוב. לאחר מכן נדגיש כיצד אמזון SageMaker מיכלי למידה עמוקה (DLC) יכולים לעזור בטכניקות אלו. לבסוף, אנו מציגים ניתוח השוואתי של שיפורים בתפוקה עם כל אסטרטגיית אצווה ב- SageMaker באמצעות LMI DLCs כדי לשפר את התפוקה עבור דגמים כמו לאמה v2. אתה יכול למצוא מחברת לדוגמה נלווית ב- SageMaker דוגמת מאגר GitHub.
הסקת מסקנות עבור מודלים של שפות גדולות (LLMs)
פענוח אוטורגרסיבי הוא התהליך שבו מודלים של שפה כמו GPT מייצרים פלט טקסט אחד בכל פעם. זה כולל הזנה רקורסיבית של אסימונים שנוצרו בחזרה לתוך המודל כחלק מרצף הקלט על מנת לחזות את האסימונים הבאים. השלבים הם כדלקמן:
- הדגם מקבל את האסימונים הקודמים ברצף כקלט. עבור השלב הראשון, זוהי הוראת ההתחלה שסופק על ידי המשתמש.
- המודל חוזה התפלגות על אוצר המילים עבור האסימון הבא.
- האסימון בעל ההסתברות החזויה הגבוהה ביותר נבחר ומצורף לרצף הפלט. שלבים 2 ו-3 הם חלק מה- פִּעַנוּחַ נכון לכתיבת שורות אלו, שיטות הפענוח הבולטות ביותר הן חיפוש חמדני, חיפוש קרן, חיפוש ניגודי ודגימה.
- האסימון החדש הזה מתווסף לרצף הקלט עבור שלב הפענוח הבא.
- המודל חוזר על שלבים אלה, ומייצר אסימון חדש אחד בכל שלב, עד להפקת סמן של סוף הרצף או להגיע לאורך הפלט הרצוי.
מודל הגשה עבור לימודי תואר שני
הגשת מודלים עבור LLMs מתייחסת לתהליך של קבלת בקשות קלט להפקת טקסט, הסקת מסקנות והחזרת התוצאות ליישומים המבקשים. להלן מושגי מפתח המעורבים בהגשת מודלים:
- לקוחות מייצרים מספר בקשות להסיק, כאשר כל בקשה מורכבת מרצף של אסימונים או הנחיות קלט
- בקשות מתקבלות על ידי שרת ההסקות (לדוגמה, DJLSserving, לפידרבס, טריטון, או חיבוק פנים TGI)
- שרת ההסקות מקבץ את בקשות ההסקה ומתזמן את האצווה למנוע הביצוע הכולל ספריות חלוקת מודלים (כגון רובוטריקים-NeuronX, DeepSpeed, להאיץ, או FasterTransformer) להפעלת המעבר קדימה (חיזוי רצף אסימון הפלט) במודל השפה הינרטיבי
- מנוע הביצוע מייצר אסימוני תגובה ושולח את התגובה בחזרה לשרת ההסקות
- שרת ההסקות משיב ללקוחות עם התוצאות שנוצרו
ישנם אתגרים בתזמון ברמת הבקשה כאשר שרת ההסקות מקיים אינטראקציה עם מנוע הביצוע ברמת הבקשה, כגון כל בקשה באמצעות תהליך Python, הדורש עותק נפרד של המודל, שהוא מגביל זיכרון. לדוגמה, כפי שמוצג באיור הבא, אתה יכול להכיל רק עותק בודד של דגם בגודל 80 GB במופע למידת מכונה (ML) עם 96 GB של זיכרון מכשיר מאיץ כולל. תצטרך לטעון עותק נוסף של המודל כולו אם תרצה להגיש בקשות נוספות במקביל. זה לא זיכרון וחסכוני.
כעת, לאחר שאנו מבינים את האתגרים שמציבים תזמון ברמת הבקשה, בואו נסתכל על טכניקות אצווה שונות שיכולות לסייע באופטימיזציה של התפוקה.
טכניקות אצווה
בחלק זה, אנו מסבירים טכניקות אצווה שונות ומראים כיצד ליישם אותן באמצעות SageMaker מיכל LMI.
ישנם שני סוגים עיקריים של אצווה עבור בקשות להסיק:
- צד הלקוח (סטטי) - בדרך כלל, כאשר לקוח שולח בקשה לשרת, השרת יעבד כל בקשה ברצף כברירת מחדל, שאינה אופטימלית לתפוקה. כדי לייעל את התפוקה, הלקוח מקבץ את בקשות ההסקה במטען היחיד והשרת מיישם את היגיון העיבוד המקדים כדי לפרק את האצווה למספר בקשות ומריץ את ההסקה עבור כל בקשה בנפרד. באפשרות זו, הלקוח צריך לשנות את הקוד עבור אצווה והפתרון מחובר באופן הדוק לגודל האצווה.
- בצד השרת (דינמי) - טכניקה נוספת לעיבוד אצווה היא להשתמש בהסקה כדי לסייע בהשגת האצווה בצד השרת. כאשר בקשות הסקה עצמאיות מגיעות לשרת, שרת ההסקה יכול לקבץ אותן באופן דינמי לקבוצות גדולות יותר בצד השרת. שרת ההסקות יכול לנהל את האצווה כדי לעמוד ביעד השהייה שצוין, ולמקסם את התפוקה תוך הישארות בטווח ההשהיה הרצוי. שרת ההסקות מטפל בזה באופן אוטומטי, כך שאין צורך בשינויי קוד בצד הלקוח. האצווה בצד השרת כוללת טכניקות שונות למיטוב התפוקה עוד יותר עבור מודלים של שפות גנרטיביות המבוססות על הפענוח האוטו-רגרסיבי. טכניקות אצווה אלו כוללות אצווה דינמית, אצווה רציפה ו- PagedAttention (vLLM) אצווה.
אצווה דינמית
אצווה דינמית מתייחסת לשילוב בקשות הקלט ושליחתן יחד כאצווה להסקה. אצווה דינמית היא טכניקת אצווה גנרית בצד השרת שעובדת עבור כל המשימות, כולל ראייה ממוחשבת (CV), עיבוד שפה טבעית (NLP) ועוד.
במיכל LMI, אתה יכול להגדיר את אצווה הבקשות בהתבסס על ההגדרות הבאות ב הגשה.נכסים:
- גודל_ אצווה - מתייחס לגודל האצווה
- max_batch_delay – מתייחס לעיכוב המקסימלי עבור צבירת אצווה
אם אחד מהספים הללו מתקיים (עמידה בגודל האצווה המרבי או השלמת תקופת ההמתנה), אזי אצווה חדשה מוכנה ונדחפת למודל להסקת מסקנות. התרשים הבא מציג את האצווה הדינמית של בקשות עם אורכי רצף קלט שונים המעובדים יחד על ידי המודל.
אתה יכול ליישם אצווה דינמית ב- SageMaker על ידי קביעת התצורה של מיכל ה-LMI הגשה.נכסים באופן הבא:
למרות שאצווה דינמית יכולה לספק גידול של עד פי ארבעה בתפוקה בהשוואה ללא אצווה, אנו רואים ששימוש ב-GPU אינו אופטימלי במקרה זה מכיוון שהמערכת לא יכולה לקבל אצווה נוספת עד שכל הבקשות יסתיימו בעיבוד.
אצווה רציפה
אצווה רציפה היא אופטימיזציה ספציפית ליצירת טקסט. זה משפר את התפוקה ואינו מקריב את הזמן עד להשהייה של בייט ראשון. אצווה רציפה (ידוע גם בשם איטרטיבי or אצווה מתגלגלת) נותן מענה לאתגר של זמן GPU סרק ומתבסס על גישת האצווה הדינמית על ידי דחיפה מתמשכת של בקשות חדשות יותר באצווה. התרשים הבא מציג אצווה מתמשכת של בקשות. כאשר בקשות 2 ו-3 מסתיימות לעיבוד, מתוזמנת קבוצה נוספת של בקשות.
הדיאגרמה האינטראקטיבית הבאה צוללת לעומק כיצד פועלת אצווה רציפה.
(דרך ארץ: https://github.com/InternLM/lmdeploy)
אתה יכול להשתמש בטכניקה רבת עוצמה כדי להפוך LLMs ויצירת טקסט ליעילים: שמירה במטמון של כמה ממטריצות הקשב. המשמעות היא שהמעבר הראשון של הנחיה שונה מהמעברים הקדמיים הבאים. עבור המעבר הראשון, עליך לחשב את כל מטריצת הקשב, בעוד שהמעקבים רק דורשים ממך לחשב את הקשב האסימון החדש. המעבר הראשון נקרא מילוי מראש בכל בסיס הקוד הזה, בעוד שהמעקבים נקראים לְפַעֲנֵחַ. מכיוון ש-prefill הוא הרבה יותר יקר מפענוח, אנחנו לא רוצים לעשות את זה כל הזמן, אבל שאילתה שפועלת כרגע עושה כנראה פענוח. אם אנו רוצים להשתמש באצווה רציפה כפי שהוסבר קודם לכן, עלינו להפעיל מילוי מראש בשלב מסוים על מנת ליצור את מטריצת הקשב הנדרשת כדי להצטרף לקבוצת הפענוח.
טכניקה זו עשויה לאפשר גידול של עד פי 20 בתפוקה בהשוואה ללא אצווה על ידי ניצול יעיל של ה-GPUs בטלים.
אתה יכול לכוונן את הפרמטרים הבאים serving.properties
של מיכל LMI לשימוש באצווה רציפה:
- מנוע – מנוע זמן הריצה של הקוד. הערכים כוללים
Python
,DeepSpeed
,FasterTransformer
, וMPI
. להשתמשMPI
כדי לאפשר אצווה רציפה. - אצווה_מתגלגלת - מאפשר אצווה ברמת איטרציה באמצעות אחת מהאסטרטגיות הנתמכות. הערכים כוללים
auto
,scheduler
, וlmi-dist
. אנו משתמשיםlmi-dist
להפעלת אצווה רציפה עבור Llama 2. - גודל_גלגול_מקסימום – מגביל את מספר הבקשות במקביל באצווה הרציפה. ברירת המחדל היא 32.
- max_rolling_batch_prefill_tokens – מגביל את מספר האסימונים לאחסון במטמון. יש לכוונן את זה על סמך גודל אצווה ואורך רצף קלט כדי למנוע את חוסר הזיכרון של GPU. זה נתמך רק מתי
rolling_batch=lmi-dist
. ההמלצה שלנו היא להגדיר את הערך על סמך מספר הבקשות במקביל x הזיכרון הנדרש לאחסון אסימוני קלט ואסימוני פלט לכל בקשה.
להלן קוד לדוגמה עבור serving.properties
להגדרת אצווה רציפה:
PagedAttention אצווה
בתהליך הפענוח האוטורגרסיבי, כל אסימוני הקלט ל-LLM מייצרים את טנסורי מפתח הקשב והערך שלהם, וטנסורים אלו נשמרים בזיכרון ה-GPU כדי ליצור אסימונים הבאים. טנזורי המפתח והערכים האלו מכונה לעתים קרובות ה- מטמון KV or מטמון תשומת הלב. לפי העיתון vLLM: הגשת LLM קלה, מהירה וזולה עם PagedAttention, מטמון KV לוקח עד 1.7 GB עבור רצף בודד ב-Llama 13B. זה גם דינמי. גודלו תלוי באורך הרצף, שהוא מאוד משתנה ובלתי צפוי. כתוצאה מכך, ניהול יעיל של מטמון KV מהווה אתגר משמעותי. המאמר מצא שמערכות קיימות מבזבזות 60-80% מהזיכרון בגלל פיצול ושימור יתר.
PagedAttention הוא אלגוריתם אופטימיזציה חדש שפותח על ידי UC Berkeley המשפר את תהליך האצווה הרציף על ידי מתן אפשרות למטמון הקשב (KV cache) להיות לא רציף על ידי הקצאת זיכרון בדפים או בלוקים בגודל קבוע. זה בהשראת זיכרון וירטואלי ומושגי החלפה המשמשים מערכות הפעלה.
לפי מאמר vLLM, מטמון הקשב של כל רצף של אסימונים מחולק לבלוקים וממוף לבלוקים פיזיים דרך טבלת בלוקים. במהלך חישוב הקשב, ליבת PagedAttention יכולה להשתמש בטבלת הבלוקים כדי להביא ביעילות את הבלוקים מהזיכרון הפיזי. זה מביא להפחתה משמעותית של בזבוז זיכרון ומאפשר גודל אצווה גדול יותר, ניצול מוגברת של GPU ותפוקה גבוהה יותר. האיור הבא ממחיש את חלוקת מטמון הקשב לדפים לא רציפים.
התרשים הבא מציג דוגמה להסקה עם PagedAttention. השלבים המרכזיים הם:
- הבקשה להסיק מתקבלת עם הנחית קלט.
- בשלב המילוי המוקדם, תשומת הלב מחושבת וערכי מפתח מאוחסנים בזיכרון פיזי לא רציף וממופים לבלוקים לוגיים של ערך מפתח. מיפוי זה מאוחסן בטבלת בלוק.
- הוראת הקלט מופעלת דרך המודל (מעבר קדימה) כדי ליצור את אסימון התגובה הראשון. במהלך יצירת אסימון התגובה, נעשה שימוש במטמון הקשב משלב המילוי המוקדם.
- במהלך יצירת אסימון עוקב, אם הבלוק הפיזי הנוכחי מלא, זיכרון נוסף מוקצה באופן לא רציף, מה שמאפשר הקצאה בדיוק בזמן.
PagedAttention מסייע בשימוש כמעט אופטימלי בזיכרון ובהפחתת בזבוז זיכרון. זה מאפשר לקבץ יותר בקשות יחד, וכתוצאה מכך לעלייה משמעותית בתפוקה של הסקת מסקנות.
הקוד הבא הוא דוגמה serving.properties
להגדרת אצווה של PagedAttention במיכל LMI ב- SageMaker:
מתי להשתמש באיזו טכניקת אצווה
האיור הבא מסכם את טכניקות האצווה בצד השרת יחד עם הדוגמה serving.properties
ב-LMI על SageMaker.
הטבלה הבאה מסכמת את טכניקות האצווה השונות ואת מקרי השימוש בהן.
PagedAttention Batching | אצווה רציפה | אצווה דינמית | אצווה בצד הלקוח | אין אצווה | |
איך זה עובד | תמיד למזג בקשות חדשות ברמת האסימון יחד עם בלוקים מדפים ולעשות הסקת אצווה. | תמיד למזג בקשה חדשה ברמת האסימון ולבצע הסקת אצווה. | מיזוג הבקשה החדשה ברמת הבקשה; יכול לעכב כמה אלפיות שניות ליצירת אצווה. | הלקוח אחראי לאגד מספר בקשות הסקת מסקנות באותו מטען לפני שליחתו לשרת ההסקות. | כשמגיעה בקשה, הפעל את ההסקה מיד. |
כשזה עובד הכי טוב | זוהי הגישה המומלצת עבור נתמך דגמי מפענח בלבד. זה מתאים לעומסי עבודה מותאמים לתפוקה. זה ישים רק למודלים של יצירת טקסט. | בקשות במקביל מגיעות בזמנים שונים עם אותה אסטרטגיית פענוח. זה מתאים לעומסי עבודה מותאמים לתפוקה. זה ישים רק למודלים של יצירת טקסט. | בקשות במקביל מגיעות בזמנים שונים עם אותה אסטרטגיית פענוח. זה מתאים לעומסי עבודה רגישים לזמן תגובה הזקוקים לתפוקה גבוהה יותר. זה חל על קורות חיים, NLP וסוגים אחרים של דגמים. | זה מתאים למקרים של שימוש בהסקת מסקנות לא מקוונות שאין להם אילוצי חביון כדי למקסם את התפוקה. | בקשות להסקה נדירות או בקשות להסקת הסקה עם אסטרטגיות פענוח שונות. זה מתאים לעומסי עבודה עם צרכי אחזור קפדניים של זמן תגובה. |
השוואת תפוקה של טכניקות אצווה שונות עבור מודל מחולל גדול ב- SageMaker
ביצענו השוואת ביצועים על א Lama v2 7B מודל על SageMaker באמצעות מיכל LMI וטכניקות האצווה השונות שנדונו בפוסט זה עם בקשות נכנסות במקביל של 50 ומספר כולל של בקשות של 5,000.
השתמשנו בשלוש הנחיות קלט שונות באורכים משתנים עבור מבחן הביצועים. באצווה מתמשכת ו- PagedAttention, אורכי אסימוני הפלט נקבעו ל-64, 128 ו-256 עבור שלוש הנחיות הקלט, בהתאמה. עבור אצווה דינמית, השתמשנו באורך אסימון פלט עקבי של 128 אסימונים. פרסנו עבור הבדיקה נקודות קצה של SageMaker עם סוג מופע של ml.g5.24xlarge. הטבלה הבאה מכילה את תוצאות מבחני השוואת הביצועים.
מספר סימוכין | אסטרטגיית אצווה | בקשות לשנייה ב-ml.g5.24xlarge |
LLaMA2-7b | אצווה דינמית | 3.24 |
LLaMA2-7b | אצווה רציפה | 6.92 |
LLaMA2-7b | PagedAttention Batching | 7.41 |
אנו רואים עלייה של פי 2.3 בערך בתפוקה על ידי שימוש ב-PagedAttention אצווה בהשוואה לאצווה דינמית עבור מודל Llama2-7B ב- SageMaker באמצעות מיכל LMI.
סיכום
בפוסט זה, הסברנו טכניקות אצווה שונות להסקת LLMs וכיצד זה עוזר להגדיל את התפוקה. הראינו כיצד טכניקות אופטימיזציה של זיכרון יכולות להגביר את יעילות החומרה על ידי שימוש באצווה מתמשכת ו- PagedAttention ולספק ערכי תפוקה גבוהים יותר מאשר אצווה דינמית. ראינו עלייה של פי 2.3 בערך בתפוקה על ידי שימוש באצווה של PagedAttention בהשוואה לאצווה דינמית עבור דגם Llama2-7B ב- SageMaker באמצעות מיכל LMI. אתה יכול למצוא את המחברת המשמשת לבדיקת טכניקות האצווה השונות GitHub.
על המחברים
גגן סינג הוא מנהל חשבונות טכניים בכיר ב-AWS, שם הוא שותף עם סטארט-אפים מקוריים דיגיטליים כדי לסלול את דרכם להצלחה עסקית מוגברת. עם נישה בהנעת יוזמות למידת מכונה, הוא ממנף את Amazon SageMaker, תוך שימת דגש על פתרונות למידה עמוקה ויצירתיות בינה מלאכותית. בזמנו הפנוי, גאגן מוצא נחמה בטרקים בשבילי ההימלאיה ובהשקעת ז'אנרים מוזיקליים מגוונים.
דוואל פאטל הוא אדריכל ראשי למידת מכונה ב-AWS. הוא עבד עם ארגונים החל מארגונים גדולים ועד סטארט-אפים בינוניים על בעיות הקשורות למחשוב מבוזר ובינה מלאכותית. הוא מתמקד בלמידה עמוקה כולל תחומי NLP ו-Computer Vision. הוא עוזר ללקוחות להשיג מסקנות מודל עם ביצועים גבוהים על SageMaker.
Venugopal Pai הוא אדריכל פתרונות ב-AWS. הוא מתגורר בבנגלורו, הודו, ועוזר ללקוחות מקוריים דיגיטליים להגדיל ולמטב את היישומים שלהם ב-AWS.
- הפצת תוכן ויחסי ציבור מופעל על ידי SEO. קבל הגברה היום.
- PlatoData.Network Vertical Generative Ai. העצים את עצמך. גישה כאן.
- PlatoAiStream. Web3 Intelligence. הידע מוגבר. גישה כאן.
- PlatoESG. פחמן, קלינטק, אנרגיה, סביבה, שמש, ניהול פסולת. גישה כאן.
- PlatoHealth. מודיעין ביוטכנולוגיה וניסויים קליניים. גישה כאן.
- מקור: https://aws.amazon.com/blogs/machine-learning/improve-throughput-performance-of-llama-2-models-using-amazon-sagemaker/
- :יש ל
- :הוא
- :לֹא
- :איפה
- $ למעלה
- 000
- 1
- 100
- 116
- 118
- 12
- 14
- 150
- 17
- 237
- 32
- 50
- 67
- 7
- 8
- 80
- 9
- 97
- a
- יכול
- מאיץ
- מאיצים
- לְקַבֵּל
- גישה
- להתאים
- פי
- חֶשְׁבּוֹן
- להשיג
- הוסיף
- נוסף
- כתובת
- כתובות
- אימוץ
- יתרון
- AI
- AL
- אַלגוֹרִיתְם
- תעשיות
- מוּקצֶה
- הַקצָאָה
- להתיר
- מאפשר
- מאפשר
- לאורך
- גם
- אמזון בעברית
- אמזון SageMaker
- אמזון שירותי אינטרנט
- כמויות
- an
- אנליזה
- ו
- אחר
- ישים
- יישומים
- גישה
- בערך
- ARE
- מגיע
- מלאכותי
- בינה מלאכותית
- AS
- At
- תשומת לב
- באופן אוטומטי
- זמין
- לְהִמָנַע
- AWS
- בחזרה
- רוחב פס
- בסיס
- מבוסס
- BE
- קרן
- כי
- לפני
- להיות
- תאמינו
- בהשוואות
- ברקלי
- לחסום
- אבני
- לְהַגבִּיר
- לשבור
- בונה
- עסקים
- אבל
- by
- סליק
- נקרא
- CAN
- קיבולת
- מקרה
- מקרים
- לאתגר
- האתגרים
- שינוי
- שינויים
- זול
- שבב
- לקוחות
- לקוחות
- קוד
- בסיס קוד
- שילוב
- מגיע
- בדרך כלל
- לעומת
- השוואה
- השלמת
- השלמה
- חישוב
- לחשב
- המחשב
- ראייה ממוחשבת
- מחשוב
- - כוח מחשוב
- מושגים
- במקביל
- עִקבִי
- מורכב
- אילוצים
- מאוכל
- מכולה
- מכולות
- מכיל
- תוכן
- רציף
- ברציפות
- שיחות
- עלות
- עלות תועלת
- יחד
- לִיצוֹר
- נוֹכְחִי
- כיום
- לקוח
- לקוחות
- נתונים
- פענוח
- עמוק
- למידה עמוקה
- עמוק יותר
- בְּרִירַת מֶחדָל
- מחדל
- עיכוב
- תלוי
- פרס
- רצוי
- מפותח
- מכשיר
- אחר
- קושי
- דיגיטלי
- לדון
- נָדוֹן
- מופץ
- מחשוב מבוזר
- הפצה
- שונה
- do
- לא
- עושה
- תחומים
- לא
- מטה
- ראוי
- בְּמַהֲלָך
- דינמי
- באופן דינמי
- E&T
- כל אחד
- קל
- יעילות
- יְעִילוּת
- יעיל
- יעילות
- או
- הדגשת
- לאפשר
- מאפשר
- מנוע
- חברות
- שלם
- במיוחד
- אֲפִילוּ
- כל
- בחינות
- דוגמה
- דוגמאות
- עולה על
- מרגש
- הוצאת להורג
- קיימים
- יקר
- חוויות
- להסביר
- מוסבר
- פָּנִים
- אופנה
- מהר
- האכלה
- מעטים
- תרשים
- בסופו של דבר
- ממצאים
- גימור
- ראשון
- מתמקד
- הבא
- כדלקמן
- עָקֵב
- בעד
- טופס
- קדימה
- מצא
- קרן
- התנפצות
- חופשי
- החל מ-
- מלא
- לגמרי
- נוסף
- ליצור
- נוצר
- מייצר
- יצירת
- דור
- גנרטטיבית
- AI Generative
- gif
- GitHub
- מטרה
- GPU
- GPUs
- חמדן
- קְבוּצָה
- מטפל
- חומרה
- יש
- he
- מוגבר
- לעזור
- עוזר
- גָבוֹהַ
- גבוה יותר
- הגבוה ביותר
- להבליט
- מאוד
- שֶׁלוֹ
- איך
- איך
- HTML
- HTTPS
- חיבוק פנים
- רעיונות
- להתבטל
- if
- מדגים
- תמונות
- מיד
- עָצוּם
- ליישם
- מיישמים
- לשפר
- משופר
- שיפורים
- משפר
- in
- לכלול
- כולל
- כולל
- נכנס
- להגדיל
- גדל
- עליות
- עצמאי
- הודו
- נטיה
- נקודת הטייה
- יוזמות
- קלט
- השראה
- למשל
- מוֹדִיעִין
- אינטראקטיבי
- אינטראקטיבי
- אל תוך
- מעורב
- IT
- שֶׁלָה
- להצטרף
- jpg
- שמר
- מפתח
- ידוע
- שפה
- גָדוֹל
- מפעלים גדולים
- גדול יותר
- חֶבִיוֹן
- למידה
- אורך
- רמה
- מנופים
- ספריות
- כמו
- מוגבל
- גבולות
- חי
- לאמה
- LLM
- לִטעוֹן
- טוען
- הגיון
- הגיוני
- ארוך
- נראה
- מכונה
- למידת מכונה
- ראשי
- לעשות
- עשייה
- לנהל
- מנהל
- ניהול
- מיפוי
- סמן
- מסיבי
- מַטרִיצָה
- לְהַגדִיל
- מקסום
- מקסימום
- מאי..
- אומר
- מנגנון
- לִפְגוֹשׁ
- מפגש
- זכרון
- למזג
- נפגש
- meta
- שיטות
- מילי שניות
- להקל
- ML
- מודל
- מודלים
- יותר
- רוב
- הרבה
- מספר
- כלי נגינה
- יליד
- טבעי
- עיבוד שפה טבעית
- צורך
- נחוץ
- צורך
- צרכי
- חדש
- הבא
- נישה
- NLP
- לא
- מחברה
- מספר
- Nvidia
- להתבונן
- of
- לא מחובר
- לעתים קרובות
- on
- ONE
- רק
- פועל
- מערכות הפעלה
- אופטימלי
- אופטימיזציה
- מטב
- מיטוב
- אפשרות
- or
- להזמין
- ארגונים
- אחר
- שלנו
- הַחוּצָה
- תפוקה
- יותר
- להתגבר על
- דפים
- מאמר
- פרמטרים
- חלק
- במיוחד
- שותפים
- לעבור
- מעברי
- נתיב
- לסלול
- עבור
- ביצועים
- ביצעתי
- תקופה
- שלב
- גופני
- אפלטון
- מודיעין אפלטון
- אפלטון נתונים
- נקודה
- חלק
- הנשקף
- הודעה
- כּוֹחַ
- מופעל
- חזק
- לחזות
- חזה
- ניבוי
- תחזית
- מוּכָן
- להציג
- מתנות
- מניעה
- קודם
- קוֹדֶם
- מנהל
- כנראה
- בעיות
- תהליך
- מעובד
- תהליך
- לייצר
- מיוצר
- בולט
- מניע
- לספק
- ובלבד
- דחף
- דוחף
- פיתון
- רִבּוּעִי
- רכס
- טִוּוּחַ
- הגיע
- קיבלו
- מקבל
- קבלה
- המלצה
- מוּמלָץ
- להפחית
- הפחתה
- מכונה
- מתייחס
- קָשׁוּר
- קרוב משפחה
- לבקש
- בקשות
- לדרוש
- נדרש
- דורש
- משאבים
- בהתאמה
- תגובה
- אחראי
- מגבילה
- תוצאה
- וכתוצאה מכך
- תוצאות
- חוזר
- הפעלה
- ריצה
- פועל
- להקריב
- בעל חכמים
- אותו
- ראה
- סולם
- דרוג
- מתוכנן
- תזמון
- חיפוש
- שְׁנִיָה
- סעיף
- לִרְאוֹת
- נבחר
- שליחה
- שולח
- לחצני מצוקה לפנסיונרים
- נפרד
- רצף
- לשרת
- שרת
- שירותים
- הגשה
- סט
- הגדרות
- לְהַצִיג
- הראה
- הראה
- הופעות
- צד
- משמעותי
- יחיד
- מידה
- להאט
- So
- פִּתָרוֹן
- פתרונות
- כמה
- ספציפי
- מפורט
- החל
- חברות סטארט
- מדינה
- להישאר
- שלב
- צעדים
- חנות
- מאוחסן
- סיפורים
- אסטרטגיות
- אִסטרָטֶגִיָה
- קפדן
- לאחר מכן
- ניכר
- הצלחה
- כזה
- מַתְאִים
- נתמך
- מערכת
- מערכות
- שולחן
- לוקח
- נטילת
- יעד
- מטרות
- משימות
- טכני
- טכניקות
- מבחן
- בדיקות
- בדיקות
- טֶקסט
- מֵאֲשֶׁר
- זֶה
- השמיים
- הבלוק
- שֶׁלָהֶם
- אותם
- אז
- בכך
- אלה
- זֶה
- שְׁלוֹשָׁה
- דרך
- בכל
- תפוקה
- בחוזקה
- זמן
- רגיש לזמן
- פִּי
- ל
- יַחַד
- אסימון
- מטבעות
- חלק עליון
- סה"כ
- מְאוּמָן
- העברות
- רוֹבּוֹטרִיקִים
- פנייה
- שתיים
- סוג
- סוגים
- בדרך כלל
- להבין
- בלתי צפוי
- עד
- נוֹהָג
- להשתמש
- מְשׁוּמָשׁ
- משתמש
- באמצעות
- מנצל
- ניצול
- ערך
- ערכים
- משתנה
- Vast
- וידאו
- וירטואלי
- חזון
- הַמתָנָה
- רוצה
- לבזבז
- we
- אינטרנט
- שירותי אינטרנט
- היו
- מתי
- ואילו
- אשר
- בזמן
- נָפוֹץ
- יצטרך
- עם
- בתוך
- עבד
- עובד
- כתיבה
- X
- אתה
- זפירנט