Meta מציגה לראשונה את הדור השלישי של מודל שפה גדול של לאמה

Meta מציגה לראשונה את הדור השלישי של מודל שפה גדול של לאמה

Meta שחררה את מודל השפה הגדולה האחרונה שלה (LLM) - בשם Llama 3 - וטוענת שהיא תאתגר דגמים גדולים בהרבה מדוגמים כמו גוגל, מיסטרל ואנתרופיק.

נחשף באריכות הודעה ביום חמישי, Llama 3 זמין בגרסאות הנעות בין שמונה מיליארד ליותר מ-400 מיליארד פרמטרים. לצורך התייחסות, הדגמים הגדולים ביותר של OpenAI וגוגל מתקרבים לשני טריליון פרמטרים.

לעת עתה, אנו מקבלים גישה רק לגרסת הטקסט של Llama 3 של שמונה מיליארד ו-70 מיליארד פרמטרים. Meta עדיין לא סיימה להכשיר את המודלים הגדולים והמורכבים ביותר שלה, אבל רומזת שהם יהיו רב לשוניים ורב-מודאליים - כלומר הם מורכבים ממספר מודלים קטנים יותר מותאמים לתחום.

אפילו עם 70 מיליארד פרמטרים בלבד, מטה טוענת ש-Llama 3 מסוגלת לעבור רגל אל אצבע עם דגמים גדולים בהרבה.

Meta טוענת ש-Llama3-8B ו-70B יכולים להתעלות על דגמים גדולים בהרבה, כולל Gemini Pro וקלוד 3 של Antrhopic

Meta טוענת ש-Llama3-8B ו-70B יכולים להתעלות על דגמים גדולים בהרבה, כולל Gemini Pro וקלוד 3 של Antrhopic - לחץ להגדלה

נתונים טובים יותר, מודל טוב יותר

אחד הרווחים הגדולים ביותר, לפי Meta, מגיע מהשימוש בטוקנייזר עם אוצר מילים של 128,000 אסימונים. בהקשר של LLMs, אסימונים יכולים להיות כמה תווים, מילים שלמות, או אפילו ביטויים. AIs מפרקים קלט אנושי לאסימונים, ואז משתמשים באוצר המילים של האסימונים שלהם כדי ליצור פלט.

Meta הסבירה שהטוקניר שלה עוזר לקודד שפה בצורה יעילה יותר, ומגביר את הביצועים באופן משמעותי. רווחים נוספים הושגו על ידי שימוש במערכי נתונים באיכות גבוהה יותר ושלבי כוונון עדין נוספים לאחר האימון כדי לשפר את הביצועים והדיוק הכולל של המודל.

באופן ספציפי, Meta חשפה ש-Llama 3 הוכשר מראש על יותר מ-15 טריליון אסימונים שנאספו ממקורות זמינים לציבור.

מערך ההדרכה של Llama 3 גדול יותר משבעה ומכיל פי ארבעה יותר קוד מאשר Llama 2, אשר הושק רק לפני תשעה חודשים. אבל, כמו שאומרים, "זבל פנימה, זבל החוצה" - אז Meta טוענת שהיא פיתחה סדרה של צינורות סינון נתונים כדי להבטיח שלמה 3 הוכשרה על כמה שפחות מידע גרוע.

בקרות האיכות הללו כללו גם מסננים היוריסטיים וגם מסנני NSFW, כמו גם מניעת כפילויות של נתונים ומסווגי טקסט ששימשו לחזות את איכות המידע לפני האימון. Meta אפילו השתמשה בדגם ה-Llama 2 הישן יותר שלה - שלדבריה היה "טוב באופן מפתיע בזיהוי נתונים באיכות גבוהה" - כדי לעזור להפריד בין החיטה למוץ.

חמישה אחוזים מנתוני ההדרכה הגיעו מיותר מ-30 שפות, ש-Meta חזה שיסייעו בעתיד להביא יכולות רב לשוניות משמעותיות יותר למודל. לעת עתה, הרשת החברתית™️ אומרת שמשתמשים לא צריכים לצפות לאותה דרגת ביצועים בשפות שאינן אנגלית.

אימון מודלים קטנים על מערך נתונים כה גדול נחשב בדרך כלל לבזבוז של זמן מחשוב, ואפילו כדי לייצר החזרים פוחתים ברמת הדיוק. התמהיל האידיאלי של נתוני אימון לחישוב משאבים מכונה "צ'ינצ'ילה אופטימלית" כמות [PDF]. לפי Meta, עבור מודל של שמונה מיליארד פרמטרים כמו Llama3-8B, זה יהיה בערך 200 מיליארד אסימונים.

עם זאת, בבדיקה, Meta מצאה שהביצועים של Llama 3 המשיכו להשתפר גם כאשר הוכשרה על מערכי נתונים גדולים יותר. "גם שמונה מיליארד המודלים שלנו וגם 70 מיליארד הפרמטרים שלנו המשיכו להשתפר באופן ליניארי לאחר שאימנו אותם על עד 15 טריליון אסימונים", כתב ה-Biz.

התוצאה, כך נראה, היא דגם קומפקטי יחסית המסוגל לייצר תוצאות השוות לדגמים גדולים בהרבה. הפשרה בחישוב נחשבה ככל הנראה כדאית, שכן דגמים קטנים יותר בדרך כלל קלים יותר להסיק ולכן קלים יותר לפריסה בקנה מידה.

בדיוק של 8 סיביות, דגם של שמונה מיליארד פרמטרים דורש רק 8GB של זיכרון. ירידה לדיוק של 4 סיביות - בין אם באמצעות חומרה שתומכת בכך או באמצעות קוונטיזציה כדי לדחוס את המודל - תפחית את דרישות הזיכרון בכמחצית.

Meta אימנה את הדגם על זוג אשכולות מחשוב שכל אחד מכיל 24,000 GPUs של Nvidia. כפי שאתה יכול לדמיין, אימון על אשכול כל כך גדול, למרות שהוא מהיר יותר, מציג גם כמה אתגרים - הסבירות שמשהו ייכשל באמצע ריצת אימון עולה.

כדי למתן את זה, Meta הסבירה שהיא פיתחה מחסנית הדרכה המאפשרת זיהוי, טיפול ותחזוקה אוטומטית של שגיאות. ה-Hyperscaler הוסיף גם מערכות ניטור ואחסון כשלים כדי להפחית את התקורה של המחסום והחזרה לאחור במקרה של הפסקת ריצת אימון. ולאחר השלמתם, Meta הכפפה את הדגמים לסדרה של בדיקות שלאחר האימון ושלבי כוונון עדין.

לצד Llama3-8B ו-70B, Meta הוציאה גם כלי אמון ובטיחות חדשים ומעודכנים - כולל Llama Guard 2 ו-Cybersec Eval 2, כדי לעזור למשתמשים להגן על הדגם מפני שימוש לרעה ו/או התקפות הזרקה מיידיות. Code Shield היא תוספת נוספת המספקת מעקות בטיחות שנועדו לסייע בסינון קוד לא מאובטח שנוצר על ידי Llama 3.

כפי שדיווחנו בעבר, יצירת קוד בסיוע LLM הובילה לכמה מעניינים וקטורים לתקוף שמטה מחפשת להימנע ממנו.

זמינות

במהלך החודשים הקרובים, Meta מתכננת להשיק דגמים נוספים - כולל אחד העולה על 400 מיליארד פרמטרים ותומך בפונקציונליות נוספת, שפות וחלונות הקשר גדולים יותר. האחרון יאפשר למשתמשים לשאול שאילתות גדולות ומורכבות יותר - כמו סיכום בלוק גדול של טקסט.

Llama3-8B ו-70B זמינים כעת להורדה מ- Meta's אתר אינטרנט. Amazon Web Services, Microsoft Azure, Google Cloud, Hugging Face ואחרים מתכננים להציע את המודל לפריסה בפלטפורמות שלהם.

אם אתה רוצה לבדוק את Llama3 במחשב שלך, אתה יכול לבדוק את המדריך שלנו להפעלת LLMs מקומיים כאן. לאחר שתתקין אותו, תוכל להפעיל אותו על ידי הפעלת:

ollama run llama3

תהנו וספרו לנו איך היה. ®

בול זמן:

עוד מ הקופה