Nvidia: בעתיד תוכנה היא רק אוסף של LLMs

Nvidia: בעתיד תוכנה היא רק אוסף של LLMs

Nvidia: בעתיד תוכנה היא רק אוסף של PlatoBlockchain Data Intelligence של LLMs. חיפוש אנכי. איי.

לא משנה להשתמש במודלים של שפה גדולה (LLMs) כדי לעזור בכתיבת קוד, מנכ"ל Nvidia Jensen Huang מאמין שבעתיד, תוכנות ארגוניות יהיו רק אוסף של צ'אט בוטים המחוברים יחד כדי להשלים את המשימה.

"לא סביר שתכתוב את זה מאפס או תכתוב חבורה שלמה של קוד Python או משהו כזה", אמר על הבמה במהלך ה-GTC שלו מרכזי יוֹם שֵׁנִי. "סביר מאוד שאתה מרכיב צוות של AI."

צוות AI זה, מסביר ג'נסן, עשוי לכלול מודל שנועד לשבור ולהאציל בקשה לדגמים שונים אחרים. חלק מהמודלים הללו עשויים להיות מאומנים להבין שירותים עסקיים כמו SAP או Service Now, בעוד שאחרים עשויים לבצע ניתוח מספרי על נתונים המאוחסנים במסד נתונים וקטורי. לאחר מכן ניתן לשלב את הנתונים הללו ולהציג אותם למשתמש הקצה על ידי מודל אחר.

"אנחנו יכולים לקבל דוח כל יום או שאתה יודע, למעלה מהשעה שקשורה לתוכנית בנייה, או תחזית כלשהי, או איזו התראת לקוח, או איזה מסד נתונים של באגים או מה שזה לא יקרה", הסביר.

כדי לשרשר את כל הדגמים הללו יחד, Nvidia מוציאה עמוד מהספר של Docker ויצרה זמן ריצה של מיכל עבור AI.

המכונה Nvidia Inference Microservices, או בקיצור NIM, אלו בעצם תמונות מכילות המכילות גם את המודל, בין אם זה הקוד הפתוח או הקנייני, יחד עם כל התלות הדרושה כדי להפעיל אותו. לאחר מכן ניתן לפרוס את המודלים המכילים האלה בכל מספר זמני ריצה, כולל צמתי Kubernetes המואצים ב-Nvidia.

"אתה יכול לפרוס את זה על התשתית שלנו שנקראת DGX Cloud, או שאתה יכול לפרוס את זה באופן מוקדם, או שאתה יכול לפרוס אותו בכל מקום שתרצה. ברגע שאתה מפתח את זה, זה שלך לקחת לכל מקום", אמר ג'נסן.

כמובן, תצטרך קודם כל מנוי לחבילת ה-AI Enterprise של Nvidia, שהיא לא בדיוק זולה ב-4,500 דולר לשנה ל-GPU או 1 דולר לשעה ל-GPU בענן. נראה כי אסטרטגיית התמחור הזו מעודדת מערכות ביצועים גבוהות יותר באופן כללי, מכיוון שהיא עולה אותו דבר, ללא קשר אם אתה פועל על L40s או B100s.

אם הרעיון של העברת עומסי עבודה מואצים של GPU נשמע מוכר, זה לא בדיוק רעיון חדש עבור Nvidia. האצת CUDA הייתה נתמך על מגוון רחב של זמני ריצה של מיכל, כולל Docker, Podman, Containerd או CRI-O במשך שנים, ולא נראה ש-Container Runtime של Nvidia הולך לשום מקום.

נראה כי הצעת הערך מאחורי NIM היא ש-Nvidia תטפל באריזה ובאופטימיזציה של הדגמים הללו כך שתהיה להם את הגרסה הנכונה של CUDA, Triton Inference Server או TensorRT LLM, הנחוצה כדי להפיק מהם את הביצועים הטובים ביותר.

הטענה היא שאם Nvidia תשחרר עדכון שמגביר באופן דרמטי את ביצועי ההסקה של סוגי דגמים מסוימים, ניצול הפונקציונליות הזו ידרוש רק להוריד את תמונת ה-NIM העדכנית ביותר.

בנוסף לאופטימיזציות של מודלים ספציפיים לחומרה, Nvidia עובדת גם על לאפשר תקשורת עקבית בין קונטיינרים, כך שהם יכולים לשוחח זה עם זה, באמצעות קריאות API.

כפי שאנו מבינים זאת, קריאות ה-API המשמשות את דגמי הבינה המלאכותית השונים בשוק כיום אינן תמיד עקביות וכתוצאה מכך קל יותר לחבר דגמים מסוימים יחד, בעוד שאחרים עשויים לדרוש עבודה נוספת.

השאלת ידע מוסדי למודלים למטרות כלליות

כל מי שהשתמש בצ'אט בוט של AI ידע שאמנם הוא בדרך כלל די טוב בשאלות ידע כללי, אבל הם לא תמיד הכי אמינים עם בקשות לא ברורות או טכניות.

ג'נסן הדגיש עובדה זו במהלך הנאום המרכזי שלו. כשנשאל על תוכנית פנימית המשמשת בתוך Nvidia, מודל השפה הגדול של Meta 2 70B סיפק באופן לא מפתיע את ההגדרה למונח לא קשור.

במקום לנסות לגרום לארגונים להכשיר את המודלים שלהם - משהו שימכור הרבה GPUs אבל יגביל את השוק שניתן להתייחס אליו במידה ניכרת - Nvidia פיתחה כלים כדי לכוונן את ה-NIM שלה עם נתוני לקוחות ותהליכים.

"יש לנו שירות בשם NeMo Microservices שעוזר לך לאסוף את הנתונים, להכין את הנתונים כך שתוכל... לכלול את ה-AI הזה. אתה מכוון אותו עדין ואז אתה מגן עליו; לאחר מכן תוכל להעריך את הביצועים שלו מול דוגמאות אחרות", הסביר הואנג.

הוא גם דיבר על שירות NeMo Retriever של Nvidia שמבוסס על הרעיון של שימוש ב-Retrieval Augmented Generation (RAG) כדי להעלות מידע שהדגם לא עבר הכשרה ספציפית עליו.

הרעיון כאן הוא שניתן לטעון מסמכים, תהליכים ונתונים אחרים לתוך מסד נתונים וקטורי המחובר למודל. בהתבסס על שאילתה, המודל יכול לאחר מכן לחפש את מסד הנתונים הזה, לאחזר ולסכם את המידע הרלוונטי.

דגמי NIM ו-NeMo Retriever לשילוב RAGs זמינים כעת, בעוד NeMo Microservices נמצא בגישה מוקדמת. ®

בול זמן:

עוד מ הקופה