עם AI, אתה צריך לראות את תמונת החומרה והתוכנה הגדולה יותר PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

עם AI, אתה צריך לראות את תמונת החומרה והתוכנה הגדולה יותר

תכונה ממומנת זה עשור וחצי מאז שהחוקרים סנוורו את עולם הטכנולוגיה כשהוכיחו שניתן להשתמש ביחידות עיבוד גרפיות כדי להאיץ באופן דרמטי פעולות מפתח בינה מלאכותית.

ההבנה הזו ממשיכה לתפוס את דמיונם של ארגונים. IDC דיווחה כי בכל הנוגע לתשתית, חישוב מואץ של GPU ו-HPC כמו scale-up הם בין השיקולים המובילים עבור מנהיגי טכנולוגיה וארכיטקטים המעוניינים לבנות את תשתית ה-AI שלהם.

אבל עבור כל הארגונים שיישמו בהצלחה בינה מלאכותית על בעיות בעולם האמיתי, רבים נוספים נאבקים לעבור מעבר לשלב הניסויים או הפיילוט. מחקר 2021 של הבינתחומי גילה שפחות משליש מהמשיבים העבירו את פרויקטי הבינה המלאכותית שלהם לייצור, ורק שליש מהם הגיעו ל"שלב ייצור בוגר".

המכשולים שצוינו כוללים בעיות בעיבוד והכנת נתונים ותגבור תשתית לתמיכה בבינה מלאכותית בקנה מידה ארגוני. ארגונים היו צריכים להשקיע ב"תשתית בנויה למטרה ובגודל נכון", אמר IDC.

מה בעיית ה-AI כאן?

אז איפה הארגונים האלה משתבשים עם AI? גורם אחד עשוי להיות שמנהיגי טכנולוגיה ומומחי בינה מלאכותית אינם מצליחים להסתכל על צינור הבינה המלאכותית הרחב יותר תוך מתן תשומת לב רבה מדי למעבדי GPU בהשוואה למנועי מחשוב אחרים, במיוחד ה-CPU המכובד.

כי בסופו של דבר, זו לא שאלה של גיבוי CPUs לעומת GPUs מול ASIC. במקום זאת, מדובר במציאת הדרך האופטימלית לבנות צינור בינה מלאכותית שיכולה להביא אותך מרעיונות ונתונים ובניית מודלים לפריסה והסקת מסקנות. וזה אומר להעריך את החוזקות המתאימות של ארכיטקטורות מעבדים שונות, כך שתוכל ליישם את מנוע המחשוב הנכון בזמן הנכון.

כפי שמסביר המנהל הבכיר של אינטל, Datacenter AI Strategy and Execution, Shardul Brahmbhatt, "המעבד שימש עבור שירותי מיקרו ומופעי מחשוב מסורתיים בענן. ומעבדי GPU שימשו עבור מחשוב מקביל, כמו הזרמת מדיה, משחקים ועבור עומסי עבודה של AI."

אז כאשר היפר-scalers ושחקני ענן אחרים הפנו את תשומת לבם לבינה מלאכותית, התברר שהם ממנפים את אותם חוזקות למשימות שונות.

היכולות של מעבדי GPU סביב מחשוב מקבילי הופכות אותם למתאימים מאוד לאימון אלגוריתמי AI, למשל. בינתיים, למעבדים יש יתרון בכל הנוגע להסקת אצווה נמוכה, חביון נמוך בזמן אמת, ושימוש באלגוריתמים אלה כדי לנתח נתונים חיים ולספק תוצאות ותחזיות.

שוב, יש אזהרות, מסביר ברהמבהט, "יש מקומות שבהם אתה רוצה לעשות יותר מסקנות אצווה. והמסק האצווה הזה הוא גם משהו שנעשה באמצעות GPUs או ASICs."

מסתכל במורד הצינור

אבל צנרת הבינה המלאכותית משתרעת מעבר לאימון ולהסקת מסקנות. בצד שמאל של הצינור, יש לעבד נתונים מראש ולפתח אלגוריתמים. למעבד הכללי יש תפקיד משמעותי כאן.

למעשה, מעבדי GPU מהווים חלק קטן יחסית מכלל פעילות המעבדים על פני צינור הבינה המלאכותית, כאשר עומסי עבודה "שלבי נתונים" המופעלים על ידי מעבד מהווים שני שלישים בסך הכל, על פי אינטל (תוכל לקרוא בקצר פתרונות - מטב מסקנות עם טכנולוגיית המעבד של אינטל כאן).

וברהמבהט מזכיר לנו שלארכיטקטורת ה-CPU יש יתרונות נוספים, כולל יכולת תכנות.

"מכיוון שנעשה שימוש כה נרחב במעבדים, יש כבר מערכת אקולוגית קיימת של מפתחים ויישומים זמינים, בתוספת כלים המספקים קלות שימוש וניתנות לתכנות עבור מחשוב למטרות כלליות", הוא אומר.

"שנית, מעבדים מספקים גישה מהירה יותר למרחב הזיכרון הגדול יותר. ואז הדבר השלישי הוא שזה יותר מחשוב לא מובנה לעומת GPUs [שהם] מחשוב מקביל יותר. מסיבות אלו, המעבדים פועלים כמניעי הנתונים המזינים את ה-GPU, ובכך עוזרים עם מודלים של מערכות ממליצים, כמו גם עומסי עבודה מתפתחים כמו Graph Neural Networks."

תוכנית פתוחה לפיתוח בינה מלאכותית

אז איך עלינו לראות את התפקידים של המעבדים וה-GPU בהתאמה כאשר אנו מתכננים צינור פיתוח בינה מלאכותית, בין אם במקום, בענן או בין שניהם?

GPUs חוללו מהפכה בפיתוח AI, מכיוון שהם הציעו שיטת האצה שמוציאה פעולות מהמעבד. אך לא נובע מכך שזו האפשרות ההגיונית ביותר עבור עבודה נתונה.

כפי שארכיטקט הפלטפורמה של אינטל Sharath Raghava מסביר "ליישומי AI יש חישובים וקטוריים. חישובים וקטוריים ניתנים להקבילה. כדי להפעיל עומסי עבודה בינה מלאכותית ביעילות, אפשר לנצל את יכולות המעבדים וה-GPU בהתחשב בגודל החישובים הווקטוריים, זמן השהיית ההורדה, יכולת ההקבלה וגורמים רבים אחרים". אבל הוא ממשיך, עבור משימה "קטנה" יותר, "עלות" ההורדה תהיה מוגזמת, וייתכן שלא יהיה הגיוני להפעיל אותה על GPU או מאיץ.

מעבדים יכולים גם להפיק תועלת מאינטגרציה הדוקה יותר עם רכיבי מערכת אחרים המאפשרים להם להשלים את עבודת הבינה המלאכותית מהר יותר. השגת ערך מקסימלי מפריסות בינה מלאכותית כרוכה יותר מהפעלת הדגמים עצמם בלבד - התובנה המבוקשת תלויה בפעולות עיבוד מקדים, מסקנות ואחרי עיבוד יעילים. עיבוד מקדים מחייב להכין נתונים כדי להתאים לציפיות הקלט של המודל המאומן לפני שהוא מוזן כדי ליצור מסקנות. לאחר מכן, המידע השימושי מופק מתוצאות ההסקה בשלב שלאחר העיבוד.

אם נחשוב על מערכת לגילוי חדירות של מרכז נתונים (IDS), למשל, חשוב לפעול לפי הפלט של המודל כדי להגן ולמנוע כל נזק ממתקפת סייבר בזמן. ובדרך כלל, שלבי עיבוד מקדים ואחרי עיבוד יעילים יותר כאשר הם מבוצעים על מעבדי המערכת המארחת מכיוון שהם משולבים באופן הדוק יותר עם שאר המערכת האקולוגית הארכיטקטונית.

שיפור ביצועים תחת הזמנות למתחילים

אז, האם זה אומר לוותר לחלוטין על היתרונות של האצת GPU? לא בהכרח. אינטל בנתה האצת בינה מלאכותית במעבדי ה-Xeon Scalable שלה כבר כמה שנים. הטווח כבר כולל Deep Learning Boost להסקת ביצועים גבוהים על מודלים של למידה עמוקה, בעוד ש-Advanced Vector Extensions 512 (AVX 512) ו- Vector Neural Network Extensions (VNNI) מאיצים את ביצועי ההסקת INT8. אבל DL Boost משתמש גם בפורמט נקודה צפה במוח (BF16) כדי להגביר את הביצועים בעומסי עבודה של אימון שאינם דורשים רמות גבוהות של דיוק.

מעבדי הדור הרביעי של Xeon Scalable הקרובים של אינטל יוסיפו כפל מטריצות מתקדם, או AMX. זה ייתן דחיפה נוספת של פי 8 בהשוואה להרחבות AVX-512 VNNI x86 שיושמו במעבדים קודמים על פי חישובי אינטל, ויאפשרו למעבדי הדור הרביעי של Intel Xeon Scalable "לטפל בעומסי עבודה ואלגוריתמי DL כמו שעושה GPU". אבל אותם מאיצים יכולים להיות מיושמים גם על מחשוב CPU כללי עבור עומסי עבודה בינה מלאכותית וללא AI.

זה לא אומר שאינטל מצפה שצינורות AI יהיו x86 מההתחלה ועד הסוף. כאשר יותר הגיוני להוריד עומסי אימון מלאים שייהנו מקבילה, אינטל מציעה את מעבד האימון הבינה המלאכותי שלה Habana Gaudi. בדיקות בנצ'מרק מצביעות על כך שהאחרונים מחזקים מופעי אמזון EC2 DL1 שיכולים לספק עד 40 אחוז ביצועי מחיר טובים יותר מאשר מופעי אימון מקבילים מבוססי GPU של Nvidia המתארחים גם הם בענן.

במקביל, סדרת ה-Data Center GPU Flex של אינטל מכוונת לעומסי עבודה ופעולות הנהנות מקבילות כמו מסקנות בינה מלאכותית, עם יישומים שונים המותאמים למודלים "קלים" ומורכבים יותר. GPU נוסף של Intel® Data Center, בשם הקוד Ponte Vecchio (PVC), יתחיל בקרוב להפעיל את מחשב העל Aurora במעבדה הלאומית של Argonne.

האם נוכל ללכת מקצה לקצה?

אם כן, הסיליקון של אינטל יכול לעמוד בבסיס כל צינור הבינה המלאכותית, תוך מזעור הצורך להוריד נתונים בין מנועי מחשוב שונים שלא לצורך. המעבדים של החברה - בין אם GPU או CPU - תומכים גם הם במודל תוכנה נפוץ המבוסס על כלים ומסגרות בקוד פתוח עם אופטימיזציות של אינטל באמצעות תוכנית OneAPI שלה.

Brahmbhatt מציין את המורשת של אינטל בבניית מערכת אקולוגית של תוכנה x86 המבוססת על קהילה וקוד פתוח כיתרון נוסף. "הפילוסופיה שיש לאינטל היא... 'תנו למערכת האקולוגית להניע את האימוץ'. ואנחנו צריכים להבטיח שאנחנו הוגנים ופתוחים למערכת האקולוגית, ואנחנו מספקים כל רוטב הסודי שלנו בחזרה למערכת האקולוגית".

"אנחנו משתמשים בערימת תוכנה נפוצה, כדי לוודא בעצם שהמפתחים לא יצטרכו לדאוג מההבחנה הבסיסית של IP בין CPU ו-GPU עבור AI."

השילוב הזה של ערימת תוכנה נפוצה והתמקדות בשימוש במנוע המחשוב הנכון למשימה הנכונה חשוב עוד יותר בארגון. עסקים מסתמכים על בינה מלאכותית כדי לעזור להם לפתור כמה מהבעיות הדוחקות ביותר שלהם, בין אם זה נמצא בענן או בשטח. אבל עומסי עבודה מעורבים דורשים תוכנה מלאה, כמו גם תחזוקה וניהול של מחסנית המערכת, כדי להפעיל את הקוד שאינו כלול בקרנל שיושב על המאיץ.

לכן, כשמדובר בתשובה לשאלה "כיצד נביא בינה מלאכותית לקנה מידה ארגוני" התשובה עשויה להיות תלויה בהתבוננות בתמונה הרחבה יותר ובהקפדה על שימוש בכל ערכת החומרה והתוכנה העומדת לרשותך.

בחסות אינטל.

בול זמן:

עוד מ הקופה