שבב AI מוסיף נוירונים מלאכותיים ל-RAM התנגדות לשימוש בציוד לביש, רחפנים PlatoBlockchain Data Intelligence. חיפוש אנכי. איי.

שבב AI מוסיף נוירונים מלאכותיים ל-RAM התנגדות לשימוש בציוד לביש, רחפנים

מאמר מחקר שפורסם לאחרונה מתאר שבב מחשוב בזיכרון (CIM) המשלב נוירונים מלאכותיים עם זיכרון RAM התנגדות (RRAM) כך שניתן לאחסן ולעבד את משקלי מודל ה-AI באותו שבב.

שבב מחשוב בזיכרון המבוסס על זיכרון גישה אקראית התנגדות (לחץ להגדלה). תמונה: Wan et al

החוקרים מאחורי התכנון טוענים שהוא יהיה יעיל יותר עבור יישומי קצה מכיוון שהוא מבטל את תנועת הנתונים בין בלוקי מחשוב וזיכרון נפרדים.

מחשוב קצה ובינה מלאכותית נמצאים שניהם במסלול לצמיחה מטאורית בעתיד הקרוב, לפחות לפי חברת האנליסטים IDC. תרחישים מסוימים משלבים אותם יחד מכיוון שפריסות קצה עשויות להיות מוגבלות בכוח ובקישוריות, אך עדיין צריך לנתח כמויות משמעותיות של נתונים ולספק תגובה כמעט בזמן אמת לאירועים, מה שהופך מודל AI ש"חי" במכשיר לפתרון האופטימלי ביותר .

לאור זאת, קבוצת חוקרים פיתחה שבב שהוא מכנה NeuRRAM, מכיוון שהוא משלב נוירונים מלאכותיים עם RRAM בארכיטקטורה חדשה. מטרת הפרויקט הייתה לספק עיצוב שיכול לספק בו-זמנית יעילות אנרגטית גבוהה כמו גם את הרבגוניות לתמיכה בדגמי AI שונים, ודיוק דומה להפעלת אותו דגם בתוכנה.

הפרויקט החל בתחילה כחלק מפרויקט של קרן מדעי הטבע בשם "מסעות במחשוב". פרויקט זה הרכיב קבוצה של חוקרים ממוסדות שונים עם רקע שונה, כולל כמה מסטנפורד ו-UCSD, כמו גם חוקרים מאוניברסיטת Tsinghua בסין, מומחים בייצור מכשירי RRAM.

יעילות אנרגטית: הסקת בינה מלאכותית נעשית על ה-Gizmo המופעל על ידי סוללה

לדברי Weier Wan, חוקר בוגר באוניברסיטת סטנפורד ואחד מה- מחברי העיתון, שפורסם אתמול ב-Nature, NeuRRAM פותח כשבב בינה מלאכותית המשפר מאוד את יעילות האנרגיה של מסקנות בינה מלאכותית, ובכך מאפשר לממש פונקציות בינה מלאכותית מורכבות ישירות בתוך התקני קצה המופעלים על ידי סוללה, כגון ציוד לביש חכם, רחפנים וחיישני IoT תעשייתיים .

"בשבבי AI של היום, עיבוד נתונים ואחסון נתונים מתרחשים במקומות נפרדים - יחידת מחשוב ויחידת זיכרון. תנועת הנתונים התכופה בין יחידות אלה צורכת את מירב האנרגיה והופכת לצוואר הבקבוק למימוש מעבדי AI בעלי הספק נמוך עבור התקני קצה", אמר.

כדי להתמודד עם זה, שבב NeuRRAM מיישם מודל "מחשב בזיכרון", שבו העיבוד מתרחש ישירות בתוך הזיכרון. הוא גם עושה שימוש בזיכרון RAM התנגדות (RRAM), סוג זיכרון שהוא מהיר כמו זיכרון RAM סטטי אך אינו נדיף, מה שמאפשר לו לאחסן משקלים של מודל AI. תכונה מרכזית של תאי RRAM היא שניתן לאחסן משקלים עצביים בתאי זיכרון כרמות מוליכות שונות, לקודד באמצעות ממירים דיגיטליים לאנלוגיים (DAC) ולהזין למערך הזיכרון.

זו לא הדמיית תוכנה, זו חומרה

היו מחקרים קודמים על ארכיטקטורות CIM, אבל זה הראשון שהדגים מגוון רחב של יישומי בינה מלאכותית בחומרה ולא בסימולציית תוכנה, תוך היותו חסכוני יותר באנרגיה ויכול להפעיל את האלגוריתמים בצורה מדויקת, משהו שאף אחד מהמחקרים הקודמים היו מסוגלים להראות בו זמנית, לדברי וואן.

NeuRRAM מורכב מ-48 ליבות CIM הכוללות בסך הכל 3 מיליון תאי RRAM. כל ליבה מתוארת כמערך נוירו-סינפטי (TNSA) המורכב מרשת של 256 × 256 תאי RRAM ו-256 מעגלי נוירון מלאכותיים CMOS המיישמים ממירים אנלוגיים לדיגיטליים (ADC) ופונקציות הפעלה.

על פי המאמר, ארכיטקטורת TNSA תוכננה להציע שליטה גמישה על כיוון זרימות הנתונים, שהיא חיונית לתמיכה במגוון מגוון של דגמי AI עם דפוסי זרימת נתונים שונים.

לדוגמה, ברשתות עצביות קונבולוציוניות (CNNs) הנפוצות במשימות הקשורות לראייה, נתונים זורמים בכיוון יחיד דרך שכבות כדי ליצור ייצוגי נתונים ברמות הפשטה שונות, בעוד שבכמה מודלים אחרים מתבצעת דגימה הסתברותית הלוך ושוב בין שכבות עד שהרשת מתכנסת למצב בסבירות גבוהה.

עם זאת, עיצובים אחרים ששילבו CIM עם RRAM היו מוגבלים לפעולה בכיוון אחד, בדרך כלל על ידי חיווט קשיח של שורות ועמודות של מערך מוטות ה-RRAM למעגלים ייעודיים בפריפריה כדי להניע כניסות ולמדוד פלטים, נכתב בעיתון.

איך זה עובד

הסוד להגדרה מחדש של NeuRRAM הוא שהוא מפיץ את מעגלי הנוירון CMOS בין תאי ה-RRAM, ומחבר אותם לאורך השורות והעמודות.

וייר וואן

תמונה: וואן וחב'

כל TNSA מפורק למספר קורלטים, שכל אחד מהם מורכב מ-16 × 16 תאי RRAM ומעגל נוירון אחד. הקורלטים מחוברים על ידי קווי סיביות משותפים (BLs) וקווי מילים (WLs) לאורך הכיוון האופקי, וקווי מקור (SLs) לאורך הכיוון האנכי.

מעגל הנוירון מתחבר באמצעות מתגים ל-BL אחד ו-SL אחד מתוך 16 מכל אחד שעובר דרך הקורלט, ואחראי על שילוב כניסות מכל 256 ה-RRAM המתחברים לאותו BL או SL.

כל מעגל נוירון יכול להשתמש במתגי BL ו-SL שלו לקלט ופלט. המשמעות היא שהוא יכול לקבל את הכפל המטריצה-וקטור האנלוגי (MVM) מתא RRAM שמגיע מ-BL או SL דרך המתגים, אבל יכול גם לשלוח את התוצאות הדיגיטליות המומרות לאוגרים היקפיים דרך אותם מתגים.

הסדר זה אומר שניתן ליישם כיווני זרימת נתונים שונים על ידי קביעת התצורה באיזה מתג להשתמש במהלך שלבי הקלט והפלט של כל מעגל נוירון.

(ארכיטקטורה זו גם מזכירה לנו קצת את שבב מעבד AI של SambaNova, אשר מיושם כרשת של יחידות מחשוב ויחידות זיכרון, המקושרות על ידי מארג תקשורת על-שבב השולט בזרימת הנתונים.)

כדי למקסם את ביצועי הסקת הבינה המלאכותית באמצעות 48 ליבות ה-CIM ב-NeurRRAM, ניתן ליישם אסטרטגיות מיפוי משקל שונות המנצלות הן מקביליות מודל והן מקבילות נתונים, על פי המאמר.

במקרה של CNN, האסטרטגיה עשויה להיות לשכפל את המשקולות של השכבות המוקדמות, האינטנסיביות ביותר מבחינה חישובית, למספר ליבות CIM להסקת מסקנות מקבילות. המאמר מספק תיאור מפורט יותר של אסטרטגיות מיפוי המשקל הזמינות.

המאמר מדווח על תוצאות מסקנות שנמדדו בחומרה באמצעות השבב עבור מגוון משימות בינה מלאכותית, כולל סיווגי תמונות באמצעות מערכי נתונים של CIFAR-10 ו-MNIST, זיהוי פקודות דיבור של Google ושחזור תמונה של MNIST, המיושמת עם מודלים שונים של AI.

נטען כי הוא משיג דיוק מסקנות השווה לדגמי תוכנה המאומנים עם משקלים של 4 סיביות בכל משימות ההשוואה הללו. לדוגמה, הוא משיג שיעור שגיאה של 0.98 אחוז בזיהוי ספרות בכתב יד של MNIST באמצעות 7 שכבות CNN, שיעור שגיאה של 14.34 אחוז בסיווג אובייקטים של CIFAR-10 באמצעות ResNet-20 ושיעור שגיאה של 15.34 אחוז בזיהוי פקודות דיבור של Google באמצעות 4-תאים LSTM (זיכרון לטווח קצר).

לשבב NeuRRAM נטען גם שהוא בעל יעילות אנרגטית טובה פי שניים מתכנוני שבב CIM קודמים המשתמשים ב-RRAM, על פני דיוק סיביות חישובי שונים. עם זאת, צריכת האנרגיה בעיתון אינה מצוטטת בצורה שקל להשוות למכשירים מסחריים בשוק, והאיור המוצג להלן ממחיש את צריכת האנרגיה לכל פעולה בדייקוני סיביות שונים הנמדדים בפמטוג'ול (fJ).

וואן וחב'

לחץ על התמונה להגדלה

עם זאת, Wan אמר לנו שלמטלת איתור מילות מפתח טיפוסית בזמן אמת שפועלת היום על מכשירי בית חכם רבים (כגון לומר לרמקול חכם להדליק את האור), על פי ההערכות, NeuRRAM צורך פחות מ-2 מיקרו וואט של חשמל.

"זה אומר שאפילו על סוללת מטבעות קטנה, היא יכולה לפעול במשך יותר מ-10 שנים (לא בהתחשב בצריכת החשמל של רכיבי מערכת אחרים)", אמר.

על פי העיתון, השבב מיוצר באמצעות טכנולוגיית CMOS של 130nm, וצפוי שיעילות האנרגיה תשתפר עם קנה המידה של הטכנולוגיה, כפי שקורה במוצרי מוליכים למחצה אחרים.

ייצור עוד שנים

אז האם נראה מכשיר מסחרי למשלוח המבוסס על הטכנולוגיה הזו? וואן אומר שיש לו פוטנציאל גדול להתמסחר, והוא שוקל באופן אישי לעבוד על ייצורו בעצמו.

"מקרה השימוש הראשוני המתאים ביותר הוא סביר מאוד ב-Edge / IoT קיצוני," הוא אמר לנו.

ניתן לשלב מוצר המבוסס על שבב NeuRRAM במערכת עם מעבד, כמו עם מאיצים אחרים, אבל זה לא הכרחי לכל אפליקציה.

"לאחרונה יש מגמה של נתונים מחיישנים המוזנים ישירות למעבדי בינה מלאכותית מבלי לעבור דרך מעבד או זיכרון נוסף", אמר וואן, אך הוא הוסיף כי ברוב מקרי הפריסה בעולם האמיתי, מאיצי בינה מלאכותית כאלה מתפקדים כמעבד שותף עבור מעבד, שבו המעבד מנהל משימות אחרות.

שבב NeuRRAM מיועד לעבודת הסקת מסקנות בלבד, בעיקר בגלל שטכנולוגיית ה-RRAM בצורתה הנוכחית אינה מתאימה במיוחד לאימון מכיוון שתהליך האימון דורש עדכונים תכופים לזיכרון, וזוהי "פעולה יקרה מאוד ב-RRAM" אמר וואן.

"כרגע למפעלי יציקה מסחריים רבים כבר יש את היכולת לייצר התקני RRAM, אבל בעיקר לשימושי זיכרון משובץ ולא עבור מחשוב בזיכרון. ברגע שתהליך RRAM יהפוך זמין יותר למעצבי IC, מוצר NeuRRAM יכול לקרות."

עם זאת, קשה לחזות את ציר הזמן המדויק לקרות זה, ווואן אמר שיכול להיות בשנתיים-שלוש הקרובות, או הרבה יותר. ®

בול זמן:

עוד מ הקופה