تضيف شريحة AI خلايا عصبية اصطناعية إلى ذاكرة الوصول العشوائي المقاومة لاستخدامها في الأجهزة القابلة للارتداء والطائرات بدون طيار PlatoBlockchain Data Intelligence. البحث العمودي. عاي.

تضيف شريحة AI خلايا عصبية اصطناعية إلى ذاكرة الوصول العشوائي المقاومة لاستخدامها في الأجهزة القابلة للارتداء والطائرات بدون طيار

تصف ورقة بحثية منشورة حديثًا شريحة الحوسبة في الذاكرة (CIM) التي تجمع بين الخلايا العصبية الاصطناعية وذاكرة الوصول العشوائي المقاومة (RRAM) بحيث يمكن تخزين أوزان نموذج الذكاء الاصطناعي ومعالجتها على نفس الشريحة.

شريحة حسابية في الذاكرة تعتمد على ذاكرة الوصول العشوائي المقاومة (انقر للتكبير). الصورة: Wan et al

يدعي الباحثون وراء التصميم أنه سيكون أكثر كفاءة للتطبيقات المتطورة لأنه يلغي حركة البيانات بين كتل الحوسبة والذاكرة المنفصلة.

إن كلا من الحوسبة المتطورة والذكاء الاصطناعي يسيران على الطريق الصحيح لتحقيق النمو السريع في المستقبل القريب ، على الأقل وفقًا لشركة IDC المحلل. تجمع بعض السيناريوهات معًا لأن عمليات النشر على الحافة قد تكون مقيدة بالطاقة والاتصال ، ومع ذلك لا تزال بحاجة إلى تحليل كميات كبيرة من البيانات وتقديم استجابة في الوقت الفعلي تقريبًا للأحداث ، مما يجعل نموذج الذكاء الاصطناعي "يعيش" في الجهاز هو الحل الأمثل .

في ضوء ذلك ، طورت مجموعة من الباحثين شريحة تسمى NeuRRAM ، لأنها تجمع بين الخلايا العصبية الاصطناعية مع RRAM في بنية جديدة. كان الهدف من المشروع هو تقديم تصميم يمكنه في الوقت نفسه توفير كفاءة عالية في استخدام الطاقة بالإضافة إلى تعدد الاستخدامات لدعم نماذج الذكاء الاصطناعي المختلفة ، ودقة مماثلة لتشغيل نفس النموذج في البرنامج.

بدأ المشروع في البداية كجزء من مشروع مؤسسة علوم الطبيعة المسمى "الرحلات الاستكشافية في الحوسبة". جمع هذا المشروع مجموعة من الباحثين من مؤسسات مختلفة بخلفيات مختلفة ، بما في ذلك بعض الباحثين من جامعة ستانفورد وجامعة كاليفورنيا في سان فرانسيسكو ، بالإضافة إلى باحثين في جامعة تسينغهوا في الصين خبراء في تصنيع أجهزة RRAM.

كفاءة الطاقة: استنتاج الذكاء الاصطناعي يتم على الجهاز الذي يعمل بالبطارية

وفقًا لـ Weier Wan ، وهو باحث متخرج في جامعة ستانفورد وأحد مؤلفو الورقةنُشر في مجلة Nature بالأمس ، تم تطوير NeuRRAM كشريحة AI تعمل على تحسين كفاءة الطاقة بشكل كبير في استدلال الذكاء الاصطناعي ، مما يسمح بتحقيق وظائف الذكاء الاصطناعي المعقدة مباشرةً داخل الأجهزة المتطورة التي تعمل بالبطاريات ، مثل الأجهزة الذكية القابلة للارتداء ، والطائرات بدون طيار ، وأجهزة استشعار إنترنت الأشياء الصناعية .

"في رقائق الذكاء الاصطناعي اليوم ، تتم معالجة البيانات وتخزينها في أماكن منفصلة - وحدة الحوسبة ووحدة الذاكرة. إن حركة البيانات المتكررة بين هذه الوحدات تستهلك أكبر قدر من الطاقة وتصبح عنق الزجاجة لتحقيق معالجات ذكاء اصطناعي منخفضة الطاقة للأجهزة المتطورة ".

لمعالجة هذا الأمر ، تقوم شريحة NeuRRAM بتنفيذ نموذج "الحوسبة في الذاكرة" ، حيث تحدث المعالجة مباشرة داخل الذاكرة. كما أنها تستخدم ذاكرة الوصول العشوائي المقاومة (RRAM) ، وهي نوع ذاكرة سريع مثل ذاكرة الوصول العشوائي الثابتة ولكنها غير متقلبة ، مما يسمح لها بتخزين أوزان نموذج الذكاء الاصطناعي. الميزة الرئيسية لخلايا RRAM هي أنه يمكن تخزين الأوزان العصبية في خلايا الذاكرة كمستويات توصيل مختلفة ، يتم تشفيرها عبر محولات رقمية إلى تمثيلية (DACs) وتغذيتها في صفيف الذاكرة.

هذه ليست محاكاة برمجية ، إنها جهاز

كانت هناك دراسات سابقة حول معماريات CIM ، ولكن هذا هو الأول الذي يوضح مجموعة واسعة من تطبيقات الذكاء الاصطناعي في الأجهزة بدلاً من محاكاة البرامج ، مع كونه أكثر كفاءة في استخدام الطاقة وقادرًا على تشغيل الخوارزميات بدقة ، وهو شيء لم يكن موجودًا في الدراسات السابقة كانت قادرة على العرض في وقت واحد ، وفقًا لما قاله وان.

يتكون NeuRRAM من 48 نواة CIM تضم ما مجموعه 3 ملايين خلية RRAM. يتم وصف كل نواة على أنها صفيف عصبي قابل للنقل (TNSA) يتكون من شبكة من خلايا 256 × 256 RRAM و 256 دائرة عصبية اصطناعية CMOS تنفذ المحولات التناظرية إلى الرقمية (ADCs) ووظائف التنشيط.

وفقًا للورقة البحثية ، تم تصميم بنية TNSA لتوفير تحكم مرن في اتجاه تدفقات البيانات ، وهو أمر ضروري لدعم مجموعة متنوعة من نماذج الذكاء الاصطناعي ذات أنماط تدفق البيانات المختلفة.

على سبيل المثال ، في الشبكات العصبية التلافيفية (CNN) الشائعة في المهام المتعلقة بالرؤية ، تتدفق البيانات في اتجاه واحد عبر طبقات لتوليد تمثيلات البيانات على مستويات تجريد مختلفة ، بينما في بعض النماذج الأخرى ، يتم إجراء أخذ العينات الاحتمالية ذهابًا وإيابًا بين الطبقات حتى تتقارب الشبكة إلى حالة ذات احتمالية عالية.

ومع ذلك ، فإن التصميمات الأخرى التي جمعت بين CIM و RRAM اقتصرت على العمل في اتجاه واحد ، عادةً عن طريق صفوف وأعمدة الأسلاك الصلبة من مصفوفة RRAM العارضة إلى الدوائر المخصصة على الأطراف لدفع المدخلات وقياس المخرجات ، كما تقول الورقة.

كيف يعمل

يكمن سر قابلية إعادة تشكيل NeuRRAM في أنه يوزع دوائر الخلايا العصبية CMOS بين خلايا RRAM ، ويربطها بطول الصفوف والأعمدة.

وير وان

الموافقة المسبقة عن علم: وان وآخرون

يتم تقسيم كل TNSA إلى عدد من النواة ، كل منها يتكون من 16 × 16 خلية RRAM ودائرة عصبية واحدة. ترتبط النواة بخطوط بت مشتركة (BLs) وخطوط كلمات (WLs) على طول الاتجاه الأفقي ، وخطوط المصدر (SLs) على طول الاتجاه الرأسي.

تتصل دارة الخلايا العصبية عبر مفاتيح إلى BL واحد وواحد SL من بين 16 لكل منها يمر عبر corelet ، وهي مسؤولة عن دمج المدخلات من جميع 256 RRAMs المتصلة بنفس BL أو SL.

يمكن لكل دائرة عصبية استخدام مفاتيحها BL و SL للإدخال والإخراج. هذا يعني أنه يمكنه تلقي مضاعفة المصفوفة التماثلية (MVM) من خلية RRAM القادمة من BL أو SL من خلال المحولات ، ولكن يمكنه أيضًا إرسال النتائج الرقمية المحولة إلى السجلات الطرفية من خلال نفس المحولات.

يعني هذا الترتيب أنه يمكن تنفيذ اتجاهات تدفق البيانات المختلفة من خلال تكوين المفتاح الذي سيتم استخدامه أثناء مرحلتي الإدخال والإخراج لكل دائرة عصبية.

(تضعنا هذه العمارة أيضًا في الاعتبار إلى حد ما شريحة المعالج AI من SambaNova، والتي يتم تنفيذها كشبكة من وحدات الحوسبة ووحدات الذاكرة ، مرتبطة بنسيج اتصال على الرقاقة يتحكم في تدفق البيانات.)

لتعظيم أداء الاستدلال بالذكاء الاصطناعي باستخدام 48 نواة CIM في NeuRRAM ، من الممكن تنفيذ استراتيجيات مختلفة لرسم خرائط الوزن تستغل كلاً من توازي النموذج وتوازي البيانات ، وفقًا للورقة.

في حالة CNN ، قد تكون الإستراتيجية هي تكرار أوزان الطبقات المبكرة والأكثر كثافة من الناحية الحسابية إلى نوى CIM متعددة للاستدلال المتوازي. تقدم الورقة وصفًا أكثر تفصيلاً لاستراتيجيات تعيين الوزن المتاحة.

تُبلغ الورقة البحثية عن نتائج الاستدلال المقاسة بالأجهزة باستخدام الشريحة لمجموعة من مهام الذكاء الاصطناعي بما في ذلك تصنيفات الصور باستخدام مجموعات بيانات CIFAR-10 و MNIST ، والتعرف على أوامر الكلام من Google واستعادة الصور MNIST ، المنفذة باستخدام نماذج الذكاء الاصطناعي المختلفة.

يُزعم أنها تحقق دقة في الاستدلال مقارنة بنماذج البرامج المدربة بأوزان 4 بت عبر جميع مهام القياس هذه. على سبيل المثال ، يحقق معدل خطأ بنسبة 0.98 بالمائة في التعرف على الأرقام المكتوبة بخط اليد MNIST باستخدام 7 طبقات CNN ، ومعدل خطأ 14.34 بالمائة في تصنيف كائن CIFAR-10 باستخدام ResNet-20 ومعدل خطأ 15.34 بالمائة في التعرف على أوامر الكلام من Google باستخدام 4 خلايا LSTM (ذاكرة طويلة المدى).

يُزعم أيضًا أن شريحة NeuRRAM تتمتع بكفاءة طاقة أفضل مرتين من تصميمات شرائح CIM السابقة باستخدام RRAM ، عبر مختلف وحدات البت الحسابية. ومع ذلك ، لم يتم ذكر استهلاك الطاقة في الورقة في شكل يسهل مقارنته بالأجهزة التجارية في السوق ، ويوضح الشكل الموضح أدناه استهلاك الطاقة لكل عملية بدرجات بتات مختلفة تم قياسها بالفيمتوجول (fJ).

وان وآخرون

اضغط للتكبير

ومع ذلك ، أخبرنا Wan أنه بالنسبة لمهمة اكتشاف الكلمات الرئيسية في الوقت الفعلي النموذجية التي تعمل على العديد من الأجهزة المنزلية الذكية اليوم (مثل إخبار مكبر صوت ذكي بتشغيل الضوء) ، يُقدر أن NeuRRAM يستهلك أقل من 2 ميكرو واط من الطاقة.

وقال: "هذا يعني أنه حتى على بطارية عملة صغيرة ، يمكن أن تعمل لأكثر من 10 سنوات (دون النظر إلى الطاقة التي تستهلكها مكونات النظام الأخرى)".

وفقًا للورقة ، تم تصنيع الشريحة باستخدام تقنية CMOS 130 نانومتر ، ومن المتوقع أن تتحسن كفاءة الطاقة مع التوسع التكنولوجي ، كما هو الحال بالنسبة لمنتجات أشباه الموصلات الأخرى.

الإنتاج لا يزال على بعد سنوات

فهل سنرى جهاز شحن تجاري يعتمد على هذه التقنية؟ يقول وان إنه يمتلك إمكانات كبيرة ليتم تسويقه ، ويفكر شخصيًا في العمل على إنتاجه بنفسه.

قال لنا: "من المحتمل جدًا أن تكون حالة الاستخدام الأولية الأكثر ملاءمة في أقصى الحدود / إنترنت الأشياء".

يمكن دمج منتج يعتمد على شريحة NeuRRAM في نظام به وحدة معالجة مركزية ، كما هو الحال مع مسرعات أخرى ، ولكن هذا ليس ضروريًا لكل تطبيق.

قال وان: "في الآونة الأخيرة ، كان هناك اتجاه للبيانات من أجهزة الاستشعار التي يتم تغذيتها مباشرة إلى معالجات الذكاء الاصطناعي دون المرور عبر وحدة المعالجة المركزية أو الذاكرة الإضافية" ، لكنه أضاف أنه بالنسبة لمعظم حالات النشر في العالم الحقيقي ، تعمل مسرعات الذكاء الاصطناعي هذه كمعالج مشترك لوحدة المعالجة المركزية ، حيث تدير وحدة المعالجة المركزية المهام الأخرى.

تم تصميم شريحة NeuRRAM للاستدلال على العمل فقط ، ويرجع ذلك إلى حد كبير إلى أن تقنية RRAM في شكلها الحالي ليست مناسبة جدًا للتدريب لأن عملية التدريب تتطلب تحديثات متكررة للذاكرة ، وهذه "عملية مكلفة للغاية على RRAM".

"تمتلك العديد من المصانع التجارية حاليًا بالفعل القدرة على تصنيع أجهزة RRAM ، ولكن في الغالب لاستخدامات الذاكرة المضمنة بدلاً من الحوسبة في الذاكرة. بمجرد أن تصبح عملية RRAM متاحة على نطاق واسع لمصممي IC ، يمكن أن يحدث منتج NeuRRAM ".

من الصعب التنبؤ بالجدول الزمني الدقيق لحدوث ذلك ، وقال وان إنه يمكن أن يكون في العامين أو الثلاثة أعوام القادمة ، أو أكثر من ذلك بكثير. ®

الطابع الزمني:

اكثر من السجل