AI chip adds artificial neurons to resistive RAM for use in wearables, drones PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Cipul AI adaugă neuroni artificiali la memoria RAM rezistivă pentru a fi utilizați în purtabile, drone

O lucrare de cercetare recent publicată descrie un cip de calcul în memorie (CIM) care combină neuroni artificiali cu RAM rezistivă (RRAM), astfel încât greutățile modelului AI să poată fi stocate și procesate pe același cip.

Un cip de calcul în memorie bazat pe memorie rezistivă cu acces aleatoriu (click pentru a mări). Imagine: Wan et al

Cercetătorii din spatele designului susțin că ar fi mai eficient pentru aplicațiile edge, deoarece elimină mișcarea datelor între blocuri separate de calcul și memorie.

Edge computing și inteligența artificială sunt ambele pe calea unei creșteri meteorice în viitorul apropiat, cel puțin conform companiei de analist IDC. Unele scenarii le combină împreună, deoarece implementările de vârf pot fi limitate în ceea ce privește puterea și conectivitatea, dar totuși trebuie să analizeze volume semnificative de date și să ofere un răspuns aproape în timp real la evenimente, făcând ca modelul AI să „trăiască” în dispozitiv să fie cea mai optimă soluție. .

În lumina acestui fapt, un grup de cercetători a dezvoltat un cip pe care îl numește NeuRRAM, deoarece combină neuronii artificiali cu RRAM într-o arhitectură nouă. Scopul proiectului a fost acela de a oferi un design care poate oferi simultan o eficiență energetică ridicată, precum și versatilitatea de a susține diverse modele AI și o precizie comparabilă cu rularea aceluiași model în software.

Proiectul a început inițial ca parte a unui proiect al Fundației pentru Știința Naturii numit „Expediții în calcul”. Acest proiect a reunit un grup de cercetători din diferite instituții cu medii diferite, inclusiv unii de la Stanford și UCSD, precum și cercetători de la Universitatea Tsinghua din China, care sunt experți în fabricarea dispozitivelor RRAM.

Eficiență energetică: inferența AI făcută pe dispozitivul alimentat cu baterie

Potrivit lui Weier Wan, un cercetător absolvent la Universitatea Stanford și unul dintre autorii lucrării, publicat ieri în Nature, NeuRRAM a fost dezvoltat ca un cip AI care îmbunătățește considerabil eficiența energetică a inferenței AI, permițând astfel să se realizeze funcții AI complexe direct în dispozitivele de vârf alimentate de baterii, cum ar fi purtabile inteligente, drone și senzori industriali IoT. .

„În cipurile AI de astăzi, procesarea și stocarea datelor au loc în locuri separate – unitatea de calcul și unitatea de memorie. Mișcarea frecventă a datelor între aceste unități consumă cea mai mare energie și devine blocajul pentru realizarea procesoarelor AI de putere redusă pentru dispozitivele de vârf”, a spus el.

Pentru a rezolva acest lucru, cipul NeuRRAM implementează un model „compute-in-memory”, în care procesarea are loc direct în memorie. De asemenea, folosește RAM rezistiv (RRAM), un tip de memorie care este la fel de rapid ca RAM-ul static, dar este nevolatil, permițându-i să stocheze greutățile modelului AI. O caracteristică cheie a celulelor RRAM este că greutățile neuronale pot fi stocate în celulele de memorie ca diferite niveluri de conductanță, codificate prin convertoare digital-analogice (DAC) și alimentate în matricea de memorie.

Aceasta nu este o simulare software, este hardware

Au existat studii anterioare asupra arhitecturilor CIM, dar acesta este primul care demonstrează o gamă largă de aplicații AI în hardware, mai degrabă decât în ​​simularea software, fiind în același timp mai eficient din punct de vedere energetic și capabil să ruleze algoritmii cu acuratețe, ceva care nu a fost studiat anterior. au putut să apară simultan, potrivit lui Wan.

NeuRRAM constă din 48 de nuclee CIM cuprinzând un total de 3 milioane de celule RRAM. Fiecare nucleu este descris ca o matrice neurosinaptică transposabilă (TNSA) constând dintr-o grilă de 256 × 256 celule RRAM și 256 circuite de neuroni artificiali CMOS care implementează convertoare analog-digitale (ADC) și funcții de activare.

Potrivit lucrării, arhitectura TNSA a fost concepută pentru a oferi un control flexibil al direcției fluxurilor de date, ceea ce este crucial pentru susținerea unei game variate de modele AI cu diferite modele de flux de date.

De exemplu, în rețelele neuronale convoluționale (CNN) care sunt comune în sarcinile legate de viziune, datele circulă într-o singură direcție prin straturi pentru a genera reprezentări de date la diferite niveluri de abstractizare, în timp ce în alte modele eșantionarea probabilistică este efectuată înainte și înapoi între straturi. până când rețeaua converge către o stare de mare probabilitate.

Cu toate acestea, alte modele care au combinat CIM cu RRAM s-au limitat la operarea într-o singură direcție, de obicei prin conectarea de rânduri și coloane ale matricei de bare transversale RRAM la circuite dedicate de la periferie pentru a conduce intrările și a măsura ieșirile, se spune în lucrare.

Abordarea Noastră

Secretul reconfigurabilității NeuRRAM este că acesta distribuie circuitele neuronilor CMOS între celulele RRAM și le conectează pe lungimea ambelor rânduri și coloane.

Weier Wan

Poza: Wan și colab

Fiecare TNSA este defalcat într-un număr de coreleți, fiecare dintre ele constând din 16 × 16 celule RRAM și un circuit neuron. Coreletele sunt conectate prin linii de biți (BL) și linii de cuvinte (WL) partajate de-a lungul direcției orizontale și liniile sursă (SL) de-a lungul direcției verticale.

Circuitul neuronului se conectează prin comutatoare la un BL și un SL din cele 16 ale fiecăruia care trece prin corelet și este responsabil pentru integrarea intrărilor din toate cele 256 de RRAM-uri care se conectează la același BL sau SL.

Fiecare circuit neuron își poate folosi comutatoarele BL și SL pentru intrare și ieșire. Aceasta înseamnă că poate primi multiplicarea matrice-vector analogică (MVM) de la o celulă RRAM care vine fie de la BL, fie de la SL prin intermediul comutatoarelor, dar poate trimite și rezultatele digitale convertite către registrele periferice prin aceleași comutatoare.

Acest aranjament înseamnă că diferite direcții ale fluxului de date pot fi implementate prin configurarea comutatorului de utilizat în timpul etapelor de intrare și de ieșire ale fiecărui circuit neuron.

(Această arhitectură ne aduce, de asemenea, în minte oarecum Cipul de procesor AI al SambaNova, care este implementat ca o grilă de unități de calcul și unități de memorie, legate printr-o țesătură de comunicație pe cip care controlează fluxul de date.)

Pentru a maximiza performanța de inferență AI folosind cele 48 de nuclee CIM din NeuRRAM, este posibil să se implementeze diverse strategii de cartografiere a greutății care exploatează atât paralelismul modelului, cât și paralelismul datelor, potrivit lucrării.

În cazul unui CNN, strategia ar putea fi duplicarea ponderilor straturilor timpurii, cele mai intense din punct de vedere computațional, la mai multe nuclee CIM pentru inferență paralelă. Lucrarea oferă o descriere mai detaliată a strategiilor de cartografiere a greutății disponibile.

Lucrarea raportează rezultate de inferență măsurate prin hardware folosind cip pentru o serie de sarcini AI, inclusiv clasificări de imagini folosind seturi de date CIFAR-10 și MNIST, recunoașterea comenzilor vocale Google și recuperarea imaginii MNIST, implementate cu diferite modele AI.

Se pretinde că atinge o precizie de inferență comparabilă cu modelele software antrenate cu greutăți de 4 biți în toate aceste sarcini de referință. De exemplu, atinge o rată de eroare de 0.98% la recunoașterea cifrelor scrise de mână MNIST utilizând un CNN cu 7 straturi, o rată de eroare de 14.34% la clasificarea obiectelor CIFAR-10 folosind ResNet-20 și o rată de eroare de 15.34% la recunoașterea comenzilor de vorbire Google folosind un LSTM cu 4 celule (memorie lungă pe termen scurt).

Se pretinde, de asemenea, că cipul NeuRRAM are o eficiență energetică de două ori mai bună decât proiectele anterioare de cip CIM care utilizează RRAM, la diferite precizii de bit de calcul. Cu toate acestea, consumul de energie din hârtie nu este cotat într-o formă care este ușor de comparat cu dispozitivele comerciale de pe piață, iar figura de mai jos ilustrează consumul de energie pe operațiune în diferite precizii de biți măsurate în femtojouli (fJ).

wan și colab

Click pentru a mări

Cu toate acestea, Wan ne-a spus că, pentru o sarcină tipică de detectare a cuvintelor cheie în timp real, care rulează pe multe dispozitive de acasă inteligente în prezent (cum ar fi spunerea unui difuzor inteligent să aprindă lumina), se estimează că NeuRRAM consumă mai puțin de 2 microwați de putere.

„Asta înseamnă că, chiar și pe o baterie monedă mică, ar putea funcționa mai mult de 10 ani (fără a lua în considerare puterea consumată de alte componente ale sistemului)”, a spus el.

Potrivit lucrării, cipul este fabricat folosind o tehnologie CMOS de 130 nm și este de așteptat ca eficiența energetică să se îmbunătățească odată cu scalarea tehnologiei, așa cum este cazul altor produse semiconductoare.

Producție încă mai departe de ani

Deci vom vedea un dispozitiv comercial de expediere bazat pe această tehnologie? Wan spune că are un mare potențial de a fi comercializat și se gândește personal să lucreze la producerea lui.

„Cel mai potrivit caz de utilizare inițial este foarte probabil în extreme edge / IoT”, ne-a spus el.

Un produs bazat pe cip NeuRRAM ar putea fi combinat într-un sistem cu un procesor, ca și în cazul altor acceleratoare, dar acest lucru nu este necesar pentru fiecare aplicație.

„Recent, a existat o tendință de transmitere directă a datelor de la senzori către procesoarele AI, fără a trece prin CPU sau memorie suplimentară”, a spus Wan, dar a adăugat că, pentru majoritatea cazurilor de implementare din lumea reală, astfel de acceleratoare AI funcționează ca un co-procesor. pentru un CPU, unde CPU gestionează alte sarcini.

Cipul NeuRRAM este destinat doar pentru a deduce munca, în mare parte pentru că tehnologia RRAM în forma sa actuală nu este foarte potrivită pentru antrenament, deoarece procesul de antrenament necesită actualizări frecvente ale memoriei și aceasta este „o operațiune foarte costisitoare pe RRAM”, a spus Wan.

„În prezent, multe turnătorii comerciale au deja capacitatea de a fabrica dispozitive RRAM, dar mai ales pentru utilizări de memorie încorporată, mai degrabă decât pentru calcularea în memorie. Odată ce procesul RRAM devine disponibil pe scară largă pentru designerii de circuite integrate, s-ar putea produce un produs NeuRRAM.”

Cronologia exactă pentru ca acest lucru să se întâmple este însă greu de prezis, iar Wan a spus că ar putea fi în următorii doi sau trei ani, sau mult mai mult. ®

Timestamp-ul:

Mai mult de la Registrul