AI-chip tilføjer kunstige neuroner til resistiv RAM til brug i wearables, droner PlatoBlockchain Data Intelligence. Lodret søgning. Ai.

AI-chip tilføjer kunstige neuroner til resistiv RAM til brug i wearables, droner

Et nyligt offentliggjort forskningspapir beskriver en compute-in-memory (CIM)-chip, der kombinerer kunstige neuroner med resistiv RAM (RRAM), så AI-modelvægtene kan lagres og behandles på den samme chip.

En compute-in-memory chip baseret på resistiv random access memory (klik for at forstørre). Billede: Wan et al

Forskere bag designet hævder, at det ville være mere effektivt til edge-applikationer, fordi det eliminerer databevægelse mellem separate computer- og hukommelsesblokke.

Edge computing og kunstig intelligens er begge på vej mod meteorisk vækst i den nærmeste fremtid, i det mindste ifølge analytikervirksomheden IDC. Nogle scenarier kombinerer dem, fordi edge-implementeringer kan være begrænset af strøm og tilslutningsmuligheder, men stadig skal analysere betydelige mængder data og levere et næsten realtidssvar på hændelser, hvilket gør en AI-model "levende" i enheden til den mest optimale løsning .

I lyset af dette har en gruppe forskere udviklet en chip, den kalder NeuRRAM, fordi den kombinerer kunstige neuroner med RRAM i en ny arkitektur. Målet med projektet var at levere et design, der samtidigt kan levere høj energieffektivitet samt alsidighed til at understøtte forskellige AI-modeller og sammenlignelig nøjagtighed med at køre den samme model i software.

Projektet startede oprindeligt som en del af et Nature Science Foundation-projekt kaldet "Expeditions in Computing". Dette projekt samlede en gruppe forskere fra forskellige institutioner med forskellig baggrund, herunder nogle fra Stanford og UCSD, samt forskere ved Tsinghua University i Kina, som er eksperter i fremstilling af RRAM-enheder.

Energieffektivitet: AI-slutning udført på den batteridrevne dims

Ifølge Weier Wan, en kandidatforsker ved Stanford University og en af ​​de avisens forfattere, udgivet i Nature i går, er NeuRRAM blevet udviklet som en AI-chip, der i høj grad forbedrer energieffektiviteten af ​​AI-inferens, og derved tillader komplekse AI-funktioner at blive realiseret direkte i batteridrevne edge-enheder, såsom smart wearables, droner og industrielle IoT-sensorer .

"I nutidens AI-chips foregår databehandling og datalagring på separate steder - computerenhed og hukommelsesenhed. Den hyppige databevægelse mellem disse enheder bruger mest energi og bliver flaskehalsen for realisering af laveffekt AI-processorer til edge-enheder,” sagde han.

For at løse dette implementerer NeuRRAM-chippen en "compute-in-memory"-model, hvor behandling sker direkte i hukommelsen. Den gør også brug af resistiv RAM (RRAM), en hukommelsestype, der er lige så hurtig som statisk RAM, men er ikke-flygtig, hvilket giver den mulighed for at gemme AI-modelvægte. Et nøgletræk ved RRAM-celler er, at neurale vægte kan lagres i hukommelsesceller som forskellige konduktansniveauer, kodet via digital-til-analog-konvertere (DAC'er) og føres til hukommelsesarrayet.

Dette er ikke en softwaresimulering, det er hardware

Der har været tidligere undersøgelser af CIM-arkitekturer, men dette er den første til at demonstrere en bred vifte af AI-applikationer i hardware snarere end i softwaresimulering, samtidig med at den er mere energieffektiv og i stand til at køre algoritmerne nøjagtigt, noget ingen af ​​de tidligere undersøgelser var i stand til at vise samtidigt, ifølge Wan.

NeuRRAM består af 48 CIM-kerner omfattende i alt 3 millioner RRAM-celler. Hver kerne er beskrevet som en transposable neurosynaptic array (TNSA) bestående af et gitter af 256 × 256 RRAM-celler og 256 CMOS kunstige neuronkredsløb, der implementerer analog-til-digital-konvertere (ADC'er) og aktiveringsfunktioner.

Ifølge papiret er TNSA-arkitekturen designet til at tilbyde fleksibel kontrol af retningen af ​​dataflows, hvilket er afgørende for at understøtte en bred vifte af AI-modeller med forskellige dataflowmønstre.

For eksempel, i konvolutionelle neurale netværk (CNN'er), der er almindelige i synsrelaterede opgaver, strømmer data i en enkelt retning gennem lag for at generere datarepræsentationer på forskellige abstraktionsniveauer, mens der i nogle andre modeller udføres probabilistisk sampling frem og tilbage mellem lagene indtil netværket konvergerer til en tilstand med høj sandsynlighed.

Imidlertid var andre designs, der har kombineret CIM med RRAM, begrænset til at fungere i en enkelt retning, typisk ved at forbinde rækker og kolonner i RRAM-tværstangsarrayet til dedikerede kredsløb i periferien for at drive input og måle output, siger avisen.

Sådan fungerer det

Hemmeligheden bag NeuRRAM's rekonfigurerbarhed er, at den fordeler CMOS-neuronkredsløbene blandt RRAM-cellerne og forbinder dem langs længden af ​​både rækker og kolonner.

Weier Wan

pic: Wan et al

Hver TNSA er opdelt i et antal corelets, som hver består af 16 × 16 RRAM-celler og et neuronkredsløb. Coreletterne er forbundet med delte bit-linjer (BL'er) og ord-linjer (WL'er) langs den horisontale retning og kildelinjer (SL'er) langs den vertikale retning.

Neuronkredsløbet forbindes via switches til en BL og en SL ud af de 16 af hver, der passerer gennem corelet, og er ansvarlig for at integrere input fra alle de 256 RRAM'er, der forbinder til den samme BL eller SL.

Hvert neuronkredsløb kan bruge sine BL- og SL-switche til input og output. Det betyder, at den kan modtage den analoge matrix-vektor multiplikation (MVM) fra en RRAM-celle, der kommer fra enten BL eller SL gennem switchene, men kan også sende de konverterede digitale resultater til perifere registre gennem de samme switches.

Dette arrangement betyder, at forskellige dataflowretninger kan implementeres ved at konfigurere hvilken switch, der skal bruges under input- og outputstadierne for hvert neuronkredsløb.

(Denne arkitektur sætter os også noget i tankerne om SambaNovas AI-processorchip, som er implementeret som et gitter af computerenheder og hukommelsesenheder, forbundet med et on-chip kommunikationsstof, der styrer dataflowet.)

For at maksimere AI-inferens ydeevne ved hjælp af de 48 CIM-kerner i NeuRRAM er det muligt at implementere forskellige vægtkortlægningsstrategier, der udnytter både modelparallelisme og dataparallelisme, ifølge papiret.

I tilfælde af et CNN kan strategien være at duplikere vægtene af de tidlige, mest beregningsintensive lag til flere CIM-kerner til parallel inferencing. Papiret giver en mere detaljeret beskrivelse af de tilgængelige vægtkortlægningsstrategier.

Papiret rapporterer hardwaremålte inferensresultater ved hjælp af chippen til en række AI-opgaver, herunder billedklassifikationer ved hjælp af CIFAR-10- og MNIST-datasæt, Googles talekommando-genkendelse og MNIST-billedgendannelse, implementeret med forskellige AI-modeller.

Det hævdes at opnå slutningsnøjagtighed, der kan sammenlignes med softwaremodeller trænet med 4-bit vægte på tværs af alle disse benchmark-opgaver. For eksempel opnår den en fejlrate på 0.98 procent på MNIST håndskrevne ciffergenkendelse ved hjælp af en 7-lags CNN, en 14.34 procent fejlrate på CIFAR-10 objektklassificering ved brug af ResNet-20 og en 15.34 procent fejlrate på Google talekommando genkendelse ved hjælp af en 4-cellet LSTM (lang korttidshukommelse).

NeuRRAM-chippen hævdes også at have en energieffektivitet, der er to gange bedre end tidligere CIM-chipdesign, der bruger RRAM, på tværs af forskellige beregningsmæssige bit-præcisions. Energiforbruget i papiret er dog ikke angivet i en form, der er let at sammenligne med kommercielle apparater på markedet, og figuren nedenfor illustrerer energiforbruget pr. operation i forskellige bitpræcisions målt i femtojoule (fJ).

wan et al

Klik for større billede

Imidlertid fortalte Wan os, at for en typisk søgeordspotting-opgave i realtid, der kører på mange smarte hjemmeenheder i dag (såsom at bede en smart højttaler om at tænde lyset), anslås NeuRRAM at forbruge mindre end 2 mikrowatt strøm.

"Det betyder, at selv på et lille møntbatteri kan det køre i mere end 10 år (uden at tage hensyn til strømforbruget af andre systemkomponenter)," sagde han.

Ifølge avisen er chippen fremstillet ved hjælp af en 130nm CMOS-teknologi, og det forventes, at energieffektiviteten forbedres med teknologiskaleringen, som det er tilfældet for andre halvlederprodukter.

Produktion er stadig år væk

Så vil vi se en kommerciel forsendelsesenhed baseret på denne teknologi? Wan fortæller, at det har et stort potentiale for at blive kommercialiseret, og overvejer selv at arbejde på at produktisere det.

"Den mest egnede indledende brug er meget sandsynligt i ekstrem edge / IoT," fortalte han os.

Et produkt baseret på NeuRRAM-chippen kunne kombineres i et system med en CPU, som med andre acceleratorer, men det er ikke nødvendigt for enhver applikation.

"For nylig har der været en tendens til, at data fra sensorer bliver direkte ført til AI-processorer uden at gå gennem CPU eller ekstra hukommelse," sagde Wan, men han tilføjede, at i de fleste tilfælde i den virkelige verden fungerer sådanne AI-acceleratorer som en co-processor. for en CPU, hvor CPU'en klarer andre opgaver.

NeuRRAM-chippen er kun beregnet til inferencing arbejde, hovedsageligt fordi RRAM-teknologien i sin nuværende form ikke er særlig velegnet til træning, fordi træningsprocessen kræver hyppige opdateringer af hukommelsen, og dette er "en meget dyr operation på RRAM" sagde Wan.

"I øjeblikket har mange kommercielle støberier allerede mulighed for at fremstille RRAM-enheder, men mest til indlejret hukommelsesbrug frem for til compute-in-memory. Når RRAM-processen bliver mere tilgængelig for IC-designere, kan et NeuRRAM-produkt ske."

Den nøjagtige tidslinje for, at dette sker, er dog svær at forudsige, og Wan sagde, at det kunne være inden for de næste to til tre år eller meget længere. ®

Tidsstempel:

Mere fra Registret