AI-brikke legger til kunstige nevroner til resistiv RAM for bruk i bærbare droner PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

AI-brikke legger til kunstige nevroner til resistiv RAM for bruk i wearables, droner

En nylig publisert forskningsartikkel beskriver en compute-in-memory (CIM)-brikke som kombinerer kunstige nevroner med resistiv RAM (RRAM) slik at AI-modellvektene kan lagres og behandles på samme brikke.

En compute-in-memory-brikke basert på resistivt tilfeldig tilgangsminne (klikk for å forstørre). Bilde: Wan et al

Forskere bak designet hevder at det ville være mer effektivt for edge-applikasjoner fordi det eliminerer databevegelse mellom separate data- og minneblokker.

Edge computing og kunstig intelligens er begge på vei for meteorisk vekst i nær fremtid, i det minste ifølge analytikerselskapet IDC. Noen scenarier kombinerer dem sammen fordi edge-distribusjoner kan være begrenset på kraft og tilkobling, men likevel må analysere betydelige datamengder og levere en nesten sanntidsrespons på hendelser, noe som gjør en AI-modell som "bor" i enheten til den mest optimale løsningen .

I lys av dette har en gruppe forskere utviklet en brikke den kaller NeuRRAM, fordi den kombinerer kunstige nevroner med RRAM i en ny arkitektur. Målet med prosjektet var å levere et design som samtidig kan levere høy energieffektivitet samt allsidigheten til å støtte ulike AI-modeller, og sammenlignbar nøyaktighet til å kjøre samme modell i programvare.

Prosjektet startet opprinnelig som en del av et Nature Science Foundation-prosjekt kalt "Expeditions in Computing". Dette prosjektet samlet en gruppe forskere fra forskjellige institusjoner med ulik bakgrunn, inkludert noen fra Stanford og UCSD, samt forskere ved Tsinghua University i Kina som er eksperter på produksjon av RRAM-enheter.

Energieffektivitet: AI-slutning gjort på den batteridrevne dingsen

Ifølge Weier Wan, en utdannet forsker ved Stanford University og en av de forfattere av avisen, publisert i Nature i går, har NeuRRAM blitt utviklet som en AI-brikke som i stor grad forbedrer energieffektiviteten til AI-inferens, og dermed lar komplekse AI-funksjoner realiseres direkte i batteridrevne kantenheter, som smarte bærbare enheter, droner og industrielle IoT-sensorer .

«I dagens AI-brikker skjer databehandling og datalagring på separate steder – dataenhet og minneenhet. Den hyppige databevegelsen mellom disse enhetene bruker mest energi og blir flaskehalsen for å realisere laveffekts AI-prosessorer for avanserte enheter,» sa han.

For å løse dette implementerer NeuRRAM-brikken en "compute-in-memory"-modell, der prosessering skjer direkte i minnet. Den bruker også resistiv RAM (RRAM), en minnetype som er like rask som statisk RAM, men er ikke-flyktig, slik at den kan lagre AI-modellvekter. En nøkkelfunksjon ved RRAM-celler er at nevrale vekter kan lagres i minneceller som forskjellige konduktansnivåer, kodet via digital-til-analog-omformere (DAC) og mates til minnearrayet.

Dette er ikke en programvaresimulering, det er maskinvare

Det har vært tidligere studier på CIM-arkitekturer, men dette er den første som demonstrerer et bredt spekter av AI-applikasjoner innen maskinvare i stedet for programvaresimulering, samtidig som den er mer energieffektiv og i stand til å kjøre algoritmene nøyaktig, noe ingen av de tidligere studiene var i stand til å vise samtidig, ifølge Wan.

NeuRRAM består av 48 CIM-kjerner som består av totalt 3 millioner RRAM-celler. Hver kjerne er beskrevet som en transposerbar nevrosynaptisk array (TNSA) bestående av et rutenett på 256 × 256 RRAM-celler og 256 CMOS kunstige nevronkretser som implementerer analog-til-digital-omformere (ADC) og aktiveringsfunksjoner.

I følge papiret er TNSA-arkitekturen designet for å tilby fleksibel kontroll over retningen til dataflyt, noe som er avgjørende for å støtte et mangfoldig utvalg av AI-modeller med forskjellige dataflytmønstre.

For eksempel, i konvolusjonelle nevrale nettverk (CNN) som er vanlige i synsrelaterte oppgaver, flyter data i en enkelt retning gjennom lag for å generere datarepresentasjoner på forskjellige abstraksjonsnivåer, mens i noen andre modeller utføres sannsynlighetsprøver frem og tilbake mellom lagene til nettverket konvergerer til en tilstand med høy sannsynlighet.

Imidlertid var andre design som har kombinert CIM med RRAM begrenset til å operere i en enkelt retning, typisk ved å koble rader og kolonner i RRAM-tverrstangen til dedikerte kretser i periferien for å drive innganger og måle utganger, heter det i avisen.

Hvordan fungerer det

Hemmeligheten bak NeuRRAMs rekonfigurerbarhet er at den distribuerer CMOS-nevronkretsene mellom RRAM-cellene, og kobler dem sammen langs lengden av både rader og kolonner.

Weier Wan

Pic: Wan et al

Hver TNSA er brutt ned i et antall corelets, som hver består av 16 × 16 RRAM-celler og en nevronkrets. Korelettene er forbundet med delte bitlinjer (BL-er) og ord-linjer (WL-er) langs horisontal retning, og kildelinjer (SL-er) langs vertikal retning.

Nevronkretsen kobles via brytere til en BL og en SL av de 16 av hver som passerer gjennom corelet, og er ansvarlig for å integrere innganger fra alle de 256 RRAM-ene som kobles til samme BL eller SL.

Hver nevronkrets kan bruke sine BL- og SL-brytere for input og output. Dette betyr at den kan motta den analoge matrise-vektormultiplikasjonen (MVM) fra en RRAM-celle som kommer fra enten BL eller SL gjennom bryterne, men kan også sende de konverterte digitale resultatene til perifere registre gjennom de samme bryterne.

Dette arrangementet betyr at forskjellige dataflytretninger kan implementeres ved å konfigurere hvilken bryter som skal brukes under inngangs- og utgangsstadiene til hver nevronkrets.

(Denne arkitekturen setter oss også i tankene noe av SambaNovas AI-prosessorbrikke, som er implementert som et rutenett av beregningsenheter og minneenheter, koblet sammen med en kommunikasjonsstruktur på brikken som kontrollerer dataflyten.)

For å maksimere AI-inferensytelse ved å bruke de 48 CIM-kjernene i NeuRRAM, er det mulig å implementere ulike vektkartleggingsstrategier som utnytter både modellparallellisme og dataparallellisme, ifølge papiret.

Når det gjelder en CNN, kan strategien være å duplisere vektene til de tidlige, mest beregningsintensive lagene til flere CIM-kjerner for parallell inferencing. Oppgaven gir en mer detaljert beskrivelse av de tilgjengelige vektkartleggingsstrategiene.

Oppgaven rapporterer maskinvaremålte slutningsresultater ved bruk av brikken for en rekke AI-oppgaver, inkludert bildeklassifiseringer ved bruk av CIFAR-10- og MNIST-datasett, Googles talekommandogjenkjenning og MNIST-bildegjenoppretting, implementert med forskjellige AI-modeller.

Det hevdes å oppnå slutningsnøyaktighet som kan sammenlignes med programvaremodeller trent med 4-bits vekter på tvers av alle disse benchmark-oppgavene. For eksempel oppnår den en feilrate på 0.98 prosent på MNIST håndskrevet siffergjenkjenning ved bruk av en 7-lags CNN, en 14.34 prosent feilrate på CIFAR-10 objektklassifisering ved bruk av ResNet-20 og en 15.34 prosent feilrate på Google talekommandogjenkjenning ved bruk av en 4-cellet LSTM (langt korttidsminne).

NeuRRAM-brikken hevdes også å ha en energieffektivitet som er to ganger bedre enn tidligere CIM-brikkedesigner som bruker RRAM, på tvers av forskjellige beregningsbitpresisjoner. Energiforbruket i papiret er imidlertid ikke oppgitt i en form som er lett å sammenligne med kommersielle enheter på markedet, og figuren vist nedenfor illustrerer energiforbruket per operasjon i forskjellige bitpresisjoner målt i femtojoule (fJ).

wan et al

Klikk for å forstørre

Imidlertid fortalte Wan oss at for en typisk sanntidssøkingsoppgave for søkeord som kjører på mange smarte hjemmeenheter i dag (som å fortelle en smarthøyttaler om å slå på lyset), er NeuRRAM anslått å bruke mindre enn 2 mikrowatt strøm.

"Det betyr at selv på et lite myntbatteri kan det gå i mer enn 10 år (ikke tatt i betraktning strøm som forbrukes av andre systemkomponenter)," sa han.

I følge papiret er brikken produsert ved hjelp av en 130nm CMOS-teknologi, og det forventes at energieffektiviteten forbedres med teknologiskaleringen, slik tilfellet er for andre halvlederprodukter.

Produktisering fortsatt år unna

Så vil vi se en kommersiell forsendelsesenhet basert på denne teknologien? Wan forteller at det har et stort potensiale for å bli kommersialisert, og vurderer personlig å jobbe med å produktisere det selv.

"Den mest passende innledende brukssaken er svært sannsynlig i ekstrem edge / IoT," fortalte han oss.

Et produkt basert på NeuRRAM-brikken kan kombineres i et system med en CPU, som med andre akseleratorer, men dette er ikke nødvendig for alle applikasjoner.

"Nylig har det vært en trend med data fra sensorer som blir direkte matet til AI-prosessorer uten å gå gjennom CPU eller ekstra minne," sa Wan, men han la til at i de fleste tilfeller av virkelige distribusjon fungerer slike AI-akseleratorer som en co-prosessor for en CPU, hvor CPUen håndterer andre oppgaver.

NeuRRAM-brikken er kun beregnet på slutningsarbeid, hovedsakelig fordi RRAM-teknologien i sin nåværende form ikke er særlig egnet for trening fordi treningsprosessen krever hyppige oppdateringer av minnet, og dette er "en veldig kostbar operasjon på RRAM" sa Wan.

"Foreløpig har mange kommersielle støperier allerede kapasiteten til å produsere RRAM-enheter, men mest for innebygd minnebruk i stedet for for compute-in-memory. Når RRAM-prosessen blir mer tilgjengelig for IC-designere, kan et NeuRRAM-produkt skje."

Den nøyaktige tidslinjen for at dette skal skje er imidlertid vanskelig å forutsi, og Wan sa kunne være i løpet av de neste to til tre årene, eller mye lenger. ®

Tidstempel:

Mer fra Registeret