AI 칩은 웨어러블, 드론 PlatoBlockchain Data Intelligence에 사용하기 위해 저항성 RAM에 인공 뉴런을 추가합니다. 수직 검색. 일체 포함.

AI 칩은 웨어러블, 드론에 사용하기 위해 저항성 RAM에 인공 뉴런을 추가합니다.

새로 발표된 연구 논문은 인공 뉴런과 저항성 RAM(RRAM)을 결합하여 AI 모델 가중치를 동일한 칩에 저장하고 처리할 수 있는 메모리 컴퓨팅(CIM) 칩에 대해 설명합니다.

저항성 랜덤 액세스 메모리 기반 컴퓨팅 인 메모리 칩(확대하려면 클릭). 이미지: 완 외

설계 이면의 연구원들은 별도의 컴퓨팅 블록과 메모리 블록 간의 데이터 이동을 제거하기 때문에 에지 애플리케이션에 더 효율적이라고 주장합니다.

에지 컴퓨팅과 인공 지능은 모두 가까운 미래에 급격한 성장을 향해 가고 있습니다. 분석 회사 IDC에 따르면. 일부 시나리오에서는 에지 배포가 전원 및 연결에 제약을 받을 수 있지만 여전히 상당한 양의 데이터를 분석하고 이벤트에 거의 실시간으로 응답해야 하기 때문에 이들을 함께 결합하여 AI 모델을 장치에 "살아 있는" 가장 최적의 솔루션으로 만듭니다. .

이에 비추어, 일단의 연구원들은 새로운 아키텍처에서 인공 뉴런과 RRAM을 결합하기 때문에 NeuRRAM이라는 칩을 개발했습니다. 이 프로젝트의 목표는 다양한 AI 모델을 지원하는 다양성과 높은 에너지 효율성을 동시에 제공할 수 있는 디자인을 제공하고 소프트웨어에서 동일한 모델을 실행하는 것과 비슷한 정확도를 제공하는 것이었습니다.

이 프로젝트는 처음에 "Expeditions in Computing"이라는 Nature Science Foundation 프로젝트의 일부로 시작되었습니다. 이 프로젝트는 Stanford 및 UCSD의 일부와 RRAM 장치 제조 전문가인 중국 Tsinghua University의 연구원을 포함하여 배경이 다른 여러 기관의 연구원 그룹을 모았습니다.

에너지 효율성: 배터리 구동 장치에서 수행되는 AI 추론

스탠포드 대학의 대학원 연구원인 Weier Wan에 따르면 논문의 저자, 어제 Nature에 발표된 NeuRRAM은 AI 추론의 에너지 효율성을 크게 향상시켜 스마트 웨어러블, 드론 및 산업용 IoT 센서와 같은 배터리 구동 에지 장치 내에서 복잡한 AI 기능을 직접 실현할 수 있는 AI 칩으로 개발되었습니다. .

“오늘날의 AI 칩에서 데이터 처리와 데이터 저장은 컴퓨팅 장치와 메모리 장치라는 별도의 장소에서 발생합니다. 이 유닛들 사이의 빈번한 데이터 이동은 가장 많은 에너지를 소비하고 에지 장치용 저전력 AI 프로세서를 구현하는 데 병목이 된다”고 말했다.

이 문제를 해결하기 위해 NeuRRAM 칩은 처리가 메모리 내에서 직접 발생하는 "메모리 컴퓨팅" 모델을 구현합니다. 또한 정적 RAM만큼 빠르지만 비휘발성인 메모리 유형인 RRAM(Resistive RAM)을 사용하여 AI 모델 가중치를 저장할 수 있습니다. RRAM 셀의 주요 기능은 신경 가중치가 DAC(디지털-아날로그 변환기)를 통해 인코딩되고 메모리 어레이에 공급되는 다양한 컨덕턴스 수준으로 메모리 셀에 저장될 수 있다는 것입니다.

이것은 소프트웨어 시뮬레이션이 아니라 하드웨어입니다.

CIM 아키텍처에 대한 이전 연구는 있었지만 소프트웨어 시뮬레이션이 아닌 하드웨어에서 광범위한 AI 응용 프로그램을 시연한 것은 이번이 처음입니다. Wan에 따르면 동시에 표시할 수 있었습니다.

NeuRRAM은 총 48만 개의 RRAM 셀로 구성된 3개의 CIM 코어로 구성됩니다. 각 코어는 256 × 256 RRAM 셀 그리드와 ADC(아날로그-디지털 변환기) 및 활성화 기능을 구현하는 256 CMOS 인공 뉴런 회로로 구성된 TNSA(전위 신경 시냅스 어레이)로 설명됩니다.

이 문서에 따르면 TNSA 아키텍처는 데이터 흐름의 방향을 유연하게 제어할 수 있도록 설계되었으며, 이는 다양한 데이터 흐름 패턴을 가진 다양한 AI 모델을 지원하는 데 중요합니다.

예를 들어, 비전 관련 작업에서 일반적인 CNN(컨볼루션 신경망)에서 데이터는 레이어를 통해 단일 방향으로 흐르며 다른 추상화 수준에서 데이터 표현을 생성하는 반면, 일부 다른 모델에서는 확률적 샘플링이 레이어 간에 앞뒤로 수행됩니다. 네트워크가 높은 확률 상태로 수렴할 때까지.

그러나 CIM과 RRAM을 결합한 다른 설계는 일반적으로 RRAM 크로스바 어레이의 행과 열을 주변부의 전용 회로에 배선하여 입력을 구동하고 출력을 측정하는 방식으로 단일 방향으로 작동하는 것으로 제한되었다고 이 논문은 말합니다.

전달 방법

NeuRRAM의 재구성 가능성의 비밀은 CMOS 뉴런 회로를 RRAM 셀 사이에 분배하고 행과 열의 길이를 따라 연결한다는 것입니다.

위어 완

그림 : 완 등

각 TNSA는 16 × 16 RRAM 셀과 하나의 뉴런 회로로 구성된 여러 개의 코어렛으로 나뉩니다. 코어렛은 수평 방향을 따라 공유 비트 라인(BL)과 워드 라인(WL)으로 연결되고 수직 방향을 따라 소스 라인(SL)으로 연결됩니다.

뉴런 회로는 스위치를 통해 코어렛을 통과하는 각각의 16개 중 하나의 BL과 하나의 SL에 연결하고 동일한 BL 또는 SL에 연결된 모든 256개 RRAM의 입력을 통합하는 역할을 합니다.

각 뉴런 회로는 입력 및 출력에 BL 및 SL 스위치를 사용할 수 있습니다. 즉, 스위치를 통해 BL 또는 SL에서 오는 RRAM 셀로부터 아날로그 MVM(매트릭스 벡터 곱셈)을 수신할 수 있지만 변환된 디지털 결과를 동일한 스위치를 통해 주변 장치 레지스터로 보낼 수도 있습니다.

이 배열은 각 뉴런 회로의 입력 및 출력 단계에서 사용할 스위치를 구성하여 다른 데이터 흐름 방향을 구현할 수 있음을 의미합니다.

(이 아키텍처는 또한 SambaNova의 AI 프로세서 칩, 데이터 흐름을 제어하는 ​​온칩 통신 패브릭에 의해 연결된 컴퓨팅 장치 및 메모리 장치의 그리드로 구현됩니다.)

논문에 따르면 NeuRRAM의 48개 CIM 코어를 사용하여 AI 추론 성능을 극대화하기 위해 모델 병렬성과 데이터 병렬성을 모두 활용하는 다양한 가중치 매핑 전략을 구현할 수 있습니다.

CNN의 경우 전략은 병렬 추론을 위해 가장 계산 집약적인 초기 계층의 가중치를 여러 CIM 코어에 복제하는 것일 수 있습니다. 이 문서는 사용 가능한 가중치 매핑 전략에 대한 자세한 설명을 제공합니다.

이 논문은 다양한 AI 모델로 구현된 CIFAR-10 및 MNIST 데이터 세트를 사용한 이미지 분류, Google 음성 명령 인식 및 MNIST 이미지 복구를 포함한 다양한 AI 작업에 대해 칩을 사용하여 하드웨어 측정 추론 결과를 보고합니다.

이러한 모든 벤치마크 작업에서 4비트 가중치로 훈련된 소프트웨어 모델과 유사한 추론 정확도를 달성한다고 주장됩니다. 예를 들어, 0.98계층 CNN을 사용하여 MNIST 필기 숫자 인식에서 7% 오류율, ResNet-14.34을 사용하여 CIFAR-10 객체 분류에서 20% 오류율, 15.34셀 LSTM(장기 단기 기억).

NeuRRAM 칩은 또한 다양한 계산 비트 정밀도에서 RRAM을 사용하는 이전 CIM 칩 설계보다 XNUMX배 더 나은 에너지 효율성을 가지고 있다고 주장합니다. 그러나 본 논문의 에너지 소비량은 시중에 나와 있는 상용 기기와 비교하기 쉬운 형태로 인용되지 않았으며, 아래 그림은 펨토줄(fJ) 단위로 측정한 서로 다른 비트 정밀도에서 동작당 에너지 소비량을 나타낸 것이다.

완 등

확대하려면 클릭하십시오

그러나 Wan은 오늘날 많은 스마트 홈 장치에서 실행되는 일반적인 실시간 키워드 탐지 작업(예: 스마트 스피커에 조명을 켜라고 지시)의 경우 NeuRRAM이 2마이크로와트 미만의 전력을 소비하는 것으로 추정된다고 말했습니다.

“즉, 작은 코인 배터리로도 10년 이상 사용할 수 있습니다(다른 시스템 구성 요소가 소비하는 전력을 고려하지 않음).”라고 그는 말했습니다.

논문에 따르면 이 칩은 130nm CMOS 기술을 이용하여 제작되었으며, 다른 반도체 제품과 마찬가지로 기술 스케일링에 따라 에너지 효율이 향상될 것으로 기대된다.

제품화는 아직 몇 년 남았습니다.

그렇다면 이 기술을 기반으로 한 선적 상용 장치를 볼 수 있을까요? 완씨는 상용화 가능성이 크다며 개인적으로 직접 제품화를 검토하고 있다고 전했다.

"가장 적합한 초기 사용 사례는 익스트림 에지/IoT일 가능성이 매우 높습니다."라고 그는 말했습니다.

NeuRRAM 칩 기반 제품은 다른 가속기와 마찬가지로 CPU가 있는 시스템에 결합될 수 있지만 모든 애플리케이션에 필요한 것은 아닙니다.

Wan은 "최근에는 센서의 데이터가 CPU나 추가 메모리를 거치지 않고 AI 프로세서에 직접 공급되는 경향이 있지만 대부분의 실제 배포 사례에서 이러한 AI 가속기는 보조 프로세서로 작동합니다. CPU의 경우 CPU가 다른 작업을 관리합니다.

NeuRRAM 칩은 추론 작업만을 위한 것입니다. 왜냐하면 현재 형태의 RRAM 기술은 훈련 과정에서 메모리를 자주 업데이트해야 하기 때문에 훈련에 그다지 적합하지 않기 때문입니다. 그리고 이것은 "RRAM에서 매우 비싼 작업"이라고 Wan은 말했습니다.

“현재 많은 상업용 파운드리는 이미 RRAM 장치를 제조할 수 있는 능력을 가지고 있지만 대부분은 메모리 내 컴퓨팅(compute-in-memory)보다는 임베디드 메모리에 사용됩니다. RRAM 프로세스가 IC 설계자들에게 더 널리 보급되면 NeuRRAM 제품이 나올 수 있습니다.”

그러나 정확한 일정은 예측하기 어려우며 Wan은 향후 XNUMX~XNUMX년 또는 훨씬 더 오래 걸릴 수 있다고 말했습니다. ®

타임 스탬프 :

더보기 등록