평균적인 AI 상점의 경우 희소 모델과 저렴한 메모리가 승리합니다

플라톤에 의해 재발행

팔로워 : 0

선도적인 대규모 언어 모델이 매력적일 수 있지만, 가장 큰 회사만이 의미 있는 규모로 실제로 배포하고 교육할 수 있는 리소스를 보유하고 있다는 사실이 남아 있습니다.

AI를 경쟁 우위로 활용하고자 하는 기업의 경우 특히 특정 산업이나 영역에 맞게 조정할 수 있는 경우 더 저렴하고 축소된 대안이 더 적합할 수 있습니다.

틈새 시장을 개척하고자 하는 신흥 AI 신생 기업이 바로 그곳입니다. GPT-3, 엔터프라이즈 사용 사례에 충분하며 상용 DDR에 대해 값비싼 고대역폭 메모리(HBM)를 버리는 하드웨어에서 실행됩니다.

독일의 AI 스타트업 Aleph Alpha가 그러한 예입니다. 2019년에 설립된 독일 하이델베르그 기업의 빛을내는 자연어 모델은 카피라이팅, 분류, 요약, 번역 등 OpenAI의 GPT-3과 동일한 헤드라인을 장식하는 많은 기능을 자랑합니다.

모델 스타트업은 Graphcore와 협력하여 영국에서 희소 언어 모델을 탐색하고 개발했습니다. 칩 메이커의 하드웨어.

알레프 알파(Aleph Alpha) CEO 조나스 안드룰리우스(Jonas Andrulius)는 “그래프코어의 IPU는 조건부 희소성과 같은 고급 기술 접근 방식을 평가할 수 있는 기회를 제공한다”고 말했다. 성명서. "이러한 아키텍처는 의심할 여지 없이 Aleph Alpha의 미래 연구에서 중요한 역할을 할 것입니다."

희소성에 대한 Graphcore의 큰 베팅

조건부 희소 모델(때로는 전문가 또는 라우팅 모델의 혼합이라고도 함)은 적용 가능한 매개변수에 대해서만 데이터를 처리하며, 이를 실행하는 데 필요한 컴퓨팅 리소스를 크게 줄일 수 있습니다.

예를 들어, 언어 모델이 인터넷의 모든 언어로 훈련된 다음 러시아어로 질문을 받는 경우 해당 데이터를 전체 모델을 통해 실행하고 러시아어와 관련된 매개변수만 실행하는 것은 이치에 맞지 않습니다. Graphcore CTO Simon Knowles는 인터뷰에서 등록.

“완전히 명백합니다. 이것이 당신의 두뇌가 작동하는 방식이며 AI가 작동해야 하는 방식이기도 합니다.”라고 그는 말했습니다. "나는 이것을 여러 번 말했지만 AI가 많은 일을 할 수 있다면 한 가지 일을 하기 위해 모든 지식에 접근할 필요가 없습니다."

이러한 종류의 모델에 맞게 조정된 가속기를 만드는 회사인 Knowles는 당연히 이것이 AI의 미래라고 믿습니다. “내년까지 누군가가 조밀한 언어 모델을 구축한다면 놀랄 것입니다.”라고 그는 덧붙였습니다.

HBM-2가 비싸다? 대신 DDR에 캐시

희소 언어 모델에 문제가 없는 것은 아닙니다. Knowles에 따르면 가장 시급한 것 중 하나는 기억과 관련이 있습니다. 이러한 모델에 필요한 대역폭과 용량을 달성하기 위해 고급 GPU에 사용되는 HBM은 비싸고 훨씬 더 비싼 가속기에 부착됩니다.

이는 컴퓨팅과 메모리가 모두 필요한 밀집 언어 모델에서는 문제가 되지 않지만 컴퓨팅보다 메모리를 선호하는 희소 모델에서는 문제가 된다고 그는 설명했습니다.

Nvidia의 NVLink와 같은 상호 연결 기술을 사용하여 여러 GPU에서 메모리를 풀링할 수 있지만 모델에 해당 컴퓨팅이 모두 필요하지 않은 경우 GPU는 유휴 상태로 남아 있을 수 있습니다. Knowles는 "메모리를 구입하는 데 정말 비용이 많이 드는 방법입니다.

Graphcore의 가속기는 컴퓨팅 자체만큼 오래된 기술인 캐싱을 차용하여 이 문제를 회피하려고 합니다. 각 IPU는 상대적으로 큰 SRAM 캐시(1GB)를 갖추고 있어 이러한 모델의 대역폭 요구 사항을 충족하는 반면 원시 용량은 저렴한 DDR4 메모리의 대규모 풀을 사용하여 달성됩니다.

Knowles는 "SRAM이 많을수록 필요한 DRAM 대역폭이 줄어들기 때문에 HBM을 사용하지 않을 수 있습니다."라고 말했습니다.

가속기에서 메모리를 분리하면 기업이 더 큰 AI 모델을 지원하는 데 몇 가지 상용 DDR 모듈 비용이 훨씬 저렴해집니다.

Knowles는 저렴한 메모리를 지원하는 것 외에도 회사의 IPU가 최소한 희소 모델의 경우 GPU보다 아키텍처상의 이점이 있다고 주장합니다.

텐서 처리 장치에서와 같이 소수의 큰 행렬 곱셈기를 실행하는 대신 Graphcore의 칩은 메모리를 독립적으로 처리할 수 있는 많은 수의 작은 행렬 수학 단위를 특징으로 합니다.

이것은 "관련 하위 집합을 가져올 자유가 필요하고 가져와야 하는 단위가 작을수록 더 많은 자유가 있는" 희소 모델에 더 큰 세분성을 제공합니다.

판결은 아직 나오지 않았다

종합하면 Knowles는 이 접근 방식을 통해 IPU가 GPU에 비해 훨씬 저렴한 비용으로 수천억 또는 심지어 수조 개의 매개변수를 사용하여 대규모 AI/ML 모델을 훈련할 수 있다고 주장합니다.

그러나 엔터프라이즈 AI 시장은 아직 초기 단계이며 Graphcore는 이 분야에서 더 크고 확고한 라이벌과의 치열한 경쟁에 직면해 있습니다.

따라서 AI를 위한 매우 희박하고 속도가 느린 언어 모델에 대한 개발이 곧 줄어들 가능성은 없지만, Graphcore의 IPU가 될 것인지 아니면 다른 사람의 가속기가 엔터프라이즈 AI 워크로드를 구동하게 될 것인지는 두고 봐야 합니다. ®

타임 스탬프 : ２０２３년 ６월 ２８일2022 년 7 월 16 일

타임 스탬프 : 11년 2024월 XNUMX일

평균적인 AI 상점의 경우 희소 모델과 저렴한 메모리가 승리합니다.

플라톤에 의해 재발행

희소성에 대한 Graphcore의 큰 베팅

HBM-2가 비싸다? 대신 DDR에 캐시

판결은 아직 나오지 않았다

더보기 등록

중국 웹 거인, 5억 달러 Nvidia AI 쇼핑 흥청망청

대학에서는 ChatGPT로 작성된 에세이를 찾아내는 소프트웨어를 제공했습니다.

Google은 로봇에게 인간에게 봉사하도록 가르칩니다 – 큰 언어 모델이 핵심입니다.

Meta의 Llama 2는 오픈 소스가 아닙니다.

Waymo 로보 택시는 아무도 죽이지 않고 백만 마일을 쌓습니다.

Nvidia 소프트웨어 임원인 Kari Briski와의 인터뷰

회사 소개

수직 검색 및 인공 지능

플랫폼

연결 유지

계정