AI 컴퓨팅의 높은 비용 탐색

AI 컴퓨팅의 높은 비용 탐색

AI 컴퓨팅 PlatoBlockchain 데이터 인텔리전스의 높은 비용 탐색 수직 검색. 일체 포함.
출처: 미드저니

제너레이티브 AI 붐은 컴퓨팅에 얽매여 있습니다. 더 많은 컴퓨팅을 추가하면 더 나은 제품이 직접 생성된다는 고유한 속성이 있습니다. 일반적으로 R&D 투자는 제품의 가치와 더 직접적으로 연관되며 그 관계는 현저하게 하위 선형입니다. 그러나 현재 인공 지능에서는 그렇지 않으며, 결과적으로 오늘날 업계를 주도하는 주된 요인은 단순히 교육 및 추론 비용입니다. 

정확한 수치는 알 수 없지만, 평판이 좋은 소식통으로부터 컴퓨팅 공급이 너무 제한되어 있고 수요가 10배나 많다는 소식을 들었습니다(!). 따라서 지금 당장은 가장 낮은 총 비용으로 컴퓨팅 리소스에 액세스하는 것이 AI 회사의 성공을 결정하는 요인이 되었습니다..

실제로 우리는 많은 회사가 총 자본의 80% 이상을 컴퓨팅 리소스에 지출하는 것을 보았습니다!

이 게시물에서는 AI 회사의 비용 요소를 분석하려고 합니다. 절대 수치는 물론 시간이 지남에 따라 변하겠지만 AI 회사가 컴퓨팅 리소스에 대한 액세스 권한에 얽매이는 것에서 즉각적인 안도감은 보이지 않습니다. 그래서 바라건대 이것은 풍경을 통해 생각하는 데 도움이 되는 프레임워크입니다. 

AI 모델이 계산 비용이 많이 드는 이유는 무엇입니까?

다양한 생성 AI 모델이 있으며 추론 및 교육 비용은 모델의 크기와 유형에 따라 다릅니다. 다행스럽게도 오늘날 가장 인기 있는 모델은 GPT-3, GPT-J 또는 BERT와 같은 인기 있는 대규모 언어 모델(LLM)을 포함하는 변환기 기반 아키텍처가 대부분입니다. 변환기의 추론 및 학습을 위한 정확한 작업 수는 모델에 따라 다르지만(참조: 이 종이), 모델의 매개변수(즉, 신경망의 가중치) 수와 입력 및 출력 토큰 수에만 의존하는 상당히 정확한 경험 법칙이 있습니다. 

토큰은 본질적으로 몇 개의 문자로 구성된 짧은 시퀀스입니다. 단어 또는 단어의 일부에 해당합니다. 토큰에 대한 직감을 얻는 가장 좋은 방법은 공개적으로 사용 가능한 온라인 토크나이저(예: OpenAI). GPT-3의 경우 토큰의 평균 길이 4자

변환기에 대한 경험 법칙은 p 길이의 입력 및 출력 시퀀스에 대한 매개변수 n 토큰 마다, 대략 소요 2*n*p 부동 소수점 연산 (플롭스)¹. 동일한 모델에 대한 훈련은 대략 6*피 토큰당 FLOPS(즉, 추가 역방향 패스에는 XNUMX개의 추가 작업이 필요함²). 훈련 데이터의 토큰 양을 곱하여 대략적인 총 훈련 비용을 계산할 수 있습니다.

변압기의 메모리 요구 사항도 모델 크기에 따라 다릅니다. 추론을 위해서는 다음이 필요합니다. p 메모리에 맞는 모델 매개변수. 학습(예: 역전파)을 위해 정방향 및 역방향 패스 사이에 매개변수당 추가 중간 값을 저장해야 합니다. 32비트 부동 소수점 숫자를 사용한다고 가정하면 이는 매개변수당 추가 8바이트입니다. 175억 개의 매개변수 모델을 교육하려면 16테라바이트 이상의 데이터를 메모리에 보관해야 합니다. 이는 현재 존재하는 모든 GPU를 능가하며 모델을 여러 카드로 분할해야 합니다. 추론 및 교육을 위한 메모리 요구 사항은 더 짧은 길이의 부동 소수점 값을 사용하여 최적화할 수 있습니다. 8비트가 일반화되고 가까운 미래에 XNUMX비트가 예상됩니다.

AI 컴퓨팅 PlatoBlockchain 데이터 인텔리전스의 높은 비용 탐색 수직 검색. 일체 포함.

위의 표에는 여러 인기 모델에 대한 크기와 컴퓨팅 비용이 나와 있습니다. GPT-3에는 약 175억 개의 매개변수가 있으며 1,024개 토큰의 입력 및 출력에 대해 약 350조 개의 부동 소수점 연산(예: Teraflops 또는 TFLOPS)의 계산 비용이 발생합니다. GPT-3과 같은 모델을 교육하려면 약 3.14*10^23 부동 소수점 연산이 필요합니다. Meta의 LLaMA와 같은 다른 모델은 심지어 더 높은 컴퓨팅 요구 사항. 이러한 모델을 교육하는 것은 인류가 지금까지 수행한 보다 계산 집약적인 작업 중 하나입니다. 

요약하자면, 기본 알고리즘 문제는 계산적으로 매우 어렵기 때문에 AI 인프라는 비용이 많이 듭니다. 백만 개의 항목이 있는 데이터베이스 테이블을 정렬하는 알고리즘의 복잡성은 GPT-3으로 단일 단어를 생성하는 복잡성에 비해 중요하지 않습니다. 즉, 사용 사례를 해결하는 가장 작은 모델을 선택해야 합니다. 

좋은 소식은 변압기의 경우 특정 크기의 모델이 소비할 컴퓨팅 및 메모리 양을 쉽게 예측할 수 있다는 것입니다. 따라서 올바른 하드웨어를 선택하는 것이 다음 고려 사항이 됩니다. 

GPU에 대한 시간 및 비용 논쟁

계산 복잡성은 어떻게 시간으로 변환됩니까? 프로세서 코어는 일반적으로 주기당 1-2개의 명령을 실행할 수 있으며 프로세서 클럭 속도는 데 나드 스케일링. 병렬 아키텍처를 활용하지 않고 단일 GPT-3 추론 작업을 실행하면 350 TFLOPS/(3GHz*1 FLOP) 또는 116,000초 또는 32시간이 소요됩니다. 이것은 매우 비실용적입니다. 대신 이 작업을 가속화하는 특수 칩이 필요합니다.

실제로 오늘날 모든 AI 모델은 매우 많은 특수 코어를 사용하는 카드에서 실행됩니다. 예를 들어 NVIDIA A100 GPU에는 단일 주기에서 512×4 행렬 곱셈(4 곱셈 및 덧셈 또는 64 FLOPS에 해당)을 수행할 수 있는 128개의 "텐서 코어"가 있습니다. AI 가속기 카드는 아키텍처가 원래 데스크톱 게임용으로 개발되었기 때문에 GPU(그래픽 처리 장치)라고도 합니다. 미래에는 AI가 점점 더 별개의 제품군이 될 것으로 기대합니다. 

A100의 공칭 성능은 다음과 같습니다. 312 TFLOPS 이론적으로 GPT-3에 대한 추론을 약 1초로 줄일 수 있습니다. 그러나 이것은 여러 가지 이유로 지나치게 단순화된 계산입니다. 첫째, 대부분의 사용 사례에서 병목 현상은 GPU의 컴퓨팅 성능이 아니라 특수 그래픽 메모리에서 텐서 코어로 데이터를 가져오는 기능입니다. 둘째, 175억 개의 가중치는 700GB를 차지하며 어떤 GPU의 그래픽 메모리에도 맞지 않습니다. 파티셔닝 및 가중치 스트리밍과 같은 기술을 사용해야 합니다. 셋째, 계산을 가속화하는 데 사용되는 여러 가지 최적화(예: FP16, FP8 또는 희소 행렬과 같은 더 짧은 부동 소수점 표현 사용)가 있습니다. 그러나 전반적으로 위의 수학은 오늘날 LLM의 전체 계산 비용에 대한 직관을 제공합니다.

변환기 모델을 교육하는 데는 추론을 수행하는 것보다 토큰당 약 300배의 시간이 걸립니다. 그러나 훈련 데이터 세트가 추론 프롬프트보다 약 1억 배 더 크다는 점을 감안할 때 훈련 시간은 XNUMX억 배 더 오래 걸립니다. 단일 GPU에서 훈련하는 데 수십 년이 걸립니다. 실제로 이것은 전용 데이터 센터 또는 클라우드에서 대규모 컴퓨팅 클러스터에서 수행됩니다. 업데이트된 가중치를 노드 간에 교환해야 하므로 교육은 추론보다 병렬화하기가 더 어렵습니다. GPU 간의 메모리와 대역폭은 종종 고속 상호 연결과 전용 패브릭이 일반화되면서 훨씬 더 중요한 요소가 됩니다. 매우 큰 모델을 교육하는 경우 적합한 네트워크 설정을 만드는 것이 주요 과제가 될 수 있습니다. 미래를 내다보면 AI 가속기는 카드 또는 칩에 네트워킹 기능을 갖게 될 것입니다. 

이 계산 복잡성은 어떻게 비용으로 변환됩니까? 위에서 본 것처럼 A3에서 약 1초가 걸리는 GPT-100 추론은 0.0002개의 토큰에 대해 $0.0014에서 $1,000 사이의 원시 컴퓨팅 비용이 있습니다(이는 OpenAI의 $0.002/1000 토큰 가격과 비교됩니다). 하루에 100개의 추론 요청을 생성하는 사용자의 비용은 연간 달러 정도입니다. 이것은 매우 저렴한 가격대이며 인간이 재정적으로 실행 가능한 텍스트 기반 AI의 대부분의 사용 사례를 만듭니다.

트레이닝 반면에 GPT-3는 훨씬 더 비쌉니다. 위의 비율에서 3.14*10^23 FLOPS에 대한 컴퓨팅 비용만 다시 계산하면 A560,000 카드에서 $100의 추정치를 얻을 수 있습니다. 단일 훈련 실행. 실제로 교육을 위해 GPU에서 거의 100% 효율성을 얻지는 못합니다. 그러나 최적화를 사용하여 교육 시간을 줄일 수도 있습니다. GPT-3 교육 비용의 기타 추정치는 다음과 같습니다. $500,000$ 4.6 만, 하드웨어 가정에 따라 다릅니다. 이는 전체 비용이 아닌 단일 실행 비용입니다. 여러 번의 실행이 필요할 수 있으며 클라우드 공급자는 장기 약정을 원할 것입니다(자세한 내용은 아래 참조). 최고급 모델을 교육하는 데는 여전히 비용이 많이 들지만 충분한 자금 지원을 받는 신생 기업이 이용할 수 있습니다.

요약하자면 생성 AI는 오늘날 AI 인프라에 막대한 투자가 필요합니다. 가까운 장래에 이것이 바뀔 것이라고 믿을 이유가 없습니다. GPT-3와 같은 모델을 교육하는 것은 인류가 수행한 가장 계산 집약적인 작업 중 하나입니다. 그리고 GPU가 점점 빨라지고 훈련을 최적화하는 방법을 찾는 동안 AI의 급속한 확장은 이러한 두 가지 효과를 무효화합니다.

AI 인프라에 대한 고려 사항

지금까지 우리는 AI 모델의 훈련 및 추론을 수행하는 데 필요한 규모와 모델을 구동하는 기본 매개변수에 대한 직관을 제공하려고 노력했습니다. 이러한 맥락에서 이제 사용할 AI 인프라를 결정하는 방법에 대한 몇 가지 실용적인 지침을 제공하고자 합니다.

외부 대 내부 인프라

현실을 직시하자: GPU는 멋지다. 많은 엔지니어와 엔지니어링 마인드를 가진 창업자들은 자신의 AI 하드웨어를 프로비저닝하는 편향을 가지고 있는데, 이는 모델 교육에 대한 세밀한 제어를 제공할 뿐만 아니라 대량의 컴퓨팅 성능을 활용하는 데 있어 재미있는 점이 있기 때문입니다.전시 A를).

그러나 현실은 그 많은 스타트업, 특히 앱 회사는 자체 AI 인프라를 구축할 필요가 없습니다. 대신 OpenAI 또는 Hugging Face(언어용) 및 Replicate(이미지 생성용)와 같은 호스팅된 모델 서비스를 통해 창립자는 기본 인프라나 모델을 관리할 필요 없이 제품 시장 적합성을 빠르게 검색할 수 있습니다.

이러한 서비스는 너무 좋아져서 많은 회사에서 졸업하지 않습니다. 개발자는 신속한 엔지니어링 및 고차 미세 조정 추상화(예: API 호출을 통한 미세 조정)를 통해 모델 성능을 의미 있게 제어할 수 있습니다. 이러한 서비스의 가격은 사용량을 기준으로 책정되므로 별도의 인프라를 실행하는 것보다 저렴한 경우가 많습니다. 우리는 50천만 달러 이상의 ARR을 생성하고 내부적으로 호스팅된 모델 서비스를 실행하는 1억 달러 이상의 가치를 지닌 앱 회사를 보았습니다.

반대로 일부 신생 기업, 특히 새로운 기초 모델을 교육하거나 수직 통합 AI 애플리케이션을 구축하는 사람들은 자신의 모델을 직접 실행하는 것을 피할 수 없습니다. GPU에서. 모델이 사실상 제품이고 팀이 "모델-시장 적합성"을 찾고 있기 때문이거나 특정 기능을 달성하거나 대규모로 한계 비용을 줄이기 위해 훈련 및/또는 추론에 대한 세밀한 제어가 필요하기 때문입니다. 어느 쪽이든 인프라 관리는 경쟁 우위의 원천이 될 수 있습니다.

클라우드 대 데이터 센터 구축

대부분의 경우 클라우드는 AI 인프라에 적합한 장소입니다. 초기 비용 절감, 확장 및 축소 기능, 지역별 가용성, 자체 데이터 센터 구축에 따른 부담 감소는 대부분의 신생 기업과 대기업에게 매력적입니다.

그러나 이 규칙에는 몇 가지 예외가 있습니다.

  • 매우 큰 규모로 운영하는 경우 자체 데이터 센터를 운영하는 것이 더 비용 효율적일 수 있습니다. 정확한 가격대는 지리적 위치와 설정에 따라 다르지만 일반적으로 연간 50천만 달러 이상의 인프라 지출이 필요합니다.
  • 클라우드 공급자로부터 얻을 수 없는 매우 특정한 하드웨어가 필요합니다. 예를 들어 널리 사용되지 않는 GPU 유형과 비정상적인 메모리, 저장소 또는 네트워킹 요구 사항이 있습니다.
  • 지정학적 고려 사항에 적합한 클라우드를 찾을 수 없습니다.

자체 데이터 센터를 구축하려는 경우 자체 설정에 대한 GPU의 포괄적인 가격/성능 분석이 있습니다(예: 팀 데트머의 분석). 카드 자체의 비용과 성능 외에도 하드웨어 선택은 전력, 공간 및 냉각에 따라 달라집니다. 예를 들어 두 개의 RTX 3080 Ti 카드는 함께 A100과 유사한 원시 컴퓨팅 용량을 갖지만 각각의 전력 소비는 700W 대 300W입니다. 3,500년 수명 주기 동안 $0.10/kWh의 시장 요율에서 3080kWh 전력 차이는 RTX2 Ti의 비용을 거의 1,000배(약 $XNUMX) 증가시킵니다.

이 모든 것은 스타트업의 대다수가 클라우드 컴퓨팅을 사용할 것으로 예상합니다. 

클라우드 서비스 공급자 비교 

Amazon Web Services(AWS), Microsoft Azure 및 Google Cloud Platform(GCP)은 모두 GPU 인스턴스를 제공하지만 새로운 제공업체도 특히 AI 워크로드에 집중하는 것으로 보입니다. 다음은 많은 창립자가 클라우드 공급자를 선택하는 데 사용하는 프레임워크입니다.

가격: 아래 표는 7년 2023월 XNUMX일 현재 다수의 주요 및 소규모 전문 클라우드에 대한 가격을 보여줍니다. 이 데이터는 인스턴스가 네트워크 대역폭, 데이터 송신 비용, CPU 및 네트워크의 추가 비용 측면에서 상당히 다르기 때문에 참고용일 뿐입니다. 할인 및 기타 요인.

AI 컴퓨팅 PlatoBlockchain 데이터 인텔리전스의 높은 비용 탐색 수직 검색. 일체 포함.

특정 하드웨어의 컴퓨팅 용량은 상품입니다. 순진하게 우리는 상당히 균일한 가격을 기대할 수 있지만 그렇지 않습니다. 그리고 클라우드 간에 상당한 기능 차이가 존재하지만 온디맨드 NVIDIA A100의 가격이 제공업체 간에 거의 4배 차이가 난다는 점을 설명하기에는 불충분합니다.

가격 규모의 상단에서 대형 퍼블릭 클라우드는 브랜드 명성, 입증된 안정성 및 광범위한 워크로드 관리 필요성에 따라 프리미엄을 청구합니다. 소규모 전문 AI 제공업체는 전용 데이터 센터(예: Coreweave)를 운영하거나 다른 클라우드(예: Lambda Labs)를 조정하여 더 낮은 가격을 제공합니다.

실질적으로 말하면, 대부분의 대규모 구매자는 클라우드 제공업체와 직접 가격을 협상하고 종종 최소 지출 요구 사항과 최소 시간 약정을 약속합니다(우리는 1-3년을 보았습니다). 클라우드 간의 가격 차이는 협상 후 다소 줄어들지만 위 표의 순위는 비교적 안정적으로 유지되는 것을 확인했습니다. 소기업은 대규모 지출 약정 없이 특수 클라우드에서 공격적인 가격을 책정할 수 있다는 점에 유의하는 것도 중요합니다.

운영시간: 가장 강력한 GPU(예: Nvidia A100)는 지난 12개월 이상 지속적으로 공급이 부족했습니다. 

큰 구매력과 리소스 풀을 고려할 때 상위 XNUMX개 클라우드 제공업체가 최고의 가용성을 가지고 있다고 생각하는 것이 논리적일 것입니다. 그러나 다소 놀랍게도 많은 신생 기업은 그것이 사실임을 발견하지 못했습니다. 큰 클라우드에는 많은 하드웨어가 있지만 충족해야 할 고객 요구 사항도 많습니다. 예를 들어 Azure는 ChatGPT의 기본 호스트이며 수요를 충족하기 위해 지속적으로 용량을 추가/임대합니다. 한편, Nvidia는 새로운 전문 공급업체에 대한 할당을 포함하여 업계 전반에서 하드웨어를 광범위하게 사용할 수 있도록 하기 위해 노력했습니다. (그들은 공정하고 그들과 경쟁하는 소수의 대형 고객에 대한 의존도를 줄이기 위해 이렇게 합니다.)

결과적으로 많은 신생 기업은 소규모 클라우드 제공 업체에서 최첨단 Nvidia H100을 포함하여 더 많은 사용 가능한 칩을 찾습니다. 새로운 인프라 회사와 협력하려는 경우 하드웨어 대기 시간을 줄이고 비용을 절약할 수 있습니다.

컴퓨팅 제공 모델: 오늘날 대형 클라우드는 전용 GPU가 있는 인스턴스만 제공하며, 그 이유는 GPU 가상화가 여전히 해결되지 않은 문제이기 때문입니다. 전문화된 AI 클라우드는 인스턴스의 시작 및 해체 비용을 발생시키지 않고 개별 작업을 처리할 수 있는 컨테이너 또는 배치 작업과 같은 다른 모델을 제공합니다. 이 모델에 익숙하다면 비용을 크게 줄일 수 있습니다.

네트워크 상호 연결: 교육의 경우 특히 네트워크 대역폭은 공급자 선택의 주요 요소입니다. NVLink와 같이 노드 사이에 전용 패브릭이 있는 클러스터는 특정 대형 모델을 교육하는 데 필요합니다. 이미지 생성의 경우 송신 트래픽 요금도 주요 비용 동인이 될 수 있습니다.

고객 지원: 대규모 클라우드 공급자는 수천 개의 제품 SKU에 걸쳐 방대한 고객 풀을 제공합니다. 대규모 고객이 아닌 이상 고객 지원팀의 관심을 끌거나 문제를 해결하기 어려울 수 있습니다. 반면 많은 전문 AI 클라우드는 소규모 고객에게도 빠르고 반응이 빠른 지원을 제공합니다. 이는 부분적으로 더 작은 규모로 운영되고 있기 때문이기도 하지만 워크로드가 더 동질적이어서 AI 관련 기능 및 버그에 집중하는 데 더 많은 인센티브가 있기 때문입니다.

GPU 비교 

다른 모든 조건이 같다면 최고급 GPU는 거의 모든 워크로드에서 최상의 성능을 발휘합니다. 그러나 아래 표에서 볼 수 있듯이 최고의 하드웨어는 훨씬 더 비쌉니다. 특정 애플리케이션에 적합한 유형의 GPU를 선택하면 비용을 크게 절감할 수 있으며 실행 가능한 비즈니스 모델과 실행 불가능한 비즈니스 모델 간의 차이를 만들 수 있습니다.

AI 컴퓨팅 PlatoBlockchain 데이터 인텔리전스의 높은 비용 탐색 수직 검색. 일체 포함.

목록에서 얼마나 아래로 내려갈지 결정하는 것, 즉 애플리케이션에 가장 비용 효율적인 GPU 선택을 결정하는 것은 대체로 이 기사의 범위를 벗어나는 기술적인 결정입니다. 그러나 우리가 본 가장 중요한 선택 기준 중 일부를 아래에서 공유할 것입니다.

훈련 대 추론: 위의 첫 번째 섹션에서 본 것처럼 Transformer 모델을 교육하려면 모델 가중치 외에도 교육을 위해 8바이트의 데이터를 저장해야 합니다. 이는 메모리가 12GB인 일반적인 고급 소비자 GPU는 4억 개의 매개변수 모델을 교육하는 데 거의 사용할 수 없음을 의미합니다. 실제로 대형 모델 교육은 서버당 많은 GPU, 많은 VRAM 및 서버 간 고대역폭 연결(즉, 최고급 데이터 센터 GPU를 사용하여 구축된 클러스터)이 있는 머신 클러스터에서 수행됩니다.

구체적으로 많은 모델이 NVIDIA H100에서 가장 비용 효율적이지만 현재로서는 찾기 어렵고 일반적으로 100년 이상의 장기 약정이 필요합니다. NVIDIA AXNUMX은 오늘날 대부분의 모델 훈련을 실행합니다. 찾기가 더 쉽지만 대규모 클러스터의 경우 장기 약정이 필요할 수도 있습니다.

메모리 요구 사항 : 대형 LLM에는 매개변수 수가 너무 많아 어떤 카드에도 맞지 않습니다. 여러 카드로 분할해야 하며 교육과 유사한 설정이 필요합니다. 즉, LLM 추론을 위해서라도 H100 또는 A100이 필요할 것입니다. 그러나 더 작은 모델(예: Stable Diffusion)에는 훨씬 적은 VRAM이 필요합니다. A100은 여전히 ​​인기가 있지만 신생 기업은 A10, A40, A4000, A5000 및 A6000 또는 심지어 RTX 카드를 사용하는 것을 보았습니다. 

하드웨어 지원: NVIDIA에서 실행하기로 이야기한 회사의 워크로드 대부분이 있지만 일부는 다른 공급업체와 실험을 시작했습니다. 가장 일반적인 것은 Google TPU이지만 Intel의 Gaudi 2도 어느 정도 주목을 받고 있는 것으로 보입니다. 이러한 공급업체의 문제는 모델의 성능이 종종 이러한 칩에 대한 소프트웨어 최적화의 가용성에 크게 의존한다는 것입니다. 성능을 이해하려면 PoC를 수행해야 할 것입니다.

대기 시간 요구 사항: 일반적으로 대기 시간에 덜 민감한 워크로드(예: 배치 데이터 처리 또는 대화형 UI 응답이 필요하지 않은 애플리케이션)는 덜 강력한 GPU를 사용할 수 있습니다. 이를 통해 컴퓨팅 비용을 3-4배까지 줄일 수 있습니다(예: AWS에서 A100과 A10 비교). 반면에 사용자 대면 앱은 매력적인 실시간 사용자 경험을 제공하기 위해 최고급 카드가 필요한 경우가 많습니다. 비용을 관리 가능한 범위로 가져오려면 모델을 최적화해야 하는 경우가 많습니다.

뾰족함: 제너레이티브 AI 회사는 기술이 매우 새롭고 흥미롭기 때문에 수요가 급증하는 경우가 많습니다. 신제품 출시에 따라 요청량이 하루에 10배 증가하거나 지속적으로 매주 50%씩 증가하는 것은 드문 일이 아닙니다. 수요에 따라 더 많은 컴퓨팅 노드를 사용할 수 있기 때문에 로우엔드 GPU에서 이러한 급증을 처리하는 것이 더 쉬운 경우가 많습니다. 참여도가 낮거나 유지율이 낮은 사용자가 이러한 종류의 트래픽을 제공하는 경우 성능을 희생하면서 더 저렴한 리소스로 이러한 종류의 트래픽을 제공하는 것이 이치에 맞는 경우가 많습니다.

모델 최적화 및 스케줄링

소프트웨어 최적화는 모델의 실행 시간에 큰 영향을 미칠 수 있으며 10배의 이득은 드문 일이 아닙니다. 그러나 특정 모델 및 시스템에 가장 효과적인 방법을 결정해야 합니다.

일부 기술은 상당히 광범위한 모델에서 작동합니다. 더 짧은 부동 소수점 표현(즉, FP16 또는 FP8 대 원래 FP32) 또는 양자화(INT8, INT4, INT2)를 사용하면 비트 감소에 따라 종종 선형적인 속도 향상을 얻을 수 있습니다. 때로는 모델을 수정해야 하지만 점점 더 혼합된 정밀도 또는 더 짧은 정밀도로 작업을 자동화하는 기술이 있습니다. 신경망 가지치기는 값이 낮은 가중치를 무시하여 가중치 수를 줄입니다. 효율적인 희소 행렬 곱셈과 함께 최신 GPU에서 상당한 속도 향상을 얻을 수 있습니다. 또 다른 최적화 기술 세트는 메모리 대역폭 병목 현상을 해결합니다(예: 모델 가중치 스트리밍).

다른 최적화는 고도로 모델에 따라 다릅니다. 예를 들어 Stable Diffusion은 추론에 필요한 VRAM의 양을 크게 발전시켰습니다. 또 다른 종류의 최적화는 하드웨어에 따라 다릅니다. NVIDIA의 TensorML에는 여러 가지 최적화가 포함되어 있지만 NVIDIA 하드웨어에서만 작동합니다. 마지막으로 중요한 것은 AI 작업 스케줄링으로 엄청난 성능 병목 현상이 발생하거나 성능이 개선될 수 있다는 점입니다. 가중치 교환을 최소화하는 방식으로 모델을 GPU에 할당하고, 여러 GPU를 사용할 수 있는 경우 작업에 가장 적합한 GPU를 선택하고, 워크로드를 미리 일괄 처리하여 다운타임을 최소화하는 것이 일반적인 기술입니다.

결국 모델 최적화는 여전히 약간의 미학이며 우리가 이야기하는 대부분의 신생 기업은 이러한 소프트웨어 측면 중 일부를 돕기 위해 타사와 협력합니다. 종종 이들은 전통적인 MOps 공급업체가 아니라 특정 생성 모델(예: OctoML 또는 SegMind)에 대한 최적화를 전문으로 하는 회사입니다.

AI 인프라 비용은 어떻게 진화할까요?

지난 몇 년 동안 우리는 둘 다 기하급수적으로 성장했습니다. 모델 매개변수GPU 컴퓨팅 파워. 이 추세가 계속될지는 불확실합니다.

오늘날에는 최적의 매개변수 수와 훈련 데이터 세트의 크기 사이에 관계가 있다는 것이 널리 받아들여지고 있습니다(Deepmind의 친칠라 이것에 대해 더 많은 것을 위해 노력하십시오). 오늘날 최고의 LLM은 일반적인 크롤링 (4.5억 개의 웹 페이지 모음 또는 존재하는 모든 웹 페이지의 약 10%). 교육 코퍼스에는 Wikipedia와 책 모음도 포함되지만 둘 다 훨씬 작습니다(존재하는 총 책 수는 다음과 같이 추정됩니다). 겨우 100만 정도). 비디오나 오디오 콘텐츠를 복사하는 것과 같은 다른 아이디어가 제안되었지만 크기 면에서 그 어느 것도 비슷하지 않습니다. 이미 사용된 것보다 10배 더 큰 비합성 교육 데이터 세트를 얻을 수 있는지는 확실하지 않습니다.

GPU 성능은 계속해서 향상되지만 더 느린 속도로 향상됩니다. 무어의 법칙은 여전히 ​​온전하여 더 많은 트랜지스터와 더 많은 코어를 허용하지만 전력과 I/O가 제한 요인이 되고 있습니다. 또한 최적화를 위해 손쉬운 과일을 많이 선택했습니다. 

그러나 이것이 컴퓨팅 용량에 대한 수요 증가를 예상하지 않는다는 의미는 아닙니다. 모델 및 훈련 세트 성장이 둔화되더라도 AI 산업의 성장과 AI 개발자 수의 증가는 더 빠르고 더 빠른 GPU에 대한 수요를 촉진할 것입니다. GPU 용량의 상당 부분은 모델 개발 단계에서 개발자가 테스트하는 데 사용되며 이 수요는 인력에 따라 선형적으로 확장됩니다. 오늘날 우리가 겪고 있는 GPU 부족이 가까운 미래에 줄어들 것이라는 조짐은 없습니다.

AI 인프라의 계속되는 높은 비용으로 인해 신규 진입자가 자금이 풍부한 기존 기업을 따라잡는 것을 불가능하게 만드는 해자가 생길까요? 우리는 아직 이 질문에 대한 답을 모릅니다. LLM의 교육 비용은 오늘날 해자처럼 보일 수 있지만 Alpaca 또는 Stable Diffusion과 같은 오픈 소스 모델은 이러한 시장이 아직 초기 단계이며 빠르게 변할 수 있음을 보여주었습니다. 시간이 지남에 따라 새로운 AI 소프트웨어 스택의 비용 구조(우리의 이전 게시물을 참조하십시오) 전통적인 소프트웨어 산업처럼 보이기 시작할 수 있습니다. 

궁극적으로 이것은 좋은 일이 될 것입니다. 역사는 이것이 기업가 창업자에게 빠른 혁신과 많은 기회를 제공하는 활기찬 생태계로 이어진다는 것을 보여주었습니다.

작성 과정에서 의견을 제시하고 안내해 준 Moin Nadeem과 Shangda Xu에게 감사드립니다.


¹ 여기서 직감은 신경망의 모든 매개변수(예: 가중치)에 대해 추론 작업(예: 정방향 통과)이 매개변수당 두 개의 부동 소수점 작업을 수행해야 한다는 것입니다. 먼저 신경망의 입력 노드 값에 매개변수를 곱합니다. 둘째, 합산 결과를 신경망의 출력 노드에 추가합니다. 인코더의 매개변수는 입력 토큰당 한 번 사용되며 디코더의 매개변수는 출력 토큰당 한 번 사용됩니다. 모델이 있다고 가정하면 p 매개 변수와 입력 및 출력 모두 길이가 있습니다. n 토큰, 총 부동 소수점 연산은 엔 * 피. 모델에서 발생하는 많은 다른 작업(예: 정규화, 임베딩 인코딩/디코딩)이 있지만 이를 수행하는 데 걸리는 시간은 상대적으로 적습니다. 

² 먼저 학습하려면 위에서 설명한 대로 변환기를 통과하는 순방향 패스가 필요하고, 그 다음 기울기를 계산하고 가중치를 조정하기 위해 매개변수당 3개의 추가 작업을 발생시키는 역방향 패스가 필요합니다. 그래디언트를 계산하려면 순방향 패스에서 계산된 노드 값을 보존해야 합니다. GPT-XNUMX의 경우, 언어 모델은 몇 번의 학습자입니다 교육 비용을 논의합니다.

* * *

여기에 표현된 견해는 인용된 개별 AH Capital Management, LLC("a16z") 직원의 견해이며 16z 또는 그 계열사의 견해가 아닙니다. 여기에 포함된 특정 정보는 16z가 관리하는 펀드의 포트폴리오 회사를 포함하여 제16자 출처에서 얻은 것입니다. 신뢰할 수 있다고 여겨지는 출처에서 가져왔지만 16z는 그러한 정보를 독립적으로 검증하지 않았으며 정보의 지속적인 정확성이나 주어진 상황에 대한 적절성에 대해 어떠한 진술도 하지 않습니다. 또한 이 콘텐츠에는 타사 광고가 포함될 수 있습니다. XNUMXz는 그러한 광고를 검토하지 않았으며 여기에 포함된 광고 콘텐츠를 보증하지 않습니다.

이 콘텐츠는 정보 제공의 목적으로만 제공되며 법률, 비즈니스, 투자 또는 세금 관련 조언에 의존해서는 안 됩니다. 그러한 문제에 관해서는 자신의 고문과 상의해야 합니다. 증권 또는 디지털 자산에 대한 언급은 설명을 위한 것일 뿐이며 투자 추천이나 투자 자문 서비스 제공을 의미하지 않습니다. 또한, 이 콘텐츠는 투자자 또는 예비 투자자를 대상으로 하거나 사용하도록 의도되지 않았으며, 어떤 상황에서도 a16z가 관리하는 펀드에 투자하기로 결정할 때 의존할 수 없습니다. (16z 펀드에 대한 투자 제안은 사모 투자 각서, 청약 계약서 및 해당 펀드의 기타 관련 문서에 의해서만 이루어지며 전체 내용을 읽어야 합니다.) 언급되거나 언급된 모든 투자 또는 포트폴리오 회사 설명된 내용은 16z가 관리하는 차량에 대한 모든 투자를 대표하는 것은 아니며 투자가 수익성이 있거나 미래에 수행되는 다른 투자가 유사한 특성 또는 결과를 가질 것이라는 보장이 없습니다. Andreessen Horowitz가 관리하는 펀드의 투자 목록(발행자가 16z가 공개적으로 공개하도록 허가하지 않은 투자 및 공개적으로 거래되는 디지털 자산에 대한 미고지 투자 제외)은 https://a16z.com/investments에서 볼 수 있습니다. /.

내부에 제공된 차트와 그래프는 정보 제공의 목적으로만 사용되며 투자 결정을 내릴 때 의존해서는 안 됩니다. 과거의 성과는 미래의 결과를 나타내지 않습니다. 내용은 표시된 날짜 현재만 말합니다. 이 자료에 표현된 모든 예측, 추정, 예측, 목표, 전망 및/또는 의견은 예고 없이 변경될 수 있으며 다른 사람이 표현한 의견과 다르거나 반대될 수 있습니다. 추가 중요 정보는 https://a16z.com/disclosures를 참조하십시오.

타임 스탬프 :

더보기 안드레 센 호로비츠