Navegando no alto custo da computação de IA

Navegando no alto custo da computação de IA

Navegando no alto custo da IA ​​Compute PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.
Fonte: Midjourney See More

O boom da IA ​​generativa está vinculado à computação. Ele tem a propriedade exclusiva de que adicionar mais computação resulta diretamente em um produto melhor. Normalmente, o investimento em P&D está mais diretamente ligado ao valor de um produto, e essa relação é nitidamente sublinear. Mas isso não acontece atualmente com a inteligência artificial e, como resultado, um fator predominante que impulsiona o setor hoje é simplesmente o custo de treinamento e inferência. 

Embora não saibamos os números verdadeiros, ouvimos de fontes respeitáveis ​​que a oferta de computação é tão restrita que a demanda a supera por um fator de 10 (!) Então achamos justo dizer que, agora, o acesso a recursos de computação — com o menor custo total — tornou-se um fator determinante para o sucesso das empresas de IA.

Na verdade, vimos muitas empresas gastando mais de 80% de seu capital total levantado em recursos de computação!

Neste post, tentamos detalhar os fatores de custo para uma empresa de IA. É claro que os números absolutos mudarão com o tempo, mas não vemos alívio imediato das empresas de IA vinculadas ao acesso a recursos de computação. Portanto, esperamos que esta seja uma estrutura útil para pensar através da paisagem. 

Por que os modelos de IA são tão caros computacionalmente?

Existe uma grande variedade de modelos generativos de IA, e os custos de inferência e treinamento dependem do tamanho e do tipo do modelo. Felizmente, os modelos mais populares atualmente são principalmente arquiteturas baseadas em transformadores, que incluem modelos populares de linguagem ampla (LLMs), como GPT-3, GPT-J ou BERT. Embora o número exato de operações para inferência e aprendizado de transformadores seja específico do modelo (consulte Neste artigo), existe uma regra prática bastante precisa que depende apenas do número de parâmetros (ou seja, os pesos das redes neurais) do modelo e do número de tokens de entrada e saída. 

Tokens são essencialmente sequências curtas de alguns caracteres. Eles correspondem a palavras ou partes de palavras. A melhor maneira de obter uma intuição para tokens é experimentar a tokenização com tokenizers on-line publicamente disponíveis (por exemplo, OpenAI). Para GPT-3, o comprimento médio de um token são 4 caracteres

A regra geral para transformadores é que uma passagem direta (ou seja, inferência) para um modelo com p parâmetros para uma entrada e uma sequência de saída de comprimento n tokens cada, leva aproximadamente 2*n*p operações de ponto flutuante (FLOPS)¹. O treinamento para o mesmo modelo leva aproximadamente 6*p FLOPS por token (ou seja, o passe para trás adicional requer mais quatro operações²). Você pode estimar o custo total de treinamento multiplicando-o pela quantidade de tokens nos dados de treinamento.

Os requisitos de memória para transformadores também dependem do tamanho do modelo. Para inferência, precisamos do p parâmetros do modelo para caber na memória. Para aprender (ou seja, retropropagação), precisamos armazenar valores intermediários adicionais por parâmetro entre o avanço e o retrocesso. Assumindo que usamos números de ponto flutuante de 32 bits, são 8 bytes adicionais por parâmetro. Para treinar um modelo de 175 bilhões de parâmetros, precisaríamos manter mais de um terabyte de dados na memória - isso excede qualquer GPU existente hoje e exige que dividamos o modelo em placas. Os requisitos de memória para inferência e treinamento podem ser otimizados usando valores de ponto flutuante de comprimentos mais curtos, com 16 bits se tornando comum e 8 bits antecipados em um futuro próximo.

Navegando no alto custo da IA ​​Compute PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

A tabela acima apresenta tamanhos e custos de computação para vários modelos populares. GPT-3 tem aproximadamente 175 bilhões de parâmetros, que para uma entrada e saída de 1,024 tokens, resulta em um custo computacional de aproximadamente 350 trilhões de operações de ponto flutuante (ou seja, Teraflops ou TFLOPS). Treinar um modelo como GPT-3 leva cerca de 3.14*10^23 operações de ponto flutuante. Outros modelos como o LLaMA da Meta têm ainda maior requisitos de computação. Treinar tal modelo é uma das tarefas computacionalmente mais intensivas que a humanidade empreendeu até agora. 

Para resumir: a infraestrutura de IA é cara porque os problemas algorítmicos subjacentes são extremamente difíceis de computacionalmente. A complexidade algorítmica de classificar uma tabela de banco de dados com um milhão de entradas é insignificante em comparação com a complexidade de gerar uma única palavra com GPT-3. Isso significa que você deseja escolher o menor modelo que resolva seu caso de uso. 

A boa notícia é que, para transformadores, podemos estimar facilmente quanta computação e memória um modelo de determinado tamanho consumirá. E, assim, escolher o hardware certo se torna a próxima consideração. 

O argumento de tempo e custo para GPUs

Como a complexidade computacional se traduz em tempo? Um núcleo de processador normalmente pode executar 1-2 instruções por ciclo, e as taxas de clock do processador permaneceram estáveis ​​em torno de 3 GHz nos últimos 15 anos devido ao fim da Escala de Dennard. A execução de uma única operação de inferência GPT-3 sem explorar qualquer arquitetura paralela levaria cerca de 350 TFLOPS/(3 GHz*1 FLOP) ou 116,000 segundos ou 32 horas. Isso é totalmente impraticável; em vez disso, precisamos de chips especializados que aceleram essa tarefa.

Na prática, todos os modelos de IA hoje rodam em placas que usam um número muito grande de núcleos especializados. Por exemplo, uma GPU NVIDIA A100 possui 512 “núcleos tensores” que podem realizar uma multiplicação de matriz 4 × 4 (o que equivale a 64 multiplicações e adições, ou 128 FLOPS) em um único ciclo. As placas aceleradoras de IA costumam ser chamadas de GPUs (unidades de processamento gráfico), pois a arquitetura foi originalmente desenvolvida para jogos de desktop. No futuro, esperamos que a IA se torne cada vez mais uma família de produtos distinta. 

O A100 tem um desempenho nominal de 312 TFLOPS o que, em teoria, reduziria a inferência para GPT-3 para cerca de 1 segundo. No entanto, este é um cálculo muito simplificado por várias razões. Primeiro, para a maioria dos casos de uso, o gargalo não é o poder de computação da GPU, mas a capacidade de obter dados da memória gráfica especializada para os núcleos do tensor. Em segundo lugar, os 175 bilhões de pesos ocupariam 700 GB e não caberiam na memória gráfica de nenhuma GPU. Técnicas como particionamento e fluxo de peso precisam ser usadas. E, terceiro, há várias otimizações (por exemplo, usando representações de ponto flutuante mais curtas, como FP16, FP8 ou matrizes esparsas) que estão sendo usadas para acelerar a computação. Mas, no geral, a matemática acima nos dá uma ideia do custo total de computação dos LLMs atuais.

O treinamento de um modelo de transformador leva cerca de três vezes mais tempo por token do que a inferência. No entanto, dado que o conjunto de dados de treinamento é cerca de 300 milhões de vezes maior do que um prompt de inferência, o treinamento leva mais tempo por um fator de 1 bilhão. Em uma única GPU, o treinamento levaria décadas; na prática, isso é feito em grandes clusters de computação em datacenters dedicados ou, mais provavelmente, na nuvem. O treinamento também é mais difícil de paralelizar do que a inferência, pois os pesos atualizados precisam ser trocados entre os nós. Memória e largura de banda entre GPUs geralmente se tornam um fator muito mais importante, com interconexões de alta velocidade e malhas dedicadas sendo comuns. Para treinar modelos muito grandes, criar uma configuração de rede adequada pode ser o principal desafio. Olhando para o futuro, os aceleradores de IA terão recursos de rede no cartão ou mesmo no chip. 

Como essa complexidade computacional se traduz em custo? Uma inferência GPT-3, que, como vimos acima, leva aproximadamente 1 segundo em um A100, teria um custo bruto de computação entre US$ 0.0002 e US$ 0.0014 para 1,000 tokens (isso se compara ao preço da OpenAI de US$ 0.002/1000 tokens). Um usuário gerando 100 solicitações de inferência por dia custaria na ordem de dólares por ano. Este é um preço muito baixo e torna financeiramente viável a maioria dos casos de uso de IA baseada em texto por humanos.

Training O GPT-3, por outro lado, é muito mais caro. Novamente, calcular apenas o custo de computação para 3.14*10^23 FLOPS nas taxas acima nos dá uma estimativa de $ 560,000 em cartões A100 para um corrida de treinamento único. Na prática, para treinamento não conseguiremos nem perto de 100% de eficiência na GPU; no entanto, também podemos usar otimizações para reduzir o tempo de treinamento. Outras estimativas do custo de treinamento GPT-3 variam de $500,000 para $ 4.6 milhões, dependendo das suposições de hardware. Observe que esse é o custo de uma única execução e não o custo total. Várias execuções provavelmente serão necessárias e os provedores de nuvem desejarão compromissos de longo prazo (mais sobre isso abaixo). O treinamento de modelos de primeira linha continua caro, mas ao alcance de uma start-up bem financiada.

Para resumir, a IA generativa requer investimentos maciços em infraestrutura de IA hoje. Não há razão para acreditar que isso mudará em um futuro próximo. Treinar um modelo como o GPT-3 é uma das tarefas computacionalmente mais intensivas que a humanidade já realizou. E enquanto as GPUs estão ficando mais rápidas e encontramos maneiras de otimizar o treinamento, a rápida expansão da IA ​​anula esses dois efeitos.

Considerações para infraestrutura de IA

Até este ponto, tentamos dar a você alguma intuição sobre a escala necessária para fazer treinamento e inferência de modelos de IA e quais parâmetros subjacentes os orientam. Com esse contexto, agora queremos fornecer algumas orientações práticas sobre como decidir qual infraestrutura de IA usar.

Infraestrutura externa x interna

Vamos enfrentá-lo: GPUs são legais. Muitos engenheiros e fundadores com mentalidade de engenharia têm uma tendência a provisionar seu próprio hardware de IA, não apenas porque oferece controle refinado sobre o treinamento do modelo, mas porque há algo divertido em aproveitar grandes quantidades de poder de computação (exposição A).

A realidade, porém, é que muitas startups - especialmente empresas de aplicativos - não precisam construir sua própria infraestrutura de IA no dia 1. Em vez disso, serviços de modelo hospedado como OpenAI ou Hugging Face (para linguagem) e Replicate (para geração de imagem) permitem que os fundadores pesquisem rapidamente o ajuste do produto ao mercado sem a necessidade de gerenciar a infraestrutura ou modelos subjacentes.

Esses serviços ficaram tão bons que muitas empresas nunca se graduaram neles. Os desenvolvedores podem obter um controle significativo sobre o desempenho do modelo por meio de engenharia imediata e abstrações de ajuste fino de ordem superior (ou seja, ajuste fino por meio de chamadas de API). O preço desses serviços é baseado no consumo, por isso também costuma ser mais barato do que executar uma infraestrutura separada. Vimos empresas de aplicativos gerando mais de US$ 50 milhões em ARR e avaliados em mais de US$ 1 bilhão, que executam serviços de modelo hospedado sob o capô.

Por outro lado, algumas startups - especialmente aqueles que treinam novos modelos de base ou criam aplicativos de IA integrados verticalmente - não podem evitar a execução direta de seus próprios modelos em GPUs. Ou porque o modelo é efetivamente o produto e a equipe está procurando por “adequação ao modelo de mercado” ou porque o controle refinado sobre o treinamento e/ou inferência é necessário para atingir certos recursos ou reduzir o custo marginal em grande escala. De qualquer forma, o gerenciamento da infraestrutura pode se tornar uma fonte de vantagem competitiva.

A construção da nuvem versus data center

Na maioria dos casos, a nuvem é o lugar certo para sua infraestrutura de IA. Menos custo inicial, a capacidade de escalar para cima e para baixo, disponibilidade regional e menos distração para construir seu próprio data center são atraentes para a maioria das startups e grandes empresas.

Mas há algumas exceções a essa regra:

  • Se você estiver operando em uma escala muito grande, pode ser mais econômico administrar seu próprio data center. O preço exato varia de acordo com a localização geográfica e a configuração, mas normalmente requer gastos com infraestrutura de mais de US$ 50 milhões por ano.
  • Você precisa de um hardware muito específico que não pode ser obtido de um provedor de nuvem. Por exemplo, tipos de GPU que não estão amplamente disponíveis, bem como requisitos incomuns de memória, armazenamento ou rede.
  • Você não consegue encontrar uma nuvem que seja aceitável para considerações geopolíticas.

Se você deseja construir seu próprio data center, houve uma análise abrangente de preço/desempenho de GPUs para sua própria configuração (por exemplo, A análise de Tim Dettmer). Além do custo e do desempenho da própria placa, a seleção do hardware também depende da energia, do espaço e da refrigeração. Por exemplo, duas placas RTX 3080 Ti juntas têm capacidade de computação bruta semelhante a um A100, mas o consumo de energia respectivo é de 700 W x 300 W. A diferença de potência de 3,500 kWh a taxas de mercado de US$ 0.10/kWh durante um ciclo de vida de três anos aumenta o custo do RTX3080 Ti em quase 2x (aproximadamente US$ 1,000).

Dito tudo isso, esperamos que a grande maioria das startups use computação em nuvem. 

Comparando os provedores de serviços em nuvem 

Amazon Web Services (AWS), Microsoft Azure e Google Cloud Platform (GCP) oferecem instâncias de GPU, mas novos provedores também parecem se concentrar especificamente em cargas de trabalho de IA. Aqui está uma estrutura que vimos muitos fundadores usarem para escolher um provedor de nuvem:

Preço: A tabela abaixo mostra os preços de várias nuvens especializadas principais e menores em 7 de abril de 2023. Esses dados são apenas indicativos, pois as instâncias variam consideravelmente em termos de largura de banda de rede, custos de saída de dados, custo adicional de CPU e rede, disponível descontos e outros fatores.

Navegando no alto custo da IA ​​Compute PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

A capacidade de computação em hardware específico é uma mercadoria. Ingenuamente, esperaríamos preços bastante uniformes, mas não é o caso. E embora existam diferenças substanciais de recursos entre as nuvens, elas são insuficientes para explicar que o preço de uma NVIDIA A100 sob demanda varia em um fator de quase 4x entre os provedores.

No topo da escala de preços, as grandes nuvens públicas cobram um prêmio com base na reputação da marca, confiabilidade comprovada e na necessidade de gerenciar uma ampla variedade de cargas de trabalho. Provedores de IA especializados menores oferecem preços mais baixos, seja executando data centers específicos (por exemplo, Coreweave) ou arbitrando outras nuvens (por exemplo, Lambda Labs).

Em termos práticos, a maioria dos grandes compradores negocia preços diretamente com os provedores de nuvem, muitas vezes comprometendo-se com algum requisito de gasto mínimo, bem como compromissos mínimos de tempo (vimos de 1 a 3 anos). As diferenças de preços entre as nuvens diminuem um pouco após a negociação, mas vimos que o ranking na tabela acima permanece relativamente estável. Também é importante observar que empresas menores podem obter preços agressivos de nuvens especializadas sem grandes compromissos de gastos.

Disponibilidade: As GPUs mais poderosas (por exemplo, Nvidia A100s) têm sido consistentemente escassas nos últimos 12 meses ou mais. 

Seria lógico pensar que os três principais provedores de nuvem têm a melhor disponibilidade, dado seu grande poder de compra e pool de recursos. Mas, surpreendentemente, muitas startups não descobriram que isso seja verdade. As grandes nuvens têm muito hardware, mas também têm grandes necessidades dos clientes para satisfazer — por exemplo, o Azure é o host principal do ChatGPT — e estão constantemente adicionando/alugando capacidade para atender à demanda. Enquanto isso, a Nvidia se comprometeu a disponibilizar hardware amplamente em todo o setor, incluindo alocações para novos fornecedores especializados. (Eles fazem isso tanto para serem justos quanto para reduzir sua dependência de alguns poucos grandes clientes que também competem com eles.)

Como resultado, muitas startups encontram mais chips disponíveis, incluindo os avançados Nvidia H100s, em provedores de nuvem menores. Se você estiver disposto a trabalhar com uma empresa de infraestrutura mais nova, poderá reduzir o tempo de espera do hardware e possivelmente economizar dinheiro no processo.

Calcular o modelo de entrega: As grandes nuvens hoje oferecem apenas instâncias com GPUs dedicadas, o motivo é que a virtualização de GPU ainda é um problema não resolvido. Nuvens de IA especializadas oferecem outros modelos, como contêineres ou trabalhos em lote, que podem lidar com tarefas individuais sem incorrer no custo de inicialização e desmontagem de uma instância. Se você se sentir confortável com este modelo, ele pode reduzir substancialmente o custo.

Interconexões de rede: Para treinamento, especificamente, a largura de banda da rede é um fator importante na seleção do provedor. Clusters com malhas dedicadas entre nós, como NVLink, são necessários para treinar determinados modelos grandes. Para a geração de imagens, as taxas de tráfego de saída também podem ser um importante fator de custo.

Suporte ao cliente: Grandes provedores de nuvem atendem a um enorme grupo de clientes em milhares de SKUs de produtos. Pode ser difícil chamar a atenção do suporte ao cliente ou resolver um problema, a menos que você seja um grande cliente. Muitas nuvens de IA especializadas, por outro lado, oferecem suporte rápido e responsivo, mesmo para pequenos clientes. Isso ocorre em parte porque eles estão operando em menor escala, mas também porque suas cargas de trabalho são mais homogêneas – portanto, eles são mais incentivados a se concentrar em recursos e bugs específicos de IA.

Comparando GPUs 

Tudo o mais sendo igual, as GPUs de ponta terão melhor desempenho em quase todas as cargas de trabalho. No entanto, como você pode ver na tabela abaixo, o melhor hardware também é substancialmente mais caro. Escolher o tipo certo de GPU para seu aplicativo específico pode reduzir substancialmente o custo e pode fazer a diferença entre um modelo de negócios viável e inviável.

Navegando no alto custo da IA ​​Compute PlatoBlockchain Data Intelligence. Pesquisa vertical. Ai.

Decidir até onde ir na lista — ou seja, determinar as opções de GPU mais econômicas para seu aplicativo — é em grande parte uma decisão técnica que está além do escopo deste artigo. Mas vamos compartilhar abaixo alguns dos critérios de seleção que vimos serem os mais importantes:

Treinamento x inferência: Como vimos na primeira seção acima, o treinamento de um modelo Transformer exige que armazenemos 8 bytes de dados para treinamento, além dos pesos do modelo. Isso significa que uma típica GPU de consumo topo de linha com 12 GB de memória dificilmente poderia ser usada para treinar um modelo de 4 bilhões de parâmetros. Na prática, o treinamento de grandes modelos é feito em clusters de máquinas com preferencialmente muitas GPUs por servidor, muita VRAM e conexões de alta largura de banda entre os servidores (ou seja, clusters construídos usando GPUs de data center de ponta).

Especificamente, muitos modelos serão mais econômicos no NVIDIA H100, mas atualmente é difícil encontrá-lo e geralmente requer um compromisso de longo prazo de mais de um ano. A NVIDIA A100 executa a maioria dos treinamentos de modelo atualmente; é mais fácil de encontrar, mas, para grandes clusters, também pode exigir um compromisso de longo prazo.

Requisitos de memória: Grandes LLMs têm contagens de parâmetros muito altas para caber em qualquer cartão. Eles precisam ser divididos em vários cartões e requerem uma configuração semelhante ao treinamento. Em outras palavras, você provavelmente precisará de H100s ou A100s mesmo para inferência LLM. Mas modelos menores (por exemplo, Stable Diffusion) requerem muito menos VRAM. Embora o A100 ainda seja popular, vimos startups usando os cartões A10, A40, A4000, A5000 e A6000, ou mesmo RTX. 

Suporte de hardware: Embora a grande maioria das cargas de trabalho nas empresas com as quais conversamos seja executada na NVIDIA, algumas começaram a fazer experiências com outros fornecedores. O mais comum é o TPU do Google, mas o Gaudi 2 da Intel também parece estar ganhando força. O desafio com esses fornecedores é que o desempenho do seu modelo geralmente depende muito da disponibilidade de otimizações de software para esses chips. Você provavelmente terá que fazer uma PoC para entender o desempenho.

Requisitos de latência: Em geral, cargas de trabalho menos sensíveis à latência (por exemplo, processamento de dados em lote ou aplicativos que não exigem respostas interativas da interface do usuário) podem usar GPUs menos potentes. Isso pode reduzir o custo de computação em até 3-4x (por exemplo, comparando A100s com A10s na AWS). Os aplicativos voltados para o usuário, por outro lado, geralmente precisam de cartões de ponta para oferecer uma experiência de usuário envolvente e em tempo real. A otimização de modelos geralmente é necessária para trazer os custos para uma faixa administrável.

Pontuação: as empresas de IA generativa costumam ver picos dramáticos na demanda, já que a tecnologia é tão nova e empolgante. Não é incomum ver o volume de solicitações aumentar 10 vezes em um dia, com base no lançamento de um novo produto, ou crescer 50% por semana de forma consistente. Lidar com esses picos geralmente é mais fácil em GPUs de baixo custo, pois é provável que mais nós de computação estejam disponíveis sob demanda. Muitas vezes, também faz sentido atender a esse tipo de tráfego com recursos de custo mais baixo — em detrimento do desempenho — se vier de usuários menos engajados ou menos retentivos.

Modelos de otimização e programação

As otimizações de software podem afetar enormemente o tempo de execução dos modelos — e ganhos de 10x não são incomuns. No entanto, você precisará determinar quais métodos serão mais eficazes com seu modelo e sistema específicos.

Algumas técnicas funcionam com uma ampla gama de modelos. O uso de representações de ponto flutuante mais curtas (ou seja, FP16 ou FP8 versus o FP32 original) ou quantização (INT8, INT4, INT2) atinge um aumento de velocidade que geralmente é linear com a redução de bits. Isso às vezes requer a modificação do modelo, mas cada vez mais existem tecnologias disponíveis que automatizam o trabalho com precisão mista ou menor. A poda de redes neurais reduz o número de pesos ao ignorar os pesos com valores baixos. Juntamente com a multiplicação eficiente de matrizes esparsas, isso pode atingir uma aceleração substancial nas GPUs modernas. Outro conjunto de técnicas de otimização aborda o gargalo da largura de banda da memória (por exemplo, por pesos de modelo de streaming).

Outras otimizações são altamente específicas do modelo. Por exemplo, Stable Diffusion fez grandes avanços na quantidade de VRAM necessária para inferência. Ainda outra classe de otimizações é específica de hardware. O TensorML da NVIDIA inclui várias otimizações, mas só funcionará em hardware NVIDIA. Por último, mas não menos importante, o agendamento de tarefas de IA pode criar grandes gargalos ou melhorias de desempenho. Alocar modelos para GPUs de forma a minimizar a troca de pesos, escolher a melhor GPU para uma tarefa se houver várias disponíveis e minimizar o tempo de inatividade agrupando cargas de trabalho em lote com antecedência são técnicas comuns.

No final, a otimização de modelos ainda é um pouco obscura, e a maioria das startups com quem conversamos trabalha com terceiros para ajudar em alguns desses aspectos de software. Frequentemente, esses não são fornecedores tradicionais de MLops, mas sim empresas especializadas em otimizações para modelos generativos específicos (por exemplo, OctoML ou SegMind).

Como evoluirá o custo da infraestrutura de IA?

Nos últimos anos, temos visto um crescimento exponencial de ambos parâmetros do modelo e Poder de computação da GPU. Não está claro se essa tendência continuará.

Hoje, é amplamente aceito que existe uma relação entre o número ideal de parâmetros e o tamanho do conjunto de dados de treinamento (consulte o Deepmind's Chinchila trabalhe para saber mais sobre isso). Os melhores LLMs hoje são treinados no Rastreio comum (uma coleção de 4.5 bilhões de páginas da web, ou cerca de 10% de todas as páginas da web existentes). O corpus de treinamento também inclui a Wikipedia e uma coleção de livros, embora ambos sejam muito menores (o número total de livros existentes é estimado em apenas cerca de 100 milhões). Outras ideias, como a transcrição de conteúdo de vídeo ou áudio, foram sugeridas, mas nenhuma delas chega perto do tamanho. Não está claro se poderíamos obter um conjunto de dados de treinamento não sintético 10x maior do que o que já foi usado.

O desempenho da GPU continuará a aumentar, mas também em um ritmo mais lento. A Lei de Moore ainda está intacta, permitindo mais transistores e mais núcleos, mas energia e E/S estão se tornando fatores limitantes. Além disso, muitos dos frutos mais fáceis de otimizar foram colhidos. 

No entanto, nada disso significa que não esperamos um aumento na demanda por capacidade de computação. Mesmo que o crescimento do modelo e do conjunto de treinamento diminua, o crescimento da indústria de IA e o aumento no número de desenvolvedores de IA alimentarão a demanda por GPUs mais e mais rápidas. Uma grande fração da capacidade da GPU é usada para testes pelos desenvolvedores durante a fase de desenvolvimento de um modelo, e essa demanda aumenta linearmente com o número de funcionários. Não há sinal de que a escassez de GPU que temos hoje diminuirá em um futuro próximo.

Esse alto custo contínuo da infraestrutura de IA criará um fosso que tornará impossível para os novos participantes alcançar os titulares bem financiados? Ainda não sabemos a resposta para esta pergunta. O custo de treinamento de um LLM pode parecer um fosso hoje, mas modelos de código aberto, como Alpaca ou Stable Diffusion, mostraram que esses mercados ainda estão no início e podem mudar rapidamente. Com o tempo, a estrutura de custos da pilha de software de IA emergente (veja nosso post anterior) pode começar a se parecer mais com a indústria de software tradicional. 

Em última análise, isso seria uma coisa boa: a história mostrou que isso leva a ecossistemas vibrantes com inovação rápida e muitas oportunidades para empreendedores fundadores.

Obrigado a Moin Nadeem e Shangda Xu por suas contribuições e orientação durante o processo de escrita.


¹ A intuição aqui é que para qualquer parâmetro (ou seja, peso) em uma rede neural, uma operação de inferência (ou seja, passagem direta) precisa realizar duas operações de ponto flutuante por parâmetro. Primeiro, multiplica o valor do nó de entrada da rede neural pelo parâmetro. Em segundo lugar, adiciona o resultado do somatório ao nó de saída da rede neural. Os parâmetros no codificador são usados ​​uma vez por token de entrada e os parâmetros no decodificador são usados ​​uma vez por token de saída. Se assumirmos que um modelo tem p parâmetros e entrada e saída ambos têm um comprimento n tokens, total de operações de ponto flutuante são n*p. Existem muitas outras operações (por exemplo, normalização, codificação/decodificação da incorporação) que ocorrem em um modelo, mas o tempo necessário para realizá-las é pequeno em comparação. 

² O aprendizado primeiro requer uma passagem direta pelo transformador conforme descrito acima, seguido por uma passagem reversa que incorre em quatro operações adicionais por parâmetro para calcular o gradiente e ajustar o peso. Observe que o cálculo do gradiente requer a preservação dos valores de nó calculados da passagem direta. Para GPT-3, Modelos de linguagem são aprendizes poucos discute o custo de treinamento.

* * *

As opiniões expressas aqui são as do pessoal individual da AH Capital Management, LLC (“a16z”) citadas e não são as opiniões da a16z ou de suas afiliadas. Certas informações aqui contidas foram obtidas de fontes de terceiros, inclusive de empresas do portfólio de fundos administrados pela a16z. Embora retiradas de fontes consideradas confiáveis, a16z não verificou essas informações de forma independente e não faz representações sobre a precisão duradoura das informações ou sua adequação a uma determinada situação. Além disso, esse conteúdo pode incluir anúncios de terceiros; a16z não revisou tais anúncios e não endossa nenhum conteúdo de publicidade neles contido.

Este conteúdo é fornecido apenas para fins informativos e não deve ser considerado como aconselhamento jurídico, comercial, de investimento ou fiscal. Você deve consultar seus próprios conselheiros sobre esses assuntos. As referências a quaisquer valores mobiliários ou ativos digitais são apenas para fins ilustrativos e não constituem uma recomendação de investimento ou oferta para fornecer serviços de consultoria de investimento. Além disso, este conteúdo não é direcionado nem destinado ao uso por quaisquer investidores ou potenciais investidores, e não pode, em nenhuma circunstância, ser invocado ao tomar uma decisão de investir em qualquer fundo administrado pela a16z. (Uma oferta para investir em um fundo a16z será feita apenas pelo memorando de colocação privada, contrato de subscrição e outra documentação relevante de tal fundo e deve ser lida na íntegra.) Quaisquer investimentos ou empresas de portfólio mencionados, referidos ou descritos não são representativos de todos os investimentos em veículos administrados pela a16z, e não pode haver garantia de que os investimentos serão rentáveis ​​ou que outros investimentos realizados no futuro terão características ou resultados semelhantes. Uma lista de investimentos feitos por fundos administrados por Andreessen Horowitz (excluindo investimentos para os quais o emissor não deu permissão para a a16z divulgar publicamente, bem como investimentos não anunciados em ativos digitais negociados publicamente) está disponível em https://a16z.com/investments /.

Os gráficos e gráficos fornecidos são apenas para fins informativos e não devem ser considerados ao tomar qualquer decisão de investimento. O desempenho passado não é indicativo de resultados futuros. O conteúdo fala apenas a partir da data indicada. Quaisquer projeções, estimativas, previsões, metas, perspectivas e/ou opiniões expressas nestes materiais estão sujeitas a alterações sem aviso prévio e podem diferir ou ser contrárias às opiniões expressas por outros. Consulte https://a16z.com/disclosures para obter informações adicionais importantes.

Carimbo de hora:

Mais de Andreessen Horowitz