Com IA, você precisa ver a imagem maior de hardware e software

Republicado por Platão

seguidores: 0

Recurso patrocinado Faz uma década e meia que os pesquisadores deslumbraram o mundo da tecnologia ao demonstrar que as unidades de processamento gráfico podem ser usadas para acelerar drasticamente as principais operações de IA.

Essa percepção continua a dominar a imaginação das empresas. A IDC informou que, quando se trata de infraestrutura, a computação acelerada por GPU e o aumento de escala do tipo HPC estão entre as principais considerações para líderes de tecnologia e arquitetos que desejam construir sua infraestrutura de IA.

Mas, para todas as organizações que aplicaram com sucesso a IA a problemas do mundo real, muitas outras lutam para ir além da fase de experimentação ou piloto. Pesquisa da IDC para 2021 descobriu que menos de um terço dos entrevistados havia colocado seus projetos de IA em produção e apenas um terço deles havia atingido um “estágio maduro de produção”.

Os obstáculos citados incluem problemas com o processamento e preparação de dados e reforço da infraestrutura para dar suporte à IA em escala empresarial. As empresas precisavam investir em “infraestrutura construída para o propósito e do tamanho certo”, disse a IDC.

Qual é o problema da IA aqui?

Então, onde essas organizações estão errando com a IA? Um fator pode ser que os líderes de tecnologia e especialistas em IA não estão conseguindo dar uma olhada holística no pipeline de IA mais amplo, ao mesmo tempo em que prestam muita atenção às GPUs em comparação com outros mecanismos de computação, principalmente a venerável CPU.

Porque, em última análise, não é uma questão de apoiar CPUs versus GPUs versus ASICs. Em vez disso, trata-se de encontrar a maneira ideal de construir um pipeline de IA que pode levá-lo de ideias e dados e construção de modelo à implantação e inferência. E isso significa apreciar os respectivos pontos fortes de diferentes arquiteturas de processador, para que você possa aplicar o mecanismo de computação certo no momento certo.

Como explica Shardul Brahmbhatt, diretor sênior de estratégia e execução de IA de datacenter da Intel, “a CPU tem sido usada para microsserviços e instâncias de computação tradicionais na nuvem. E as GPUs têm sido usadas para computação paralela, como streaming de mídia, jogos e cargas de trabalho de IA.”

Assim, como hiperescaladores e outros participantes da nuvem voltaram sua atenção para a IA, ficou claro que eles estão aproveitando esses mesmos pontos fortes para tarefas diferentes.

Os recursos das GPUs em computação paralela os tornam altamente adequados para treinamento de algoritmos de IA, por exemplo. Enquanto isso, as CPUs têm uma vantagem quando se trata de inferência em tempo real de baixo lote e baixa latência e uso desses algoritmos para analisar dados ao vivo e fornecer resultados e previsões.

Novamente, há ressalvas, explica Brahmbhatt: “Existem lugares onde você deseja fazer mais inferência em lote. E essa inferência em lote também é algo que está sendo feito por meio de GPUs ou ASICs.”

Olhando para baixo do oleoduto

Mas o pipeline de IA vai além do treinamento e da inferência. No lado esquerdo do pipeline, os dados devem ser pré-processados e os algoritmos desenvolvidos. A CPU generalista tem um papel significativo a desempenhar aqui.

Na verdade, as GPUs respondem por uma proporção relativamente pequena da atividade total do processador no pipeline de IA, com cargas de trabalho de “estágio de dados” alimentadas por CPU respondendo por dois terços no geral, de acordo com a Intel (você pode ler um resumo da solução – Otimize a inferência com a tecnologia de CPU Intel aqui).

E Brahmbhatt nos lembra que a arquitetura da CPU tem outras vantagens, inclusive a programabilidade.

“Como as CPUs têm sido usadas de forma tão ampla, já existe um ecossistema existente de desenvolvedores e aplicativos disponíveis, além de ferramentas que oferecem facilidade de uso e capacidade de programação para computação de uso geral”, diz ele.

“Em segundo lugar, as CPUs fornecem acesso mais rápido ao maior espaço de memória. E a terceira coisa é que é uma computação mais desestruturada versus GPUs [que] são uma computação mais paralela. Por esses motivos, as CPUs operam como os movimentadores de dados que alimentam as GPUs, ajudando assim com os modelos do sistema de recomendação, bem como com cargas de trabalho em evolução, como redes neurais de gráfico.

Um plano aberto para o desenvolvimento de IA

Então, como devemos ver as funções de CPUs e GPUs, respectivamente, ao planejar um pipeline de desenvolvimento de IA, seja no local, na nuvem ou abrangendo ambos?

As GPUs revolucionaram o desenvolvimento da IA, porque ofereceram um método de aceleração que descarrega as operações da CPU. Mas isso não significa que esta seja a opção mais sensata para um determinado trabalho.

Como explica o arquiteto da plataforma Intel Sharath Raghava, “os aplicativos de IA têm cálculos vetorizados. Computações vetoriais são paralelizáveis. Para executar cargas de trabalho de IA com eficiência, pode-se explorar os recursos de CPUs e GPUs, considerando o tamanho dos cálculos vetoriais, a latência de descarregamento, a paralelização e muitos outros fatores”. Mas ele continua, para uma tarefa “menor”, o “custo” de descarregamento será excessivo, e pode não fazer sentido executá-la em uma GPU ou acelerador.

As CPUs também podem se beneficiar de uma integração mais próxima com outros componentes do sistema que lhes permitem concluir o trabalho de IA mais rapidamente. Obter o valor máximo das implantações de IA envolve mais do que executar apenas os próprios modelos – o insight buscado depende de operações eficientes de pré-processamento, inferência e pós-processamento. O pré-processamento requer que os dados sejam preparados para corresponder às expectativas de entrada do modelo treinado antes de serem alimentados para gerar inferência. A informação útil é então extraída dos resultados da inferência no estágio de pós-processamento.

Se pensarmos em um sistema de detecção de intrusão (IDS) de data center, por exemplo, é importante agir de acordo com a saída do modelo para proteger e prevenir qualquer dano de um ataque cibernético em tempo hábil. E, normalmente, as etapas de pré-processamento e pós-processamento são mais eficientes quando são executadas nas CPUs do sistema host porque estão mais integradas ao restante do ecossistema arquitetônico.

Aumento de desempenho sob ordens iniciais

Então, isso significa renunciar completamente aos benefícios da aceleração da GPU? Não necessariamente. A Intel vem construindo aceleração de IA em suas CPUs Xeon Scalable há alguns anos. A linha já inclui o Deep Learning Boost para inferência de alto desempenho em modelos de aprendizagem profunda, enquanto o Advanced Vector Extensions 512 (AVX 512) e o Vector Neural Network Extensions (VNNI) aceleram o desempenho da inferência INT8. Mas o DL Boost também usa o formato de ponto flutuante do cérebro (BF16) para aumentar o desempenho em cargas de trabalho de treinamento que não exigem altos níveis de precisão.

As próximas CPUs Xeon Scalable de quarta geração da Intel adicionarão multiplicação de matriz avançada, ou AMX. Isso dará um aumento adicional de 8 vezes em relação às extensões AVX-512 VNNI x86 implementadas em processadores anteriores, de acordo com os cálculos da Intel, e permitirá que os processadores escaláveis Intel Xeon de 4ª geração "lidem com cargas de trabalho de treinamento e algoritmos DL como uma GPU". Mas esses mesmos aceleradores também podem ser aplicados à computação geral da CPU para cargas de trabalho de IA e não IA.

Isso não significa que a Intel espera que os pipelines de IA sejam x86 do início ao fim. Quando faz mais sentido descarregar totalmente as cargas de trabalho de treinamento que se beneficiarão da paralelização, a Intel oferece seu Habana Gaudi AI Training Processor. Os testes de benchmark sugerem que o último potencializa as instâncias Amazon EC2 DL1, que podem oferecer até 40 por cento melhor preço-desempenho do que instâncias de treinamento baseadas em GPU Nvidia comparáveis também hospedadas na nuvem.

Ao mesmo tempo, o Data Center GPU Flex Series da Intel é voltado para cargas de trabalho e operações que se beneficiam da paralelização, como inferência de IA, com diferentes implementações lançadas em modelos de IA “mais leves” e mais complexos. Outra GPU Intel® Data Center, codinome Ponte Vecchio (PVC), em breve começará a alimentar o supercomputador Aurora no Argonne National Laboratory.

Podemos ir de ponta a ponta?

Potencialmente, então, o silício da Intel pode sustentar todo o pipeline de IA, minimizando a necessidade de descarregar dados entre diferentes mecanismos de computação desnecessariamente. Os processadores da empresa – seja GPU ou CPU – também suportam um modelo de software comum baseado em ferramentas e estruturas de código aberto com otimizações da Intel por meio de seu programa OneAPI.

Brahmbhatt cita a herança da Intel na construção de um ecossistema de software x86 baseado na comunidade e código aberto como outra vantagem. “A filosofia da Intel é... 'deixar o ecossistema conduzir a adoção'. E precisamos garantir que sejamos justos e abertos ao ecossistema, e fornecemos todo o nosso molho secreto de volta ao ecossistema.”

“Estamos usando uma pilha de software comum, basicamente para garantir que os desenvolvedores não precisem se preocupar com a diferenciação subjacente de IP entre CPU e GPU para IA.”

Essa combinação de uma pilha de software comum e foco no uso do mecanismo de computação certo para a tarefa certa é ainda mais importante na empresa. As empresas contam com a IA para ajudá-las a resolver alguns de seus problemas mais prementes, seja na nuvem ou no local. Mas as cargas de trabalho mistas exigem software completo, bem como manutenção e gerenciamento da pilha do sistema, para executar o código não incluído no kernel que fica no acelerador.

Portanto, quando se trata de responder à pergunta “como colocamos a IA em escala empresarial”, a resposta pode depender de uma visão geral e de garantir que você use todo o conjunto de hardware e software à sua disposição.

Patrocinado pela Intel.

Carimbo de hora: 9 de novembro de 2022 9 de novembro de 2022

Carimbo de hora: Junho 28, 2023

OpenAI abre portas para DALL-E após o cavalo ter fugido para Midjourney, etc.

Grupo de origem:

O registro

Nó Fonte: 1703189

Carimbo de hora: 28 de setembro de 2022

IA mencionada 175 vezes durante a teleconferência de resultados do quarto trimestre da Microsoft

Grupo de origem:

O registro

Nó Fonte: 1866588

Carimbo de hora: Julho 26, 2023

Com a iminente OpenAI GPT Store, os desenvolvedores se preocupam com imitadores

Grupo de origem:

O registro

Nó Fonte: 1935364

Carimbo de hora: 9 de janeiro de 2024

Com a IA, você precisa ver a imagem maior de hardware e software

Republicado por Platão

Mais de O registro

DARPA procura alguns bons codificadores de IA para ajudar a América a encontrar seus próprios minerais raros

Detalhes sobre as atualizações de IA do Google para infraestrutura em nuvem

Nvidia atrai chefe de carros autônomos do Baidu da China

OpenAI abre portas para DALL-E após o cavalo ter fugido para Midjourney, etc.

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta