As GPUs nem sempre são sua melhor aposta, os testes de ML do Twitter sugerem o PlatoBlockchain Data Intelligence. Pesquisa Vertical. Ai.

GPUs nem sempre são sua melhor aposta, sugerem testes de ML do Twitter

As GPUs são uma ferramenta poderosa para cargas de trabalho de aprendizado de máquina, embora não sejam necessariamente a ferramenta certa para todos os trabalhos de IA, de acordo com Michael Bronstein, chefe de pesquisa de aprendizado de gráficos do Twitter.

Sua equipe mostrou recentemente que o hardware de IA da Graphcore oferecia uma “aceleração de ordem de magnitude ao comparar um único processador IPU a uma GPU Nvidia A100”, em modelos de rede de gráfico temporal (TGN).

“A escolha do hardware para implementar os modelos do Graph ML é um problema crucial, mas muitas vezes esquecido”, diz um artigo conjunto escrito por Bronstein com Emanuele Rossi, pesquisador de ML no Twitter, e Daniel Justus, pesquisador da Graphcore.

As redes neurais gráficas oferecem um meio de encontrar ordem em sistemas complexos e são comumente usadas em redes sociais e sistemas de recomendação. No entanto, a natureza dinâmica desses ambientes torna esses modelos particularmente desafiadores para treinar, explicou o trio.

O grupo investigou a viabilidade das IPUs da Graphcore em lidar com vários modelos de TGN. O teste inicial foi feito em um pequeno modelo TGN baseado no JODIE Conjunto de dados da Wikipedia que vincula os usuários às edições que eles fizeram nas páginas. O gráfico foi composto por 8,227 usuários e 1,000 artigos para um total de 9,227 nós. JODIE é um sistema de previsão de código aberto projetado para dar sentido às redes de interação temporal.

A experimentação do trio revelou que tamanhos de lote grandes resultaram em validação degradada e precisão de inferência, em comparação com tamanhos de lote menores.

“A memória do nó e a conectividade do gráfico são atualizadas apenas após o processamento de um lote completo”, escreveu o trio. “Portanto, os eventos posteriores em um lote podem depender de informações desatualizadas, pois não estão cientes de eventos anteriores.”

No entanto, usando um tamanho de lote de 10, o grupo conseguiu obter validação e precisão de inferência ideais, mas eles observam que o desempenho na IPU ainda era superior ao de uma GPU, mesmo ao usar tamanhos de lote grandes.

“Ao usar um lote de 10, o TGN pode ser treinado na IPU cerca de 11 vezes mais rápido e, mesmo com um tamanho de lote grande de 200, o treinamento ainda é três vezes mais rápido na IPU”, diz o post. “Em todas as operações, a IPU lida com tamanhos de lotes pequenos com mais eficiência.”

A equipe postula que o acesso rápido à memória e a alta taxa de transferência oferecidas pelo grande cache SRAM no processador da Graphcore deram uma vantagem à IPU.

Essa liderança de desempenho também se estendeu a modelos de gráficos que excederam a memória do processador da IPU - cada IPU possui um cache SRAM de 1 GB - exigindo o uso de memória DRAM mais lenta conectada aos chips.

Ao testar em um modelo gráfico que consiste em 261 milhões de seguidores entre 15.5 milhões de usuários do Twitter, o uso de DRAM para a memória do nó reduziu a taxa de transferência por um fator de dois, descobriu a equipe de Bronstein.

No entanto, ao induzir vários subgráficos com base em um conjunto de dados sintético 10 vezes maior que o tamanho do gráfico do Twitter, a equipe descobriu que a taxa de transferência era dimensionada independentemente do tamanho do gráfico. Em outras palavras, o impacto no desempenho foi resultado do uso de memória mais lenta e não do tamanho do modelo.

“Usando essa técnica na IPU, o TGN pode ser aplicado a tamanhos de gráfico quase arbitrários, limitados apenas pela quantidade de memória do host disponível, mantendo uma taxa de transferência muito alta durante o treinamento e a inferência”, diz o artigo.

A equipe concluiu que a arquitetura de IPU da Graphcore mostra uma vantagem significativa sobre as GPUs em cargas de trabalho onde o acesso à computação e à memória são heterogêneos.

No entanto, a conclusão mais ampla é que os pesquisadores de ML devem considerar cuidadosamente sua escolha de hardware e não devem usar GPUs por padrão.

“A disponibilidade de serviços de computação em nuvem abstraindo o hardware subjacente leva a certa preguiça a esse respeito”, escreveu o trio. “Esperamos que nosso estudo chame mais atenção para esse tópico importante e abra caminho para algoritmos e arquiteturas de hardware futuros e mais eficientes para aplicativos Graph ML.” ®

Carimbo de hora:

Mais de O registro