Para a loja média de IA, modelos esparsos e memória barata vencerão

Republicado por Platão

seguidores: 0

Por mais convincentes que possam ser os principais modelos linguísticos de grande escala, permanece o facto de que apenas as maiores empresas têm os recursos para realmente implantá-los e treiná-los numa escala significativa.

Para as empresas ansiosas por aproveitar a IA para obter uma vantagem competitiva, uma alternativa mais barata e reduzida pode ser mais adequada, especialmente se puder ser adaptada a indústrias ou domínios específicos.

É aí que surge um conjunto emergente de startups de IA que esperam conquistar um nicho: construindo modelos esparsos e personalizados que, talvez não tão poderosos quanto GPT-3, são bons o suficiente para casos de uso corporativo e são executados em hardware que dispensa memória de alta largura de banda (HBM) cara para DDR comum.

A startup alemã de IA Aleph Alpha é um exemplo. Fundada em 2019, a empresa com sede em Heidelberg, Alemanha Luminoso o modelo de linguagem natural possui muitos dos mesmos recursos de destaque do GPT-3 da OpenAI: redação, classificação, resumo e tradução, para citar alguns.

A startup de modelos se uniu à Graphcore para explorar e desenvolver modelos de linguagem esparsa no idioma britânico hardware do fabricante de chips.

“As IPUs da Graphcore apresentam uma oportunidade para avaliar as abordagens tecnológicas avançadas, como a dispersão condicional”, disse o CEO da Aleph Alpha, Jonas Andrulius, em um comunicado. afirmação. “Essas arquiteturas sem dúvida desempenharão um papel nas pesquisas futuras de Aleph Alpha.”

A grande aposta da Graphcore na dispersão

Modelos condicionalmente esparsos – às vezes chamados de mistura de especialistas ou modelos roteados – processam dados apenas em relação aos parâmetros aplicáveis, algo que pode reduzir significativamente os recursos computacionais necessários para executá-los.

Por exemplo, se um modelo de idioma fosse treinado em todos os idiomas da Internet e, em seguida, fosse feita uma pergunta em russo, não faria sentido executar esses dados em todo o modelo, apenas nos parâmetros relacionados ao idioma russo, explicou o CTO da Graphcore, Simon Knowles, em entrevista ao O registro.

“É completamente óbvio. É assim que o seu cérebro funciona e é também como uma IA deveria funcionar”, disse ele. “Já disse isso muitas vezes, mas se uma IA pode fazer muitas coisas, ela não precisa acessar todo o seu conhecimento para fazer uma coisa.”

Knowles, cuja empresa constrói aceleradores adaptados para esses tipos de modelos, acredita, sem surpresa, que eles são o futuro da IA. “Eu ficaria surpreso se, no próximo ano, alguém estivesse construindo modelos de linguagem densa”, acrescentou.

HBM-2 caro? Armazene em cache em DDR

Os modelos de linguagem esparsa apresentam seus desafios. Um dos mais urgentes, segundo Knowles, tem a ver com a memória. O HBM usado em GPUs de ponta para atingir a largura de banda e as capacidades necessárias exigidas por esses modelos é caro e acoplado a um acelerador ainda mais caro.

Isso não é um problema para modelos de linguagem densa, onde você pode precisar de toda essa computação e memória, mas representa um problema para modelos esparsos, que favorecem a memória em vez da computação, explicou ele.

A tecnologia de interconexão, como o NVLink da Nvidia, pode ser usada para agrupar memória em várias GPUs, mas se o modelo não exigir toda essa computação, as GPUs podem ficar ociosas. “É uma forma muito cara de comprar memória”, disse Knowles.

Os aceleradores do Graphcore tentam contornar esse desafio pegando emprestada uma técnica tão antiga quanto a própria computação: o cache. Cada IPU possui um cache SRAM relativamente grande – 1 GB – para satisfazer os requisitos de largura de banda desses modelos, enquanto a capacidade bruta é alcançada usando grandes pools de memória DDR4 barata.

“Quanto mais SRAM você tiver, menos largura de banda DRAM será necessária, e é isso que nos permite não usar HBM”, disse Knowles.

Ao desacoplar a memória do acelerador, fica muito mais barato – o custo de alguns módulos DDR comuns – para as empresas oferecerem suporte a modelos maiores de IA.

Além de suportar memória mais barata, Knowles afirma que as IPUs da empresa também têm uma vantagem arquitetônica sobre as GPUs, pelo menos quando se trata de modelos esparsos.

Em vez de funcionar em um pequeno número de grandes multiplicadores de matrizes - como você encontra em uma unidade de processamento de tensor - os chips do Graphcore apresentam um grande número de unidades matemáticas de matrizes menores que podem endereçar a memória de forma independente.

Isso proporciona maior granularidade para modelos esparsos, onde “você precisa de liberdade para buscar subconjuntos relevantes, e quanto menor a unidade que você é obrigado a buscar, mais liberdade você tem”, explicou ele.

O veredicto ainda não foi decidido

Em conjunto, Knowles argumenta que esta abordagem permite que suas IPUs treinem grandes modelos de IA/ML com centenas de bilhões ou até trilhões de parâmetros, a um custo substancialmente menor em comparação com GPUs.

No entanto, o mercado empresarial de IA ainda está na sua infância e a Graphcore enfrenta forte concorrência neste espaço de rivais maiores e mais estabelecidos.

Portanto, embora seja improvável que o desenvolvimento de modelos de linguagem ultra-esparsos e de baixo custo para IA diminua tão cedo, resta saber se serão as IPUs da Graphcore ou o acelerador de outra pessoa que acabará alimentando as cargas de trabalho de IA corporativas. ®

Carimbo de hora: 10 de Junho de 202216 de julho de 2022

Carimbo de hora: 11 de abril, 2024

Para a loja de IA média, modelos esparsos e memória barata vencerão

Republicado por Platão

A grande aposta da Graphcore na dispersão

HBM-2 caro? Armazene em cache em DDR

O veredicto ainda não foi decidido

Mais de O registro

Gigantes da web chinesa fazem compras de $ 5 bilhões com Nvidia AI

Universidades ofereceram software para farejar ensaios escritos pelo ChatGPT

Google ensina robôs a servirem humanos – com grandes modelos de linguagem a chave

Meta's Llama 2 não é open source

Táxis robo Waymo acumulam um milhão de milhas sem matar ninguém

Entrevista com Kari Briski, executivo de software da Nvidia

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta