Para la tienda de IA promedio, los modelos dispersos y la memoria barata ganarán la inteligencia de datos de PlatoBlockchain. Búsqueda vertical. Ai.

Para la tienda de IA promedio, ganarán los modelos dispersos y la memoria barata

Por convincentes que puedan ser los principales modelos lingüísticos a gran escala, el hecho es que solo las empresas más grandes tienen los recursos para implementarlos y capacitarlos a una escala significativa.

Para las empresas ansiosas por aprovechar la IA para obtener una ventaja competitiva, una alternativa más barata y reducida puede ser una mejor opción, especialmente si se puede adaptar a industrias o dominios particulares.

Ahí es donde un conjunto emergente de nuevas empresas de IA que esperan hacerse un hueco: mediante la construcción de modelos dispersos y personalizados que, tal vez no tan poderosos como GPT-3, son lo suficientemente buenos para casos de uso empresarial y se ejecutan en hardware que abandona la costosa memoria de alto ancho de banda (HBM) por DDR de productos básicos.

La startup alemana de inteligencia artificial Aleph Alpha es uno de esos ejemplos. Fundada en 2019, la empresa con sede en Heidelberg, Alemania Luminoso El modelo de lenguaje natural cuenta con muchas de las mismas funciones para captar titulares que GPT-3 de OpenAI: redacción, clasificación, resumen y traducción, por nombrar algunas.

La puesta en marcha del modelo se ha asociado con Graphcore para explorar y desarrollar modelos de lenguaje disperso en los británicos. hardware del fabricante de chips.

"Las IPU de Graphcore presentan una oportunidad para evaluar los enfoques tecnológicos avanzados, como la escasez condicional", dijo el CEO de Aleph Alpha, Jonas Andrulius, en un comunicado. ambiental. "Estas arquitecturas, sin duda, desempeñarán un papel en la investigación futura de Aleph Alpha".

La gran apuesta de Graphcore por la escasez

Los modelos condicionalmente dispersos, a veces llamados mezcla de expertos o modelos enrutados, solo procesan datos contra los parámetros aplicables, algo que puede reducir significativamente los recursos informáticos necesarios para ejecutarlos.

Por ejemplo, si un modelo de idioma se entrenó en todos los idiomas en Internet y luego se le hace una pregunta en ruso, no tendría sentido ejecutar esos datos en todo el modelo, solo los parámetros relacionados con el idioma ruso. explicó el CTO de Graphcore, Simon Knowles, en una entrevista con El registro.

“Es completamente obvio. Así es como funciona tu cerebro, y también es cómo debería funcionar una IA”, dijo. "He dicho esto muchas veces, pero si una IA puede hacer muchas cosas, no necesita acceder a todo su conocimiento para hacer una sola".

Knowles, cuya compañía construye aceleradores hechos a la medida para este tipo de modelos, no sorprende que crea que son el futuro de la IA. “Me sorprendería si, para el próximo año, alguien está construyendo modelos de lenguaje denso”, agregó.

HBM-2 caro? Caché en DDR en su lugar

Los modelos de lenguaje disperso no están exentos de desafíos. Uno de los más apremiantes, según Knowles, tiene que ver con la memoria. El HBM que se utiliza en las GPU de gama alta para lograr el ancho de banda y las capacidades necesarios que requieren estos modelos es costoso y está conectado a un acelerador aún más costoso.

Esto no es un problema para los modelos de lenguaje denso en los que es posible que necesite todo ese cómputo y memoria, pero plantea un problema para los modelos dispersos, que favorecen la memoria sobre el cómputo, explicó.

La tecnología de interconexión, como NVLink de Nvidia, se puede usar para agrupar la memoria en varias GPU, pero si el modelo no requiere todo ese cálculo, las GPU podrían quedarse inactivas. “Es una forma muy costosa de comprar memoria”, dijo Knowles.

Los aceleradores de Graphcore intentan eludir este desafío tomando prestada una técnica tan antigua como la computación misma: el almacenamiento en caché. Cada IPU cuenta con una memoria caché SRAM relativamente grande (1 GB) para satisfacer los requisitos de ancho de banda de estos modelos, mientras que la capacidad bruta se logra utilizando grandes grupos de memoria DDR4 económica.

“Mientras más SRAM tienes, menos ancho de banda de DRAM necesitas, y esto es lo que nos permite no usar HBM”, dijo Knowles.

Al desacoplar la memoria del acelerador, es mucho menos costoso (el costo de unos pocos módulos DDR básicos) para que las empresas admitan modelos de IA más grandes.

Además de admitir una memoria más barata, Knowles afirma que las IPU de la compañía también tienen una ventaja arquitectónica sobre las GPU, al menos cuando se trata de modelos dispersos.

En lugar de ejecutarse en una pequeña cantidad de multiplicadores de matriz grande, como los que se encuentran en una unidad de procesamiento de tensor, los chips de Graphcore cuentan con una gran cantidad de unidades matemáticas de matriz más pequeñas que pueden abordar la memoria de forma independiente.

Esto proporciona una mayor granularidad para los modelos dispersos, en los que "necesita la libertad de obtener subconjuntos relevantes, y cuanto más pequeña sea la unidad que está obligado a obtener, más libertad tendrá", explicó.

El veredicto está todavía fuera

En conjunto, Knowles argumenta que este enfoque permite que sus IPU entrenen grandes modelos de IA/ML con cientos de miles de millones o incluso billones de parámetros, a un costo sustancialmente menor en comparación con las GPU.

Sin embargo, el mercado de la IA empresarial aún está en pañales y Graphcore enfrenta una dura competencia en este espacio por parte de rivales más grandes y establecidos.

Por lo tanto, si bien es poco probable que el desarrollo de modelos de lenguaje ultraescasos y reducidos para IA disminuya en el corto plazo, queda por ver si serán las IPU de Graphcore o el acelerador de otra persona las que terminen impulsando las cargas de trabajo de IA empresarial. ®

Sello de tiempo:

Mas de El registro