Pour le magasin d'IA moyen, les modèles clairsemés et la mémoire bon marché gagneront PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Pour le magasin d'IA moyen, les modèles clairsemés et la mémoire bon marché gagneront

Aussi convaincants que puissent être les principaux modèles linguistiques à grande échelle, il n’en demeure pas moins que seules les plus grandes entreprises disposent des ressources nécessaires pour les déployer et les former à une échelle significative.

Pour les entreprises désireuses d’exploiter l’IA pour obtenir un avantage concurrentiel, une alternative moins chère et épurée peut être plus adaptée, surtout si elle peut être adaptée à des secteurs ou des domaines particuliers.

C’est là qu’un groupe émergent de startups d’IA espèrent se tailler une niche : en créant des modèles clairsemés et sur mesure qui, peut-être pas aussi puissants que GPT-3, sont suffisamment performants pour les cas d'utilisation en entreprise et fonctionnent sur du matériel qui abandonne la mémoire à large bande passante (HBM) coûteuse pour la DDR de base.

La startup allemande d’IA Aleph Alpha en est un exemple. Fondée en 2019, la société basée à Heidelberg, en Allemagne Lumineux Le modèle en langage naturel possède bon nombre des mêmes fonctionnalités qui font la une des journaux que le GPT-3 d'OpenAI : rédaction, classification, résumé et traduction, pour n'en nommer que quelques-unes.

La startup de modélisation s'est associée à Graphcore pour explorer et développer des modèles de langage clairsemés sur le marché britannique. matériel du fabricant de puces.

"Les IPU de Graphcore offrent l'opportunité d'évaluer les approches technologiques avancées telles que la parcimonie conditionnelle", a déclaré Jonas Andrulius, PDG d'Aleph Alpha, dans un communiqué. déclaration. « Ces architectures joueront sans aucun doute un rôle dans les futures recherches d’Aleph Alpha. »

Le grand pari de Graphcore sur la parcimonie

Les modèles conditionnellement clairsemés – parfois appelés mélange d’experts ou modèles routés – traitent uniquement les données en fonction des paramètres applicables, ce qui peut réduire considérablement les ressources de calcul nécessaires à leur exécution.

Par exemple, si un modèle linguistique a été formé dans toutes les langues sur Internet, puis qu'une question lui est posée en russe, cela n'aurait aucun sens d'exécuter ces données sur l'ensemble du modèle, uniquement sur les paramètres liés à la langue russe. a expliqué Simon Knowles, CTO de Graphcore, dans une interview avec Le registre.

« C’est complètement évident. C’est ainsi que fonctionne votre cerveau, et c’est aussi ainsi que devrait fonctionner une IA », a-t-il déclaré. « Je l’ai dit à plusieurs reprises, mais si une IA peut faire beaucoup de choses, elle n’a pas besoin d’accéder à toutes ses connaissances pour faire une seule chose. »

Knowles, dont l’entreprise construit des accélérateurs adaptés à ce type de modèles, pense sans surprise qu’ils représentent l’avenir de l’IA. « Je serais surpris si, d’ici l’année prochaine, quelqu’un construisait des modèles en langage dense », a-t-il ajouté.

HBM-2 cher ? Mettez plutôt en cache sur DDR

Les modèles de langage clairsemés ne sont pas sans défis. L’un des problèmes les plus urgents, selon Knowles, concerne la mémoire. Le HBM utilisé dans les GPU haut de gamme pour obtenir la bande passante et les capacités nécessaires requises par ces modèles est coûteux et associé à un accélérateur encore plus coûteux.

Ce n’est pas un problème pour les modèles à langage dense où vous pourriez avoir besoin de tout ce calcul et de cette mémoire, mais cela pose un problème pour les modèles clairsemés, qui privilégient la mémoire par rapport au calcul, a-t-il expliqué.

La technologie d’interconnexion, comme NVLink de Nvidia, peut être utilisée pour regrouper la mémoire sur plusieurs GPU, mais si le modèle ne nécessite pas tout ce calcul, les GPU pourraient rester inactifs. "C'est un moyen très coûteux d'acheter de la mémoire", a déclaré Knowles.

Les accélérateurs de Graphcore tentent de contourner ce défi en empruntant une technique aussi ancienne que l’informatique elle-même : la mise en cache. Chaque IPU dispose d'un cache SRAM relativement important – 1 Go – pour satisfaire les besoins en bande passante de ces modèles, tandis que la capacité brute est obtenue en utilisant de grands pools de mémoire DDR4 bon marché.

"Plus vous avez de SRAM, moins vous avez besoin de bande passante DRAM, et c'est ce qui nous permet de ne pas utiliser HBM", a déclaré Knowles.

En dissociant la mémoire de l’accélérateur, il est beaucoup moins coûteux pour les entreprises – le coût de quelques modules DDR courants – de prendre en charge des modèles d’IA plus grands.

En plus de prendre en charge une mémoire moins chère, Knowles affirme que les IPU de la société présentent également un avantage architectural par rapport aux GPU, du moins en ce qui concerne les modèles clairsemés.

Au lieu de fonctionner sur un petit nombre de grands multiplicateurs matriciels – comme c’est le cas dans une unité de traitement tensoriel – les puces de Graphcore comportent un grand nombre d’unités mathématiques matricielles plus petites qui peuvent adresser la mémoire de manière indépendante.

Cela offre une plus grande granularité pour les modèles clairsemés, où « vous avez besoin de liberté pour récupérer les sous-ensembles pertinents, et plus l'unité que vous êtes obligé de récupérer est petite, plus vous avez de liberté », a-t-il expliqué.

Le verdict est toujours tombé

Dans l’ensemble, Knowles affirme que cette approche permet à ses IPU de former de grands modèles d’IA/ML avec des centaines de milliards, voire des milliards de paramètres, à un coût nettement inférieur à celui des GPU.

Cependant, le marché de l’IA d’entreprise en est encore à ses balbutiements et Graphcore est confronté dans ce domaine à une forte concurrence de la part de concurrents plus grands et mieux établis.

Ainsi, même s’il est peu probable que le développement de modèles linguistiques ultra clairsemés et à faible débit pour l’IA ralentisse de si tôt, il reste à voir si ce seront les IPU de Graphcore ou l’accélérateur de quelqu’un d’autre qui finiront par alimenter les charges de travail d’IA des entreprises. ®

Horodatage:

Plus de Le registre