Pourquoi Copilot ne fonctionnera en quelque sorte que localement sur les PC IA pour le moment

Pourquoi Copilot ne fonctionnera en quelque sorte que localement sur les PC IA pour le moment

Pourquoi Copilot ne fonctionnera en quelque sorte que localement sur les PC IA pour le moment PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Commentaires La définition de Microsoft de ce qui constitue et ne constitue pas un PC IA prend forme. Avec la dernière version de Windows, une clé Copilot dédiée et un NPU capable d'effectuer au moins 40 XNUMX milliards d'opérations par seconde, vous pourrez bientôt exécuter Microsoft Copilot localement, sur votre machine.

Redmond's exigences pour son modèle d'IA sur Windows ont été officialisés par Intel – l'un des plus grands promoteurs de la catégorie AI PC – lors de l'édition 2017 du géant des puces. Sommet de l'IA à Taipei cette semaine.

L’exécution locale d’un grand modèle de langage (LLM) présente certains avantages intrinsèques. Les utilisateurs finaux devraient bénéficier d'une latence plus faible et donc de temps de réponse améliorés, puisque les requêtes n'ont pas besoin d'être envoyées vers et depuis un centre de données distant, ainsi que d'une plus grande confidentialité, en théorie. Pour Microsoft, quant à lui, le transfert d'une plus grande partie de la charge de travail de l'IA sur les appareils des clients libère ses propres ressources pour d'autres tâches, comme aider à former le prochain modèle OpenAI ou le proposer en tant qu'API cloud.

Microsoft espère pouvoir exécuter son Copilot LLM entièrement sur les NPU, ou unités de traitement neuronal, des PC Windows AI des utilisateurs, à en juger par commentaires apparemment faite par les dirigeants d'Intel lors du sommet. Nous pouvons imaginer le goliath x86 pousser cette ligne pour convaincre tout le monde que son silicium est suffisamment puissant pour faire fonctionner les appareils de Redmond à la maison ou au bureau.

Bien que l'idée de détacher Copilot de l'ombilical d'Azure puisse séduire certains, tout le monde ne semble pas être fan de Clippy incarné et au moins une certaine quantité de traitement sera presque certainement effectuée dans le cloud dans un avenir prévisible.

Les dirigeants d’Intel l’ont dit : un matériel plus rapide permettra à davantage d’« éléments » de Copilot de s’exécuter localement. En d’autres termes, vous dépendrez toujours d’une connexion réseau pour au moins certaines fonctionnalités, et le reste, le PC AI se chargera lui-même.

La raison ne devrait pas surprendre autant. Ces PC IA disposent de ressources limitées et le modèle qui alimente Copilot – le GPT-4 d'OpenAI – est énorme. Nous ne savons pas exactement quelle est la taille de la version utilisée par Microsoft, mais estimations place le modèle GPT-4 complet à environ 1.7 billion de paramètres. Même avec la quantification ou l'exécution du modèle sur INT4, vous auriez besoin d'environ 900 Go de mémoire.

Comment nous pensons que ça va marcher

GPT-4 est un modèle dit de mélange d'experts. En un mot, cela signifie qu'il est en fait assemblé à partir d'un certain nombre de modèles pré-entraînés plus petits et spécialisés vers lesquels les requêtes sont acheminées. En disposant de plusieurs modèles optimisés pour la génération de texte, le résumé, la création de code, etc., les performances d'inférence peuvent être améliorées puisque l'ensemble du modèle n'a pas besoin d'être exécuté pour accomplir une tâche.

L'utilisation par Intel du terme « éléments » pour décrire l'exécution locale des fonctionnalités de Copilot suggère que certains de ces experts pourraient être remplacés par des modèles plus petits et plus agiles, capables de fonctionner sur du matériel portable. Comme nous l'avons exploré précédemment, le matériel personnel existant est plus que capable d'exécuter des modèles d'IA plus petits comme Mistral ou Meta.

Par coïncidence, Microsoft a récemment pompé 15 millions d'euros (16.3 millions de dollars) dans le constructeur français de mini-modèles Mistral AI, avec l'intention de mettre son travail à la disposition des clients Azure. Avec seulement 7 milliards de paramètres, le Mistral-7B est certainement suffisamment petit pour s'insérer confortablement dans la mémoire d'un PC IA, nécessitant environ 4 Go de mémoire lors de l'utilisation d'une quantification 4 bits.

Et c'est pour un modèle à usage général. Il est concevable que vous puissiez vous en sortir avec des modèles encore plus petits, optimisés pour la génération de code source, qui ne sont chargés en mémoire que lorsque l'application, par exemple Visual Studio Code, est lancée et qu'un abonnement Github Copilot actif est détecté. N'oubliez pas que Copilot est plus qu'un simple chatbot ; il s'agit d'une suite de fonctionnalités d'IA intégrées au système d'exploitation et à la bibliothèque de logiciels de Microsoft.

Redmond n'a pas précisé la quantité de mémoire requise par ses spécifications AI PC, mais, d'après notre expérience avec LLM locaux, 16 Go de DDR5 rapide devraient suffire.

Quelle que soit la voie que Microsoft choisit, la combinaison de modèles locaux et distants pourrait conduire à un comportement intéressant. Nous ne savons pas encore dans quelles circonstances ces modèles locaux prendront le relais, mais Pavan Davuluri, responsable des appareils Windows chez Microsoft, a suggéré que le mélange pourrait être dynamique.

"Nous voulons pouvoir transférer la charge entre le cloud et le client pour offrir le meilleur de l'informatique dans ces deux mondes", a-t-il déclaré sur scène lors de l'Advancing AI d'AMD. un événement en décembre. « Il rassemble les avantages du calcul local, des éléments tels qu'une confidentialité, une réactivité et une latence améliorées avec la puissance du cloud, des modèles hautes performances, de grands ensembles de données, l'inférence multiplateforme. »

En tant que tel, nous pouvons voir quelques scénarios dans lesquels Microsoft peut utiliser l’IA locale. La première consiste à décharger le travail des serveurs Microsoft et à améliorer les temps de réponse. À mesure que le matériel s'améliore, davantage de fonctionnalités de Copilot pourraient être transférées hors du cloud et sur les appareils des utilisateurs.

La seconde serait de l'avoir comme solution de repli en cas de perturbations du réseau. Vous pouvez imaginer que votre PC IA devienne plus stupide plutôt que de s'arrêter complètement lorsqu'il est coupé du net.

Contraintes matérielles

Avant d'être trop enthousiasmé par les PC à IA à cerveau divisé qui rédigent des manifestes hors réseau, il n'existe actuellement aucune machine répondant aux exigences matérielles, et ce n'est pas faute de clé Copilot.

Le problème est que les NPU sont encore relativement nouveaux dans le silicium x86 et que ce qui existe n’est pas assez puissant. AMD a été parmi les premiers à ajouter un NPU à ses processeurs mobiles début 2023 avec le lancement de son Ryzen 7040 puces de série.

Cette programmation a reçu un coup d'horloge en décembre lors de l'événement Advancing AI de House of Zen. AMD a également introduit ses NPU sur le bureau avec le lancement de son APU 8000 XNUMX G au CES en janvier de cette année.

Intel a déployé ses blocs accélérateurs d'IA dédiés avec le lancement de son Lac des Météores pièces de microprocesseur fin décembre. Ces puces Core Ultra sont dotées d'un NPU dérivé de l'unité de traitement de vision Movidius (VPU) d'Intel, qu'Intel démo exécuter diverses charges de travail lors de son événement Innovation l’année dernière.

Malheureusement, les puces ne sont capables d'effectuer que 10 à 16 4 milliards d'opérations (généralement INT40) par seconde, bien en dessous de la spécification XNUMX TOPS de Microsoft. Cela signifie que la plupart des soi-disant PC IA sur le marché ne répondront pas aux exigences, non sans s'appuyer sur le GPU pour combler la différence.

Intel et AMD disposent tous deux de puces plus performantes, respectivement équipées de silicium Lunar Lake et Strix Point. Cependant, à court terme, il semble que Qualcomm va accaparer le marché.

Ordinateurs portables équipés du Snapdragon X Elite de Qualcomm processeurs mobiles devraient sortir vers la mi-2024 et comporteront un NPU capable de 45 TOPS. Combiné à un GPU Adreno capable de 4.6 téraFLOPS de performances FP32, Qualcomm affirme que la pièce sera capable d'exécuter des modèles d'IA jusqu'à 13 milliards de paramètres entièrement sur l'appareil et de générer 30 jetons par seconde lors de l'exécution de LLM plus petits de 7 milliards de paramètres.

À mesure que des PC dotés de NPU plus performants et de plus grandes réserves de mémoire arrivent et que les petits modèles deviennent plus performants, nous pensons que Microsoft commencera à transférer davantage de fonctionnalités vers les appareils locaux – une fois que le matériel pourra les gérer. ®

Horodatage:

Plus de Le registre