Optimisez le rapport prix-performance de l'inférence LLM sur les GPU NVIDIA à l'aide de l'intégration d'Amazon SageMaker avec les microservices NVIDIA NIM

Republié par Platon

Suiveurs: 0

NVIDIA NIM m microservices maintenant intégrer avec Amazon Sage Maker, vous permettant de déployer des grands modèles de langage (LLM) de pointe et d'optimiser les performances et les coûts des modèles. Vous pouvez déployer des LLM de pointe en quelques minutes au lieu de plusieurs jours en utilisant des technologies telles que NVIDIA TensorRT, NVIDIA TensorRT-LLMet la Serveur d'inférence NVIDIA Triton sur les instances accélérées NVIDIA hébergées par SageMaker.

NIM, qui fait partie du NVIDIA IA Entreprise plateforme logicielle répertoriée sur Marché AWS, est un ensemble de microservices d'inférence qui apportent la puissance des LLM de pointe à vos applications, en fournissant des capacités de traitement du langage naturel (NLP) et de compréhension, que vous développiez des chatbots, résumiez des documents ou mettiez en œuvre d'autres outils NLP. applications alimentées. Vous pouvez utiliser des conteneurs NVIDIA prédéfinis pour héberger des LLM populaires optimisés pour des GPU NVIDIA spécifiques pour un déploiement rapide ou utiliser les outils NIM pour créer vos propres conteneurs.

Dans cet article, nous fournissons une introduction de haut niveau à NIM et montrons comment vous pouvez l'utiliser avec SageMaker.

Une introduction à NVIDIA NIM

NIM fournit des moteurs optimisés et pré-générés pour une variété de modèles d'inférence populaires. Ces microservices prennent en charge une variété de LLM, tels que Llama 2 (7B, 13B et 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona et Code Llama 70B, prêts à l'emploi en utilisant des pré- moteurs NVIDIA TensorRT conçus sur mesure pour des GPU NVIDIA spécifiques pour des performances et une utilisation maximales. Ces modèles sont organisés avec les hyperparamètres optimaux pour les performances d'hébergement de modèles afin de déployer facilement des applications.

Si votre modèle ne fait pas partie de l'ensemble des modèles sélectionnés par NVIDIA, NIM propose des utilitaires essentiels tels que le Model Repo Generator, qui facilite la création d'un moteur accéléré par TensorRT-LLM et d'un répertoire de modèles au format NIM via un simple fichier YAML. De plus, un backend communautaire intégré de vLLM prend en charge des modèles de pointe et des fonctionnalités émergentes qui n'ont peut-être pas été intégrés de manière transparente dans la pile optimisée TensorRT-LLM.

En plus de créer des LLM optimisés pour l'inférence, NIM fournit des technologies d'hébergement avancées telles que des techniques de planification optimisées telles que le traitement par lots en vol, qui peuvent diviser le processus global de génération de texte pour un LLM en plusieurs itérations sur le modèle. Avec le traitement par lots en cours, plutôt que d'attendre que l'ensemble du lot soit terminé avant de passer à l'ensemble de requêtes suivant, le moteur d'exécution NIM supprime immédiatement les séquences terminées du lot. Le moteur d'exécution commence alors à exécuter de nouvelles requêtes pendant que d'autres requêtes sont encore en cours, exploitant ainsi au mieux vos instances de calcul et vos GPU.

Déploiement de NIM sur SageMaker

NIM s'intègre à SageMaker, vous permettant d'héberger vos LLM avec une optimisation des performances et des coûts tout en bénéficiant des capacités de SageMaker. Lorsque vous utilisez NIM sur SageMaker, vous pouvez utiliser des fonctionnalités telles que l'augmentation du nombre d'instances pour héberger votre modèle, effectuer des déploiements bleu/vert et évaluer les charges de travail à l'aide de tests fantômes, le tout avec une observabilité et une surveillance de premier ordre avec Amazon Cloud Watch.

Conclusion

L'utilisation de NIM pour déployer des LLM optimisés peut être une excellente option en termes de performances et de coût. Cela contribue également à faciliter le déploiement des LLM. À l’avenir, NIM permettra également des méthodes de personnalisation PEFT (Parameter-Efficient Fine-Tuning) telles que LoRA et P-tuning. NIM prévoit également de prendre en charge LLM en prenant en charge les backends Triton Inference Server, TensorRT-LLM et vLLM.

Nous vous encourageons à en savoir plus sur les microservices NVIDIA et sur la façon de déployer vos LLM à l'aide de SageMaker et à tester les avantages qui s'offrent à vous. NIM est disponible sous forme d'offre payante dans le cadre de l'abonnement au logiciel NVIDIA AI Enterprise. disponible sur AWS Marketplace.

Dans un avenir proche, nous publierons un guide détaillé pour NIM sur SageMaker.

À propos des auteurs

Optimisez le rapport prix/performances de l'inférence LLM sur les GPU NVIDIA à l'aide de l'intégration d'Amazon SageMaker avec les microservices NVIDIA NIM | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï. James Park est architecte de solutions chez Amazon Web Services. Il travaille avec Amazon.com pour concevoir, construire et déployer des solutions technologiques sur AWS, et s'intéresse particulièrement à l'IA et à l'apprentissage automatique. Pendant son temps libre, il aime rechercher de nouvelles cultures, de nouvelles expériences et se tenir au courant des dernières tendances technologiques. Vous pouvez le trouver sur LinkedIn.

Saurabh Trikandé est chef de produit senior pour Amazon SageMaker Inference. Il est passionné par le travail avec les clients et est motivé par l'objectif de démocratiser l'apprentissage automatique. Il se concentre sur les principaux défis liés au déploiement d'applications ML complexes, de modèles ML multi-locataires, d'optimisations de coûts et de rendre le déploiement de modèles d'apprentissage en profondeur plus accessible. Dans ses temps libres, Saurabh aime faire de la randonnée, découvrir des technologies innovantes, suivre TechCrunch et passer du temps avec sa famille.

Optimisez le rapport prix/performances de l'inférence LLM sur les GPU NVIDIA à l'aide de l'intégration d'Amazon SageMaker avec les microservices NVIDIA NIM | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï. Lan Qing est ingénieur en développement logiciel chez AWS. Il a travaillé sur plusieurs produits stimulants chez Amazon, notamment des solutions d'inférence ML hautes performances et un système de journalisation hautes performances. L'équipe de Qing a lancé avec succès le premier modèle de milliards de paramètres dans Amazon Advertising avec une très faible latence requise. Qing possède une connaissance approfondie de l'optimisation de l'infrastructure et de l'accélération du Deep Learning.

Nikhil Kulkarni est un développeur de logiciels avec AWS Machine Learning, qui se concentre sur l'amélioration des performances des charges de travail d'apprentissage automatique sur le cloud, et est co-créateur d'AWS Deep Learning Containers pour la formation et l'inférence. Il est passionné par les systèmes d'apprentissage profond distribués. En dehors du travail, il aime lire des livres, jouer de la guitare et faire des pizzas.

Optimisez le rapport prix/performances de l'inférence LLM sur les GPU NVIDIA à l'aide de l'intégration d'Amazon SageMaker avec les microservices NVIDIA NIM | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï. Harish Tummalacherla est ingénieur logiciel au sein de l'équipe Deep Learning Performance chez SageMaker. Il travaille sur l'ingénierie des performances pour servir efficacement de grands modèles de langage sur SageMaker. Dans ses temps libres, il aime courir, faire du vélo et du ski-alpinisme.

Eliuth Triana Isaza est responsable des relations avec les développeurs chez NVIDIA, permettant aux experts techniques AI MLOps, DevOps, scientifiques et AWS d'Amazon de maîtriser la pile informatique NVIDIA pour accélérer et optimiser les modèles Generative AI Foundation allant de la conservation des données, de la formation GPU, de l'inférence de modèles et du déploiement de production sur les instances GPU AWS. . De plus, Eliuth est un passionné de VTT, de ski, de tennis et de poker.

Jia Hong Liu est architecte de solutions au sein de l'équipe Cloud Service Provider de NVIDIA. Il aide les clients à adopter des solutions d'apprentissage automatique et d'IA qui tirent parti de l'informatique accélérée de NVIDIA pour relever leurs défis de formation et d'inférence. Dans ses temps libres, il aime l'origami, les projets de bricolage et jouer au basket.

Kshitiz Gupta est architecte de solutions chez NVIDIA. Il aime éduquer les clients du cloud sur les technologies GPU AI que NVIDIA a à offrir et les aider à accélérer leurs applications d'apprentissage automatique et d'apprentissage en profondeur. En dehors du travail, il aime courir, faire de la randonnée et observer la faune.

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
La source: https://aws.amazon.com/blogs/machine-learning/optimize-price-performance-of-llm-inference-on-nvidia-gpus-using-the-amazon-sagemaker-integration-with-nvidia-nim-microservices/

Horodatage: 18 mars 2024

Horodatage: Le 15 juin 2022

Republié par Platon

Franchissez les barrières linguistiques avec Amazon Transcribe, Amazon Translate et Amazon Polly

Réinventer l'expérience des données : utiliser l'IA générative et une architecture de données moderne pour débloquer des informations | Services Web Amazon

Gestion des équipes et des utilisateurs avec Amazon SageMaker et AWS SSO

Préparez les données plus rapidement avec les extraits de code PySpark et Altair dans Amazon SageMaker Data Wrangler

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte