Réduisez la consommation d'énergie de vos charges de travail de machine learning jusqu'à 90 % grâce aux accélérateurs spécialement conçus par AWS | Services Web Amazon

Réduisez la consommation d'énergie de vos charges de travail de machine learning jusqu'à 90 % grâce aux accélérateurs spécialement conçus par AWS | Services Web Amazon

Les ingénieurs en apprentissage automatique (ML) se sont traditionnellement concentrés sur la recherche d'un équilibre entre la formation des modèles et le coût de déploiement par rapport aux performances. De plus en plus, la durabilité (efficacité énergétique) devient un objectif supplémentaire pour les clients. Ceci est important car la formation de modèles ML, puis l'utilisation des modèles formés pour faire des prédictions (inférence) peuvent être des tâches très énergivores. De plus, de plus en plus d'applications autour de nous sont imprégnées de ML, et de nouvelles applications alimentées par ML sont conçues chaque jour. Un exemple populaire est le ChatGPT d'OpenAI, qui est alimenté par un modèle de grand langage (LMM) à la pointe de la technologie. Pour référence, GPT-3 , un LLM de génération précédente a 175 milliards de paramètres et nécessite des mois de formation non-stop sur un cluster de milliers de processeurs accélérés. Le Étude Carbontracker estime que la formation GPT-3 à partir de zéro peut émettre jusqu'à 85 tonnes métriques d'équivalent CO2, en utilisant des grappes d'accélérateurs matériels spécialisés.

AWS permet aux praticiens du ML de réduire l'impact environnemental de leurs charges de travail de plusieurs manières. Une façon consiste à fournir des conseils normatifs sur l'architecture de vos charges de travail IA/ML pour la durabilité. Une autre solution consiste à proposer des services de formation et d'orchestration ML gérés, tels que Amazon SageMakerStudio, qui supprime et fait évoluer automatiquement les ressources ML lorsqu'elles ne sont pas utilisées, et fournit une multitude d'outils prêts à l'emploi qui permettent d'économiser des coûts et des ressources. Un autre catalyseur majeur est le développement de accélérateurs écoénergétiques, hautes performances et spécialement conçus pour la formation et le déploiement de modèles de ML.

Cet article se concentre sur le matériel en tant que levier pour un ML durable. Nous présentons les résultats d'expériences récentes sur les performances et la consommation d'énergie menées par AWS qui quantifient les avantages en matière d'efficacité énergétique auxquels vous pouvez vous attendre lors de la migration de vos charges de travail d'apprentissage en profondeur à partir d'autres applications accélérées optimisées pour l'inférence et la formation. Cloud de calcul élastique Amazon (Amazon EC2) instances à Inférence AWS ainsi que Formation AWS. Inferentia et Trainium sont Le récent ajout d'AWS à son portefeuille d'accélérateurs spécialement conçus spécialement conçu par Amazon Laboratoires Annapurna pour l'inférence ML et les charges de travail de formation.

AWS Inferentia et AWS Trainium pour un ML durable

Pour vous fournir des chiffres réalistes sur le potentiel d'économies d'énergie d'AWS Inferentia et d'AWS Trainium dans une application réelle, nous avons mené plusieurs expériences de référence en matière de consommation d'énergie. Nous avons conçu ces référentiels en gardant à l'esprit les critères clés suivants :

  • Tout d'abord, nous voulions nous assurer que nous capturions la consommation d'énergie directe attribuable à la charge de travail de test, y compris non seulement l'accélérateur ML, mais également le calcul, la mémoire et le réseau. Par conséquent, dans notre configuration de test, nous avons mesuré la consommation électrique à ce niveau.
  • Deuxièmement, lors de l'exécution des charges de travail d'entraînement et d'inférence, nous nous sommes assurés que toutes les instances fonctionnaient à leurs limites matérielles physiques respectives et n'avons pris des mesures qu'une fois cette limite atteinte pour garantir la comparabilité.
  • Enfin, nous voulions être certains que les économies d'énergie signalées dans cet article pourraient être réalisées dans une application pratique et réelle. Par conséquent, nous avons utilisé des cas d'utilisation courants de ML inspirés par les clients pour l'analyse comparative et les tests.

Les résultats sont rapportés dans les sections suivantes.

Expérience d'inférence : Compréhension de documents en temps réel avec LayoutLM

L'inférence, par opposition à la formation, est une charge de travail continue et illimitée qui n'a pas de point d'achèvement défini. Il représente donc une grande partie de la consommation de ressources à vie d'une charge de travail ML. Obtenir une bonne inférence est essentiel pour atteindre des performances élevées, un faible coût et une durabilité (meilleure efficacité énergétique) tout au long du cycle de vie complet du ML. Avec les tâches d'inférence, les clients souhaitent généralement atteindre un certain taux d'inférence pour répondre à la demande d'ingestion.

L'expérience présentée dans cet article s'inspire d'un cas d'utilisation de compréhension de documents en temps réel, qui est une application courante dans des secteurs comme la banque ou l'assurance (par exemple, pour le traitement des réclamations ou des formulaires de demande). Plus précisément, nous sélectionnons Mise en pageLM, un modèle de transformateur pré-entraîné utilisé pour le traitement d'images de documents et l'extraction d'informations. Nous fixons un SLA cible de 1,000,000 XNUMX XNUMX d'inférences par heure, une valeur souvent considérée comme temps réel, puis spécifions deux configurations matérielles capables de répondre à cette exigence : une utilisant Instances Amazon EC2 Inf1, avec AWS Inferentia, et une utilisant des instances EC2 accélérées comparables optimisées pour les tâches d'inférence. Tout au long de l'expérience, nous suivons plusieurs indicateurs pour mesurer les performances d'inférence, le coût et l'efficacité énergétique des deux configurations matérielles. Les résultats sont présentés dans la figure suivante.

Réduisez la consommation d'énergie de vos charges de travail d'apprentissage automatique jusqu'à 90 % grâce aux accélérateurs AWS spécialement conçus | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Résultats de performance, de coût et d'efficacité énergétique des repères d'inférence

AWS Inferentia offre un débit d'inférence 6.3 fois supérieur. Par conséquent, avec Inferentia, vous pouvez exécuter la même charge de travail de compréhension de documents en temps réel basée sur LayoutLM sur moins d'instances (6 instances AWS Inferentia contre 33 autres instances EC2 accélérées optimisées pour l'inférence, ce qui équivaut à une réduction de 82 %), utilisez moins moins d'un dixième (-92 %) de l'énergie nécessaire au processus, tout en obtenant un coût par inférence nettement inférieur (2 USD contre 25 USD par million d'inférences, ce qui équivaut à une réduction des coûts de 91 %).

Expérience de formation : Formation BERT Large à partir de zéro

La formation, par opposition à l'inférence, est un processus fini qui se répète beaucoup moins fréquemment. Les ingénieurs ML sont généralement intéressés par des performances de cluster élevées pour réduire le temps de formation tout en maîtrisant les coûts. L'efficacité énergétique est une préoccupation secondaire (mais croissante). Avec AWS Trainium, il n'y a pas de décision de compromis : les ingénieurs ML peuvent bénéficier de performances de formation élevées tout en optimisant les coûts et en réduisant l'impact environnemental.

Pour illustrer cela, nous sélectionnons BERT Grand, un modèle de langage populaire utilisé pour les cas d'utilisation de compréhension du langage naturel tels que la réponse aux questions basée sur le chatbot et la prédiction des réponses conversationnelles. La formation d'un grand modèle BERT performant à partir de zéro nécessite généralement le traitement de 450 millions de séquences. Nous comparons deux configurations de cluster, chacune avec une taille fixe de 16 instances et capables de former BERT Large à partir de zéro (450 millions de séquences traitées) en moins d'une journée. Le premier utilise des instances EC2 accélérées traditionnelles. La deuxième configuration utilise Instances Amazon EC2 Trn1 avec AWS Trainium. Là encore, nous comparons les deux configurations en termes de performances de formation, de coût et d'impact environnemental (efficacité énergétique). Les résultats sont présentés dans la figure suivante.

Réduisez la consommation d'énergie de vos charges de travail d'apprentissage automatique jusqu'à 90 % grâce aux accélérateurs AWS spécialement conçus | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Résultats de performance, de coût et d'efficacité énergétique des benchmarks de formation

Dans les expériences, les instances basées sur AWS Trainium ont surpassé les instances EC2 accélérées optimisées pour la formation comparables par un facteur de 1.7 en termes de séquences traitées par heure, réduisant le temps total de formation de 43 % (2.3 h contre 4 h sur des instances EC2 accélérées comparables) . Par conséquent, lors de l'utilisation d'un cluster d'instances basé sur Trainium, la consommation d'énergie totale pour la formation BERT Large à partir de zéro est d'environ 29 % inférieure à celle d'un cluster de même taille d'instances EC2 accélérées comparables. Encore une fois, ces avantages en termes de performances et d'efficacité énergétique s'accompagnent également d'améliorations significatives des coûts : le coût de formation pour la charge de travail BERT ML est d'environ 62 % inférieur sur les instances Trainium (787 USD contre 2091 XNUMX USD par cycle de formation complet).

Premiers pas avec les accélérateurs spécialement conçus par AWS pour le ML

Bien que les expériences menées ici utilisent toutes des modèles standard du domaine du traitement du langage naturel (NLP), AWS Inferentia et AWS Trainium excellent avec de nombreuses autres architectures de modèles complexes, y compris les LLM et les plus difficiles. IA générative les architectures que les utilisateurs construisent (telles que GPT-3). Ces accélérateurs fonctionnent particulièrement bien avec des modèles avec plus de 10 milliards de paramètres, ou des modèles de vision par ordinateur comme la diffusion stable (voir Directives d'ajustement de l'architecture du modèle pour plus de détails). En effet, nombre de nos clients utilisent déjà Inferentia et Trainium pour une grande variété de Cas d'utilisation du ML.

Pour exécuter vos charges de travail d'apprentissage en profondeur de bout en bout sur des instances basées sur AWS Inferentia et AWS Trainium, vous pouvez utiliser Neurone AWS. Neuron est un kit de développement logiciel (SDK) de bout en bout qui comprend un compilateur d'apprentissage en profondeur, un environnement d'exécution et des outils intégrés de manière native dans les frameworks ML les plus populaires tels que TensorFlow et PyTorch. Vous pouvez utiliser le SDK Neuron pour transférer facilement vos charges de travail ML d'apprentissage en profondeur TensorFlow ou PyTorch existantes vers Inferentia et Trainium et commencer à créer de nouveaux modèles à l'aide des mêmes frameworks ML bien connus. Pour une configuration plus facile, utilisez l'un de nos Amazon Machine Images (AMI) pour l'apprentissage en profondeur, qui sont fournis avec de nombreux packages et dépendances requis. Encore plus simple : vous pouvez utiliser Amazon SageMaker Studio, qui supporte nativement TensorFlow et PyTorch sur Inferentia et Trainium (voir le aws-samples dépôt GitHub à titre d'exemple).

Une dernière remarque : alors qu'Inferentia et Trainium sont spécialement conçus pour les charges de travail d'apprentissage en profondeur, de nombreux algorithmes de ML moins complexes peuvent bien fonctionner sur des instances basées sur le processeur (par exemple, XGBoost et LightGBM et même certains CNN). Dans ces cas, une migration vers AWSGraviton3 peut réduire considérablement l'impact environnemental de vos charges de travail ML. Les instances basées sur AWS Graviton utilisent jusqu'à 60 % d'énergie en moins pour les mêmes performances que les instances EC2 accélérées comparables.

Conclusion

Il existe une idée fausse courante selon laquelle exécuter des charges de travail ML de manière durable et économe en énergie signifie sacrifier les performances ou les coûts. Avec les accélérateurs spécialement conçus par AWS pour l'apprentissage automatique, les ingénieurs ML n'ont pas à faire ce compromis. Au lieu de cela, ils peuvent exécuter leurs charges de travail d'apprentissage en profondeur sur du matériel d'apprentissage en profondeur hautement spécialisé, tel qu'AWS Inferentia et AWS Trainium, qui surpasse considérablement les types d'instances EC2 accélérées comparables, offrant un coût inférieur, des performances supérieures et une meilleure efficacité énergétique, jusqu'à 90 %, le tout en même temps. Pour commencer à exécuter vos charges de travail ML sur Inferentia et Trainium, consultez le Documentation AWS Neuron ou faites tourner l'un des exemples de cahiers. Vous pouvez également regarder la conférence AWS re:Invent 2022 sur Durabilité et silicium AWS (SUS206), qui couvre de nombreux sujets abordés dans cet article.


À propos des auteurs

Réduisez la consommation d'énergie de vos charges de travail d'apprentissage automatique jusqu'à 90 % grâce aux accélérateurs AWS spécialement conçus | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Karsten Schröer est architecte de solutions chez AWS. Il aide les clients à tirer parti des données et de la technologie pour assurer la durabilité de leur infrastructure informatique et créer des solutions basées sur les données qui permettent des opérations durables dans leurs secteurs verticaux respectifs. Karsten a rejoint AWS après ses études de doctorat en apprentissage automatique appliqué et gestion des opérations. Il est vraiment passionné par les solutions technologiques aux défis sociétaux et aime plonger profondément dans les méthodes et les architectures d'application qui sous-tendent ces solutions.

Réduisez la consommation d'énergie de vos charges de travail d'apprentissage automatique jusqu'à 90 % grâce aux accélérateurs AWS spécialement conçus | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.Kamran Khan est chef de produit technique senior chez AWS Annapurna Labs. Il travaille en étroite collaboration avec les clients AI/ML pour façonner la feuille de route des innovations de silicium conçues spécialement pour AWS et issues des laboratoires Annapurna d'Amazon. Il se concentre plus particulièrement sur les puces d'apprentissage en profondeur accéléré, notamment AWS Trainium et AWS Inferentia. Kamran a 18 ans d'expérience dans l'industrie des semi-conducteurs. Kamran a plus d'une décennie d'expérience dans l'aide aux développeurs pour atteindre leurs objectifs de ML.

Horodatage:

Plus de Apprentissage automatique AWS