Observabilité Open Source pour les nœuds AWS Inferentia au sein des clusters Amazon EKS

Republié par Platon

Suiveurs: 0

Les développements récents en apprentissage automatique (ML) ont conduit à des modèles de plus en plus volumineux, dont certains nécessitent des centaines de milliards de paramètres. Bien qu’ils soient plus puissants, la formation et l’inférence sur ces modèles nécessitent des ressources informatiques importantes. Malgré la disponibilité de bibliothèques de formation distribuées avancées, il est courant que les tâches de formation et d'inférence nécessitent des centaines d'accélérateurs (GPU ou puces ML spécialement conçues telles que Formation AWS ainsi que les Inférence AWS), et donc des dizaines ou des centaines d'instances.

Dans de tels environnements distribués, l'observabilité des instances et des puces ML devient essentielle pour affiner les performances du modèle et optimiser les coûts. Les métriques permettent aux équipes de comprendre le comportement de la charge de travail, d'optimiser l'allocation et l'utilisation des ressources, de diagnostiquer les anomalies et d'augmenter l'efficacité globale de l'infrastructure. Pour les data scientists, l'utilisation et la saturation des puces ML sont également pertinentes pour la planification des capacités.

Cet article vous guide à travers le Modèle d'observabilité Open Source pour AWS Inferentia, qui vous montre comment surveiller les performances des puces ML, utilisées dans un Service Amazon Elastic Kubernetes (Amazon EKS), avec des nœuds de plan de données basés sur Cloud de calcul élastique Amazon (Amazon EC2) instances de type Inf1 ainsi que les Inf2.

Le motif fait partie du Accélérateur d'observabilité AWS CDK, un ensemble de modules avisés pour vous aider à définir l'observabilité des clusters Amazon EKS. L'AWS CDK Observability Accelerator est organisé autour de modèles, qui sont des unités réutilisables pour déployer plusieurs ressources. L'ensemble d'observabilité open source d'instruments de modèles d'observabilité avec Grafana géré par Amazon des tableaux de bord, un Distribution AWS pour OpenTelemetry collecteur pour collecter des métriques, et Service géré Amazon pour Prometheus pour les stocker.

Vue d'ensemble de la solution

Le diagramme suivant illustre l'architecture de la solution.

Observabilité open source pour les nœuds AWS Inferentia au sein des clusters Amazon EKS | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Cette solution déploie un cluster Amazon EKS avec un groupe de nœuds qui inclut des instances Inf1.

Le type AMI du groupe de nœuds est AL2_x86_64_GPU, qui utilise le AMI Amazon Linux accélérée optimisée pour Amazon EKS. En plus de la configuration standard de l'AMI optimisée pour Amazon EKS, l'AMI accélérée inclut le Exécution NeuronX.

Pour accéder aux puces ML depuis Kubernetes, le modèle déploie le Neurone AWS plug-in de périphérique.

Les métriques sont exposées à Amazon Managed Service pour Prometheus par le neuron-monitor DaemonSet, qui déploie un conteneur minimal, avec le Outils neurones installée. Plus précisément, le neuron-monitor DaemonSet exécute le neuron-monitor commande transmise au neuron-monitor-prometheus.py script compagnon (les deux commandes font partie du conteneur) :

neuron-monitor | neuron-monitor-prometheus.py --port <port>

La commande utilise les composants suivants :

neuron-monitor collecte des métriques et des statistiques à partir des applications Neuron exécutées sur le système et diffuse les données collectées vers la sortie standard Format JSON
neuron-monitor-prometheus.py mappe et expose les données de télémétrie du format JSON dans un format compatible Prometheus

Les données sont visualisées dans Amazon Managed Grafana par le tableau de bord correspondant.

Le reste de la configuration pour collecter et visualiser les métriques avec Amazon Managed Service pour Prometheus et Amazon Managed Grafana est similaire à celle utilisée dans d'autres modèles basés sur l'open source, qui sont inclus dans le AWS Observability Accelerator for CDK Référentiel GitHub.

Pré-requis

Vous avez besoin des éléments suivants pour suivre les étapes décrites dans cet article :

Mettre en place l'environnement

Effectuez les étapes suivantes pour configurer votre environnement :

Ouvrez une fenêtre de terminal et exécutez les commandes suivantes :

export AWS_REGION=<YOUR AWS REGION>
export ACCOUNT_ID=$(aws sts get-caller-identity --query 'Account' --output text)

Récupérez les ID d'espace de travail de tout espace de travail Amazon Managed Grafana existant :

aws grafana list-workspaces

Voici notre exemple de sortie :

{
  "workspaces": [
    {
      "authentication": {
        "providers": [
          "AWS_SSO"
        ]
      },
      "created": "2023-06-07T12:23:56.625000-04:00",
      "description": "accelerator-workspace",
      "endpoint": "g-XYZ.grafana-workspace.us-east-2.amazonaws.com",
      "grafanaVersion": "9.4",
      "id": "g-XYZ",
      "modified": "2023-06-07T12:30:09.892000-04:00",
      "name": "accelerator-workspace",
      "notificationDestinations": [
        "SNS"
      ],
      "status": "ACTIVE",
      "tags": {}
    }
  ]
}

Attribuer les valeurs de id ainsi que les endpoint aux variables d'environnement suivantes :

export COA_AMG_WORKSPACE_ID="<<YOUR-WORKSPACE-ID, similar to the above g-XYZ, without quotation marks>>"
export COA_AMG_ENDPOINT_URL="<<https://YOUR-WORKSPACE-URL, including protocol (i.e. https://), without quotation marks, similar to the above https://g-XYZ.grafana-workspace.us-east-2.amazonaws.com>>"

COA_AMG_ENDPOINT_URL doit inclure https://.

Créez une clé API Grafana à partir de l'espace de travail Amazon Managed Grafana :

export AMG_API_KEY=$(aws grafana create-workspace-api-key 
--key-name "grafana-operator-key" 
--key-role "ADMIN" 
--seconds-to-live 432000 
--workspace-id $COA_AMG_WORKSPACE_ID 
--query key 
--output text)

Configurez un secret dans Gestionnaire de systèmes AWS:

aws ssm put-parameter --name "/cdk-accelerator/grafana-api-key" 
--type "SecureString" 
--value $AMG_API_KEY 
--region $AWS_REGION

Le secret sera accessible par le module complémentaire External Secrets et rendu disponible en tant que secret Kubernetes natif dans le cluster EKS.

Amorcer l'environnement AWS CDK

La première étape de tout déploiement AWS CDK consiste à amorcer l'environnement. Vous utilisez le cdk bootstrap dans l'AWS CDK CLI pour préparer l'environnement (une combinaison de compte AWS et de région AWS) avec les ressources requises par AWS CDK pour effectuer des déploiements dans cet environnement. L'amorçage AWS CDK est nécessaire pour chaque combinaison de compte et de région. Par conséquent, si vous avez déjà démarré AWS CDK dans une région, vous n'avez pas besoin de répéter le processus d'amorçage.

cdk bootstrap aws://$ACCOUNT_ID/$AWS_REGION

Déployez la solution

Effectuez les étapes suivantes pour déployer la solution :

Cloner le cdk-aws-observabilité-accélérateur référentiel et installez les packages de dépendances. Ce référentiel contient du code AWS CDK v2 écrit en TypeScript.

git clone https://github.com/aws-observability/cdk-aws-observability-accelerator.git
cd cdk-aws-observability-accelerator

Les paramètres réels des fichiers JSON du tableau de bord Grafana doivent être spécifiés dans le contexte AWS CDK. Vous devez mettre à jour context dans les cdk.json fichier, situé dans le répertoire courant. L'emplacement du tableau de bord est précisé par le fluxRepository.values.GRAFANA_NEURON_DASH_URL paramètre, et neuronNodeGroup est utilisé pour définir le type d'instance, le numéro et Boutique de blocs élastiques Amazon (Amazon EBS) utilisée pour les nœuds.

Entrez l'extrait suivant dans cdk.json, remplaçant context:

"context": {
    "fluxRepository": {
      "name": "grafana-dashboards",
      "namespace": "grafana-operator",
      "repository": {
        "repoUrl": "https://github.com/aws-observability/aws-observability-accelerator",
        "name": "grafana-dashboards",
        "targetRevision": "main",
        "path": "./artifacts/grafana-operator-manifests/eks/infrastructure"
      },
      "values": {
        "GRAFANA_CLUSTER_DASH_URL" : "https://raw.githubusercontent.com/aws-observability/aws-observability-accelerator/main/artifacts/grafana-dashboards/eks/infrastructure/cluster.json",
        "GRAFANA_KUBELET_DASH_URL" : "https://raw.githubusercontent.com/aws-observability/aws-observability-accelerator/main/artifacts/grafana-dashboards/eks/infrastructure/kubelet.json",
        "GRAFANA_NSWRKLDS_DASH_URL" : "https://raw.githubusercontent.com/aws-observability/aws-observability-accelerator/main/artifacts/grafana-dashboards/eks/infrastructure/namespace-workloads.json",
        "GRAFANA_NODEEXP_DASH_URL" : "https://raw.githubusercontent.com/aws-observability/aws-observability-accelerator/main/artifacts/grafana-dashboards/eks/infrastructure/nodeexporter-nodes.json",
        "GRAFANA_NODES_DASH_URL" : "https://raw.githubusercontent.com/aws-observability/aws-observability-accelerator/main/artifacts/grafana-dashboards/eks/infrastructure/nodes.json",
        "GRAFANA_WORKLOADS_DASH_URL" : "https://raw.githubusercontent.com/aws-observability/aws-observability-accelerator/main/artifacts/grafana-dashboards/eks/infrastructure/workloads.json",
        "GRAFANA_NEURON_DASH_URL" : "https://raw.githubusercontent.com/aws-observability/aws-observability-accelerator/main/artifacts/grafana-dashboards/eks/neuron/neuron-monitor.json"
      },
      "kustomizations": [
        {
          "kustomizationPath": "./artifacts/grafana-operator-manifests/eks/infrastructure"
        },
        {
          "kustomizationPath": "./artifacts/grafana-operator-manifests/eks/neuron"
        }
      ]
    },
     "neuronNodeGroup": {
      "instanceClass": "inf1",
      "instanceSize": "2xlarge",
      "desiredSize": 1, 
      "minSize": 1, 
      "maxSize": 3,
      "ebsSize": 512
    }
  }

Vous pouvez remplacer le type d'instance Inf1 par Inf2 et modifier la taille si nécessaire. Pour vérifier la disponibilité dans la région sélectionnée, exécutez la commande suivante (modifier Values comme bon vous semble):

aws ec2 describe-instance-type-offerings 
--filters Name=instance-type,Values="inf1*" 
--query "InstanceTypeOfferings[].InstanceType" 
--region $AWS_REGION

Installez les dépendances du projet :

npm install

Exécutez les commandes suivantes pour déployer le modèle d'observabilité open source :

make build
make pattern single-new-eks-inferentia-opensource-observability deploy

Valider la solution

Effectuez les étapes suivantes pour valider la solution :

Exécutez le update-kubeconfig commande. Vous devriez pouvoir obtenir la commande à partir du message de sortie de la commande précédente :

aws eks update-kubeconfig --name single-new-eks-inferentia-opensource... --region <your region> --role-arn arn:aws:iam::xxxxxxxxx:role/single-new-eks-....

Vérifiez les ressources que vous avez créées :

kubectl get pods -A

La capture d'écran suivante montre notre exemple de sortie.

Observabilité open source pour les nœuds AWS Inferentia au sein des clusters Amazon EKS | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Assurez-vous que le neuron-device-plugin-daemonset DaemonSet est en cours d'exécution :

kubectl get ds neuron-device-plugin-daemonset --namespace kube-system

Voici notre résultat attendu :

NAME                             DESIRED   CURRENT   READY   UP-TO-DATE   AVAILABLE   NODE SELECTOR   AGE
neuron-device-plugin-daemonset   1         1         1       1            1           <none>          2h

Confirmez que le neuron-monitor DaemonSet est en cours d'exécution :

kubectl get ds neuron-monitor --namespace kube-system

Voici notre résultat attendu :

NAME             DESIRED   CURRENT   READY   UP-TO-DATE   AVAILABLE   NODE SELECTOR   AGE
neuron-monitor   1         1         1       1            1           <none>          2h

Pour vérifier que les périphériques et les cœurs Neuron sont visibles, exécutez le neuron-ls ainsi que les neuron-top commandes provenant, par exemple, de votre pod neuron-monitor (vous pouvez obtenir le nom du pod à partir de la sortie de kubectl get pods -A):

kubectl exec -it {your neuron-monitor pod} -n kube-system -- /bin/bash -c "neuron-ls"

La capture d'écran suivante montre notre résultat attendu.

Observabilité open source pour les nœuds AWS Inferentia au sein des clusters Amazon EKS | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

kubectl exec -it {your neuron-monitor pod} -n kube-system -- /bin/bash -c "neuron-top"

La capture d'écran suivante montre notre résultat attendu.

Observabilité open source pour les nœuds AWS Inferentia au sein des clusters Amazon EKS | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Visualisez les données à l'aide du tableau de bord Grafana Neuron

Connectez-vous à votre espace de travail Amazon Managed Grafana et accédez au Tableaux de bord panneau. Vous devriez voir un tableau de bord nommé Neurone / Moniteur.

Pour voir quelques métriques intéressantes sur le tableau de bord Grafana, nous appliquons le manifeste suivant :

curl https://raw.githubusercontent.com/aws-observability/aws-observability-accelerator/main/artifacts/k8s-deployment-manifest-templates/neuron/pytorch-inference-resnet50.yml | kubectl apply -f -

Il s'agit d'un exemple de charge de travail qui compile le modèle torchvision ResNet50 et exécute des inférences répétitives dans une boucle pour générer des données de télémétrie.

Pour vérifier que le pod a été déployé avec succès, exécutez le code suivant :

kubectl get pods

Vous devriez voir un pod nommé pytorch-inference-resnet50.

Après quelques minutes, en regardant dans le Neurone / Moniteur tableau de bord, vous devriez voir les métriques collectées similaires aux captures d'écran suivantes.

Observabilité open source pour les nœuds AWS Inferentia au sein des clusters Amazon EKS | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï.

Grafana Operator et Flux travaillent toujours ensemble pour synchroniser vos tableaux de bord avec Git. Si vous supprimez vos tableaux de bord par accident, ils seront automatiquement réapprovisionnés.

Nettoyer

Vous pouvez supprimer l'intégralité de la pile AWS CDK avec la commande suivante :

make pattern single-new-eks-inferentia-opensource-observability destroy

Conclusion

Dans cet article, nous vous avons montré comment introduire l'observabilité, avec des outils open source, dans un cluster EKS doté d'un plan de données exécutant des instances EC2 Inf1. Nous avons commencé par sélectionner l'AMI accélérée optimisée pour Amazon EKS pour les nœuds du plan de données, qui inclut le runtime du conteneur Neuron, donnant accès aux appareils AWS Inferentia et Trainium Neuron. Ensuite, pour exposer les cœurs et les appareils Neuron à Kubernetes, nous avons déployé le plugin de périphérique Neuron. La collecte et le mappage réels des données de télémétrie dans un format compatible Prometheus ont été réalisés via neuron-monitor ainsi que les neuron-monitor-prometheus.py. Les métriques proviennent d'Amazon Managed Service pour Prometheus et sont affichées sur le tableau de bord Neuron d'Amazon Managed Grafana.

Nous vous recommandons d'explorer des modèles d'observabilité supplémentaires dans le Accélérateur d'observabilité AWS pour CDK Dépôt GitHub. Pour en savoir plus sur Neuron, reportez-vous au Documentation AWS Neuron.

À propos de l’auteur

Observabilité open source pour les nœuds AWS Inferentia au sein des clusters Amazon EKS | Amazon Web Services PlatoBlockchain Data Intelligence. Recherche verticale. Aï. Riccardo Freschi est un architecte de solutions senior chez AWS, spécialisé dans la modernisation des applications. Il travaille en étroite collaboration avec les partenaires et les clients pour les aider à transformer leurs paysages informatiques dans leur transition vers le cloud AWS en refactorisant les applications existantes et en en créant de nouvelles.

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
PlatonESG. Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
La source: https://aws.amazon.com/blogs/machine-learning/open-source-observability-for-aws-inferentia-nodes-within-amazon-eks-clusters/

Horodatage: 17 avril 2024

Horodatage: Le 14 décembre 2022

Republié par Platon

Prédire les prix de l'immobilier résidentiel chez ImmoScout24 avec Amazon SageMaker

Inférence ML rentable avec des modèles multi-framework sur Amazon SageMaker

Traitement intelligent des documents avec les services d'AWS AI : 2ère partie

Réduisez les coûts d'inférence Amazon SageMaker avec AWS Graviton

Accélérez vos projets de vérification d'identité à l'aide des exemples d'implémentation AWS Amplify et Amazon Rekognition

Configurez la répartition des coûts au niveau de l'entreprise pour les environnements ML et les charges de travail à l'aide du balisage des ressources dans Amazon SageMaker

Traduire plusieurs documents en langue source vers plusieurs langues cibles à l'aide d'Amazon Translate

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte