Activer les métriques GPU basées sur les pods dans Amazon CloudWatch

Republié par Platon

Suiveurs: 0

En février 2022, Amazon Web Services a ajouté prise en charge des métriques GPU NVIDIA dans Amazon CloudWatch, permettant de pousser les métriques du Agent Amazon Cloud Watch à Amazon Cloud Watch et surveillez votre code pour une utilisation optimale du GPU. Depuis lors, cette fonctionnalité a été intégrée à bon nombre de nos Amazon Machine Images (AMI) gérées, telles que AMI d'apprentissage en profondeur et les terres parsemées de AMI AWS ParallelCluster. Pour obtenir des métriques d'utilisation du GPU au niveau de l'instance, vous pouvez utiliser Packer ou Amazon ImageBuilder pour amorcer votre propre AMI personnalisée et l'utiliser dans diverses offres de services gérés telles que Lot AWS, Service de conteneur élastique Amazon (Amazon ECS), ou Service Amazon Elastic Kubernetes (Amazon EKS). Toutefois, pour de nombreuses offres de services et charges de travail basées sur des conteneurs, il est idéal de capturer les métriques d'utilisation au niveau du conteneur, du pod ou de l'espace de noms.

Cet article explique comment configurer des métriques GPU basées sur des conteneurs et fournit un exemple de collecte de ces métriques à partir des pods EKS.

Vue d'ensemble de la solution

Pour démontrer les métriques GPU basées sur des conteneurs, nous créons un cluster EKS avec g5.2xlarge instances; cependant, cela fonctionnera avec n'importe quelle famille d'instances accélérées NVIDIA prise en charge.

Nous déployons l'opérateur NVIDIA GPU pour permettre l'utilisation des ressources GPU et le Exportateur NVIDIA DCGM pour activer la collecte de métriques GPU. Nous explorons ensuite deux architectures. Le premier connecte les métriques de NVIDIA DCGM Exporter à CloudWatch via un agent CloudWatch, comme indiqué dans le diagramme suivant.

Architecture de surveillance GPU avec CloudWatch

La deuxième architecture (voir le schéma suivant) connecte les métriques de DCGM Exporter à Prométhée, alors on utilise un grafana tableau de bord pour visualiser ces métriques.

Architecture de surveillance GPU avec Grafana

Pré-requis

Pour simplifier la reproduction de l'intégralité de la pile à partir de cet article, nous utilisons un conteneur sur lequel tous les outils requis (aws cli, eksctl, helm, etc.) sont déjà installés. Afin de cloner le projet de conteneur de GitHub, Tu auras besoin de jet. Pour créer et exécuter le conteneur, vous aurez besoin Docker. Pour déployer l'architecture, vous aurez besoin Informations d'identification AWS. Pour activer l'accès aux services Kubernetes à l'aide de la redirection de port, vous aurez également besoin kubectl.

Ces prérequis peuvent être installés sur votre machine locale, Instance EC2 comprenant NICE DCVou AWSCloud9. Dans cet article, nous utiliserons un c5.2xlarge Instance Cloud9 avec un 40GB volume de stockage local. Lorsque vous utilisez Cloud9, veuillez désactiver les informations d'identification temporaires gérées par AWS en visitant Cloud9->Preferences->AWS Settings comme le montre la capture d'écran ci-dessous.

Enable pod-based GPU metrics in Amazon CloudWatch | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai.

Créez et exécutez le conteneur aws-do-eks

Ouvrez un shell de terminal dans votre environnement préféré et exécutez les commandes suivantes :

git clone https://github.com/aws-samples/aws-do-eks
cd aws-do-eks
./build.sh
./run.sh
./exec.sh

Le résultat est le suivant:

root@e5ecb162812f:/eks#

Vous disposez désormais d'un shell dans un environnement de conteneur doté de tous les outils nécessaires pour effectuer les tâches ci-dessous. Nous l’appellerons « shell aws-do-eks ». Vous exécuterez les commandes des sections suivantes dans ce shell, sauf indication contraire spécifique.

Créer un cluster EKS avec un groupe de nœuds

Ce groupe comprend une famille d'instances GPU de votre choix ; dans cet exemple, nous utilisons le g5.2xlarge type d'instance.

Le projet aws-do-eks est livré avec une collection de configurations de cluster. Vous pouvez définir la configuration de cluster souhaitée avec une seule modification de configuration.

Dans le shell du conteneur, exécutez ./env-config.sh puis définissez CONF=conf/eksctl/yaml/eks-gpu-g5.yaml
Pour vérifier la configuration du cluster, exécutez ./eks-config.sh

Vous devriez voir le manifeste de cluster suivant :

apiVersion: eksctl.io/v1alpha5
kind: ClusterConfig
metadata: name: do-eks-yaml-g5 version: "1.25" region: us-east-1
availabilityZones: - us-east-1a - us-east-1b - us-east-1c - us-east-1d
managedNodeGroups: - name: sys instanceType: m5.xlarge desiredCapacity: 1 iam: withAddonPolicies: autoScaler: true cloudWatch: true - name: g5 instanceType: g5.2xlarge instancePrefix: g5-2xl privateNetworking: true efaEnabled: false minSize: 0 desiredCapacity: 1 maxSize: 10 volumeSize: 80 iam: withAddonPolicies: cloudWatch: true
iam: withOIDC: true

Pour créer le cluster, exécutez la commande suivante dans le conteneur

./eks-create.sh

La sortie est la suivante:

root@e5ecb162812f:/eks# ./eks-create.sh /eks/impl/eksctl/yaml /eks ./eks-create.sh Mon May 22 20:50:59 UTC 2023
Creating cluster using /eks/conf/eksctl/yaml/eks-gpu-g5.yaml ... eksctl create cluster -f /eks/conf/eksctl/yaml/eks-gpu-g5.yaml 2023-05-22 20:50:59 [ℹ] eksctl version 0.133.0
2023-05-22 20:50:59 [ℹ] using region us-east-1
2023-05-22 20:50:59 [ℹ] subnets for us-east-1a - public:192.168.0.0/19 private:192.168.128.0/19
2023-05-22 20:50:59 [ℹ] subnets for us-east-1b - public:192.168.32.0/19 private:192.168.160.0/19
2023-05-22 20:50:59 [ℹ] subnets for us-east-1c - public:192.168.64.0/19 private:192.168.192.0/19
2023-05-22 20:50:59 [ℹ] subnets for us-east-1d - public:192.168.96.0/19 private:192.168.224.0/19
2023-05-22 20:50:59 [ℹ] nodegroup "sys" will use "" [AmazonLinux2/1.25]
2023-05-22 20:50:59 [ℹ] nodegroup "g5" will use "" [AmazonLinux2/1.25]
2023-05-22 20:50:59 [ℹ] using Kubernetes version 1.25
2023-05-22 20:50:59 [ℹ] creating EKS cluster "do-eks-yaml-g5" in "us-east-1" region with managed nodes
2023-05-22 20:50:59 [ℹ] 2 nodegroups (g5, sys) were included (based on the include/exclude rules)
2023-05-22 20:50:59 [ℹ] will create a CloudFormation stack for cluster itself and 0 nodegroup stack(s)
2023-05-22 20:50:59 [ℹ] will create a CloudFormation stack for cluster itself and 2 managed nodegroup stack(s)
2023-05-22 20:50:59 [ℹ] if you encounter any issues, check CloudFormation console or try 'eksctl utils describe-stacks --region=us-east-1 --cluster=do-eks-yaml-g5'
2023-05-22 20:50:59 [ℹ] Kubernetes API endpoint access will use default of {publicAccess=true, privateAccess=false} for cluster "do-eks-yaml-g5" in "us-east-1"
2023-05-22 20:50:59 [ℹ] CloudWatch logging will not be enabled for cluster "do-eks-yaml-g5" in "us-east-1"
2023-05-22 20:50:59 [ℹ] you can enable it with 'eksctl utils update-cluster-logging --enable-types={SPECIFY-YOUR-LOG-TYPES-HERE (e.g. all)} --region=us-east-1 --cluster=do-eks-yaml-g5'
2023-05-22 20:50:59 [ℹ] 2 sequential tasks: { create cluster control plane "do-eks-yaml-g5", 2 sequential sub-tasks: { 4 sequential sub-tasks: { wait for control plane to become ready, associate IAM OIDC provider, 2 sequential sub-tasks: { create IAM role for serviceaccount "kube-system/aws-node", create serviceaccount "kube-system/aws-node", }, restart daemonset "kube-system/aws-node", }, 2 parallel sub-tasks: { create managed nodegroup "sys", create managed nodegroup "g5", }, } }
2023-05-22 20:50:59 [ℹ] building cluster stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:51:00 [ℹ] deploying stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:51:30 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:52:00 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:53:01 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:54:01 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:55:01 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:56:02 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:57:02 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:58:02 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:59:02 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:00:03 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:01:03 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:02:03 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:03:04 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:05:07 [ℹ] building iamserviceaccount stack "eksctl-do-eks-yaml-g5-addon-iamserviceaccount-kube-system-aws-node"
2023-05-22 21:05:10 [ℹ] deploying stack "eksctl-do-eks-yaml-g5-addon-iamserviceaccount-kube-system-aws-node"
2023-05-22 21:05:10 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-addon-iamserviceaccount-kube-system-aws-node"
2023-05-22 21:05:40 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-addon-iamserviceaccount-kube-system-aws-node"
2023-05-22 21:05:40 [ℹ] serviceaccount "kube-system/aws-node" already exists
2023-05-22 21:05:41 [ℹ] updated serviceaccount "kube-system/aws-node"
2023-05-22 21:05:41 [ℹ] daemonset "kube-system/aws-node" restarted
2023-05-22 21:05:41 [ℹ] building managed nodegroup stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:05:41 [ℹ] building managed nodegroup stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:05:42 [ℹ] deploying stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:05:42 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:05:42 [ℹ] deploying stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:05:42 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:06:12 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:06:12 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:06:55 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:07:11 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:08:29 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:08:45 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:09:52 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:09:53 [ℹ] waiting for the control plane to become ready
2023-05-22 21:09:53 [✔] saved kubeconfig as "/root/.kube/config"
2023-05-22 21:09:53 [ℹ] 1 task: { install Nvidia device plugin }
W0522 21:09:54.155837 1668 warnings.go:70] spec.template.metadata.annotations[scheduler.alpha.kubernetes.io/critical-pod]: non-functional in v1.16+; use the "priorityClassName" field instead
2023-05-22 21:09:54 [ℹ] created "kube-system:DaemonSet.apps/nvidia-device-plugin-daemonset"
2023-05-22 21:09:54 [ℹ] as you are using the EKS-Optimized Accelerated AMI with a GPU-enabled instance type, the Nvidia Kubernetes device plugin was automatically installed. to skip installing it, use --install-nvidia-plugin=false.
2023-05-22 21:09:54 [✔] all EKS cluster resources for "do-eks-yaml-g5" have been created
2023-05-22 21:09:54 [ℹ] nodegroup "sys" has 1 node(s)
2023-05-22 21:09:54 [ℹ] node "ip-192-168-18-137.ec2.internal" is ready
2023-05-22 21:09:54 [ℹ] waiting for at least 1 node(s) to become ready in "sys"
2023-05-22 21:09:54 [ℹ] nodegroup "sys" has 1 node(s)
2023-05-22 21:09:54 [ℹ] node "ip-192-168-18-137.ec2.internal" is ready
2023-05-22 21:09:55 [ℹ] kubectl command should work with "/root/.kube/config", try 'kubectl get nodes'
2023-05-22 21:09:55 [✔] EKS cluster "do-eks-yaml-g5" in "us-east-1" region is ready Mon May 22 21:09:55 UTC 2023
Done creating cluster using /eks/conf/eksctl/yaml/eks-gpu-g5.yaml /eks

Pour vérifier que votre cluster est créé avec succès, exécutez la commande suivante

kubectl get nodes -L node.kubernetes.io/instance-type

Le résultat est similaire à ce qui suit :

NAME STATUS ROLES AGE VERSION INSTANCE_TYPE
ip-192-168-18-137.ec2.internal Ready <none> 47m v1.25.9-eks-0a21954 m5.xlarge
ip-192-168-214-241.ec2.internal Ready <none> 46m v1.25.9-eks-0a21954 g5.2xlarge

Dans cet exemple, nous avons une instance m5.xlarge et une instance g5.2xlarge dans notre cluster ; par conséquent, nous voyons deux nœuds répertoriés dans la sortie précédente.

Pendant le processus de création du cluster, le plugin de périphérique NVIDIA sera installé. Vous devrez le supprimer après la création du cluster car nous utiliserons le Opérateur GPU NVIDIA à la place.

Supprimez le plugin avec la commande suivante

kubectl -n kube-system delete daemonset nvidia-device-plugin-daemonset

Nous obtenons la sortie suivante :

daemonset.apps "nvidia-device-plugin-daemonset" deleted

Installez le dépôt NVIDIA Helm

Installez le dépôt NVIDIA Helm avec la commande suivante :

helm repo add nvidia https://helm.ngc.nvidia.com/nvidia && helm repo update

Déployer l'exportateur DCGM avec l'opérateur NVIDIA GPU

Pour déployer l'exportateur DCGM, procédez comme suit :

Préparer la configuration des métriques GPU de l'exportateur DCGM

curl https://raw.githubusercontent.com/NVIDIA/dcgm-exporter/main/etc/dcp-metrics-included.csv > dcgm-metrics.csv

Vous avez la possibilité de modifier le dcgm-metrics.csv déposer. Vous pouvez ajouter ou supprimer des métriques selon vos besoins.

Créez l'espace de noms de l'opérateur GPU et l'exportateur DCGM ConfigMap

kubectl create namespace gpu-operator && /
kubectl create configmap metrics-config -n gpu-operator --from-file=dcgm-metrics.csv

La sortie est la suivante:

namespace/gpu-operator created
configmap/metrics-config created

Appliquer l'opérateur GPU au cluster EKS

helm install --wait --generate-name -n gpu-operator --create-namespace nvidia/gpu-operator --set dcgmExporter.config.name=metrics-config --set dcgmExporter.env[0].name=DCGM_EXPORTER_COLLECTORS --set dcgmExporter.env[0].value=/etc/dcgm-exporter/dcgm-metrics.csv --set toolkit.enabled=false

La sortie est la suivante:

NAME: gpu-operator-1684795140
LAST DEPLOYED: Day Month Date HH:mm:ss YYYY
NAMESPACE: gpu-operator
STATUS: deployed
REVISION: 1
TEST SUITE: None

Confirmez que le pod d'exportateur DCGM est en cours d'exécution

kubectl -n gpu-operator get pods | grep dcgm

La sortie est la suivante:

nvidia-dcgm-exporter-lkmfr       1/1     Running    0   1m

Si vous inspectez les journaux, vous devriez voir le “Starting webserver” message:

kubectl -n gpu-operator logs -f $(kubectl -n gpu-operator get pods | grep dcgm | cut -d ' ' -f 1)

La sortie est la suivante:

Defaulted container "nvidia-dcgm-exporter" out of: nvidia-dcgm-exporter, toolkit-validation (init)
time="2023-05-22T22:40:08Z" level=info msg="Starting dcgm-exporter"
time="2023-05-22T22:40:08Z" level=info msg="DCGM successfully initialized!"
time="2023-05-22T22:40:08Z" level=info msg="Collecting DCP Metrics"
time="2023-05-22T22:40:08Z" level=info msg="No configmap data specified, falling back to metric file /etc/dcgm-exporter/dcgm-metrics.csv"
time="2023-05-22T22:40:08Z" level=info msg="Initializing system entities of type: GPU"
time="2023-05-22T22:40:09Z" level=info msg="Initializing system entities of type: NvSwitch"
time="2023-05-22T22:40:09Z" level=info msg="Not collecting switch metrics: no switches to monitor"
time="2023-05-22T22:40:09Z" level=info msg="Initializing system entities of type: NvLink"
time="2023-05-22T22:40:09Z" level=info msg="Not collecting link metrics: no switches to monitor"
time="2023-05-22T22:40:09Z" level=info msg="Kubernetes metrics collection enabled!"
time="2023-05-22T22:40:09Z" level=info msg="Pipeline starting"
time="2023-05-22T22:40:09Z" level=info msg="Starting webserver"

NVIDIA DCGM Exporter expose un point de terminaison de métriques Prometheus, qui peut être ingéré par l'agent CloudWatch. Pour voir le point de terminaison, utilisez la commande suivante :

kubectl -n gpu-operator get services | grep dcgm

Nous obtenons la sortie suivante :

nvidia-dcgm-exporter    ClusterIP   10.100.183.207   <none>   9400/TCP   10m

Pour générer une certaine utilisation du GPU, nous déployons un pod qui exécute le GPU-graver binaire

kubectl apply -f https://raw.githubusercontent.com/aws-samples/aws-do-eks/main/Container-Root/eks/deployment/gpu-metrics/gpu-burn-deployment.yaml

La sortie est la suivante:

deployment.apps/gpu-burn created

Ce déploiement utilise un seul GPU pour produire un modèle continu d'utilisation à 100 % pendant 20 secondes suivi d'une utilisation à 0 % pendant 20 secondes.

Pour vous assurer que le point de terminaison fonctionne, vous pouvez exécuter un conteneur temporaire qui utilise curl pour lire le contenu de http://nvidia-dcgm-exporter:9400/metrics

kubectl -n gpu-operator run -it --rm curl --restart='Never' --image=curlimages/curl --command -- curl http://nvidia-dcgm-exporter:9400/metrics

Nous obtenons la sortie suivante :

# HELP DCGM_FI_DEV_SM_CLOCK SM clock frequency (in MHz).
# TYPE DCGM_FI_DEV_SM_CLOCK gauge
DCGM_FI_DEV_SM_CLOCK{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 1455
# HELP DCGM_FI_DEV_MEM_CLOCK Memory clock frequency (in MHz).
# TYPE DCGM_FI_DEV_MEM_CLOCK gauge
DCGM_FI_DEV_MEM_CLOCK{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 6250
# HELP DCGM_FI_DEV_GPU_TEMP GPU temperature (in C).
# TYPE DCGM_FI_DEV_GPU_TEMP gauge
DCGM_FI_DEV_GPU_TEMP{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 65
# HELP DCGM_FI_DEV_POWER_USAGE Power draw (in W).
# TYPE DCGM_FI_DEV_POWER_USAGE gauge
DCGM_FI_DEV_POWER_USAGE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 299.437000
# HELP DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION Total energy consumption since boot (in mJ).
# TYPE DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION counter
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 15782796862
# HELP DCGM_FI_DEV_PCIE_REPLAY_COUNTER Total number of PCIe retries.
# TYPE DCGM_FI_DEV_PCIE_REPLAY_COUNTER counter
DCGM_FI_DEV_PCIE_REPLAY_COUNTER{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_GPU_UTIL GPU utilization (in %).
# TYPE DCGM_FI_DEV_GPU_UTIL gauge
DCGM_FI_DEV_GPU_UTIL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 100
# HELP DCGM_FI_DEV_MEM_COPY_UTIL Memory utilization (in %).
# TYPE DCGM_FI_DEV_MEM_COPY_UTIL gauge
DCGM_FI_DEV_MEM_COPY_UTIL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 38
# HELP DCGM_FI_DEV_ENC_UTIL Encoder utilization (in %).
# TYPE DCGM_FI_DEV_ENC_UTIL gauge
DCGM_FI_DEV_ENC_UTIL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_DEC_UTIL Decoder utilization (in %).
# TYPE DCGM_FI_DEV_DEC_UTIL gauge
DCGM_FI_DEV_DEC_UTIL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_XID_ERRORS Value of the last XID error encountered.
# TYPE DCGM_FI_DEV_XID_ERRORS gauge
DCGM_FI_DEV_XID_ERRORS{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_FB_FREE Framebuffer memory free (in MiB).
# TYPE DCGM_FI_DEV_FB_FREE gauge
DCGM_FI_DEV_FB_FREE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 2230
# HELP DCGM_FI_DEV_FB_USED Framebuffer memory used (in MiB).
# TYPE DCGM_FI_DEV_FB_USED gauge
DCGM_FI_DEV_FB_USED{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 20501
# HELP DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL Total number of NVLink bandwidth counters for all lanes.
# TYPE DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL counter
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_VGPU_LICENSE_STATUS vGPU License status
# TYPE DCGM_FI_DEV_VGPU_LICENSE_STATUS gauge
DCGM_FI_DEV_VGPU_LICENSE_STATUS{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS Number of remapped rows for uncorrectable errors
# TYPE DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS counter
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS Number of remapped rows for correctable errors
# TYPE DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS counter
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_ROW_REMAP_FAILURE Whether remapping of rows has failed
# TYPE DCGM_FI_DEV_ROW_REMAP_FAILURE gauge
DCGM_FI_DEV_ROW_REMAP_FAILURE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_PROF_GR_ENGINE_ACTIVE Ratio of time the graphics engine is active (in %).
# TYPE DCGM_FI_PROF_GR_ENGINE_ACTIVE gauge
DCGM_FI_PROF_GR_ENGINE_ACTIVE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0.808369
# HELP DCGM_FI_PROF_PIPE_TENSOR_ACTIVE Ratio of cycles the tensor (HMMA) pipe is active (in %).
# TYPE DCGM_FI_PROF_PIPE_TENSOR_ACTIVE gauge
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0.000000
# HELP DCGM_FI_PROF_DRAM_ACTIVE Ratio of cycles the device memory interface is active sending or receiving data (in %).
# TYPE DCGM_FI_PROF_DRAM_ACTIVE gauge
DCGM_FI_PROF_DRAM_ACTIVE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0.315787
# HELP DCGM_FI_PROF_PCIE_TX_BYTES The rate of data transmitted over the PCIe bus - including both protocol headers and data payloads - in bytes per second.
# TYPE DCGM_FI_PROF_PCIE_TX_BYTES gauge
DCGM_FI_PROF_PCIE_TX_BYTES{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 3985328
# HELP DCGM_FI_PROF_PCIE_RX_BYTES The rate of data received over the PCIe bus - including both protocol headers and data payloads - in bytes per second.
# TYPE DCGM_FI_PROF_PCIE_RX_BYTES gauge
DCGM_FI_PROF_PCIE_RX_BYTES{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 21715174
pod "curl" deleted

Configurer et déployer l'agent CloudWatch

Pour configurer et déployer l'agent CloudWatch, procédez comme suit :

Téléchargez le fichier YAML et modifiez-le

curl -O https://raw.githubusercontent.com/aws-samples/amazon-cloudwatch-container-insights/k8s/1.3.15/k8s-deployment-manifest-templates/deployment-mode/service/cwagent-prometheus/prometheus-eks.yaml

Le fichier contient un cwagent configmap et prometheus configmap. Pour cet article, nous modifions les deux.

Modifiez le prometheus-eks.yaml filet

Ouvrez le prometheus-eks.yaml fichier dans votre éditeur préféré et remplacez le cwagentconfig.json section avec le contenu suivant :

apiVersion: v1
data: # cwagent json config cwagentconfig.json: | { "logs": { "metrics_collected": { "prometheus": { "prometheus_config_path": "/etc/prometheusconfig/prometheus.yaml", "emf_processor": { "metric_declaration": [ { "source_labels": ["Service"], "label_matcher": ".*dcgm.*", "dimensions": [["Service","Namespace","ClusterName","job","pod"]], "metric_selectors": [ "^DCGM_FI_DEV_GPU_UTIL$", "^DCGM_FI_DEV_DEC_UTIL$", "^DCGM_FI_DEV_ENC_UTIL$", "^DCGM_FI_DEV_MEM_CLOCK$", "^DCGM_FI_DEV_MEM_COPY_UTIL$", "^DCGM_FI_DEV_POWER_USAGE$", "^DCGM_FI_DEV_ROW_REMAP_FAILURE$", "^DCGM_FI_DEV_SM_CLOCK$", "^DCGM_FI_DEV_XID_ERRORS$", "^DCGM_FI_PROF_DRAM_ACTIVE$", "^DCGM_FI_PROF_GR_ENGINE_ACTIVE$", "^DCGM_FI_PROF_PCIE_RX_BYTES$", "^DCGM_FI_PROF_PCIE_TX_BYTES$", "^DCGM_FI_PROF_PIPE_TENSOR_ACTIVE$" ] } ] } } }, "force_flush_interval": 5 } }

Dans le prometheus section config, ajoutez la définition de travail suivante pour l'exportateur DCGM

- job_name: 'kubernetes-pod-dcgm-exporter' sample_limit: 10000 metrics_path: /api/v1/metrics/prometheus kubernetes_sd_configs: - role: pod relabel_configs: - source_labels: [__meta_kubernetes_pod_container_name] action: keep regex: '^DCGM.*$' - source_labels: [__address__] action: replace regex: ([^:]+)(?::d+)? replacement: ${1}:9400 target_label: __address__ - action: labelmap regex: __meta_kubernetes_pod_label_(.+) - action: replace source_labels: - __meta_kubernetes_namespace target_label: Namespace - source_labels: [__meta_kubernetes_pod] action: replace target_label: pod - action: replace source_labels: - __meta_kubernetes_pod_container_name target_label: container_name - action: replace source_labels: - __meta_kubernetes_pod_controller_name target_label: pod_controller_name - action: replace source_labels: - __meta_kubernetes_pod_controller_kind target_label: pod_controller_kind - action: replace source_labels: - __meta_kubernetes_pod_phase target_label: pod_phase - action: replace source_labels: - __meta_kubernetes_pod_node_name target_label: NodeName

Enregistrez le fichier et appliquez le cwagent-dcgm configuration à votre cluster

kubectl apply -f ./prometheus-eks.yaml

Nous obtenons la sortie suivante :

namespace/amazon-cloudwatch created
configmap/prometheus-cwagentconfig created
configmap/prometheus-config created
serviceaccount/cwagent-prometheus created
clusterrole.rbac.authorization.k8s.io/cwagent-prometheus-role created
clusterrolebinding.rbac.authorization.k8s.io/cwagent-prometheus-role-binding created
deployment.apps/cwagent-prometheus created

Confirmez que le pod de l'agent CloudWatch est en cours d'exécution

kubectl -n amazon-cloudwatch get pods

Nous obtenons la sortie suivante :

NAME READY STATUS RESTARTS AGE
cwagent-prometheus-7dfd69cc46-s4cx7 1/1 Running 0 15m

Visualisez les métriques sur la console CloudWatch

Pour visualiser les métriques dans CloudWatch, procédez comme suit :

Sur la console CloudWatch, sous Métrique dans le volet de navigation, choisissez Toutes les métriques
Dans le Espaces de noms personnalisés section, choisissez la nouvelle entrée pour ContainerInsights/Prométhée

Pour plus d'informations sur la ContainerInsights/Prométhée espace de noms, reportez-vous à Supprimer des sources Prometheus supplémentaires et importer ces métriques.

CloudWatch-ContainerInsights/Prometeus

Accédez aux noms de métriques et choisissez DCGM_FI_DEV_GPU_UTIL
Sur le Graphiques métriques onglet, définir Période à en 5 secondes

CloudWatch - Paramétrage de la période

Définir l'intervalle de rafraîchissement sur 10 secondes

Vous verrez les métriques collectées par l'exportateur DCGM qui visualisent le gpu-burn motif activé et désactivé toutes les 20 secondes.

CloudWatch - modèle gpuburn

Sur le Explorer , vous pouvez voir les données, y compris le nom du pod pour chaque métrique.

CloudWatch - nom du pod pour la métrique

Les métadonnées de l'API EKS ont été combinées avec les données des métriques DCGM, ce qui a donné lieu aux métriques GPU basées sur les pods fournies.

Ceci conclut la première approche d'exportation des métriques DCGM vers CloudWatch via l'agent CloudWatch.

Dans la section suivante, nous configurons la deuxième architecture, qui exporte les métriques DCGM vers Prometheus, et nous les visualisons avec Grafana.

Utilisez Prometheus et Grafana pour visualiser les métriques GPU de DCGM

Effectuez les étapes suivantes:

Ajouter le graphique de barre de la communauté Prometheus

helm repo add prometheus-community https://prometheus-community.github.io/helm-charts

Cette carte déploie à la fois Prometheus et Grafana. Nous devons apporter quelques modifications au graphique avant d'exécuter la commande d'installation.

Enregistrez les valeurs de configuration du graphique dans un fichier dans /tmp

helm inspect values prometheus-community/kube-prometheus-stack > /tmp/kube-prometheus-stack.values

Modifier le fichier de configuration char

Modifiez le fichier enregistré (/tmp/kube-prometheus-stack.values) et définissez l'option suivante en recherchant le nom du paramètre et en définissant la valeur :

prometheus.prometheusSpec.serviceMonitorSelectorNilUsesHelmValues=false

Ajoutez le ConfigMap suivant au additionalScrapeConfigs

additionalScrapeConfigs:
- job_name: gpu-metrics scrape_interval: 1s metrics_path: /metrics scheme: http kubernetes_sd_configs: - role: endpoints namespaces: names: - gpu-operator relabel_configs: - source_labels: [__meta_kubernetes_pod_node_name] action: replace target_label: kubernetes_node

Déployez la pile Prometheus avec les valeurs mises à jour

helm install prometheus-community/kube-prometheus-stack 
--create-namespace --namespace prometheus 
--generate-name 
--values /tmp/kube-prometheus-stack.values

Nous obtenons la sortie suivante :

NAME: kube-prometheus-stack-1684965548
LAST DEPLOYED: Wed May 24 21:59:14 2023
NAMESPACE: prometheus
STATUS: deployed
REVISION: 1
NOTES:
kube-prometheus-stack has been installed. Check its status by running: kubectl --namespace prometheus get pods -l "release=kube-prometheus-stack-1684965548" Visit https://github.com/prometheus-operator/kube-prometheus for instructions on how to create & configure Alertmanager and Prometheus instances using the Operator.

Confirmez que les pods Prometheus sont en cours d'exécution

kubectl get pods -n prometheus

Nous obtenons la sortie suivante :

NAME READY STATUS RESTARTS AGE
alertmanager-kube-prometheus-stack-1684-alertmanager-0 2/2 Running 0 6m55s
kube-prometheus-stack-1684-operator-6c87649878-j7v55 1/1 Running 0 6m58s
kube-prometheus-stack-1684965548-grafana-dcd7b4c96-bzm8p 3/3 Running 0 6m58s
kube-prometheus-stack-1684965548-kube-state-metrics-7d856dptlj5 1/1 Running 0 6m58s
kube-prometheus-stack-1684965548-prometheus-node-exporter-2fbl5 1/1 Running 0 6m58s
kube-prometheus-stack-1684965548-prometheus-node-exporter-m7zmv 1/1 Running 0 6m58s
prometheus-kube-prometheus-stack-1684-prometheus-0 2/2 Running 0 6m55s

Les pods Prometheus et Grafana sont dans le Running Etat.

Ensuite, nous validons que les métriques DCGM affluent vers Prometheus.

Transférer le port de l'interface utilisateur de Prometheus

Il existe différentes manières d'exposer l'interface utilisateur Prometheus exécutée dans EKS aux requêtes provenant de l'extérieur du cluster. Nous utiliserons kubectl port-forwarding. Jusqu'à présent, nous avons exécuté des commandes à l'intérieur du aws-do-eks récipient. Pour accéder au service Prometheus exécuté dans le cluster, nous allons créer un tunnel depuis l'hôte. Ici le aws-do-eks Le conteneur s'exécute en exécutant la commande suivante en dehors du conteneur, dans un nouveau shell de terminal sur l'hôte. Nous appellerons cela « shell hôte ».

kubectl -n prometheus port-forward svc/$(kubectl -n prometheus get svc | grep prometheus | grep -v alertmanager | grep -v operator | grep -v grafana | grep -v metrics | grep -v exporter | grep -v operated | cut -d ' ' -f 1) 8080:9090 &

Pendant que le processus de redirection de port est en cours, nous pouvons accéder à l'interface utilisateur Prometheus à partir de l'hôte comme décrit ci-dessous.

Ouvrez l'interface utilisateur de Prometheus
- Si vous utilisez Cloud9, veuillez accéder à Preview->Preview Running Application pour ouvrir l'interface utilisateur de Prometheus dans un onglet de l'IDE Cloud9, puis cliquez sur le bouton icône dans le coin supérieur droit de l’onglet pour apparaître dans une nouvelle fenêtre.
- Si vous êtes sur votre hôte local ou connecté à une instance EC2 via un bureau à distance, ouvrez un navigateur et visitez l'URL http://localhost:8080.

Prometheus - Métriques DCGM

Entrer DCGM pour voir les métriques DCGM qui affluent vers Prometheus
Sélectionnez DCGM_FI_DEV_GPU_UTIL, choisissez Exécution, puis accédez au Graphique onglet pour voir le modèle d'utilisation du GPU attendu

Prométhée - motif gpuburn

Arrêtez le processus de redirection de port Prometheus

Exécutez la ligne de commande suivante dans votre shell hôte :

kill -9 $(ps -aef | grep port-forward | grep -v grep | grep prometheus | awk '{print $2}')

Nous pouvons désormais visualiser les métriques DCGM via Grafana Dashboard.

Récupérer le mot de passe pour vous connecter à l'interface utilisateur Grafana

kubectl -n prometheus get secret $(kubectl -n prometheus get secrets | grep grafana | cut -d ' ' -f 1) -o jsonpath="{.data.admin-password}" | base64 --decode ; echo

Transférer le port du service Grafana

Exécutez la ligne de commande suivante dans votre shell hôte :

kubectl port-forward -n prometheus svc/$(kubectl -n prometheus get svc | grep grafana | cut -d ' ' -f 1) 8080:80 &

Connectez-vous à l'interface utilisateur de Grafana

Accédez à l'écran de connexion de l'interface utilisateur Grafana de la même manière que vous avez accédé à l'interface utilisateur Prometheus précédemment. Si vous utilisez Cloud9, sélectionnez Preview->Preview Running Application, puis apparaît dans une nouvelle fenêtre. Si vous utilisez votre hôte local ou une instance EC2 avec l'URL de visite du bureau à distance http://localhost:8080. Connectez-vous avec le nom d'utilisateur admin et le mot de passe que vous avez récupéré précédemment.

Grafana - connexion

Dans le volet de navigation, choisissez Tableaux de bord

Grafana - tableaux de bord

Selectionnez Nouveauté et les L’

Grafana - charger par identifiant depuis grafana.com
Nous allons importer le tableau de bord DCGM Grafana par défaut décrit dans Tableau de bord de l'exportateur NVIDIA DCGM.

Sur le terrain import via grafana.com, Entrer 12239 et choisissez Charge
Selectionnez Prométhée comme source de données
Selectionnez L’

Grafana - tableau de bord d'importation

Vous verrez un tableau de bord similaire à celui de la capture d'écran suivante.

Grafana - tableau de bord

Pour démontrer que ces métriques sont basées sur des pods, nous allons modifier le Utilisation du GPU volet de ce tableau de bord.

Choisissez le volet et le menu d'options (trois points)
Élargir la Options section et modifiez le La Légende champ
Remplacez-y la valeur par Pod {{pod}}, Puis choisissez Épargnez

Grafana - métrique basée sur les pods
La légende montre désormais le gpu-burn nom du pod associé à l'utilisation du GPU affichée.

Arrêtez la redirection de port du service Grafana UI

Exécutez ce qui suit dans votre shell hôte :

kill -9 $(ps -aef | grep port-forward | grep -v grep | grep prometheus | awk '{print $2}')

Dans cet article, nous avons démontré l'utilisation de Prometheus et Grafana open source déployés sur le cluster EKS. Si vous le souhaitez, ce déploiement peut être remplacé par Service géré Amazon pour Prometheus et les Grafana géré par Amazon.

Nettoyer

Pour nettoyer les ressources que vous avez créées, exécutez le script suivant à partir du aws-do-eks coque du conteneur :

./eks-delete.sh

Conclusion

Dans cet article, nous avons utilisé NVIDIA DCGM Exporter pour collecter des métriques GPU et les visualiser avec CloudWatch ou Prometheus et Grafana. Nous vous invitons à utiliser les architectures démontrées ici pour activer la surveillance de l'utilisation du GPU avec NVIDIA DCGM dans votre propre environnement AWS.

Ressources additionnelles

À propos des auteurs

Enable pod-based GPU metrics in Amazon CloudWatch | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Amr Ragab est un ancien architecte de solutions principal, EC2 Accelerated Computing chez AWS. Il se consacre à aider les clients à exécuter des charges de travail informatiques à grande échelle. Dans ses temps libres, il aime voyager et trouver de nouvelles façons d’intégrer la technologie dans la vie quotidienne.

Alex Yankoulski est architecte de solutions principal pour l'apprentissage automatique autogéré chez AWS. C'est un ingénieur logiciel et infrastructure full-stack qui aime effectuer un travail approfondi et pratique. Dans son rôle, il se concentre sur l'aide aux clients dans la conteneurisation et l'orchestration des charges de travail de ML et d'IA sur les services AWS basés sur des conteneurs. Il est également l'auteur du logiciel open source faire un cadre et un capitaine Docker qui aime appliquer les technologies de conteneurs pour accélérer le rythme de l'innovation tout en résolvant les plus grands défis du monde. Au cours des 10 dernières années, Alex a travaillé à la démocratisation de l'IA et du ML, à la lutte contre le changement climatique et à rendre les voyages plus sûrs, les soins de santé meilleurs et l'énergie plus intelligente.

Enable pod-based GPU metrics in Amazon CloudWatch | Amazon Web Services PlatoBlockchain Data Intelligence. Vertical Search. Ai. Keïta Watanabe est architecte de solutions senior pour les solutions Frameworks ML chez Amazon Web Services, où il contribue au développement des meilleures solutions d'apprentissage automatique autogérées basées sur le cloud du secteur. Son expérience est dans la recherche et le développement de l’apprentissage automatique. Avant de rejoindre AWS, Keita travaillait dans le secteur du commerce électronique. Keita est titulaire d'un doctorat. en sciences de l'Université de Tokyo.

Contenu propulsé par le référencement et distribution de relations publiques. Soyez amplifié aujourd'hui.
PlatoData.Network Ai générative verticale. Autonomisez-vous. Accéder ici.
PlatoAiStream. Intelligence Web3. Connaissance Amplifiée. Accéder ici.
PlatonESG. Automobile / VE, Carbone, Technologie propre, Énergie, Environnement, Solaire, La gestion des déchets. Accéder ici.
PlatoHealth. Veille biotechnologique et essais cliniques. Accéder ici.
GraphiquePrime. Élevez votre jeu de trading avec ChartPrime. Accéder ici.
Décalages de bloc. Modernisation de la propriété des compensations environnementales. Accéder ici.
La source: https://aws.amazon.com/blogs/machine-learning/enable-pod-based-gpu-metrics-in-amazon-cloudwatch/

Horodatage: 7 septembre 2023

Horodatage: Le 28 septembre 2023

Republié par Platon

Analysez l'infestation de rongeurs à l'aide des fonctionnalités géospatiales d'Amazon SageMaker | Services Web Amazon

Mesurer l'impact commercial des recommandations d'Amazon Personalize

Prise en charge d'un nouveau format de données étendu dans Amazon Kendra

Utilisez le partage de pipeline Amazon SageMaker pour afficher ou gérer les pipelines sur les comptes AWS

Exécutez la segmentation d'image avec Amazon SageMaker JumpStart

Prévisions robustes de séries chronologiques avec MLOps sur Amazon SageMaker | Services Web Amazon

À propos de nous

Recherche verticale et Ai

Plateforme

Restez à l'affût

Compte