Habilite métricas de GPU basadas en pods en Amazon CloudWatch

Reeditado por Platón

seguidores: 0

En febrero de 2022, Amazon Web Services agregó soporte para métricas de GPU NVIDIA en Amazon CloudWatch, haciendo posible impulsar métricas desde el Agente de Amazon CloudWatch a Reloj en la nube de Amazon y supervise su código para una utilización óptima de la GPU. Desde entonces, esta característica se ha integrado en muchas de nuestras Amazon Machine Images (AMI) administradas, como la AMI de aprendizaje profundo y del AMI de clúster paralelo de AWS. Para obtener métricas de utilización de GPU a nivel de instancia, puede usar Packer o Amazon ImageBuilder para iniciar su propia AMI personalizada y usarla en varias ofertas de servicios administrados como Lote de AWS, Servicio de contenedor elástico de Amazon (Amazon ECS), o Servicio Amazon Elastic Kubernetes (Amazon EKS). Sin embargo, para muchas cargas de trabajo y ofertas de servicios basados en contenedores, es ideal capturar métricas de utilización a nivel de contenedor, pod o espacio de nombres.

Esta publicación detalla cómo configurar métricas de GPU basadas en contenedores y proporciona un ejemplo de cómo recopilar estas métricas de los pods de EKS.

Resumen de la solución

Para demostrar las métricas de GPU basadas en contenedores, creamos un clúster EKS con g5.2xlarge instancias; sin embargo, esto funcionará con cualquier familia de instancias aceleradas de NVIDIA compatibles.

Implementamos el operador de GPU NVIDIA para permitir el uso de recursos de GPU y la Exportador NVIDIA DCGM para habilitar la recopilación de métricas de GPU. Luego exploramos dos arquitecturas. El primero conecta las métricas de NVIDIA DCGM Exporter a CloudWatch a través de un agente de CloudWatch, como se muestra en el siguiente diagrama.

Arquitectura de monitoreo de GPU con CloudWatch

La segunda arquitectura (consulte el siguiente diagrama) conecta las métricas de DCGM Exporter a Prometeo, entonces usamos un Grafana panel para visualizar esas métricas.

Arquitectura de monitoreo de GPU con Grafana

Requisitos previos

Para simplificar la reproducción de toda la pila de esta publicación, utilizamos un contenedor que ya tiene instaladas todas las herramientas necesarias (aws cli, eksctl, helm, etc.). Para clonar el proyecto de contenedor de GitHub, necesitará git. Para construir y ejecutar el contenedor, necesitará Docker. Para implementar la arquitectura, necesitará Credenciales de AWS. Para habilitar el acceso a los servicios de Kubernetes mediante el reenvío de puertos, también necesitará kubectl.

Estos requisitos previos se pueden instalar en su máquina local, Instancia EC2 NIZA DCVo Nube de AWS9. En esta publicación usaremos un c5.2xlarge Instancia de Cloud9 con un 40GB Volumen de almacenamiento local. Cuando utilice Cloud9, desactive las credenciales temporales administradas por AWS visitando Cloud9->Preferences->AWS Settings como se muestra en la captura de pantalla a continuación.

Habilite las métricas de GPU basadas en pods en Amazon CloudWatch | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai.

Compile y ejecute el contenedor aws-do-eks

Abra un shell de terminal en su entorno preferido y ejecute los siguientes comandos:

git clone https://github.com/aws-samples/aws-do-eks
cd aws-do-eks
./build.sh
./run.sh
./exec.sh

El resultado es el siguiente:

root@e5ecb162812f:/eks#

Ahora tiene un shell en un entorno de contenedor que tiene todas las herramientas necesarias para completar las tareas siguientes. Nos referiremos a él como "shell aws-do-eks". Ejecutará los comandos de las siguientes secciones de este shell, a menos que se le indique específicamente lo contrario.

Cree un clúster EKS con un grupo de nodos

Este grupo incluye una familia de instancias de GPU de su elección; en este ejemplo, utilizamos el g5.2xlarge tipo de instancia.

La proyecto aws-do-eks viene con una colección de configuraciones de clúster. Puede establecer la configuración de clúster que desee con un único cambio de configuración.

En el shell del contenedor, ejecute ./env-config.sh y luego establecer CONF=conf/eksctl/yaml/eks-gpu-g5.yaml
Para verificar la configuración del clúster, ejecute ./eks-config.sh

Debería ver el siguiente manifiesto de clúster:

apiVersion: eksctl.io/v1alpha5
kind: ClusterConfig
metadata: name: do-eks-yaml-g5 version: "1.25" region: us-east-1
availabilityZones: - us-east-1a - us-east-1b - us-east-1c - us-east-1d
managedNodeGroups: - name: sys instanceType: m5.xlarge desiredCapacity: 1 iam: withAddonPolicies: autoScaler: true cloudWatch: true - name: g5 instanceType: g5.2xlarge instancePrefix: g5-2xl privateNetworking: true efaEnabled: false minSize: 0 desiredCapacity: 1 maxSize: 10 volumeSize: 80 iam: withAddonPolicies: cloudWatch: true
iam: withOIDC: true

Para crear el clúster, ejecute el siguiente comando en el contenedor

./eks-create.sh

El resultado es el siguiente:

root@e5ecb162812f:/eks# ./eks-create.sh /eks/impl/eksctl/yaml /eks ./eks-create.sh Mon May 22 20:50:59 UTC 2023
Creating cluster using /eks/conf/eksctl/yaml/eks-gpu-g5.yaml ... eksctl create cluster -f /eks/conf/eksctl/yaml/eks-gpu-g5.yaml 2023-05-22 20:50:59 [ℹ] eksctl version 0.133.0
2023-05-22 20:50:59 [ℹ] using region us-east-1
2023-05-22 20:50:59 [ℹ] subnets for us-east-1a - public:192.168.0.0/19 private:192.168.128.0/19
2023-05-22 20:50:59 [ℹ] subnets for us-east-1b - public:192.168.32.0/19 private:192.168.160.0/19
2023-05-22 20:50:59 [ℹ] subnets for us-east-1c - public:192.168.64.0/19 private:192.168.192.0/19
2023-05-22 20:50:59 [ℹ] subnets for us-east-1d - public:192.168.96.0/19 private:192.168.224.0/19
2023-05-22 20:50:59 [ℹ] nodegroup "sys" will use "" [AmazonLinux2/1.25]
2023-05-22 20:50:59 [ℹ] nodegroup "g5" will use "" [AmazonLinux2/1.25]
2023-05-22 20:50:59 [ℹ] using Kubernetes version 1.25
2023-05-22 20:50:59 [ℹ] creating EKS cluster "do-eks-yaml-g5" in "us-east-1" region with managed nodes
2023-05-22 20:50:59 [ℹ] 2 nodegroups (g5, sys) were included (based on the include/exclude rules)
2023-05-22 20:50:59 [ℹ] will create a CloudFormation stack for cluster itself and 0 nodegroup stack(s)
2023-05-22 20:50:59 [ℹ] will create a CloudFormation stack for cluster itself and 2 managed nodegroup stack(s)
2023-05-22 20:50:59 [ℹ] if you encounter any issues, check CloudFormation console or try 'eksctl utils describe-stacks --region=us-east-1 --cluster=do-eks-yaml-g5'
2023-05-22 20:50:59 [ℹ] Kubernetes API endpoint access will use default of {publicAccess=true, privateAccess=false} for cluster "do-eks-yaml-g5" in "us-east-1"
2023-05-22 20:50:59 [ℹ] CloudWatch logging will not be enabled for cluster "do-eks-yaml-g5" in "us-east-1"
2023-05-22 20:50:59 [ℹ] you can enable it with 'eksctl utils update-cluster-logging --enable-types={SPECIFY-YOUR-LOG-TYPES-HERE (e.g. all)} --region=us-east-1 --cluster=do-eks-yaml-g5'
2023-05-22 20:50:59 [ℹ] 2 sequential tasks: { create cluster control plane "do-eks-yaml-g5", 2 sequential sub-tasks: { 4 sequential sub-tasks: { wait for control plane to become ready, associate IAM OIDC provider, 2 sequential sub-tasks: { create IAM role for serviceaccount "kube-system/aws-node", create serviceaccount "kube-system/aws-node", }, restart daemonset "kube-system/aws-node", }, 2 parallel sub-tasks: { create managed nodegroup "sys", create managed nodegroup "g5", }, } }
2023-05-22 20:50:59 [ℹ] building cluster stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:51:00 [ℹ] deploying stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:51:30 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:52:00 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:53:01 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:54:01 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:55:01 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:56:02 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:57:02 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:58:02 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:59:02 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:00:03 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:01:03 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:02:03 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:03:04 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:05:07 [ℹ] building iamserviceaccount stack "eksctl-do-eks-yaml-g5-addon-iamserviceaccount-kube-system-aws-node"
2023-05-22 21:05:10 [ℹ] deploying stack "eksctl-do-eks-yaml-g5-addon-iamserviceaccount-kube-system-aws-node"
2023-05-22 21:05:10 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-addon-iamserviceaccount-kube-system-aws-node"
2023-05-22 21:05:40 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-addon-iamserviceaccount-kube-system-aws-node"
2023-05-22 21:05:40 [ℹ] serviceaccount "kube-system/aws-node" already exists
2023-05-22 21:05:41 [ℹ] updated serviceaccount "kube-system/aws-node"
2023-05-22 21:05:41 [ℹ] daemonset "kube-system/aws-node" restarted
2023-05-22 21:05:41 [ℹ] building managed nodegroup stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:05:41 [ℹ] building managed nodegroup stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:05:42 [ℹ] deploying stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:05:42 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:05:42 [ℹ] deploying stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:05:42 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:06:12 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:06:12 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:06:55 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:07:11 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:08:29 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:08:45 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:09:52 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:09:53 [ℹ] waiting for the control plane to become ready
2023-05-22 21:09:53 [✔] saved kubeconfig as "/root/.kube/config"
2023-05-22 21:09:53 [ℹ] 1 task: { install Nvidia device plugin }
W0522 21:09:54.155837 1668 warnings.go:70] spec.template.metadata.annotations[scheduler.alpha.kubernetes.io/critical-pod]: non-functional in v1.16+; use the "priorityClassName" field instead
2023-05-22 21:09:54 [ℹ] created "kube-system:DaemonSet.apps/nvidia-device-plugin-daemonset"
2023-05-22 21:09:54 [ℹ] as you are using the EKS-Optimized Accelerated AMI with a GPU-enabled instance type, the Nvidia Kubernetes device plugin was automatically installed. to skip installing it, use --install-nvidia-plugin=false.
2023-05-22 21:09:54 [✔] all EKS cluster resources for "do-eks-yaml-g5" have been created
2023-05-22 21:09:54 [ℹ] nodegroup "sys" has 1 node(s)
2023-05-22 21:09:54 [ℹ] node "ip-192-168-18-137.ec2.internal" is ready
2023-05-22 21:09:54 [ℹ] waiting for at least 1 node(s) to become ready in "sys"
2023-05-22 21:09:54 [ℹ] nodegroup "sys" has 1 node(s)
2023-05-22 21:09:54 [ℹ] node "ip-192-168-18-137.ec2.internal" is ready
2023-05-22 21:09:55 [ℹ] kubectl command should work with "/root/.kube/config", try 'kubectl get nodes'
2023-05-22 21:09:55 [✔] EKS cluster "do-eks-yaml-g5" in "us-east-1" region is ready Mon May 22 21:09:55 UTC 2023
Done creating cluster using /eks/conf/eksctl/yaml/eks-gpu-g5.yaml /eks

Para verificar que su clúster se haya creado correctamente, ejecute el siguiente comando

kubectl get nodes -L node.kubernetes.io/instance-type

El resultado es similar al siguiente:

NAME STATUS ROLES AGE VERSION INSTANCE_TYPE
ip-192-168-18-137.ec2.internal Ready <none> 47m v1.25.9-eks-0a21954 m5.xlarge
ip-192-168-214-241.ec2.internal Ready <none> 46m v1.25.9-eks-0a21954 g5.2xlarge

En este ejemplo, tenemos una instancia m5.xlarge y una g5.2xlarge en nuestro clúster; por lo tanto, vemos dos nodos enumerados en el resultado anterior.

Durante el proceso de creación del clúster, se instalará el complemento del dispositivo NVIDIA. Deberá eliminarlo después de la creación del clúster porque usaremos el Operador de GPU NVIDIA preferiblemente.

Elimine el complemento con el siguiente comando

kubectl -n kube-system delete daemonset nvidia-device-plugin-daemonset

Obtenemos el siguiente resultado:

daemonset.apps "nvidia-device-plugin-daemonset" deleted

Instale el repositorio de NVIDIA Helm

Instale el repositorio de NVIDIA Helm con el siguiente comando:

helm repo add nvidia https://helm.ngc.nvidia.com/nvidia && helm repo update

Implemente el exportador DCGM con el operador de GPU NVIDIA

Para implementar el exportador DCGM, complete los siguientes pasos:

Prepare la configuración de métricas de GPU del exportador DCGM

curl https://raw.githubusercontent.com/NVIDIA/dcgm-exporter/main/etc/dcp-metrics-included.csv > dcgm-metrics.csv

Tienes la opción de editar el dcgm-metrics.csv archivo. Puede agregar o eliminar cualquier métrica según sea necesario.

Cree el espacio de nombres gpu-operator y el ConfigMap del exportador DCGM

kubectl create namespace gpu-operator && /
kubectl create configmap metrics-config -n gpu-operator --from-file=dcgm-metrics.csv

El resultado es el siguiente:

namespace/gpu-operator created
configmap/metrics-config created

Aplicar el operador de GPU al clúster EKS

helm install --wait --generate-name -n gpu-operator --create-namespace nvidia/gpu-operator --set dcgmExporter.config.name=metrics-config --set dcgmExporter.env[0].name=DCGM_EXPORTER_COLLECTORS --set dcgmExporter.env[0].value=/etc/dcgm-exporter/dcgm-metrics.csv --set toolkit.enabled=false

El resultado es el siguiente:

NAME: gpu-operator-1684795140
LAST DEPLOYED: Day Month Date HH:mm:ss YYYY
NAMESPACE: gpu-operator
STATUS: deployed
REVISION: 1
TEST SUITE: None

Confirme que el módulo exportador DCGM se esté ejecutando

kubectl -n gpu-operator get pods | grep dcgm

El resultado es el siguiente:

nvidia-dcgm-exporter-lkmfr       1/1     Running    0   1m

Si inspecciona los registros, debería ver el “Starting webserver” mensaje:

kubectl -n gpu-operator logs -f $(kubectl -n gpu-operator get pods | grep dcgm | cut -d ' ' -f 1)

El resultado es el siguiente:

Defaulted container "nvidia-dcgm-exporter" out of: nvidia-dcgm-exporter, toolkit-validation (init)
time="2023-05-22T22:40:08Z" level=info msg="Starting dcgm-exporter"
time="2023-05-22T22:40:08Z" level=info msg="DCGM successfully initialized!"
time="2023-05-22T22:40:08Z" level=info msg="Collecting DCP Metrics"
time="2023-05-22T22:40:08Z" level=info msg="No configmap data specified, falling back to metric file /etc/dcgm-exporter/dcgm-metrics.csv"
time="2023-05-22T22:40:08Z" level=info msg="Initializing system entities of type: GPU"
time="2023-05-22T22:40:09Z" level=info msg="Initializing system entities of type: NvSwitch"
time="2023-05-22T22:40:09Z" level=info msg="Not collecting switch metrics: no switches to monitor"
time="2023-05-22T22:40:09Z" level=info msg="Initializing system entities of type: NvLink"
time="2023-05-22T22:40:09Z" level=info msg="Not collecting link metrics: no switches to monitor"
time="2023-05-22T22:40:09Z" level=info msg="Kubernetes metrics collection enabled!"
time="2023-05-22T22:40:09Z" level=info msg="Pipeline starting"
time="2023-05-22T22:40:09Z" level=info msg="Starting webserver"

NVIDIA DCGM Exporter expone un punto final de métricas de Prometheus, que el agente de CloudWatch puede incorporar. Para ver el punto final, utilice el siguiente comando:

kubectl -n gpu-operator get services | grep dcgm

Obtenemos el siguiente resultado:

nvidia-dcgm-exporter    ClusterIP   10.100.183.207   <none>   9400/TCP   10m

Para generar cierta utilización de GPU, implementamos un pod que ejecuta el quemadura de gpu binario

kubectl apply -f https://raw.githubusercontent.com/aws-samples/aws-do-eks/main/Container-Root/eks/deployment/gpu-metrics/gpu-burn-deployment.yaml

El resultado es el siguiente:

deployment.apps/gpu-burn created

Esta implementación utiliza una única GPU para producir un patrón continuo de 100 % de utilización durante 20 segundos seguido de 0 % de utilización durante 20 segundos.

Para asegurarse de que el punto final funcione, puede ejecutar un contenedor temporal que use curl para leer el contenido de http://nvidia-dcgm-exporter:9400/metrics

kubectl -n gpu-operator run -it --rm curl --restart='Never' --image=curlimages/curl --command -- curl http://nvidia-dcgm-exporter:9400/metrics

Obtenemos el siguiente resultado:

# HELP DCGM_FI_DEV_SM_CLOCK SM clock frequency (in MHz).
# TYPE DCGM_FI_DEV_SM_CLOCK gauge
DCGM_FI_DEV_SM_CLOCK{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 1455
# HELP DCGM_FI_DEV_MEM_CLOCK Memory clock frequency (in MHz).
# TYPE DCGM_FI_DEV_MEM_CLOCK gauge
DCGM_FI_DEV_MEM_CLOCK{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 6250
# HELP DCGM_FI_DEV_GPU_TEMP GPU temperature (in C).
# TYPE DCGM_FI_DEV_GPU_TEMP gauge
DCGM_FI_DEV_GPU_TEMP{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 65
# HELP DCGM_FI_DEV_POWER_USAGE Power draw (in W).
# TYPE DCGM_FI_DEV_POWER_USAGE gauge
DCGM_FI_DEV_POWER_USAGE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 299.437000
# HELP DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION Total energy consumption since boot (in mJ).
# TYPE DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION counter
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 15782796862
# HELP DCGM_FI_DEV_PCIE_REPLAY_COUNTER Total number of PCIe retries.
# TYPE DCGM_FI_DEV_PCIE_REPLAY_COUNTER counter
DCGM_FI_DEV_PCIE_REPLAY_COUNTER{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_GPU_UTIL GPU utilization (in %).
# TYPE DCGM_FI_DEV_GPU_UTIL gauge
DCGM_FI_DEV_GPU_UTIL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 100
# HELP DCGM_FI_DEV_MEM_COPY_UTIL Memory utilization (in %).
# TYPE DCGM_FI_DEV_MEM_COPY_UTIL gauge
DCGM_FI_DEV_MEM_COPY_UTIL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 38
# HELP DCGM_FI_DEV_ENC_UTIL Encoder utilization (in %).
# TYPE DCGM_FI_DEV_ENC_UTIL gauge
DCGM_FI_DEV_ENC_UTIL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_DEC_UTIL Decoder utilization (in %).
# TYPE DCGM_FI_DEV_DEC_UTIL gauge
DCGM_FI_DEV_DEC_UTIL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_XID_ERRORS Value of the last XID error encountered.
# TYPE DCGM_FI_DEV_XID_ERRORS gauge
DCGM_FI_DEV_XID_ERRORS{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_FB_FREE Framebuffer memory free (in MiB).
# TYPE DCGM_FI_DEV_FB_FREE gauge
DCGM_FI_DEV_FB_FREE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 2230
# HELP DCGM_FI_DEV_FB_USED Framebuffer memory used (in MiB).
# TYPE DCGM_FI_DEV_FB_USED gauge
DCGM_FI_DEV_FB_USED{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 20501
# HELP DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL Total number of NVLink bandwidth counters for all lanes.
# TYPE DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL counter
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_VGPU_LICENSE_STATUS vGPU License status
# TYPE DCGM_FI_DEV_VGPU_LICENSE_STATUS gauge
DCGM_FI_DEV_VGPU_LICENSE_STATUS{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS Number of remapped rows for uncorrectable errors
# TYPE DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS counter
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS Number of remapped rows for correctable errors
# TYPE DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS counter
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_ROW_REMAP_FAILURE Whether remapping of rows has failed
# TYPE DCGM_FI_DEV_ROW_REMAP_FAILURE gauge
DCGM_FI_DEV_ROW_REMAP_FAILURE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_PROF_GR_ENGINE_ACTIVE Ratio of time the graphics engine is active (in %).
# TYPE DCGM_FI_PROF_GR_ENGINE_ACTIVE gauge
DCGM_FI_PROF_GR_ENGINE_ACTIVE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0.808369
# HELP DCGM_FI_PROF_PIPE_TENSOR_ACTIVE Ratio of cycles the tensor (HMMA) pipe is active (in %).
# TYPE DCGM_FI_PROF_PIPE_TENSOR_ACTIVE gauge
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0.000000
# HELP DCGM_FI_PROF_DRAM_ACTIVE Ratio of cycles the device memory interface is active sending or receiving data (in %).
# TYPE DCGM_FI_PROF_DRAM_ACTIVE gauge
DCGM_FI_PROF_DRAM_ACTIVE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0.315787
# HELP DCGM_FI_PROF_PCIE_TX_BYTES The rate of data transmitted over the PCIe bus - including both protocol headers and data payloads - in bytes per second.
# TYPE DCGM_FI_PROF_PCIE_TX_BYTES gauge
DCGM_FI_PROF_PCIE_TX_BYTES{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 3985328
# HELP DCGM_FI_PROF_PCIE_RX_BYTES The rate of data received over the PCIe bus - including both protocol headers and data payloads - in bytes per second.
# TYPE DCGM_FI_PROF_PCIE_RX_BYTES gauge
DCGM_FI_PROF_PCIE_RX_BYTES{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 21715174
pod "curl" deleted

Configurar e implementar el agente de CloudWatch

Para configurar e implementar el agente de CloudWatch, complete los siguientes pasos:

Descarga el archivo YAML y edítalo

curl -O https://raw.githubusercontent.com/aws-samples/amazon-cloudwatch-container-insights/k8s/1.3.15/k8s-deployment-manifest-templates/deployment-mode/service/cwagent-prometheus/prometheus-eks.yaml

El archivo contiene un cwagent configmap y prometheus configmap. Para esta publicación, editamos ambos.

Editar el prometheus-eks.yaml presentar

Abra la prometheus-eks.yaml archivo en su editor favorito y reemplace el cwagentconfig.json sección con el siguiente contenido:

apiVersion: v1
data: # cwagent json config cwagentconfig.json: | { "logs": { "metrics_collected": { "prometheus": { "prometheus_config_path": "/etc/prometheusconfig/prometheus.yaml", "emf_processor": { "metric_declaration": [ { "source_labels": ["Service"], "label_matcher": ".*dcgm.*", "dimensions": [["Service","Namespace","ClusterName","job","pod"]], "metric_selectors": [ "^DCGM_FI_DEV_GPU_UTIL$", "^DCGM_FI_DEV_DEC_UTIL$", "^DCGM_FI_DEV_ENC_UTIL$", "^DCGM_FI_DEV_MEM_CLOCK$", "^DCGM_FI_DEV_MEM_COPY_UTIL$", "^DCGM_FI_DEV_POWER_USAGE$", "^DCGM_FI_DEV_ROW_REMAP_FAILURE$", "^DCGM_FI_DEV_SM_CLOCK$", "^DCGM_FI_DEV_XID_ERRORS$", "^DCGM_FI_PROF_DRAM_ACTIVE$", "^DCGM_FI_PROF_GR_ENGINE_ACTIVE$", "^DCGM_FI_PROF_PCIE_RX_BYTES$", "^DCGM_FI_PROF_PCIE_TX_BYTES$", "^DCGM_FI_PROF_PIPE_TENSOR_ACTIVE$" ] } ] } } }, "force_flush_interval": 5 } }

En prometheus sección de configuración, agregue la siguiente definición de trabajo para el exportador DCGM

- job_name: 'kubernetes-pod-dcgm-exporter' sample_limit: 10000 metrics_path: /api/v1/metrics/prometheus kubernetes_sd_configs: - role: pod relabel_configs: - source_labels: [__meta_kubernetes_pod_container_name] action: keep regex: '^DCGM.*$' - source_labels: [__address__] action: replace regex: ([^:]+)(?::d+)? replacement: ${1}:9400 target_label: __address__ - action: labelmap regex: __meta_kubernetes_pod_label_(.+) - action: replace source_labels: - __meta_kubernetes_namespace target_label: Namespace - source_labels: [__meta_kubernetes_pod] action: replace target_label: pod - action: replace source_labels: - __meta_kubernetes_pod_container_name target_label: container_name - action: replace source_labels: - __meta_kubernetes_pod_controller_name target_label: pod_controller_name - action: replace source_labels: - __meta_kubernetes_pod_controller_kind target_label: pod_controller_kind - action: replace source_labels: - __meta_kubernetes_pod_phase target_label: pod_phase - action: replace source_labels: - __meta_kubernetes_pod_node_name target_label: NodeName

Guarde el archivo y aplique el cwagent-dcgm configuración de su cluster

kubectl apply -f ./prometheus-eks.yaml

Obtenemos el siguiente resultado:

namespace/amazon-cloudwatch created
configmap/prometheus-cwagentconfig created
configmap/prometheus-config created
serviceaccount/cwagent-prometheus created
clusterrole.rbac.authorization.k8s.io/cwagent-prometheus-role created
clusterrolebinding.rbac.authorization.k8s.io/cwagent-prometheus-role-binding created
deployment.apps/cwagent-prometheus created

Confirme que el pod del agente de CloudWatch se está ejecutando

kubectl -n amazon-cloudwatch get pods

Obtenemos el siguiente resultado:

NAME READY STATUS RESTARTS AGE
cwagent-prometheus-7dfd69cc46-s4cx7 1/1 Running 0 15m

Visualice métricas en la consola de CloudWatch

Para visualizar las métricas en CloudWatch, complete los siguientes pasos:

En la consola de CloudWatch, debajo de Métrica en el panel de navegación, elija Todas las métricas
En Espacios de nombres personalizados sección, elija la nueva entrada para ContainerInsights/Prometeo

Para obtener más información acerca de la ContainerInsights/Prometeo espacio de nombres, consulte Eliminación de fuentes adicionales de Prometheus e importación de esas métricas.

CloudWatch - ContainerInsights/Prometeus

Profundice en los nombres de las métricas y elija DCGM_FI_DEV_GPU_UTIL
En Métricas graficadas pestaña, establecer periodo a 5 segundos

CloudWatch: configuración de período

Establezca el intervalo de actualización en 10 segundos

Verá las métricas recopiladas del exportador DCGM que visualizan el gpu-burn patrón encendido y apagado cada 20 segundos.

CloudWatch - patrón gpuburn

En Explorar , puede ver los datos, incluido el nombre del pod para cada métrica.

CloudWatch: nombre del pod para la métrica

Los metadatos de la API de EKS se combinaron con los datos de métricas de DCGM, lo que dio como resultado las métricas de GPU basadas en pod proporcionadas.

Con esto concluye el primer enfoque de exportar métricas de DCGM a CloudWatch a través del agente de CloudWatch.

En la siguiente sección, configuramos la segunda arquitectura, que exporta las métricas DCGM a Prometheus y las visualizamos con Grafana.

Utilice Prometheus y Grafana para visualizar métricas de GPU de DCGM

Complete los siguientes pasos:

Agregue el gráfico de timón de la comunidad de Prometheus

helm repo add prometheus-community https://prometheus-community.github.io/helm-charts

Este gráfico implementa tanto Prometheus como Grafana. Necesitamos realizar algunas modificaciones en el gráfico antes de ejecutar el comando de instalación.

Guarde los valores de configuración del gráfico en un archivo en /tmp

helm inspect values prometheus-community/kube-prometheus-stack > /tmp/kube-prometheus-stack.values

Editar el archivo de configuración de caracteres

Edite el archivo guardado (/tmp/kube-prometheus-stack.values) y configure la siguiente opción buscando el nombre de la configuración y estableciendo el valor:

prometheus.prometheusSpec.serviceMonitorSelectorNilUsesHelmValues=false

Agregue el siguiente ConfigMap al additionalScrapeConfigs .

additionalScrapeConfigs:
- job_name: gpu-metrics scrape_interval: 1s metrics_path: /metrics scheme: http kubernetes_sd_configs: - role: endpoints namespaces: names: - gpu-operator relabel_configs: - source_labels: [__meta_kubernetes_pod_node_name] action: replace target_label: kubernetes_node

Implementar la pila de Prometheus con los valores actualizados

helm install prometheus-community/kube-prometheus-stack 
--create-namespace --namespace prometheus 
--generate-name 
--values /tmp/kube-prometheus-stack.values

Obtenemos el siguiente resultado:

NAME: kube-prometheus-stack-1684965548
LAST DEPLOYED: Wed May 24 21:59:14 2023
NAMESPACE: prometheus
STATUS: deployed
REVISION: 1
NOTES:
kube-prometheus-stack has been installed. Check its status by running: kubectl --namespace prometheus get pods -l "release=kube-prometheus-stack-1684965548" Visit https://github.com/prometheus-operator/kube-prometheus for instructions on how to create & configure Alertmanager and Prometheus instances using the Operator.

Confirme que las cápsulas Prometheus se estén ejecutando

kubectl get pods -n prometheus

Obtenemos el siguiente resultado:

NAME READY STATUS RESTARTS AGE
alertmanager-kube-prometheus-stack-1684-alertmanager-0 2/2 Running 0 6m55s
kube-prometheus-stack-1684-operator-6c87649878-j7v55 1/1 Running 0 6m58s
kube-prometheus-stack-1684965548-grafana-dcd7b4c96-bzm8p 3/3 Running 0 6m58s
kube-prometheus-stack-1684965548-kube-state-metrics-7d856dptlj5 1/1 Running 0 6m58s
kube-prometheus-stack-1684965548-prometheus-node-exporter-2fbl5 1/1 Running 0 6m58s
kube-prometheus-stack-1684965548-prometheus-node-exporter-m7zmv 1/1 Running 0 6m58s
prometheus-kube-prometheus-stack-1684-prometheus-0 2/2 Running 0 6m55s

Las vainas de Prometheus y Grafana están en el Running estado.

A continuación, validamos que las métricas de DCGM estén fluyendo hacia Prometheus.

Reenvíe el puerto de la interfaz de usuario de Prometheus

Hay diferentes formas de exponer la interfaz de usuario de Prometheus que se ejecuta en EKS a solicitudes que se originan fuera del clúster. Usaremos kubectl port-forwarding. Hasta ahora, hemos estado ejecutando comandos dentro del aws-do-eks envase. Para acceder al servicio Prometheus que se ejecuta en el clúster, crearemos un túnel desde el host. Aquí el aws-do-eks El contenedor se ejecuta ejecutando el siguiente comando fuera del contenedor, en un nuevo shell de terminal en el host. Nos referiremos a esto como "shell de host".

kubectl -n prometheus port-forward svc/$(kubectl -n prometheus get svc | grep prometheus | grep -v alertmanager | grep -v operator | grep -v grafana | grep -v metrics | grep -v exporter | grep -v operated | cut -d ' ' -f 1) 8080:9090 &

Mientras se ejecuta el proceso de reenvío de puertos, podemos acceder a la interfaz de usuario de Prometheus desde el host como se describe a continuación.

Abra la interfaz de usuario de Prometheus
- Si está utilizando Cloud9, navegue hasta Preview->Preview Running Application para abrir la interfaz de usuario de Prometheus en una pestaña dentro del IDE de Cloud9, luego haga clic en el icono en la esquina superior derecha de la pestaña para que aparezca en una nueva ventana.
- Si está en su host local o conectado a una instancia EC2 a través de un escritorio remoto, abra un navegador y visite la URL http://localhost:8080.

Prometeo - Métricas DCGM

Participar DCGM para ver las métricas de DCGM que están fluyendo hacia Prometheus
Seleccione DCGM_FI_DEV_GPU_UTIL, escoger Implementacióny, a continuación, navegue hasta la Gráfico pestaña para ver el patrón de utilización de GPU esperado

Prometeo - patrón gpuburn

Detener el proceso de reenvío de puertos de Prometheus

Ejecute la siguiente línea de comando en su shell de host:

kill -9 $(ps -aef | grep port-forward | grep -v grep | grep prometheus | awk '{print $2}')

Ahora podemos visualizar las métricas de DCGM a través de Grafana Dashboard.

Recupere la contraseña para iniciar sesión en la interfaz de usuario de Grafana

kubectl -n prometheus get secret $(kubectl -n prometheus get secrets | grep grafana | cut -d ' ' -f 1) -o jsonpath="{.data.admin-password}" | base64 --decode ; echo

Reenvío de puertos del servicio Grafana

Ejecute la siguiente línea de comando en su shell de host:

kubectl port-forward -n prometheus svc/$(kubectl -n prometheus get svc | grep grafana | cut -d ' ' -f 1) 8080:80 &

Inicie sesión en la interfaz de usuario de Grafana

Acceda a la pantalla de inicio de sesión de la UI de Grafana de la misma manera que accedió a la UI de Prometheus anteriormente. Si usa Cloud9, seleccione Preview->Preview Running Applicationy luego aparecerá en una nueva ventana. Si utiliza su host local o una instancia EC2 con escritorio remoto, visite la URL http://localhost:8080. Inicie sesión con el nombre de usuario admin y la contraseña que recuperó anteriormente.

Grafana - iniciar sesión

En el panel de navegación, elija Cuadros de mando

Grafana - paneles de control

Elige Nuevo y Importa

Grafana - cargar por identificación desde grafana.com
Vamos a importar el panel predeterminado de DCGM Grafana descrito en Panel de control del exportador NVIDIA DCGM.

En el campo import via grafana.com, introduzca 12239 y elige Carga
Elige Prometeo como fuente de datos
Elige Importa

Grafana - panel de importación

Verá un panel similar al de la siguiente captura de pantalla.

Grafana - panel de control

Para demostrar que estas métricas están basadas en pods, vamos a modificar el Utilización de GPU panel en este panel.

Elija el panel y el menú de opciones (tres puntos)
Ampliar la opción Opciones sección y editar la Leyenda campo
Reemplace el valor allí con Pod {{pod}}, A continuación, elija Guardar

Grafana: métrica basada en pods
La leyenda ahora muestra el gpu-burn Nombre del pod asociado con la utilización de GPU mostrada.

Detener el reenvío de puertos del servicio Grafana UI

Ejecute lo siguiente en su shell de host:

kill -9 $(ps -aef | grep port-forward | grep -v grep | grep prometheus | awk '{print $2}')

En esta publicación, demostramos el uso de Prometheus y Grafana de código abierto implementados en el clúster EKS. Si lo desea, esta implementación se puede sustituir por Servicio administrado de Amazon para Prometheus y Grafana gestionado por Amazon.

Limpiar

Para limpiar los recursos que creó, ejecute el siguiente script desde el aws-do-eks cáscara del contenedor:

./eks-delete.sh

Conclusión

En esta publicación, utilizamos NVIDIA DCGM Exporter para recopilar métricas de GPU y visualizarlas con CloudWatch o Prometheus y Grafana. Lo invitamos a utilizar las arquitecturas que se muestran aquí para permitir el monitoreo de la utilización de GPU con NVIDIA DCGM en su propio entorno de AWS.

Recursos adicionales

Sobre los autores

Habilite las métricas de GPU basadas en pods en Amazon CloudWatch | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai. amr ragab Es ex arquitecto principal de soluciones de EC2 Accelerated Computing en AWS. Se dedica a ayudar a los clientes a ejecutar cargas de trabajo computacionales a escala. En su tiempo libre le gusta viajar y encontrar nuevas formas de integrar la tecnología en la vida diaria.

Alex Iankoulski es arquitecto principal de soluciones y aprendizaje automático autogestionado en AWS. Es un ingeniero de infraestructura y software completo al que le gusta hacer un trabajo profundo y práctico. En su puesto, se centra en ayudar a los clientes con la contenerización y la orquestación de cargas de trabajo de aprendizaje automático e inteligencia artificial en servicios de AWS basados en contenedores. También es el autor del libro de código abierto. hacer marco y un capitán de Docker al que le encanta aplicar tecnologías de contenedores para acelerar el ritmo de la innovación mientras resuelve los mayores desafíos del mundo. Durante los últimos 10 años, Alex ha trabajado para democratizar la IA y el aprendizaje automático, combatir el cambio climático y hacer que los viajes sean más seguros, la atención médica sea mejor y la energía sea más inteligente.

Habilite las métricas de GPU basadas en pods en Amazon CloudWatch | Amazon Web Services PlatoBlockchain Inteligencia de datos. Búsqueda vertical. Ai. Keita Watanabe es arquitecto de soluciones senior de Frameworks ML Solutions en Amazon Web Services, donde ayuda a desarrollar las mejores soluciones de aprendizaje automático autogestionadas basadas en la nube de la industria. Su experiencia es en investigación y desarrollo de aprendizaje automático. Antes de unirse a AWS, Keita trabajaba en la industria del comercio electrónico. Keita tiene un doctorado. en Ciencias de la Universidad de Tokio.

Distribución de relaciones públicas y contenido potenciado por SEO. Consiga amplificado hoy.
PlatoData.Network Vertical Generativo Ai. Empodérate. Accede Aquí.
PlatoAiStream. Inteligencia Web3. Conocimiento amplificado. Accede Aquí.
PlatoESG. Automoción / vehículos eléctricos, Carbón, tecnología limpia, Energía, Ambiente, Solar, Gestión de residuos. Accede Aquí.
PlatoSalud. Inteligencia en Biotecnología y Ensayos Clínicos. Accede Aquí.
ChartPrime. Eleve su juego comercial con ChartPrime. Accede Aquí.
Desplazamientos de bloque. Modernización de la propiedad de compensaciones ambientales. Accede Aquí.
Fuente: https://aws.amazon.com/blogs/machine-learning/enable-pod-based-gpu-metrics-in-amazon-cloudwatch/

Sello de tiempo: 7 de septiembre de 2023

Sello de tiempo: 8 de junio de 2023

Reeditado por Platón

Cómo The Chefz sirve la comida perfecta con Amazon Personalize

Amazon SageMaker integrado LightGBM ahora ofrece capacitación distribuida usando Dask

Cómo BigBasket mejoró el proceso de pago habilitado por IA en sus tiendas físicas utilizando Amazon SageMaker | Servicios web de Amazon

Aumente las transacciones fraudulentas utilizando datos sintéticos en Amazon SageMaker

Mejore la precisión de la transcripción de las llamadas entre clientes y agentes con vocabulario personalizado en Amazon Transcribe

Sobre Nosotros

Búsqueda vertical y Ai

Productos

Manténganse Conectados

Mi Cuenta