Habilite métricas de GPU baseadas em pod no Amazon CloudWatch

Republicado por Platão

seguidores: 0

Em fevereiro de 2022, Amazon Web Services adicionou suporte para métricas de GPU NVIDIA no Amazon CloudWatch, tornando possível enviar métricas do Agente Amazon CloudWatch para Amazon CloudWatch e monitore seu código para obter a utilização ideal da GPU. Desde então, esse recurso foi integrado a muitas de nossas Amazon Machine Images (AMIs) gerenciadas, como o AMI de aprendizado profundo e os votos de AWS ParallelCluster AMI. Para obter métricas de utilização de GPU em nível de instância, você pode usar o Packer ou o Amazon ImageBuilder para inicializar sua própria AMI personalizada e usá-la em várias ofertas de serviços gerenciados, como Lote da AWS, Serviço Amazon Elastic Container (Amazon ECS) ou Serviço Amazon Elastic Kubernetes (Amazon EKS). No entanto, para muitas ofertas de serviços e cargas de trabalho baseadas em contêineres, é ideal capturar métricas de utilização no nível do contêiner, do pod ou do namespace.

Esta postagem detalha como configurar métricas de GPU baseadas em contêiner e fornece um exemplo de coleta dessas métricas de pods EKS.

Visão geral da solução

Para demonstrar métricas de GPU baseadas em contêiner, criamos um cluster EKS com g5.2xlarge instâncias; no entanto, isso funcionará com qualquer família de instâncias aceleradas NVIDIA suportadas.

Implementamos o operador de GPU NVIDIA para permitir o uso de recursos de GPU e o Exportador NVIDIA DCGM para ativar a coleta de métricas de GPU. Em seguida, exploramos duas arquiteturas. O primeiro conecta as métricas do NVIDIA DCGM Exporter ao CloudWatch por meio de um agente CloudWatch, conforme mostrado no diagrama a seguir.

Arquitetura de monitoramento de GPU com CloudWatch

A segunda arquitetura (veja o diagrama a seguir) conecta as métricas do DCGM Exporter ao Prometeu, então usamos um grafana painel para visualizar essas métricas.

Arquitetura de monitoramento de GPU com Grafana

Pré-requisitos

Para simplificar a reprodução de toda a pilha deste post, usamos um contêiner que possui todas as ferramentas necessárias (aws cli, eksctl, helm, etc.) já instaladas. Para clonar o projeto de contêiner do GitHubvocê precisará git. Para construir e executar o contêiner, você precisará Estivador. Para implantar a arquitetura, você precisará Credenciais da AWS. Para permitir o acesso aos serviços Kubernetes usando encaminhamento de porta, você também precisará kubectl.

Esses pré-requisitos podem ser instalados em sua máquina local, instância EC2 de AGRADÁVEL DCVou Nuvem AWS9. Neste post usaremos um c5.2xlarge Instância Cloud9 com um 40GB volume de armazenamento local. Ao usar o Cloud9, desative as credenciais temporárias gerenciadas pela AWS visitando Cloud9->Preferences->AWS Settings conforme mostrado na imagem abaixo.

Habilite métricas de GPU baseadas em pod no Amazon CloudWatch | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai.

Crie e execute o contêiner aws-do-eks

Abra um terminal em seu ambiente preferido e execute os seguintes comandos:

git clone https://github.com/aws-samples/aws-do-eks
cd aws-do-eks
./build.sh
./run.sh
./exec.sh

O resultado é o seguinte:

root@e5ecb162812f:/eks#

Agora você tem um shell em um ambiente de contêiner que possui todas as ferramentas necessárias para concluir as tarefas abaixo. Iremos nos referir a ele como “shell aws-do-eks”. Você executará os comandos nas seções a seguir neste shell, a menos que seja especificamente instruído de outra forma.

Crie um cluster EKS com um grupo de nós

Este grupo inclui uma família de instâncias de GPU de sua escolha; neste exemplo, usamos o g5.2xlarge tipo de instância.

A projeto aws-do-eks vem com uma coleção de configurações de cluster. Você pode definir a configuração de cluster desejada com uma única alteração de configuração.

No shell do contêiner, execute ./env-config.sh e depois defina CONF=conf/eksctl/yaml/eks-gpu-g5.yaml
Para verificar a configuração do cluster, execute ./eks-config.sh

Você deverá ver o seguinte manifesto do cluster:

apiVersion: eksctl.io/v1alpha5
kind: ClusterConfig
metadata: name: do-eks-yaml-g5 version: "1.25" region: us-east-1
availabilityZones: - us-east-1a - us-east-1b - us-east-1c - us-east-1d
managedNodeGroups: - name: sys instanceType: m5.xlarge desiredCapacity: 1 iam: withAddonPolicies: autoScaler: true cloudWatch: true - name: g5 instanceType: g5.2xlarge instancePrefix: g5-2xl privateNetworking: true efaEnabled: false minSize: 0 desiredCapacity: 1 maxSize: 10 volumeSize: 80 iam: withAddonPolicies: cloudWatch: true
iam: withOIDC: true

Para criar o cluster, execute o seguinte comando no contêiner

./eks-create.sh

O resultado é o seguinte:

root@e5ecb162812f:/eks# ./eks-create.sh /eks/impl/eksctl/yaml /eks ./eks-create.sh Mon May 22 20:50:59 UTC 2023
Creating cluster using /eks/conf/eksctl/yaml/eks-gpu-g5.yaml ... eksctl create cluster -f /eks/conf/eksctl/yaml/eks-gpu-g5.yaml 2023-05-22 20:50:59 [ℹ] eksctl version 0.133.0
2023-05-22 20:50:59 [ℹ] using region us-east-1
2023-05-22 20:50:59 [ℹ] subnets for us-east-1a - public:192.168.0.0/19 private:192.168.128.0/19
2023-05-22 20:50:59 [ℹ] subnets for us-east-1b - public:192.168.32.0/19 private:192.168.160.0/19
2023-05-22 20:50:59 [ℹ] subnets for us-east-1c - public:192.168.64.0/19 private:192.168.192.0/19
2023-05-22 20:50:59 [ℹ] subnets for us-east-1d - public:192.168.96.0/19 private:192.168.224.0/19
2023-05-22 20:50:59 [ℹ] nodegroup "sys" will use "" [AmazonLinux2/1.25]
2023-05-22 20:50:59 [ℹ] nodegroup "g5" will use "" [AmazonLinux2/1.25]
2023-05-22 20:50:59 [ℹ] using Kubernetes version 1.25
2023-05-22 20:50:59 [ℹ] creating EKS cluster "do-eks-yaml-g5" in "us-east-1" region with managed nodes
2023-05-22 20:50:59 [ℹ] 2 nodegroups (g5, sys) were included (based on the include/exclude rules)
2023-05-22 20:50:59 [ℹ] will create a CloudFormation stack for cluster itself and 0 nodegroup stack(s)
2023-05-22 20:50:59 [ℹ] will create a CloudFormation stack for cluster itself and 2 managed nodegroup stack(s)
2023-05-22 20:50:59 [ℹ] if you encounter any issues, check CloudFormation console or try 'eksctl utils describe-stacks --region=us-east-1 --cluster=do-eks-yaml-g5'
2023-05-22 20:50:59 [ℹ] Kubernetes API endpoint access will use default of {publicAccess=true, privateAccess=false} for cluster "do-eks-yaml-g5" in "us-east-1"
2023-05-22 20:50:59 [ℹ] CloudWatch logging will not be enabled for cluster "do-eks-yaml-g5" in "us-east-1"
2023-05-22 20:50:59 [ℹ] you can enable it with 'eksctl utils update-cluster-logging --enable-types={SPECIFY-YOUR-LOG-TYPES-HERE (e.g. all)} --region=us-east-1 --cluster=do-eks-yaml-g5'
2023-05-22 20:50:59 [ℹ] 2 sequential tasks: { create cluster control plane "do-eks-yaml-g5", 2 sequential sub-tasks: { 4 sequential sub-tasks: { wait for control plane to become ready, associate IAM OIDC provider, 2 sequential sub-tasks: { create IAM role for serviceaccount "kube-system/aws-node", create serviceaccount "kube-system/aws-node", }, restart daemonset "kube-system/aws-node", }, 2 parallel sub-tasks: { create managed nodegroup "sys", create managed nodegroup "g5", }, } }
2023-05-22 20:50:59 [ℹ] building cluster stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:51:00 [ℹ] deploying stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:51:30 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:52:00 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:53:01 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:54:01 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:55:01 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:56:02 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:57:02 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:58:02 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:59:02 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:00:03 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:01:03 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:02:03 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:03:04 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:05:07 [ℹ] building iamserviceaccount stack "eksctl-do-eks-yaml-g5-addon-iamserviceaccount-kube-system-aws-node"
2023-05-22 21:05:10 [ℹ] deploying stack "eksctl-do-eks-yaml-g5-addon-iamserviceaccount-kube-system-aws-node"
2023-05-22 21:05:10 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-addon-iamserviceaccount-kube-system-aws-node"
2023-05-22 21:05:40 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-addon-iamserviceaccount-kube-system-aws-node"
2023-05-22 21:05:40 [ℹ] serviceaccount "kube-system/aws-node" already exists
2023-05-22 21:05:41 [ℹ] updated serviceaccount "kube-system/aws-node"
2023-05-22 21:05:41 [ℹ] daemonset "kube-system/aws-node" restarted
2023-05-22 21:05:41 [ℹ] building managed nodegroup stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:05:41 [ℹ] building managed nodegroup stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:05:42 [ℹ] deploying stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:05:42 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:05:42 [ℹ] deploying stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:05:42 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:06:12 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:06:12 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:06:55 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:07:11 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:08:29 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:08:45 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:09:52 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:09:53 [ℹ] waiting for the control plane to become ready
2023-05-22 21:09:53 [✔] saved kubeconfig as "/root/.kube/config"
2023-05-22 21:09:53 [ℹ] 1 task: { install Nvidia device plugin }
W0522 21:09:54.155837 1668 warnings.go:70] spec.template.metadata.annotations[scheduler.alpha.kubernetes.io/critical-pod]: non-functional in v1.16+; use the "priorityClassName" field instead
2023-05-22 21:09:54 [ℹ] created "kube-system:DaemonSet.apps/nvidia-device-plugin-daemonset"
2023-05-22 21:09:54 [ℹ] as you are using the EKS-Optimized Accelerated AMI with a GPU-enabled instance type, the Nvidia Kubernetes device plugin was automatically installed. to skip installing it, use --install-nvidia-plugin=false.
2023-05-22 21:09:54 [✔] all EKS cluster resources for "do-eks-yaml-g5" have been created
2023-05-22 21:09:54 [ℹ] nodegroup "sys" has 1 node(s)
2023-05-22 21:09:54 [ℹ] node "ip-192-168-18-137.ec2.internal" is ready
2023-05-22 21:09:54 [ℹ] waiting for at least 1 node(s) to become ready in "sys"
2023-05-22 21:09:54 [ℹ] nodegroup "sys" has 1 node(s)
2023-05-22 21:09:54 [ℹ] node "ip-192-168-18-137.ec2.internal" is ready
2023-05-22 21:09:55 [ℹ] kubectl command should work with "/root/.kube/config", try 'kubectl get nodes'
2023-05-22 21:09:55 [✔] EKS cluster "do-eks-yaml-g5" in "us-east-1" region is ready Mon May 22 21:09:55 UTC 2023
Done creating cluster using /eks/conf/eksctl/yaml/eks-gpu-g5.yaml /eks

Para verificar se seu cluster foi criado com sucesso, execute o seguinte comando

kubectl get nodes -L node.kubernetes.io/instance-type

A saída é semelhante à seguinte:

NAME STATUS ROLES AGE VERSION INSTANCE_TYPE
ip-192-168-18-137.ec2.internal Ready <none> 47m v1.25.9-eks-0a21954 m5.xlarge
ip-192-168-214-241.ec2.internal Ready <none> 46m v1.25.9-eks-0a21954 g5.2xlarge

Neste exemplo, temos uma instância m5.xlarge e uma instância g5.2xlarge em nosso cluster; portanto, vemos dois nós listados na saída anterior.

Durante o processo de criação do cluster, o plugin do dispositivo NVIDIA será instalado. Você precisará removê-lo após a criação do cluster porque usaremos o Operador de GPU NVIDIA ao invés.

Exclua o plugin com o seguinte comando

kubectl -n kube-system delete daemonset nvidia-device-plugin-daemonset

Obtemos a seguinte saída:

daemonset.apps "nvidia-device-plugin-daemonset" deleted

Instale o repositório NVIDIA Helm

Instale o repositório NVIDIA Helm com o seguinte comando:

helm repo add nvidia https://helm.ngc.nvidia.com/nvidia && helm repo update

Implante o exportador DCGM com o operador de GPU NVIDIA

Para implementar o exportador DCGM, conclua as etapas a seguir:

Preparar a configuração de métricas de GPU do exportador DCGM

curl https://raw.githubusercontent.com/NVIDIA/dcgm-exporter/main/etc/dcp-metrics-included.csv > dcgm-metrics.csv

Você tem a opção de editar o dcgm-metrics.csv arquivo. Você pode adicionar ou remover quaisquer métricas conforme necessário.

Crie o namespace gpu-operator e o exportador DCGM ConfigMap

kubectl create namespace gpu-operator && /
kubectl create configmap metrics-config -n gpu-operator --from-file=dcgm-metrics.csv

O resultado é o seguinte:

namespace/gpu-operator created
configmap/metrics-config created

Aplique o operador GPU ao cluster EKS

helm install --wait --generate-name -n gpu-operator --create-namespace nvidia/gpu-operator --set dcgmExporter.config.name=metrics-config --set dcgmExporter.env[0].name=DCGM_EXPORTER_COLLECTORS --set dcgmExporter.env[0].value=/etc/dcgm-exporter/dcgm-metrics.csv --set toolkit.enabled=false

O resultado é o seguinte:

NAME: gpu-operator-1684795140
LAST DEPLOYED: Day Month Date HH:mm:ss YYYY
NAMESPACE: gpu-operator
STATUS: deployed
REVISION: 1
TEST SUITE: None

Confirme se o pod exportador DCGM está em execução

kubectl -n gpu-operator get pods | grep dcgm

O resultado é o seguinte:

nvidia-dcgm-exporter-lkmfr       1/1     Running    0   1m

Se você inspecionar os logs, deverá ver o “Starting webserver” mensagem:

kubectl -n gpu-operator logs -f $(kubectl -n gpu-operator get pods | grep dcgm | cut -d ' ' -f 1)

O resultado é o seguinte:

Defaulted container "nvidia-dcgm-exporter" out of: nvidia-dcgm-exporter, toolkit-validation (init)
time="2023-05-22T22:40:08Z" level=info msg="Starting dcgm-exporter"
time="2023-05-22T22:40:08Z" level=info msg="DCGM successfully initialized!"
time="2023-05-22T22:40:08Z" level=info msg="Collecting DCP Metrics"
time="2023-05-22T22:40:08Z" level=info msg="No configmap data specified, falling back to metric file /etc/dcgm-exporter/dcgm-metrics.csv"
time="2023-05-22T22:40:08Z" level=info msg="Initializing system entities of type: GPU"
time="2023-05-22T22:40:09Z" level=info msg="Initializing system entities of type: NvSwitch"
time="2023-05-22T22:40:09Z" level=info msg="Not collecting switch metrics: no switches to monitor"
time="2023-05-22T22:40:09Z" level=info msg="Initializing system entities of type: NvLink"
time="2023-05-22T22:40:09Z" level=info msg="Not collecting link metrics: no switches to monitor"
time="2023-05-22T22:40:09Z" level=info msg="Kubernetes metrics collection enabled!"
time="2023-05-22T22:40:09Z" level=info msg="Pipeline starting"
time="2023-05-22T22:40:09Z" level=info msg="Starting webserver"

O NVIDIA DCGM Exporter expõe um endpoint de métricas do Prometheus, que pode ser ingerido pelo agente CloudWatch. Para ver o endpoint, use o seguinte comando:

kubectl -n gpu-operator get services | grep dcgm

Obtemos a seguinte saída:

nvidia-dcgm-exporter    ClusterIP   10.100.183.207   <none>   9400/TCP   10m

Para gerar alguma utilização da GPU, implantamos um pod que executa o queima de gpu binário

kubectl apply -f https://raw.githubusercontent.com/aws-samples/aws-do-eks/main/Container-Root/eks/deployment/gpu-metrics/gpu-burn-deployment.yaml

O resultado é o seguinte:

deployment.apps/gpu-burn created

Esta implantação usa uma única GPU para produzir um padrão contínuo de 100% de utilização por 20 segundos, seguido de 0% de utilização por 20 segundos.

Para garantir que o endpoint funcione, você pode executar um contêiner temporário que usa curl para ler o conteúdo de http://nvidia-dcgm-exporter:9400/metrics

kubectl -n gpu-operator run -it --rm curl --restart='Never' --image=curlimages/curl --command -- curl http://nvidia-dcgm-exporter:9400/metrics

Obtemos a seguinte saída:

# HELP DCGM_FI_DEV_SM_CLOCK SM clock frequency (in MHz).
# TYPE DCGM_FI_DEV_SM_CLOCK gauge
DCGM_FI_DEV_SM_CLOCK{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 1455
# HELP DCGM_FI_DEV_MEM_CLOCK Memory clock frequency (in MHz).
# TYPE DCGM_FI_DEV_MEM_CLOCK gauge
DCGM_FI_DEV_MEM_CLOCK{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 6250
# HELP DCGM_FI_DEV_GPU_TEMP GPU temperature (in C).
# TYPE DCGM_FI_DEV_GPU_TEMP gauge
DCGM_FI_DEV_GPU_TEMP{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 65
# HELP DCGM_FI_DEV_POWER_USAGE Power draw (in W).
# TYPE DCGM_FI_DEV_POWER_USAGE gauge
DCGM_FI_DEV_POWER_USAGE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 299.437000
# HELP DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION Total energy consumption since boot (in mJ).
# TYPE DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION counter
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 15782796862
# HELP DCGM_FI_DEV_PCIE_REPLAY_COUNTER Total number of PCIe retries.
# TYPE DCGM_FI_DEV_PCIE_REPLAY_COUNTER counter
DCGM_FI_DEV_PCIE_REPLAY_COUNTER{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_GPU_UTIL GPU utilization (in %).
# TYPE DCGM_FI_DEV_GPU_UTIL gauge
DCGM_FI_DEV_GPU_UTIL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 100
# HELP DCGM_FI_DEV_MEM_COPY_UTIL Memory utilization (in %).
# TYPE DCGM_FI_DEV_MEM_COPY_UTIL gauge
DCGM_FI_DEV_MEM_COPY_UTIL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 38
# HELP DCGM_FI_DEV_ENC_UTIL Encoder utilization (in %).
# TYPE DCGM_FI_DEV_ENC_UTIL gauge
DCGM_FI_DEV_ENC_UTIL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_DEC_UTIL Decoder utilization (in %).
# TYPE DCGM_FI_DEV_DEC_UTIL gauge
DCGM_FI_DEV_DEC_UTIL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_XID_ERRORS Value of the last XID error encountered.
# TYPE DCGM_FI_DEV_XID_ERRORS gauge
DCGM_FI_DEV_XID_ERRORS{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_FB_FREE Framebuffer memory free (in MiB).
# TYPE DCGM_FI_DEV_FB_FREE gauge
DCGM_FI_DEV_FB_FREE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 2230
# HELP DCGM_FI_DEV_FB_USED Framebuffer memory used (in MiB).
# TYPE DCGM_FI_DEV_FB_USED gauge
DCGM_FI_DEV_FB_USED{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 20501
# HELP DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL Total number of NVLink bandwidth counters for all lanes.
# TYPE DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL counter
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_VGPU_LICENSE_STATUS vGPU License status
# TYPE DCGM_FI_DEV_VGPU_LICENSE_STATUS gauge
DCGM_FI_DEV_VGPU_LICENSE_STATUS{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS Number of remapped rows for uncorrectable errors
# TYPE DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS counter
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS Number of remapped rows for correctable errors
# TYPE DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS counter
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_ROW_REMAP_FAILURE Whether remapping of rows has failed
# TYPE DCGM_FI_DEV_ROW_REMAP_FAILURE gauge
DCGM_FI_DEV_ROW_REMAP_FAILURE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_PROF_GR_ENGINE_ACTIVE Ratio of time the graphics engine is active (in %).
# TYPE DCGM_FI_PROF_GR_ENGINE_ACTIVE gauge
DCGM_FI_PROF_GR_ENGINE_ACTIVE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0.808369
# HELP DCGM_FI_PROF_PIPE_TENSOR_ACTIVE Ratio of cycles the tensor (HMMA) pipe is active (in %).
# TYPE DCGM_FI_PROF_PIPE_TENSOR_ACTIVE gauge
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0.000000
# HELP DCGM_FI_PROF_DRAM_ACTIVE Ratio of cycles the device memory interface is active sending or receiving data (in %).
# TYPE DCGM_FI_PROF_DRAM_ACTIVE gauge
DCGM_FI_PROF_DRAM_ACTIVE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0.315787
# HELP DCGM_FI_PROF_PCIE_TX_BYTES The rate of data transmitted over the PCIe bus - including both protocol headers and data payloads - in bytes per second.
# TYPE DCGM_FI_PROF_PCIE_TX_BYTES gauge
DCGM_FI_PROF_PCIE_TX_BYTES{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 3985328
# HELP DCGM_FI_PROF_PCIE_RX_BYTES The rate of data received over the PCIe bus - including both protocol headers and data payloads - in bytes per second.
# TYPE DCGM_FI_PROF_PCIE_RX_BYTES gauge
DCGM_FI_PROF_PCIE_RX_BYTES{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 21715174
pod "curl" deleted

Configurar e implantar o agente CloudWatch

Para configurar e implantar o agente CloudWatch, conclua as seguintes etapas:

Baixe o arquivo YAML e edite-o

curl -O https://raw.githubusercontent.com/aws-samples/amazon-cloudwatch-container-insights/k8s/1.3.15/k8s-deployment-manifest-templates/deployment-mode/service/cwagent-prometheus/prometheus-eks.yaml

O arquivo contém um cwagent configmap e de um prometheus configmap. Para esta postagem, editamos ambos.

Edite o prometheus-eks.yaml lima

Abra o prometheus-eks.yaml arquivo em seu editor favorito e substitua o cwagentconfig.json seção com o seguinte conteúdo:

apiVersion: v1
data: # cwagent json config cwagentconfig.json: | { "logs": { "metrics_collected": { "prometheus": { "prometheus_config_path": "/etc/prometheusconfig/prometheus.yaml", "emf_processor": { "metric_declaration": [ { "source_labels": ["Service"], "label_matcher": ".*dcgm.*", "dimensions": [["Service","Namespace","ClusterName","job","pod"]], "metric_selectors": [ "^DCGM_FI_DEV_GPU_UTIL$", "^DCGM_FI_DEV_DEC_UTIL$", "^DCGM_FI_DEV_ENC_UTIL$", "^DCGM_FI_DEV_MEM_CLOCK$", "^DCGM_FI_DEV_MEM_COPY_UTIL$", "^DCGM_FI_DEV_POWER_USAGE$", "^DCGM_FI_DEV_ROW_REMAP_FAILURE$", "^DCGM_FI_DEV_SM_CLOCK$", "^DCGM_FI_DEV_XID_ERRORS$", "^DCGM_FI_PROF_DRAM_ACTIVE$", "^DCGM_FI_PROF_GR_ENGINE_ACTIVE$", "^DCGM_FI_PROF_PCIE_RX_BYTES$", "^DCGM_FI_PROF_PCIE_TX_BYTES$", "^DCGM_FI_PROF_PIPE_TENSOR_ACTIVE$" ] } ] } } }, "force_flush_interval": 5 } }

No prometheus seção de configuração, anexe a seguinte definição de trabalho para o exportador DCGM

- job_name: 'kubernetes-pod-dcgm-exporter' sample_limit: 10000 metrics_path: /api/v1/metrics/prometheus kubernetes_sd_configs: - role: pod relabel_configs: - source_labels: [__meta_kubernetes_pod_container_name] action: keep regex: '^DCGM.*$' - source_labels: [__address__] action: replace regex: ([^:]+)(?::d+)? replacement: ${1}:9400 target_label: __address__ - action: labelmap regex: __meta_kubernetes_pod_label_(.+) - action: replace source_labels: - __meta_kubernetes_namespace target_label: Namespace - source_labels: [__meta_kubernetes_pod] action: replace target_label: pod - action: replace source_labels: - __meta_kubernetes_pod_container_name target_label: container_name - action: replace source_labels: - __meta_kubernetes_pod_controller_name target_label: pod_controller_name - action: replace source_labels: - __meta_kubernetes_pod_controller_kind target_label: pod_controller_kind - action: replace source_labels: - __meta_kubernetes_pod_phase target_label: pod_phase - action: replace source_labels: - __meta_kubernetes_pod_node_name target_label: NodeName

Salve o arquivo e aplique o cwagent-dcgm configuração para seu cluster

kubectl apply -f ./prometheus-eks.yaml

Obtemos a seguinte saída:

namespace/amazon-cloudwatch created
configmap/prometheus-cwagentconfig created
configmap/prometheus-config created
serviceaccount/cwagent-prometheus created
clusterrole.rbac.authorization.k8s.io/cwagent-prometheus-role created
clusterrolebinding.rbac.authorization.k8s.io/cwagent-prometheus-role-binding created
deployment.apps/cwagent-prometheus created

Confirme se o pod do agente CloudWatch está em execução

kubectl -n amazon-cloudwatch get pods

Obtemos a seguinte saída:

NAME READY STATUS RESTARTS AGE
cwagent-prometheus-7dfd69cc46-s4cx7 1/1 Running 0 15m

Visualize métricas no console do CloudWatch

Para visualizar as métricas no CloudWatch, execute as seguintes etapas:

No console do CloudWatch, em Métrica no painel de navegação, escolha Todas as métricas
No Namespaces personalizados seção, escolha a nova entrada para ContainerInsights/Prometheus

Para obter mais informações sobre o ContainerInsights/Prometheus espaço para nome, consulte Extraindo fontes adicionais do Prometheus e importando essas métricas.

CloudWatch - ContainerInsights/Prometeus

Faça uma busca detalhada nos nomes das métricas e escolha DCGM_FI_DEV_GPU_UTIL
No Métricas em gráfico guia, defina de Payback para 5 segundos

CloudWatch - Configuração de período

Defina o intervalo de atualização para 10 segundos

Você verá as métricas coletadas do exportador DCGM que visualizam o gpu-burn padrão ligado e desligado a cada 20 segundos.

CloudWatch - padrão gpuburn

No Procurar , você pode ver os dados, incluindo o nome do pod para cada métrica.

CloudWatch – nome do pod para métrica

Os metadados da API EKS foram combinados com os dados de métricas DCGM, resultando nas métricas de GPU baseadas em pod fornecidas.

Isso conclui a primeira abordagem de exportação de métricas DCGM para o CloudWatch por meio do agente CloudWatch.

Na próxima seção, configuramos a segunda arquitetura, que exporta as métricas DCGM para o Prometheus, e as visualizamos com Grafana.

Use Prometheus e Grafana para visualizar métricas de GPU do DCGM

Conclua as seguintes etapas:

Adicionar o gráfico do leme da comunidade Prometheus

helm repo add prometheus-community https://prometheus-community.github.io/helm-charts

Este gráfico implanta Prometheus e Grafana. Precisamos fazer algumas edições no gráfico antes de executar o comando de instalação.

Salve os valores de configuração do gráfico em um arquivo no /tmp

helm inspect values prometheus-community/kube-prometheus-stack > /tmp/kube-prometheus-stack.values

Edite o arquivo de configuração char

Edite o arquivo salvo (/tmp/kube-prometheus-stack.values) e defina a seguinte opção procurando o nome da configuração e definindo o valor:

prometheus.prometheusSpec.serviceMonitorSelectorNilUsesHelmValues=false

Adicione o seguinte ConfigMap ao additionalScrapeConfigs seção

additionalScrapeConfigs:
- job_name: gpu-metrics scrape_interval: 1s metrics_path: /metrics scheme: http kubernetes_sd_configs: - role: endpoints namespaces: names: - gpu-operator relabel_configs: - source_labels: [__meta_kubernetes_pod_node_name] action: replace target_label: kubernetes_node

Implante a pilha do Prometheus com os valores atualizados

helm install prometheus-community/kube-prometheus-stack 
--create-namespace --namespace prometheus 
--generate-name 
--values /tmp/kube-prometheus-stack.values

Obtemos a seguinte saída:

NAME: kube-prometheus-stack-1684965548
LAST DEPLOYED: Wed May 24 21:59:14 2023
NAMESPACE: prometheus
STATUS: deployed
REVISION: 1
NOTES:
kube-prometheus-stack has been installed. Check its status by running: kubectl --namespace prometheus get pods -l "release=kube-prometheus-stack-1684965548" Visit https://github.com/prometheus-operator/kube-prometheus for instructions on how to create & configure Alertmanager and Prometheus instances using the Operator.

Confirme se os pods do Prometheus estão em execução

kubectl get pods -n prometheus

Obtemos a seguinte saída:

NAME READY STATUS RESTARTS AGE
alertmanager-kube-prometheus-stack-1684-alertmanager-0 2/2 Running 0 6m55s
kube-prometheus-stack-1684-operator-6c87649878-j7v55 1/1 Running 0 6m58s
kube-prometheus-stack-1684965548-grafana-dcd7b4c96-bzm8p 3/3 Running 0 6m58s
kube-prometheus-stack-1684965548-kube-state-metrics-7d856dptlj5 1/1 Running 0 6m58s
kube-prometheus-stack-1684965548-prometheus-node-exporter-2fbl5 1/1 Running 0 6m58s
kube-prometheus-stack-1684965548-prometheus-node-exporter-m7zmv 1/1 Running 0 6m58s
prometheus-kube-prometheus-stack-1684-prometheus-0 2/2 Running 0 6m55s

Os pods Prometheus e Grafana estão no Running Estado.

A seguir, validamos se as métricas do DCGM estão fluindo para o Prometheus.

Encaminhar a interface do usuário do Prometheus

Existem diferentes maneiras de expor a UI do Prometheus em execução no EKS a solicitações originadas fora do cluster. Nós vamos usar kubectl port-forwarding. Até agora, executamos comandos dentro do aws-do-eks recipiente. Para acessar o serviço Prometheus em execução no cluster, criaremos um túnel a partir do host. Aqui o aws-do-eks O contêiner está em execução executando o seguinte comando fora do contêiner, em um novo terminal no host. Iremos nos referir a isso como “shell de host”.

kubectl -n prometheus port-forward svc/$(kubectl -n prometheus get svc | grep prometheus | grep -v alertmanager | grep -v operator | grep -v grafana | grep -v metrics | grep -v exporter | grep -v operated | cut -d ' ' -f 1) 8080:9090 &

Enquanto o processo de encaminhamento de porta está em execução, podemos acessar a UI do Prometheus a partir do host conforme descrito abaixo.

Abra a IU do Prometheus
- Se você estiver usando Cloud9, navegue até Preview->Preview Running Application para abrir a IU do Prometheus em uma guia dentro do IDE Cloud9 e clique no botão ícone no canto superior direito da guia para aparecer em uma nova janela.
- Se você estiver em seu host local ou conectado a uma instância EC2 via área de trabalho remota, abra um navegador e visite o URL http://localhost:8080.

Prometheus - métricas DCGM

Entrar DCGM para ver as métricas do DCGM que estão fluindo para o Prometheus
Selecionar DCGM_FI_DEV_GPU_UTIL, escolha Executee, em seguida, navegue até o Gráfico guia para ver o padrão de utilização esperado da GPU

Prometheus - padrão gpuburn

Pare o processo de encaminhamento de porta do Prometheus

Execute a seguinte linha de comando no shell do host:

kill -9 $(ps -aef | grep port-forward | grep -v grep | grep prometheus | awk '{print $2}')

Agora podemos visualizar as métricas do DCGM via Grafana Dashboard.

Recupere a senha para fazer login na UI do Grafana

kubectl -n prometheus get secret $(kubectl -n prometheus get secrets | grep grafana | cut -d ' ' -f 1) -o jsonpath="{.data.admin-password}" | base64 --decode ; echo

Encaminhamento de porta do serviço Grafana

Execute a seguinte linha de comando no shell do host:

kubectl port-forward -n prometheus svc/$(kubectl -n prometheus get svc | grep grafana | cut -d ' ' -f 1) 8080:80 &

Faça login na IU do Grafana

Acesse a tela de login da IU do Grafana da mesma forma que acessou a IU do Prometheus anteriormente. Se estiver usando Cloud9, selecione Preview->Preview Running Applicatione, em seguida, apareça em uma nova janela. Se estiver usando seu host local ou uma instância EC2 com URL de visita de área de trabalho remota http://localhost:8080. Faça login com o nome de usuário admin e a senha que você recuperou anteriormente.

Grafana - login

No painel de navegação, escolha Dashboards

Grafana - painéis

Escolha Novo e importação

Grafana - carregar por id de grafana.com
Vamos importar o painel padrão do DCGM Grafana descrito em Painel do exportador NVIDIA DCGM.

No campo import via grafana.com, entrar 12239 e escolha Ver
Escolha Prometeu como fonte de dados
Escolha importação

Grafana - painel de importação

Você verá um painel semelhante ao da imagem a seguir.

Grafana - painel

Para demonstrar que essas métricas são baseadas em pods, vamos modificar o Utilização de GPU painel neste painel.

Escolha o painel e o menu de opções (três pontos)
Expandir o Opções seção e edite o lenda campo
Substitua o valor ali por Pod {{pod}}, Em seguida, escolha Salvar

Grafana - métrica baseada em pod
A legenda agora mostra o gpu-burn nome do pod associado à utilização da GPU exibida.

Pare o encaminhamento de porta do serviço Grafana UI

Execute o seguinte no shell do host:

kill -9 $(ps -aef | grep port-forward | grep -v grep | grep prometheus | awk '{print $2}')

Nesta postagem, demonstramos o uso do Prometheus e Grafana de código aberto implantados no cluster EKS. Se desejar, esta implantação pode ser substituída por Amazon Managed Service para Prometheus e Grafana gerenciada pela Amazon.

limpar

Para limpar os recursos que você criou, execute o seguinte script no arquivo aws-do-eks invólucro do contêiner:

./eks-delete.sh

Conclusão

Nesta postagem, utilizamos o NVIDIA DCGM Exporter para coletar métricas de GPU e visualizá-las com CloudWatch ou Prometheus e Grafana. Convidamos você a usar as arquiteturas demonstradas aqui para permitir o monitoramento da utilização de GPU com NVIDIA DCGM em seu próprio ambiente AWS.

Recursos adicionais

Sobre os autores

Habilite métricas de GPU baseadas em pod no Amazon CloudWatch | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai. Amr Ragab é ex-arquiteto de soluções principal, EC2 Accelerated Computing na AWS. Ele se dedica a ajudar os clientes a executar cargas de trabalho computacionais em escala. Nas horas vagas, gosta de viajar e encontrar novas formas de integrar a tecnologia ao dia a dia.

Alex Iankoulski é arquiteto de soluções principal, aprendizado de máquina autogerenciado na AWS. Ele é um engenheiro full-stack de software e infraestrutura que gosta de fazer um trabalho profundo e prático. Em sua função, ele se concentra em ajudar os clientes com conteinerização e orquestração de cargas de trabalho de ML e IA em serviços AWS alimentados por contêiner. Ele também é o autor do código aberto fazer estrutura e um capitão do Docker que adora aplicar tecnologias de contêineres para acelerar o ritmo da inovação e, ao mesmo tempo, solucionar os maiores desafios do mundo. Durante os últimos 10 anos, Alex trabalhou na democratização da IA e do ML, no combate às alterações climáticas e em tornar as viagens mais seguras, os cuidados de saúde melhores e a energia mais inteligente.

Habilite métricas de GPU baseadas em pod no Amazon CloudWatch | Inteligência de dados PlatoBlockchain da Amazon Web Services. Pesquisa vertical. Ai. Keita Watanabe é arquiteto de soluções sênior de soluções Frameworks ML na Amazon Web Services, onde ajuda a desenvolver as melhores soluções de aprendizado de máquina autogerenciadas baseadas em nuvem do setor. Sua formação é em pesquisa e desenvolvimento de Machine Learning. Antes de ingressar na AWS, Keita trabalhava no setor de comércio eletrônico. Keita possui um Ph.D. em Ciências pela Universidade de Tóquio.

Conteúdo com tecnologia de SEO e distribuição de relações públicas. Seja amplificado hoje.
PlatoData.Network Gerativa Vertical Ai. Capacite-se. Acesse aqui.
PlatoAiStream. Inteligência Web3. Conhecimento Amplificado. Acesse aqui.
PlatãoESG. Automotivo / EVs, Carbono Tecnologia Limpa, Energia, Ambiente, Solar, Gestão de resíduos. Acesse aqui.
PlatoHealth. Inteligência em Biotecnologia e Ensaios Clínicos. Acesse aqui.
ChartPrime. Eleve seu jogo de negociação com ChartPrime. Acesse aqui.
BlockOffsets. Modernizando a Propriedade de Compensação Ambiental. Acesse aqui.
Fonte: https://aws.amazon.com/blogs/machine-learning/enable-pod-based-gpu-metrics-in-amazon-cloudwatch/

Carimbo de hora: 7 de Setembro de 2023

Carimbo de hora: Junho 8, 2023

Republicado por Platão

Como o Chefz serve a refeição perfeita com o Amazon Personalize

O LightGBM integrado do Amazon SageMaker agora oferece treinamento distribuído usando o Dask

Como a BigBasket melhorou o checkout habilitado para IA em suas lojas físicas usando o Amazon SageMaker | Amazon Web Services

Aumente as transações de fraude usando dados sintéticos no Amazon SageMaker

Melhore a precisão da transcrição de chamadas de agente do cliente com vocabulário personalizado no Amazon Transcribe

Sobre Nós

Pesquisa vertical e IA

Plataforma

Fique Ligado

Conta