Aktiver Pod-baserte GPU-beregninger i Amazon CloudWatch

Publisert av Platon

Følgere: 0

I februar 2022 ble Amazon Web Services lagt til støtte for NVIDIA GPU-målinger i Amazon CloudWatch, noe som gjør det mulig å skyve beregninger fra Amazon CloudWatch Agent til Amazon CloudWatch og overvåk koden din for optimal GPU-utnyttelse. Siden den gang har denne funksjonen blitt integrert i mange av våre administrerte Amazon Machine Images (AMI), for eksempel Deep Learning AMI og AWS ParallelCluster AMI. For å få målinger på instansnivå for GPU-bruk, kan du bruke Packer eller Amazon ImageBuilder til å starte opp din egen tilpassede AMI og bruke den i forskjellige administrerte tjenestetilbud som AWS-batch, Amazon Elastic Container Service (Amazon ECS), eller Amazon Elastic Kubernetes-tjeneste (Amazon EKS). For mange beholderbaserte tjenestetilbud og arbeidsbelastninger er det imidlertid ideelt å fange opp bruksberegninger på beholder-, pod- eller navneområdenivå.

Dette innlegget beskriver hvordan du setter opp beholderbaserte GPU-beregninger og gir et eksempel på innsamling av disse beregningene fra EKS-pods.

Løsningsoversikt

For å demonstrere containerbaserte GPU-beregninger oppretter vi en EKS-klynge med g5.2xlarge forekomster; dette vil imidlertid fungere med alle støttede NVIDIA-akselererte forekomstfamilier.

Vi distribuerer NVIDIA GPU-operatøren for å muliggjøre bruk av GPU-ressurser og NVIDIA DCGM-eksportør for å aktivere innsamling av GPU-beregninger. Deretter utforsker vi to arkitekturer. Den første kobler beregningene fra NVIDIA DCGM Exporter til CloudWatch via en CloudWatch-agent, som vist i følgende diagram.

GPU-overvåkingsarkitektur med CloudWatch

Den andre arkitekturen (se følgende diagram) kobler beregningene fra DCGM Exporter til Prometheus, så bruker vi en grafana dashbord for å visualisere disse beregningene.

GPU-overvåkingsarkitektur med Grafana

Forutsetninger

For å forenkle reprodusering av hele stabelen fra dette innlegget, bruker vi en beholder som har alt nødvendig verktøy (aws cli, eksctl, helm, etc.) allerede installert. For å klone containerprosjekt fra GitHub, du vil trenge git. For å bygge og kjøre containeren, trenger du Docker. For å distribuere arkitekturen trenger du AWS-legitimasjon. For å aktivere tilgang til Kubernetes-tjenester ved hjelp av portvideresending, trenger du også kubectl.

Disse forutsetningene kan installeres på din lokale maskin, EC2-forekomst med FIN DCVeller AWS Cloud9. I dette innlegget vil vi bruke en c5.2xlarge Cloud9-forekomst med en 40GB lokalt lagringsvolum. Når du bruker Cloud9, vennligst deaktiver AWS-administrert midlertidig legitimasjon ved å besøke Cloud9->Preferences->AWS Settings som vist på skjermbildet nedenfor.

Aktiver pod-baserte GPU-beregninger i Amazon CloudWatch | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Bygg og kjør aws-do-eks-beholderen

Åpne et terminalskall i ditt foretrukne miljø og kjør følgende kommandoer:

git clone https://github.com/aws-samples/aws-do-eks
cd aws-do-eks
./build.sh
./run.sh
./exec.sh

Resultatet er som følger:

root@e5ecb162812f:/eks#

Du har nå et skall i et containermiljø som har alle verktøyene som trengs for å fullføre oppgavene nedenfor. Vi vil referere til det som "aws-do-eks shell". Du vil kjøre kommandoene i de følgende delene i dette skallet, med mindre annet er spesifikt instruert.

Opprett en EKS-klynge med en nodegruppe

Denne gruppen inkluderer en GPU-forekomstfamilie etter eget valg; i dette eksemplet bruker vi g5.2xlarge instanstype.

De aws-do-eks prosjekt leveres med en samling klyngekonfigurasjoner. Du kan angi ønsket klyngekonfigurasjon med en enkelt konfigurasjonsendring.

I beholderskallet, løp ./env-config.sh og deretter angi CONF=conf/eksctl/yaml/eks-gpu-g5.yaml
For å bekrefte klyngekonfigurasjonen, kjør ./eks-config.sh

Du bør se følgende klyngemanifest:

apiVersion: eksctl.io/v1alpha5
kind: ClusterConfig
metadata: name: do-eks-yaml-g5 version: "1.25" region: us-east-1
availabilityZones: - us-east-1a - us-east-1b - us-east-1c - us-east-1d
managedNodeGroups: - name: sys instanceType: m5.xlarge desiredCapacity: 1 iam: withAddonPolicies: autoScaler: true cloudWatch: true - name: g5 instanceType: g5.2xlarge instancePrefix: g5-2xl privateNetworking: true efaEnabled: false minSize: 0 desiredCapacity: 1 maxSize: 10 volumeSize: 80 iam: withAddonPolicies: cloudWatch: true
iam: withOIDC: true

For å opprette klyngen, kjør følgende kommando i beholderen

./eks-create.sh

Resultatet er som følger:

root@e5ecb162812f:/eks# ./eks-create.sh /eks/impl/eksctl/yaml /eks ./eks-create.sh Mon May 22 20:50:59 UTC 2023
Creating cluster using /eks/conf/eksctl/yaml/eks-gpu-g5.yaml ... eksctl create cluster -f /eks/conf/eksctl/yaml/eks-gpu-g5.yaml 2023-05-22 20:50:59 [ℹ] eksctl version 0.133.0
2023-05-22 20:50:59 [ℹ] using region us-east-1
2023-05-22 20:50:59 [ℹ] subnets for us-east-1a - public:192.168.0.0/19 private:192.168.128.0/19
2023-05-22 20:50:59 [ℹ] subnets for us-east-1b - public:192.168.32.0/19 private:192.168.160.0/19
2023-05-22 20:50:59 [ℹ] subnets for us-east-1c - public:192.168.64.0/19 private:192.168.192.0/19
2023-05-22 20:50:59 [ℹ] subnets for us-east-1d - public:192.168.96.0/19 private:192.168.224.0/19
2023-05-22 20:50:59 [ℹ] nodegroup "sys" will use "" [AmazonLinux2/1.25]
2023-05-22 20:50:59 [ℹ] nodegroup "g5" will use "" [AmazonLinux2/1.25]
2023-05-22 20:50:59 [ℹ] using Kubernetes version 1.25
2023-05-22 20:50:59 [ℹ] creating EKS cluster "do-eks-yaml-g5" in "us-east-1" region with managed nodes
2023-05-22 20:50:59 [ℹ] 2 nodegroups (g5, sys) were included (based on the include/exclude rules)
2023-05-22 20:50:59 [ℹ] will create a CloudFormation stack for cluster itself and 0 nodegroup stack(s)
2023-05-22 20:50:59 [ℹ] will create a CloudFormation stack for cluster itself and 2 managed nodegroup stack(s)
2023-05-22 20:50:59 [ℹ] if you encounter any issues, check CloudFormation console or try 'eksctl utils describe-stacks --region=us-east-1 --cluster=do-eks-yaml-g5'
2023-05-22 20:50:59 [ℹ] Kubernetes API endpoint access will use default of {publicAccess=true, privateAccess=false} for cluster "do-eks-yaml-g5" in "us-east-1"
2023-05-22 20:50:59 [ℹ] CloudWatch logging will not be enabled for cluster "do-eks-yaml-g5" in "us-east-1"
2023-05-22 20:50:59 [ℹ] you can enable it with 'eksctl utils update-cluster-logging --enable-types={SPECIFY-YOUR-LOG-TYPES-HERE (e.g. all)} --region=us-east-1 --cluster=do-eks-yaml-g5'
2023-05-22 20:50:59 [ℹ] 2 sequential tasks: { create cluster control plane "do-eks-yaml-g5", 2 sequential sub-tasks: { 4 sequential sub-tasks: { wait for control plane to become ready, associate IAM OIDC provider, 2 sequential sub-tasks: { create IAM role for serviceaccount "kube-system/aws-node", create serviceaccount "kube-system/aws-node", }, restart daemonset "kube-system/aws-node", }, 2 parallel sub-tasks: { create managed nodegroup "sys", create managed nodegroup "g5", }, } }
2023-05-22 20:50:59 [ℹ] building cluster stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:51:00 [ℹ] deploying stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:51:30 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:52:00 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:53:01 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:54:01 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:55:01 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:56:02 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:57:02 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:58:02 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:59:02 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:00:03 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:01:03 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:02:03 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:03:04 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:05:07 [ℹ] building iamserviceaccount stack "eksctl-do-eks-yaml-g5-addon-iamserviceaccount-kube-system-aws-node"
2023-05-22 21:05:10 [ℹ] deploying stack "eksctl-do-eks-yaml-g5-addon-iamserviceaccount-kube-system-aws-node"
2023-05-22 21:05:10 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-addon-iamserviceaccount-kube-system-aws-node"
2023-05-22 21:05:40 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-addon-iamserviceaccount-kube-system-aws-node"
2023-05-22 21:05:40 [ℹ] serviceaccount "kube-system/aws-node" already exists
2023-05-22 21:05:41 [ℹ] updated serviceaccount "kube-system/aws-node"
2023-05-22 21:05:41 [ℹ] daemonset "kube-system/aws-node" restarted
2023-05-22 21:05:41 [ℹ] building managed nodegroup stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:05:41 [ℹ] building managed nodegroup stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:05:42 [ℹ] deploying stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:05:42 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:05:42 [ℹ] deploying stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:05:42 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:06:12 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:06:12 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:06:55 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:07:11 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:08:29 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:08:45 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:09:52 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:09:53 [ℹ] waiting for the control plane to become ready
2023-05-22 21:09:53 [✔] saved kubeconfig as "/root/.kube/config"
2023-05-22 21:09:53 [ℹ] 1 task: { install Nvidia device plugin }
W0522 21:09:54.155837 1668 warnings.go:70] spec.template.metadata.annotations[scheduler.alpha.kubernetes.io/critical-pod]: non-functional in v1.16+; use the "priorityClassName" field instead
2023-05-22 21:09:54 [ℹ] created "kube-system:DaemonSet.apps/nvidia-device-plugin-daemonset"
2023-05-22 21:09:54 [ℹ] as you are using the EKS-Optimized Accelerated AMI with a GPU-enabled instance type, the Nvidia Kubernetes device plugin was automatically installed. to skip installing it, use --install-nvidia-plugin=false.
2023-05-22 21:09:54 [✔] all EKS cluster resources for "do-eks-yaml-g5" have been created
2023-05-22 21:09:54 [ℹ] nodegroup "sys" has 1 node(s)
2023-05-22 21:09:54 [ℹ] node "ip-192-168-18-137.ec2.internal" is ready
2023-05-22 21:09:54 [ℹ] waiting for at least 1 node(s) to become ready in "sys"
2023-05-22 21:09:54 [ℹ] nodegroup "sys" has 1 node(s)
2023-05-22 21:09:54 [ℹ] node "ip-192-168-18-137.ec2.internal" is ready
2023-05-22 21:09:55 [ℹ] kubectl command should work with "/root/.kube/config", try 'kubectl get nodes'
2023-05-22 21:09:55 [✔] EKS cluster "do-eks-yaml-g5" in "us-east-1" region is ready Mon May 22 21:09:55 UTC 2023
Done creating cluster using /eks/conf/eksctl/yaml/eks-gpu-g5.yaml /eks

For å bekrefte at klyngen er opprettet, kjør følgende kommando

kubectl get nodes -L node.kubernetes.io/instance-type

Utgangen ligner på følgende:

NAME STATUS ROLES AGE VERSION INSTANCE_TYPE
ip-192-168-18-137.ec2.internal Ready <none> 47m v1.25.9-eks-0a21954 m5.xlarge
ip-192-168-214-241.ec2.internal Ready <none> 46m v1.25.9-eks-0a21954 g5.2xlarge

I dette eksemplet har vi én m5.xlarge og én g5.2xlarge forekomst i klyngen vår; derfor ser vi to noder oppført i den foregående utgangen.

I løpet av klyngenopprettingsprosessen vil NVIDIA-enhetspluginen bli installert. Du må fjerne den etter at du har opprettet klyngen fordi vi vil bruke NVIDIA GPU-operatør i stedet.

Slett plugin-en med følgende kommando

kubectl -n kube-system delete daemonset nvidia-device-plugin-daemonset

Vi får følgende utgang:

daemonset.apps "nvidia-device-plugin-daemonset" deleted

Installer NVIDIA Helm repo

Installer NVIDIA Helm repo med følgende kommando:

helm repo add nvidia https://helm.ngc.nvidia.com/nvidia && helm repo update

Distribuer DCGM-eksportøren med NVIDIA GPU-operatøren

For å distribuere DCGM-eksportøren, fullfør følgende trinn:

Forbered DCGM-eksportørens GPU-metrikkkonfigurasjon

curl https://raw.githubusercontent.com/NVIDIA/dcgm-exporter/main/etc/dcp-metrics-included.csv > dcgm-metrics.csv

Du har muligheten til å redigere dcgm-metrics.csv fil. Du kan legge til eller fjerne alle beregninger etter behov.

Opprett gpu-operatørens navneområde og DCGM-eksportør ConfigMap

kubectl create namespace gpu-operator && /
kubectl create configmap metrics-config -n gpu-operator --from-file=dcgm-metrics.csv

Resultatet er som følger:

namespace/gpu-operator created
configmap/metrics-config created

Bruk GPU-operatøren på EKS-klyngen

helm install --wait --generate-name -n gpu-operator --create-namespace nvidia/gpu-operator --set dcgmExporter.config.name=metrics-config --set dcgmExporter.env[0].name=DCGM_EXPORTER_COLLECTORS --set dcgmExporter.env[0].value=/etc/dcgm-exporter/dcgm-metrics.csv --set toolkit.enabled=false

Resultatet er som følger:

NAME: gpu-operator-1684795140
LAST DEPLOYED: Day Month Date HH:mm:ss YYYY
NAMESPACE: gpu-operator
STATUS: deployed
REVISION: 1
TEST SUITE: None

Bekreft at DCGM-eksportør-poden kjører

kubectl -n gpu-operator get pods | grep dcgm

Resultatet er som følger:

nvidia-dcgm-exporter-lkmfr       1/1     Running    0   1m

Hvis du inspiserer loggene, bør du se “Starting webserver” budskap:

kubectl -n gpu-operator logs -f $(kubectl -n gpu-operator get pods | grep dcgm | cut -d ' ' -f 1)

Resultatet er som følger:

Defaulted container "nvidia-dcgm-exporter" out of: nvidia-dcgm-exporter, toolkit-validation (init)
time="2023-05-22T22:40:08Z" level=info msg="Starting dcgm-exporter"
time="2023-05-22T22:40:08Z" level=info msg="DCGM successfully initialized!"
time="2023-05-22T22:40:08Z" level=info msg="Collecting DCP Metrics"
time="2023-05-22T22:40:08Z" level=info msg="No configmap data specified, falling back to metric file /etc/dcgm-exporter/dcgm-metrics.csv"
time="2023-05-22T22:40:08Z" level=info msg="Initializing system entities of type: GPU"
time="2023-05-22T22:40:09Z" level=info msg="Initializing system entities of type: NvSwitch"
time="2023-05-22T22:40:09Z" level=info msg="Not collecting switch metrics: no switches to monitor"
time="2023-05-22T22:40:09Z" level=info msg="Initializing system entities of type: NvLink"
time="2023-05-22T22:40:09Z" level=info msg="Not collecting link metrics: no switches to monitor"
time="2023-05-22T22:40:09Z" level=info msg="Kubernetes metrics collection enabled!"
time="2023-05-22T22:40:09Z" level=info msg="Pipeline starting"
time="2023-05-22T22:40:09Z" level=info msg="Starting webserver"

NVIDIA DCGM Exporter avslører et Prometheus-måleendepunkt, som kan inntas av CloudWatch-agenten. For å se endepunktet, bruk følgende kommando:

kubectl -n gpu-operator get services | grep dcgm

Vi får følgende utgang:

nvidia-dcgm-exporter    ClusterIP   10.100.183.207   <none>   9400/TCP   10m

For å generere noe GPU-bruk, distribuerer vi en pod som kjører gpu-brenning binære

kubectl apply -f https://raw.githubusercontent.com/aws-samples/aws-do-eks/main/Container-Root/eks/deployment/gpu-metrics/gpu-burn-deployment.yaml

Resultatet er som følger:

deployment.apps/gpu-burn created

Denne distribusjonen bruker en enkelt GPU for å produsere et kontinuerlig mønster med 100 % utnyttelse i 20 sekunder etterfulgt av 0 % utnyttelse i 20 sekunder.

For å sikre at endepunktet fungerer, kan du kjøre en midlertidig beholder som bruker curl til å lese innholdet i http://nvidia-dcgm-exporter:9400/metrics

kubectl -n gpu-operator run -it --rm curl --restart='Never' --image=curlimages/curl --command -- curl http://nvidia-dcgm-exporter:9400/metrics

Vi får følgende utgang:

# HELP DCGM_FI_DEV_SM_CLOCK SM clock frequency (in MHz).
# TYPE DCGM_FI_DEV_SM_CLOCK gauge
DCGM_FI_DEV_SM_CLOCK{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 1455
# HELP DCGM_FI_DEV_MEM_CLOCK Memory clock frequency (in MHz).
# TYPE DCGM_FI_DEV_MEM_CLOCK gauge
DCGM_FI_DEV_MEM_CLOCK{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 6250
# HELP DCGM_FI_DEV_GPU_TEMP GPU temperature (in C).
# TYPE DCGM_FI_DEV_GPU_TEMP gauge
DCGM_FI_DEV_GPU_TEMP{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 65
# HELP DCGM_FI_DEV_POWER_USAGE Power draw (in W).
# TYPE DCGM_FI_DEV_POWER_USAGE gauge
DCGM_FI_DEV_POWER_USAGE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 299.437000
# HELP DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION Total energy consumption since boot (in mJ).
# TYPE DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION counter
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 15782796862
# HELP DCGM_FI_DEV_PCIE_REPLAY_COUNTER Total number of PCIe retries.
# TYPE DCGM_FI_DEV_PCIE_REPLAY_COUNTER counter
DCGM_FI_DEV_PCIE_REPLAY_COUNTER{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_GPU_UTIL GPU utilization (in %).
# TYPE DCGM_FI_DEV_GPU_UTIL gauge
DCGM_FI_DEV_GPU_UTIL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 100
# HELP DCGM_FI_DEV_MEM_COPY_UTIL Memory utilization (in %).
# TYPE DCGM_FI_DEV_MEM_COPY_UTIL gauge
DCGM_FI_DEV_MEM_COPY_UTIL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 38
# HELP DCGM_FI_DEV_ENC_UTIL Encoder utilization (in %).
# TYPE DCGM_FI_DEV_ENC_UTIL gauge
DCGM_FI_DEV_ENC_UTIL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_DEC_UTIL Decoder utilization (in %).
# TYPE DCGM_FI_DEV_DEC_UTIL gauge
DCGM_FI_DEV_DEC_UTIL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_XID_ERRORS Value of the last XID error encountered.
# TYPE DCGM_FI_DEV_XID_ERRORS gauge
DCGM_FI_DEV_XID_ERRORS{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_FB_FREE Framebuffer memory free (in MiB).
# TYPE DCGM_FI_DEV_FB_FREE gauge
DCGM_FI_DEV_FB_FREE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 2230
# HELP DCGM_FI_DEV_FB_USED Framebuffer memory used (in MiB).
# TYPE DCGM_FI_DEV_FB_USED gauge
DCGM_FI_DEV_FB_USED{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 20501
# HELP DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL Total number of NVLink bandwidth counters for all lanes.
# TYPE DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL counter
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_VGPU_LICENSE_STATUS vGPU License status
# TYPE DCGM_FI_DEV_VGPU_LICENSE_STATUS gauge
DCGM_FI_DEV_VGPU_LICENSE_STATUS{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS Number of remapped rows for uncorrectable errors
# TYPE DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS counter
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS Number of remapped rows for correctable errors
# TYPE DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS counter
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_ROW_REMAP_FAILURE Whether remapping of rows has failed
# TYPE DCGM_FI_DEV_ROW_REMAP_FAILURE gauge
DCGM_FI_DEV_ROW_REMAP_FAILURE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_PROF_GR_ENGINE_ACTIVE Ratio of time the graphics engine is active (in %).
# TYPE DCGM_FI_PROF_GR_ENGINE_ACTIVE gauge
DCGM_FI_PROF_GR_ENGINE_ACTIVE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0.808369
# HELP DCGM_FI_PROF_PIPE_TENSOR_ACTIVE Ratio of cycles the tensor (HMMA) pipe is active (in %).
# TYPE DCGM_FI_PROF_PIPE_TENSOR_ACTIVE gauge
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0.000000
# HELP DCGM_FI_PROF_DRAM_ACTIVE Ratio of cycles the device memory interface is active sending or receiving data (in %).
# TYPE DCGM_FI_PROF_DRAM_ACTIVE gauge
DCGM_FI_PROF_DRAM_ACTIVE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0.315787
# HELP DCGM_FI_PROF_PCIE_TX_BYTES The rate of data transmitted over the PCIe bus - including both protocol headers and data payloads - in bytes per second.
# TYPE DCGM_FI_PROF_PCIE_TX_BYTES gauge
DCGM_FI_PROF_PCIE_TX_BYTES{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 3985328
# HELP DCGM_FI_PROF_PCIE_RX_BYTES The rate of data received over the PCIe bus - including both protocol headers and data payloads - in bytes per second.
# TYPE DCGM_FI_PROF_PCIE_RX_BYTES gauge
DCGM_FI_PROF_PCIE_RX_BYTES{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 21715174
pod "curl" deleted

Konfigurer og distribuer CloudWatch-agenten

For å konfigurere og distribuere CloudWatch-agenten, fullfør følgende trinn:

Last ned YAML-filen og rediger den

curl -O https://raw.githubusercontent.com/aws-samples/amazon-cloudwatch-container-insights/k8s/1.3.15/k8s-deployment-manifest-templates/deployment-mode/service/cwagent-prometheus/prometheus-eks.yaml

Filen inneholder en cwagent configmap og en prometheus configmap. For dette innlegget redigerer vi begge.

Redigere prometheus-eks.yaml fil

Åpne prometheus-eks.yaml fil i favorittredigeringsprogrammet og erstatt cwagentconfig.json seksjon med følgende innhold:

apiVersion: v1
data: # cwagent json config cwagentconfig.json: | { "logs": { "metrics_collected": { "prometheus": { "prometheus_config_path": "/etc/prometheusconfig/prometheus.yaml", "emf_processor": { "metric_declaration": [ { "source_labels": ["Service"], "label_matcher": ".*dcgm.*", "dimensions": [["Service","Namespace","ClusterName","job","pod"]], "metric_selectors": [ "^DCGM_FI_DEV_GPU_UTIL$", "^DCGM_FI_DEV_DEC_UTIL$", "^DCGM_FI_DEV_ENC_UTIL$", "^DCGM_FI_DEV_MEM_CLOCK$", "^DCGM_FI_DEV_MEM_COPY_UTIL$", "^DCGM_FI_DEV_POWER_USAGE$", "^DCGM_FI_DEV_ROW_REMAP_FAILURE$", "^DCGM_FI_DEV_SM_CLOCK$", "^DCGM_FI_DEV_XID_ERRORS$", "^DCGM_FI_PROF_DRAM_ACTIVE$", "^DCGM_FI_PROF_GR_ENGINE_ACTIVE$", "^DCGM_FI_PROF_PCIE_RX_BYTES$", "^DCGM_FI_PROF_PCIE_TX_BYTES$", "^DCGM_FI_PROF_PIPE_TENSOR_ACTIVE$" ] } ] } } }, "force_flush_interval": 5 } }

på prometheus config-delen, legg til følgende jobbdefinisjon for DCGM-eksportøren

- job_name: 'kubernetes-pod-dcgm-exporter' sample_limit: 10000 metrics_path: /api/v1/metrics/prometheus kubernetes_sd_configs: - role: pod relabel_configs: - source_labels: [__meta_kubernetes_pod_container_name] action: keep regex: '^DCGM.*$' - source_labels: [__address__] action: replace regex: ([^:]+)(?::d+)? replacement: ${1}:9400 target_label: __address__ - action: labelmap regex: __meta_kubernetes_pod_label_(.+) - action: replace source_labels: - __meta_kubernetes_namespace target_label: Namespace - source_labels: [__meta_kubernetes_pod] action: replace target_label: pod - action: replace source_labels: - __meta_kubernetes_pod_container_name target_label: container_name - action: replace source_labels: - __meta_kubernetes_pod_controller_name target_label: pod_controller_name - action: replace source_labels: - __meta_kubernetes_pod_controller_kind target_label: pod_controller_kind - action: replace source_labels: - __meta_kubernetes_pod_phase target_label: pod_phase - action: replace source_labels: - __meta_kubernetes_pod_node_name target_label: NodeName

Lagre filen og bruk cwagent-dcgm konfigurasjon til klyngen din

kubectl apply -f ./prometheus-eks.yaml

Vi får følgende utgang:

namespace/amazon-cloudwatch created
configmap/prometheus-cwagentconfig created
configmap/prometheus-config created
serviceaccount/cwagent-prometheus created
clusterrole.rbac.authorization.k8s.io/cwagent-prometheus-role created
clusterrolebinding.rbac.authorization.k8s.io/cwagent-prometheus-role-binding created
deployment.apps/cwagent-prometheus created

Bekreft at CloudWatch-agentpoden kjører

kubectl -n amazon-cloudwatch get pods

Vi får følgende utgang:

NAME READY STATUS RESTARTS AGE
cwagent-prometheus-7dfd69cc46-s4cx7 1/1 Running 0 15m

Visualiser beregninger på CloudWatch-konsollen

For å visualisere beregningene i CloudWatch, fullfør følgende trinn:

På CloudWatch-konsollen, under Metrics Velg navigasjonsruten Alle beregninger
på Egendefinerte navneområder seksjon, velg den nye oppføringen for ContainerInsights/Prometheus

For mer informasjon om ContainerInsights/Prometheus navneområde, referer til Skrape flere Prometheus-kilder og importere disse beregningene.

CloudWatch - ContainerInsights/Prometeus

Gå ned til metriske navn og velg DCGM_FI_DEV_GPU_UTIL
På Grafiske beregninger fane, sett Periode til 5 sekunder

CloudWatch – Periodeinnstilling

Sett oppdateringsintervallet til 10 sekunder

Du vil se beregningene samlet inn fra DCGM-eksportøren som visualiserer gpu-burn mønster av og på hvert 20. sekund.

CloudWatch - gpuburn-mønster

På Søk fanen, kan du se dataene, inkludert podnavnet for hver beregning.

CloudWatch - podnavn for metrikk

EKS API-metadataene er kombinert med DCGM-beregningsdataene, noe som resulterer i de oppgitte pod-baserte GPU-beregningene.

Dette avslutter den første tilnærmingen til å eksportere DCGM-beregninger til CloudWatch via CloudWatch-agenten.

I neste seksjon konfigurerer vi den andre arkitekturen, som eksporterer DCGM-målingene til Prometheus, og vi visualiserer dem med Grafana.

Bruk Prometheus og Grafana til å visualisere GPU-beregninger fra DCGM

Fullfør følgende trinn:

Legg til Prometheus fellesskaps rordiagram

helm repo add prometheus-community https://prometheus-community.github.io/helm-charts

Dette diagrammet distribuerer både Prometheus og Grafana. Vi må gjøre noen endringer i diagrammet før vi kjører installeringskommandoen.

Lagre diagramkonfigurasjonsverdiene til en fil i /tmp

helm inspect values prometheus-community/kube-prometheus-stack > /tmp/kube-prometheus-stack.values

Rediger char-konfigurasjonsfilen

Rediger den lagrede filen (/tmp/kube-prometheus-stack.values) og angi følgende alternativ ved å se etter innstillingsnavnet og angi verdien:

prometheus.prometheusSpec.serviceMonitorSelectorNilUsesHelmValues=false

Legg til følgende ConfigMap til additionalScrapeConfigs seksjon

additionalScrapeConfigs:
- job_name: gpu-metrics scrape_interval: 1s metrics_path: /metrics scheme: http kubernetes_sd_configs: - role: endpoints namespaces: names: - gpu-operator relabel_configs: - source_labels: [__meta_kubernetes_pod_node_name] action: replace target_label: kubernetes_node

Distribuer Prometheus-stabelen med de oppdaterte verdiene

helm install prometheus-community/kube-prometheus-stack 
--create-namespace --namespace prometheus 
--generate-name 
--values /tmp/kube-prometheus-stack.values

Vi får følgende utgang:

NAME: kube-prometheus-stack-1684965548
LAST DEPLOYED: Wed May 24 21:59:14 2023
NAMESPACE: prometheus
STATUS: deployed
REVISION: 1
NOTES:
kube-prometheus-stack has been installed. Check its status by running: kubectl --namespace prometheus get pods -l "release=kube-prometheus-stack-1684965548" Visit https://github.com/prometheus-operator/kube-prometheus for instructions on how to create & configure Alertmanager and Prometheus instances using the Operator.

Bekreft at Prometheus-podene kjører

kubectl get pods -n prometheus

Vi får følgende utgang:

NAME READY STATUS RESTARTS AGE
alertmanager-kube-prometheus-stack-1684-alertmanager-0 2/2 Running 0 6m55s
kube-prometheus-stack-1684-operator-6c87649878-j7v55 1/1 Running 0 6m58s
kube-prometheus-stack-1684965548-grafana-dcd7b4c96-bzm8p 3/3 Running 0 6m58s
kube-prometheus-stack-1684965548-kube-state-metrics-7d856dptlj5 1/1 Running 0 6m58s
kube-prometheus-stack-1684965548-prometheus-node-exporter-2fbl5 1/1 Running 0 6m58s
kube-prometheus-stack-1684965548-prometheus-node-exporter-m7zmv 1/1 Running 0 6m58s
prometheus-kube-prometheus-stack-1684-prometheus-0 2/2 Running 0 6m55s

Prometheus og Grafana belger er i Running tilstand.

Deretter validerer vi at DCGM-beregninger strømmer inn i Prometheus.

Port-forward Prometheus UI

Det er forskjellige måter å eksponere Prometheus-grensesnittet som kjører i EKS for forespørsler som kommer utenfor klyngen. Vi vil bruke kubectl port-forwarding. Så langt har vi utført kommandoer inne i aws-do-eks container. For å få tilgang til Prometheus-tjenesten som kjører i klyngen, oppretter vi en tunnel fra verten. Her er aws-do-eks container kjører ved å utføre følgende kommando utenfor containeren, i et nytt terminalskall på verten. Vi vil referere til dette som "vertskall".

kubectl -n prometheus port-forward svc/$(kubectl -n prometheus get svc | grep prometheus | grep -v alertmanager | grep -v operator | grep -v grafana | grep -v metrics | grep -v exporter | grep -v operated | cut -d ' ' -f 1) 8080:9090 &

Mens portvideresendingsprosessen kjører, kan vi få tilgang til Prometheus UI fra verten som beskrevet nedenfor.

Åpne Prometheus UI
- Hvis du bruker Cloud9, vennligst naviger til Preview->Preview Running Application for å åpne Prometheus UI i en fane inne i Cloud9 IDE, klikk deretter på ikonet øverst til høyre på fanen for å komme ut i et nytt vindu.
- Hvis du er på din lokale vert eller koblet til en EC2-forekomst via eksternt skrivebord, åpne en nettleser og besøk URL-en http://localhost:8080.

Prometheus - DCGM-metrikk

Enter DCGM for å se DCGM-beregningene som strømmer inn i Prometheus
Plukke ut DCGM_FI_DEV_GPU_UTIL, velg Henrette, og naviger deretter til Graph for å se forventet GPU-bruksmønster

Prometheus - gpuburn mønster

Stopp Prometheus portvideresendingsprosessen

Kjør følgende kommandolinje i vertsskallet:

kill -9 $(ps -aef | grep port-forward | grep -v grep | grep prometheus | awk '{print $2}')

Nå kan vi visualisere DCGM-beregningene via Grafana Dashboard.

Hent passordet for å logge på Grafana UI

kubectl -n prometheus get secret $(kubectl -n prometheus get secrets | grep grafana | cut -d ' ' -f 1) -o jsonpath="{.data.admin-password}" | base64 --decode ; echo

Port-forward Grafana-tjenesten

Kjør følgende kommandolinje i vertsskallet:

kubectl port-forward -n prometheus svc/$(kubectl -n prometheus get svc | grep grafana | cut -d ' ' -f 1) 8080:80 &

Logg på Grafana UI

Få tilgang til Grafana UI-påloggingsskjermen på samme måte som du åpnet Prometheus UI tidligere. Hvis du bruker Cloud9, velg Preview->Preview Running Application, så spretter du ut i et nytt vindu. Hvis du bruker din lokale vert eller en EC2-forekomst med eksternt skrivebord, besøk URL http://localhost:8080. Logg på med brukernavnet admin og passordet du hentet tidligere.

Grafana - logg inn

Velg i navigasjonsruten Instrumentbord

Grafana - dashbord

Velg Ny og Import

Grafana - last etter id fra grafana.com
Vi skal importere standard DCGM Grafana-dashbordet beskrevet i NVIDIA DCGM eksportør Dashboard.

I felten import via grafana.com, Tast inn 12239 Og velg Laste
Velg Prometheus som datakilde
Velg Import

Grafana - import dashbord

Du vil se et dashbord som ligner på det på følgende skjermbilde.

Grafana - dashbord

For å demonstrere at disse beregningene er pod-baserte, skal vi endre GPU-bruk ruten i dette dashbordet.

Velg ruten og alternativmenyen (tre prikker)
Utvid alternativer delen og rediger Legende felt
Erstatt verdien der med Pod {{pod}}, velg deretter Spar

Grafana - pod-basert metrikk
Legenden viser nå gpu-burn podnavn knyttet til den viste GPU-bruken.

Stopp portvideresending av Grafana UI-tjenesten

Kjør følgende i vertsskallet ditt:

kill -9 $(ps -aef | grep port-forward | grep -v grep | grep prometheus | awk '{print $2}')

I dette innlegget demonstrerte vi bruk av åpen kildekode Prometheus og Grafana distribuert til EKS-klyngen. Om ønskelig kan denne distribusjonen erstattes med Amazon Managed Service for Prometheus og Amazon administrerte Grafana.

Rydd opp

For å rydde opp i ressursene du opprettet, kjør følgende skript fra aws-do-eks beholderskall:

./eks-delete.sh

konklusjonen

I dette innlegget brukte vi NVIDIA DCGM Exporter for å samle GPU-beregninger og visualisere dem med enten CloudWatch eller Prometheus og Grafana. Vi inviterer deg til å bruke arkitekturene som er demonstrert her for å aktivere overvåking av GPU-bruk med NVIDIA DCGM i ditt eget AWS-miljø.

Tilleggsressurser

Om forfatterne

Aktiver pod-baserte GPU-beregninger i Amazon CloudWatch | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Amr Ragab er en tidligere Principal Solutions Architect, EC2 Accelerated Computing ved AWS. Han er dedikert til å hjelpe kunder med å kjøre beregningsmessige arbeidsmengder i stor skala. På fritiden liker han å reise og finne nye måter å integrere teknologi i dagliglivet.

Alex Iankoulski er en hovedløsningsarkitekt, selvstyrt maskinlæring ved AWS. Han er en fullstack programvare- og infrastrukturingeniør som liker å gjøre dyptgående, praktisk arbeid. I sin rolle fokuserer han på å hjelpe kunder med containerisering og orkestrering av ML- og AI-arbeidsmengder på containerdrevne AWS-tjenester. Han er også forfatteren av åpen kildekode lage rammeverk og en Docker-kaptein som elsker å bruke containerteknologier for å akselerere innovasjonstakten samtidig som den løser verdens største utfordringer. I løpet av de siste 10 årene har Alex jobbet med å demokratisere AI og ML, bekjempe klimaendringer og gjøre reiser tryggere, helsevesenet bedre og energismartere.

Aktiver pod-baserte GPU-beregninger i Amazon CloudWatch | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Keita Watanabe er Senior Solutions Architect of Frameworks ML Solutions hos Amazon Web Services hvor han hjelper til med å utvikle bransjens beste skybaserte selvstyrte maskinlæringsløsninger. Hans bakgrunn er innen forskning og utvikling innen maskinlæring. Før han begynte i AWS, jobbet Keita i e-handelsbransjen. Keita har en Ph.D. i vitenskap fra University of Tokyo.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
PlatoESG. Bil / elbiler, Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
ChartPrime. Hev handelsspillet ditt med ChartPrime. Tilgang her.
BlockOffsets. Modernisering av eierskap for miljøkompensasjon. Tilgang her.
kilde: https://aws.amazon.com/blogs/machine-learning/enable-pod-based-gpu-metrics-in-amazon-cloudwatch/

Tidstempel: September 7, 2023

Tidstempel: September 28, 2023

Publisert av Platon

Analyser gnagerangrep ved å bruke Amazon SageMaker geospatiale evner | Amazon Web Services

Mål forretningseffekten av Amazons personlige anbefalinger

Ny utvidet dataformatstøtte i Amazon Kendra

Bruk Amazon SageMaker-pipelinedeling for å se eller administrere pipelines på tvers av AWS-kontoer

Kjør bildesegmentering med Amazon SageMaker JumpStart

Robuste tidsserieprognoser med MLOps på Amazon SageMaker | Amazon Web Services

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn