Увімкніть показники GPU на основі Pod в Amazon CloudWatch

Перевидано Платоном

читають: 0

У лютому 2022 року додано Amazon Web Services підтримка метрик NVIDIA GPU в Amazon CloudWatch, що дозволяє надсилати показники з Агент Amazon CloudWatch до Amazon CloudWatch і відстежуйте свій код для оптимального використання GPU. Відтоді цю функцію було інтегровано в багато наших керованих образів машин Amazon (AMI), таких як Глибоке навчання AMI і AWS ParallelCluster AMI. Щоб отримати показники використання графічного процесора на рівні екземпляра, ви можете використовувати Packer або Amazon ImageBuilder для завантаження власного власного AMI та використання його в різноманітних пропозиціях керованих послуг, як-от Пакет AWS, Служба еластичних контейнерів Amazon (Amazon ECS), або Послуга Amazon Elastic Kubernetes (Amazon EKS). Однак для багатьох пропозицій послуг і робочих навантажень на основі контейнерів ідеально фіксувати показники використання на рівні контейнера, модуля або простору імен.

У цій публікації детально описано, як налаштувати метрики графічного процесора на основі контейнерів, і наведено приклад збору цих метрик із модулів EKS.

Огляд рішення

Щоб продемонструвати метрики GPU на основі контейнерів, ми створюємо кластер EKS з g5.2xlarge примірники; однак це працюватиме з будь-яким підтримуваним сімейством прискорених екземплярів NVIDIA.

Ми розгортаємо оператор NVIDIA GPU, щоб дозволити використовувати ресурси GPU та Експортер NVIDIA DCGM щоб увімкнути збір показників GPU. Потім ми досліджуємо дві архітектури. Перший підключає показники від NVIDIA DCGM Exporter до CloudWatch через агент CloudWatch, як показано на наступній діаграмі.

Архітектура моніторингу GPU з CloudWatch

Друга архітектура (див. наступну схему) з’єднує показники від DCGM Exporter до Прометей, тоді ми використовуємо a Grafana інформаційну панель для візуалізації цих показників.

Архітектура моніторингу GPU з Grafana

Передумови

Щоб спростити відтворення всього стека з цієї публікації, ми використовуємо контейнер, у якому вже встановлено всі необхідні інструменти (aws cli, eksctl, helm тощо). Для того, щоб клонувати контейнерний проект від GitHub, Ви будете потребувати мерзотник. Щоб створити та запустити контейнер, вам знадобиться Docker. Щоб розгорнути архітектуру, вам знадобиться Облікові дані AWS. Щоб увімкнути доступ до служб Kubernetes за допомогою переадресації портів, вам також знадобиться кубектл.

Ці попередні умови можна встановити на вашій локальній машині, Примірник EC2 з КРАСИВИЙ DCVабо AWS Cloud9. У цій публікації ми будемо використовувати a c5.2xlarge Примірник Cloud9 з a 40GB обсяг локального сховища. Під час використання Cloud9 вимкніть тимчасові облікові дані, керовані AWS, відвідавши веб-сайт Cloud9->Preferences->AWS Settings як показано на скріншоті нижче.

Увімкніть метрики GPU на основі модуля в Amazon CloudWatch | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Створіть і запустіть контейнер aws-do-eks

Відкрийте оболонку терміналу у бажаному середовищі та виконайте такі команди:

git clone https://github.com/aws-samples/aws-do-eks
cd aws-do-eks
./build.sh
./run.sh
./exec.sh

Результат такий:

root@e5ecb162812f:/eks#

Тепер у вас є оболонка в середовищі контейнера, яка містить усі інструменти, необхідні для виконання наведених нижче завдань. Ми називатимемо це «оболонкою aws-do-eks». Ви будете виконувати команди в наступних розділах у цій оболонці, якщо спеціально не вказано інше.

Створіть кластер EKS із групою вузлів

Ця група включає сімейство екземплярів GPU на ваш вибір; у цьому прикладі ми використовуємо g5.2xlarge тип екземпляра.

Команда проект aws-do-eks поставляється з набором конфігурацій кластера. Ви можете встановити бажану конфігурацію кластера за допомогою однієї зміни конфігурації.

В контейнері оболонка, біг ./env-config.sh а потім встановити CONF=conf/eksctl/yaml/eks-gpu-g5.yaml
Щоб перевірити конфігурацію кластера, запустіть ./eks-config.sh

Ви повинні побачити такий маніфест кластера:

apiVersion: eksctl.io/v1alpha5
kind: ClusterConfig
metadata: name: do-eks-yaml-g5 version: "1.25" region: us-east-1
availabilityZones: - us-east-1a - us-east-1b - us-east-1c - us-east-1d
managedNodeGroups: - name: sys instanceType: m5.xlarge desiredCapacity: 1 iam: withAddonPolicies: autoScaler: true cloudWatch: true - name: g5 instanceType: g5.2xlarge instancePrefix: g5-2xl privateNetworking: true efaEnabled: false minSize: 0 desiredCapacity: 1 maxSize: 10 volumeSize: 80 iam: withAddonPolicies: cloudWatch: true
iam: withOIDC: true

Щоб створити кластер, виконайте таку команду в контейнері

./eks-create.sh

Вихід такий:

root@e5ecb162812f:/eks# ./eks-create.sh /eks/impl/eksctl/yaml /eks ./eks-create.sh Mon May 22 20:50:59 UTC 2023
Creating cluster using /eks/conf/eksctl/yaml/eks-gpu-g5.yaml ... eksctl create cluster -f /eks/conf/eksctl/yaml/eks-gpu-g5.yaml 2023-05-22 20:50:59 [ℹ] eksctl version 0.133.0
2023-05-22 20:50:59 [ℹ] using region us-east-1
2023-05-22 20:50:59 [ℹ] subnets for us-east-1a - public:192.168.0.0/19 private:192.168.128.0/19
2023-05-22 20:50:59 [ℹ] subnets for us-east-1b - public:192.168.32.0/19 private:192.168.160.0/19
2023-05-22 20:50:59 [ℹ] subnets for us-east-1c - public:192.168.64.0/19 private:192.168.192.0/19
2023-05-22 20:50:59 [ℹ] subnets for us-east-1d - public:192.168.96.0/19 private:192.168.224.0/19
2023-05-22 20:50:59 [ℹ] nodegroup "sys" will use "" [AmazonLinux2/1.25]
2023-05-22 20:50:59 [ℹ] nodegroup "g5" will use "" [AmazonLinux2/1.25]
2023-05-22 20:50:59 [ℹ] using Kubernetes version 1.25
2023-05-22 20:50:59 [ℹ] creating EKS cluster "do-eks-yaml-g5" in "us-east-1" region with managed nodes
2023-05-22 20:50:59 [ℹ] 2 nodegroups (g5, sys) were included (based on the include/exclude rules)
2023-05-22 20:50:59 [ℹ] will create a CloudFormation stack for cluster itself and 0 nodegroup stack(s)
2023-05-22 20:50:59 [ℹ] will create a CloudFormation stack for cluster itself and 2 managed nodegroup stack(s)
2023-05-22 20:50:59 [ℹ] if you encounter any issues, check CloudFormation console or try 'eksctl utils describe-stacks --region=us-east-1 --cluster=do-eks-yaml-g5'
2023-05-22 20:50:59 [ℹ] Kubernetes API endpoint access will use default of {publicAccess=true, privateAccess=false} for cluster "do-eks-yaml-g5" in "us-east-1"
2023-05-22 20:50:59 [ℹ] CloudWatch logging will not be enabled for cluster "do-eks-yaml-g5" in "us-east-1"
2023-05-22 20:50:59 [ℹ] you can enable it with 'eksctl utils update-cluster-logging --enable-types={SPECIFY-YOUR-LOG-TYPES-HERE (e.g. all)} --region=us-east-1 --cluster=do-eks-yaml-g5'
2023-05-22 20:50:59 [ℹ] 2 sequential tasks: { create cluster control plane "do-eks-yaml-g5", 2 sequential sub-tasks: { 4 sequential sub-tasks: { wait for control plane to become ready, associate IAM OIDC provider, 2 sequential sub-tasks: { create IAM role for serviceaccount "kube-system/aws-node", create serviceaccount "kube-system/aws-node", }, restart daemonset "kube-system/aws-node", }, 2 parallel sub-tasks: { create managed nodegroup "sys", create managed nodegroup "g5", }, } }
2023-05-22 20:50:59 [ℹ] building cluster stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:51:00 [ℹ] deploying stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:51:30 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:52:00 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:53:01 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:54:01 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:55:01 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:56:02 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:57:02 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:58:02 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 20:59:02 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:00:03 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:01:03 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:02:03 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:03:04 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-cluster"
2023-05-22 21:05:07 [ℹ] building iamserviceaccount stack "eksctl-do-eks-yaml-g5-addon-iamserviceaccount-kube-system-aws-node"
2023-05-22 21:05:10 [ℹ] deploying stack "eksctl-do-eks-yaml-g5-addon-iamserviceaccount-kube-system-aws-node"
2023-05-22 21:05:10 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-addon-iamserviceaccount-kube-system-aws-node"
2023-05-22 21:05:40 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-addon-iamserviceaccount-kube-system-aws-node"
2023-05-22 21:05:40 [ℹ] serviceaccount "kube-system/aws-node" already exists
2023-05-22 21:05:41 [ℹ] updated serviceaccount "kube-system/aws-node"
2023-05-22 21:05:41 [ℹ] daemonset "kube-system/aws-node" restarted
2023-05-22 21:05:41 [ℹ] building managed nodegroup stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:05:41 [ℹ] building managed nodegroup stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:05:42 [ℹ] deploying stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:05:42 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:05:42 [ℹ] deploying stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:05:42 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:06:12 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:06:12 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:06:55 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:07:11 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:08:29 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:08:45 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-sys"
2023-05-22 21:09:52 [ℹ] waiting for CloudFormation stack "eksctl-do-eks-yaml-g5-nodegroup-g5"
2023-05-22 21:09:53 [ℹ] waiting for the control plane to become ready
2023-05-22 21:09:53 [✔] saved kubeconfig as "/root/.kube/config"
2023-05-22 21:09:53 [ℹ] 1 task: { install Nvidia device plugin }
W0522 21:09:54.155837 1668 warnings.go:70] spec.template.metadata.annotations[scheduler.alpha.kubernetes.io/critical-pod]: non-functional in v1.16+; use the "priorityClassName" field instead
2023-05-22 21:09:54 [ℹ] created "kube-system:DaemonSet.apps/nvidia-device-plugin-daemonset"
2023-05-22 21:09:54 [ℹ] as you are using the EKS-Optimized Accelerated AMI with a GPU-enabled instance type, the Nvidia Kubernetes device plugin was automatically installed. to skip installing it, use --install-nvidia-plugin=false.
2023-05-22 21:09:54 [✔] all EKS cluster resources for "do-eks-yaml-g5" have been created
2023-05-22 21:09:54 [ℹ] nodegroup "sys" has 1 node(s)
2023-05-22 21:09:54 [ℹ] node "ip-192-168-18-137.ec2.internal" is ready
2023-05-22 21:09:54 [ℹ] waiting for at least 1 node(s) to become ready in "sys"
2023-05-22 21:09:54 [ℹ] nodegroup "sys" has 1 node(s)
2023-05-22 21:09:54 [ℹ] node "ip-192-168-18-137.ec2.internal" is ready
2023-05-22 21:09:55 [ℹ] kubectl command should work with "/root/.kube/config", try 'kubectl get nodes'
2023-05-22 21:09:55 [✔] EKS cluster "do-eks-yaml-g5" in "us-east-1" region is ready Mon May 22 21:09:55 UTC 2023
Done creating cluster using /eks/conf/eksctl/yaml/eks-gpu-g5.yaml /eks

Щоб переконатися, що ваш кластер створено успішно, виконайте таку команду

kubectl get nodes -L node.kubernetes.io/instance-type

Результат схожий на такий:

NAME STATUS ROLES AGE VERSION INSTANCE_TYPE
ip-192-168-18-137.ec2.internal Ready <none> 47m v1.25.9-eks-0a21954 m5.xlarge
ip-192-168-214-241.ec2.internal Ready <none> 46m v1.25.9-eks-0a21954 g5.2xlarge

У цьому прикладі ми маємо один екземпляр m5.xlarge та один g5.2xlarge у нашому кластері; тому ми бачимо два вузли, перераховані в попередньому виводі.

У процесі створення кластера буде встановлено плагін пристрою NVIDIA. Вам потрібно буде видалити його після створення кластера, оскільки ми будемо використовувати Оператор NVIDIA GPU замість цього.

Видаліть плагін за допомогою такої команди

kubectl -n kube-system delete daemonset nvidia-device-plugin-daemonset

Ми отримуємо наступний результат:

daemonset.apps "nvidia-device-plugin-daemonset" deleted

Встановіть репо NVIDIA Helm

Встановіть NVIDIA Helm repo за допомогою такої команди:

helm repo add nvidia https://helm.ngc.nvidia.com/nvidia && helm repo update

Розгорніть експортер DCGM за допомогою оператора NVIDIA GPU

Щоб розгорнути експортер DCGM, виконайте такі дії:

Підготуйте конфігурацію показників GPU експортера DCGM

curl https://raw.githubusercontent.com/NVIDIA/dcgm-exporter/main/etc/dcp-metrics-included.csv > dcgm-metrics.csv

У вас є можливість редагувати dcgm-metrics.csv файл. Ви можете додати або видалити будь-які показники за потреби.

Створіть простір імен gpu-operator і ConfigMap експортера DCGM

kubectl create namespace gpu-operator && /
kubectl create configmap metrics-config -n gpu-operator --from-file=dcgm-metrics.csv

Вихід такий:

namespace/gpu-operator created
configmap/metrics-config created

Застосуйте оператор GPU до кластера EKS

helm install --wait --generate-name -n gpu-operator --create-namespace nvidia/gpu-operator --set dcgmExporter.config.name=metrics-config --set dcgmExporter.env[0].name=DCGM_EXPORTER_COLLECTORS --set dcgmExporter.env[0].value=/etc/dcgm-exporter/dcgm-metrics.csv --set toolkit.enabled=false

Вихід такий:

NAME: gpu-operator-1684795140
LAST DEPLOYED: Day Month Date HH:mm:ss YYYY
NAMESPACE: gpu-operator
STATUS: deployed
REVISION: 1
TEST SUITE: None

Переконайтеся, що група експортера DCGM запущена

kubectl -n gpu-operator get pods | grep dcgm

Вихід такий:

nvidia-dcgm-exporter-lkmfr       1/1     Running    0   1m

Якщо ви оглянете журнали, ви повинні побачити “Starting webserver” повідомлення:

kubectl -n gpu-operator logs -f $(kubectl -n gpu-operator get pods | grep dcgm | cut -d ' ' -f 1)

Вихід такий:

Defaulted container "nvidia-dcgm-exporter" out of: nvidia-dcgm-exporter, toolkit-validation (init)
time="2023-05-22T22:40:08Z" level=info msg="Starting dcgm-exporter"
time="2023-05-22T22:40:08Z" level=info msg="DCGM successfully initialized!"
time="2023-05-22T22:40:08Z" level=info msg="Collecting DCP Metrics"
time="2023-05-22T22:40:08Z" level=info msg="No configmap data specified, falling back to metric file /etc/dcgm-exporter/dcgm-metrics.csv"
time="2023-05-22T22:40:08Z" level=info msg="Initializing system entities of type: GPU"
time="2023-05-22T22:40:09Z" level=info msg="Initializing system entities of type: NvSwitch"
time="2023-05-22T22:40:09Z" level=info msg="Not collecting switch metrics: no switches to monitor"
time="2023-05-22T22:40:09Z" level=info msg="Initializing system entities of type: NvLink"
time="2023-05-22T22:40:09Z" level=info msg="Not collecting link metrics: no switches to monitor"
time="2023-05-22T22:40:09Z" level=info msg="Kubernetes metrics collection enabled!"
time="2023-05-22T22:40:09Z" level=info msg="Pipeline starting"
time="2023-05-22T22:40:09Z" level=info msg="Starting webserver"

NVIDIA DCGM Exporter відкриває кінцеву точку метрики Prometheus, яку може отримати агент CloudWatch. Щоб побачити кінцеву точку, скористайтеся такою командою:

kubectl -n gpu-operator get services | grep dcgm

Ми отримуємо наступний результат:

nvidia-dcgm-exporter    ClusterIP   10.100.183.207   <none>   9400/TCP   10m

Щоб забезпечити певне використання GPU, ми розгортаємо модуль, який запускає gpu-запис двійковий

kubectl apply -f https://raw.githubusercontent.com/aws-samples/aws-do-eks/main/Container-Root/eks/deployment/gpu-metrics/gpu-burn-deployment.yaml

Вихід такий:

deployment.apps/gpu-burn created

У цьому розгортанні використовується один графічний процесор для створення безперервної моделі 100% використання протягом 20 секунд, а потім 0% використання протягом 20 секунд.

Щоб переконатися, що кінцева точка працює, ви можете запустити тимчасовий контейнер, який використовує curl для читання вмісту http://nvidia-dcgm-exporter:9400/metrics

kubectl -n gpu-operator run -it --rm curl --restart='Never' --image=curlimages/curl --command -- curl http://nvidia-dcgm-exporter:9400/metrics

Ми отримуємо наступний результат:

# HELP DCGM_FI_DEV_SM_CLOCK SM clock frequency (in MHz).
# TYPE DCGM_FI_DEV_SM_CLOCK gauge
DCGM_FI_DEV_SM_CLOCK{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 1455
# HELP DCGM_FI_DEV_MEM_CLOCK Memory clock frequency (in MHz).
# TYPE DCGM_FI_DEV_MEM_CLOCK gauge
DCGM_FI_DEV_MEM_CLOCK{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 6250
# HELP DCGM_FI_DEV_GPU_TEMP GPU temperature (in C).
# TYPE DCGM_FI_DEV_GPU_TEMP gauge
DCGM_FI_DEV_GPU_TEMP{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 65
# HELP DCGM_FI_DEV_POWER_USAGE Power draw (in W).
# TYPE DCGM_FI_DEV_POWER_USAGE gauge
DCGM_FI_DEV_POWER_USAGE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 299.437000
# HELP DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION Total energy consumption since boot (in mJ).
# TYPE DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION counter
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 15782796862
# HELP DCGM_FI_DEV_PCIE_REPLAY_COUNTER Total number of PCIe retries.
# TYPE DCGM_FI_DEV_PCIE_REPLAY_COUNTER counter
DCGM_FI_DEV_PCIE_REPLAY_COUNTER{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_GPU_UTIL GPU utilization (in %).
# TYPE DCGM_FI_DEV_GPU_UTIL gauge
DCGM_FI_DEV_GPU_UTIL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 100
# HELP DCGM_FI_DEV_MEM_COPY_UTIL Memory utilization (in %).
# TYPE DCGM_FI_DEV_MEM_COPY_UTIL gauge
DCGM_FI_DEV_MEM_COPY_UTIL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 38
# HELP DCGM_FI_DEV_ENC_UTIL Encoder utilization (in %).
# TYPE DCGM_FI_DEV_ENC_UTIL gauge
DCGM_FI_DEV_ENC_UTIL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_DEC_UTIL Decoder utilization (in %).
# TYPE DCGM_FI_DEV_DEC_UTIL gauge
DCGM_FI_DEV_DEC_UTIL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_XID_ERRORS Value of the last XID error encountered.
# TYPE DCGM_FI_DEV_XID_ERRORS gauge
DCGM_FI_DEV_XID_ERRORS{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_FB_FREE Framebuffer memory free (in MiB).
# TYPE DCGM_FI_DEV_FB_FREE gauge
DCGM_FI_DEV_FB_FREE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 2230
# HELP DCGM_FI_DEV_FB_USED Framebuffer memory used (in MiB).
# TYPE DCGM_FI_DEV_FB_USED gauge
DCGM_FI_DEV_FB_USED{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 20501
# HELP DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL Total number of NVLink bandwidth counters for all lanes.
# TYPE DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL counter
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_VGPU_LICENSE_STATUS vGPU License status
# TYPE DCGM_FI_DEV_VGPU_LICENSE_STATUS gauge
DCGM_FI_DEV_VGPU_LICENSE_STATUS{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS Number of remapped rows for uncorrectable errors
# TYPE DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS counter
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS Number of remapped rows for correctable errors
# TYPE DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS counter
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_DEV_ROW_REMAP_FAILURE Whether remapping of rows has failed
# TYPE DCGM_FI_DEV_ROW_REMAP_FAILURE gauge
DCGM_FI_DEV_ROW_REMAP_FAILURE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0
# HELP DCGM_FI_PROF_GR_ENGINE_ACTIVE Ratio of time the graphics engine is active (in %).
# TYPE DCGM_FI_PROF_GR_ENGINE_ACTIVE gauge
DCGM_FI_PROF_GR_ENGINE_ACTIVE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0.808369
# HELP DCGM_FI_PROF_PIPE_TENSOR_ACTIVE Ratio of cycles the tensor (HMMA) pipe is active (in %).
# TYPE DCGM_FI_PROF_PIPE_TENSOR_ACTIVE gauge
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0.000000
# HELP DCGM_FI_PROF_DRAM_ACTIVE Ratio of cycles the device memory interface is active sending or receiving data (in %).
# TYPE DCGM_FI_PROF_DRAM_ACTIVE gauge
DCGM_FI_PROF_DRAM_ACTIVE{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 0.315787
# HELP DCGM_FI_PROF_PCIE_TX_BYTES The rate of data transmitted over the PCIe bus - including both protocol headers and data payloads - in bytes per second.
# TYPE DCGM_FI_PROF_PCIE_TX_BYTES gauge
DCGM_FI_PROF_PCIE_TX_BYTES{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 3985328
# HELP DCGM_FI_PROF_PCIE_RX_BYTES The rate of data received over the PCIe bus - including both protocol headers and data payloads - in bytes per second.
# TYPE DCGM_FI_PROF_PCIE_RX_BYTES gauge
DCGM_FI_PROF_PCIE_RX_BYTES{gpu="0",UUID="GPU-ff76466b-22fc-f7a9-abe2-ce3ac453b8b3",device="nvidia0",modelName="NVIDIA A10G",Hostname="nvidia-dcgm-exporter-48cwd",DCGM_FI_DRIVER_VERSION="470.182.03",container="main",namespace="kube-system",pod="gpu-burn-c68d8c774-ltg9s"} 21715174
pod "curl" deleted

Налаштуйте та розгорніть агент CloudWatch

Щоб налаштувати та розгорнути агент CloudWatch, виконайте такі дії:

Завантажте файл YAML і відредагуйте його

curl -O https://raw.githubusercontent.com/aws-samples/amazon-cloudwatch-container-insights/k8s/1.3.15/k8s-deployment-manifest-templates/deployment-mode/service/cwagent-prometheus/prometheus-eks.yaml

Файл містить a cwagent configmap і prometheus configmap. Для цієї публікації ми редагуємо обидва.

Редагувати prometheus-eks.yaml файл

Відкрийте prometheus-eks.yaml файл у вашому улюбленому редакторі та замініть cwagentconfig.json розділ такого змісту:

apiVersion: v1
data: # cwagent json config cwagentconfig.json: | { "logs": { "metrics_collected": { "prometheus": { "prometheus_config_path": "/etc/prometheusconfig/prometheus.yaml", "emf_processor": { "metric_declaration": [ { "source_labels": ["Service"], "label_matcher": ".*dcgm.*", "dimensions": [["Service","Namespace","ClusterName","job","pod"]], "metric_selectors": [ "^DCGM_FI_DEV_GPU_UTIL$", "^DCGM_FI_DEV_DEC_UTIL$", "^DCGM_FI_DEV_ENC_UTIL$", "^DCGM_FI_DEV_MEM_CLOCK$", "^DCGM_FI_DEV_MEM_COPY_UTIL$", "^DCGM_FI_DEV_POWER_USAGE$", "^DCGM_FI_DEV_ROW_REMAP_FAILURE$", "^DCGM_FI_DEV_SM_CLOCK$", "^DCGM_FI_DEV_XID_ERRORS$", "^DCGM_FI_PROF_DRAM_ACTIVE$", "^DCGM_FI_PROF_GR_ENGINE_ACTIVE$", "^DCGM_FI_PROF_PCIE_RX_BYTES$", "^DCGM_FI_PROF_PCIE_TX_BYTES$", "^DCGM_FI_PROF_PIPE_TENSOR_ACTIVE$" ] } ] } } }, "force_flush_interval": 5 } }

У prometheus конфігурації, додайте наступне визначення завдання для експортера DCGM

- job_name: 'kubernetes-pod-dcgm-exporter' sample_limit: 10000 metrics_path: /api/v1/metrics/prometheus kubernetes_sd_configs: - role: pod relabel_configs: - source_labels: [__meta_kubernetes_pod_container_name] action: keep regex: '^DCGM.*$' - source_labels: [__address__] action: replace regex: ([^:]+)(?::d+)? replacement: ${1}:9400 target_label: __address__ - action: labelmap regex: __meta_kubernetes_pod_label_(.+) - action: replace source_labels: - __meta_kubernetes_namespace target_label: Namespace - source_labels: [__meta_kubernetes_pod] action: replace target_label: pod - action: replace source_labels: - __meta_kubernetes_pod_container_name target_label: container_name - action: replace source_labels: - __meta_kubernetes_pod_controller_name target_label: pod_controller_name - action: replace source_labels: - __meta_kubernetes_pod_controller_kind target_label: pod_controller_kind - action: replace source_labels: - __meta_kubernetes_pod_phase target_label: pod_phase - action: replace source_labels: - __meta_kubernetes_pod_node_name target_label: NodeName

Збережіть файл і застосуйте cwagent-dcgm конфігурації для вашого кластера

kubectl apply -f ./prometheus-eks.yaml

Ми отримуємо наступний результат:

namespace/amazon-cloudwatch created
configmap/prometheus-cwagentconfig created
configmap/prometheus-config created
serviceaccount/cwagent-prometheus created
clusterrole.rbac.authorization.k8s.io/cwagent-prometheus-role created
clusterrolebinding.rbac.authorization.k8s.io/cwagent-prometheus-role-binding created
deployment.apps/cwagent-prometheus created

Переконайтеся, що модуль агента CloudWatch запущено

kubectl -n amazon-cloudwatch get pods

Ми отримуємо наступний результат:

NAME READY STATUS RESTARTS AGE
cwagent-prometheus-7dfd69cc46-s4cx7 1/1 Running 0 15m

Візуалізуйте показники на консолі CloudWatch

Щоб візуалізувати показники в CloudWatch, виконайте такі дії:

На консолі CloudWatch під Метрика на панелі навігації виберіть Всі показники
У Спеціальні простори імен виберіть новий запис для ContainerInsights/Prometheus

Для отримання додаткової інформації про ContainerInsights/Prometheus простір імен, зверніться до Отримання додаткових джерел Prometheus та імпорт цих показників.

CloudWatch – ContainerInsights/Prometeus

Перейдіть до назв показників і виберіть DCGM_FI_DEV_GPU_UTIL
на Графічні показники вкладка, набір період до 5 секунд:

CloudWatch - налаштування періоду

Встановіть інтервал оновлення на 10 секунд

Ви побачите показники, зібрані з експортера DCGM, які візуалізують gpu-burn візерунок вмикається та вимикається кожні 20 секунд.

CloudWatch - шаблон gpuburn

на перегорнути Ви можете переглянути дані, включно з назвою модуля для кожного показника.

CloudWatch – назва модуля для метрики

Метадані EKS API було об’єднано з даними метрик DCGM, що призвело до надання метрик GPU на основі модуля.

На цьому завершується перший підхід експорту метрик DCGM до CloudWatch через агент CloudWatch.

У наступному розділі ми налаштовуємо другу архітектуру, яка експортує метрики DCGM у Prometheus, і візуалізуємо їх за допомогою Grafana.

Використовуйте Prometheus і Grafana для візуалізації показників GPU з DCGM

Виконайте такі дії:

Додайте діаграму керма спільноти Prometheus

helm repo add prometheus-community https://prometheus-community.github.io/helm-charts

Ця діаграма розгортає як Prometheus, так і Grafana. Нам потрібно внести деякі зміни в діаграму перед виконанням команди встановлення.

Збережіть значення конфігурації діаграми у файлі /tmp

helm inspect values prometheus-community/kube-prometheus-stack > /tmp/kube-prometheus-stack.values

Відредагуйте файл конфігурації char

Відредагуйте збережений файл (/tmp/kube-prometheus-stack.values) і встановіть такий параметр, знайшовши назву налаштування та встановивши значення:

prometheus.prometheusSpec.serviceMonitorSelectorNilUsesHelmValues=false

Додайте таку ConfigMap до additionalScrapeConfigs розділ

additionalScrapeConfigs:
- job_name: gpu-metrics scrape_interval: 1s metrics_path: /metrics scheme: http kubernetes_sd_configs: - role: endpoints namespaces: names: - gpu-operator relabel_configs: - source_labels: [__meta_kubernetes_pod_node_name] action: replace target_label: kubernetes_node

Розгорніть стек Prometheus з оновленими значеннями

helm install prometheus-community/kube-prometheus-stack 
--create-namespace --namespace prometheus 
--generate-name 
--values /tmp/kube-prometheus-stack.values

Ми отримуємо наступний результат:

NAME: kube-prometheus-stack-1684965548
LAST DEPLOYED: Wed May 24 21:59:14 2023
NAMESPACE: prometheus
STATUS: deployed
REVISION: 1
NOTES:
kube-prometheus-stack has been installed. Check its status by running: kubectl --namespace prometheus get pods -l "release=kube-prometheus-stack-1684965548" Visit https://github.com/prometheus-operator/kube-prometheus for instructions on how to create & configure Alertmanager and Prometheus instances using the Operator.

Переконайтеся, що модулі Prometheus запущені

kubectl get pods -n prometheus

Ми отримуємо наступний результат:

NAME READY STATUS RESTARTS AGE
alertmanager-kube-prometheus-stack-1684-alertmanager-0 2/2 Running 0 6m55s
kube-prometheus-stack-1684-operator-6c87649878-j7v55 1/1 Running 0 6m58s
kube-prometheus-stack-1684965548-grafana-dcd7b4c96-bzm8p 3/3 Running 0 6m58s
kube-prometheus-stack-1684965548-kube-state-metrics-7d856dptlj5 1/1 Running 0 6m58s
kube-prometheus-stack-1684965548-prometheus-node-exporter-2fbl5 1/1 Running 0 6m58s
kube-prometheus-stack-1684965548-prometheus-node-exporter-m7zmv 1/1 Running 0 6m58s
prometheus-kube-prometheus-stack-1684-prometheus-0 2/2 Running 0 6m55s

Стручки Прометея та Графана знаходяться в Running стан.

Далі ми перевіряємо, що показники DCGM надходять у Prometheus.

Перенаправлення інтерфейсу користувача Prometheus

Існують різні способи надати користувальницький інтерфейс Prometheus, що працює в EKS, для запитів, що надходять за межі кластера. Будемо використовувати kubectl port-forwarding. Досі ми виконували команди всередині aws-do-eks контейнер. Щоб отримати доступ до служби Prometheus, яка працює в кластері, ми створимо тунель з хоста. Ось aws-do-eks контейнер працює, виконавши наступну команду поза контейнером, у новій оболонці терміналу на хості. Ми будемо називати це «оболонкою хоста».

kubectl -n prometheus port-forward svc/$(kubectl -n prometheus get svc | grep prometheus | grep -v alertmanager | grep -v operator | grep -v grafana | grep -v metrics | grep -v exporter | grep -v operated | cut -d ' ' -f 1) 8080:9090 &

Поки виконується процес перенаправлення портів, ми можемо отримати доступ до інтерфейсу користувача Prometheus із хосту, як описано нижче.

Відкрийте інтерфейс користувача Prometheus
- Якщо ви використовуєте Cloud9, перейдіть до Preview->Preview Running Application щоб відкрити інтерфейс користувача Prometheus на вкладці всередині IDE Cloud9, потім клацніть у верхньому правому куті вкладки, щоб відкрити в новому вікні.
- Якщо ви перебуваєте на локальному хості або підключені до примірника EC2 через віддалений робочий стіл, відкрийте браузер і перейдіть за URL-адресою http://localhost:8080.

Prometheus - метрика DCGM

Що натомість? Створіть віртуальну версію себе у DCGM щоб побачити показники DCGM, які надходять у Prometheus
Select DCGM_FI_DEV_GPU_UTILвиберіть Виконати, а потім перейдіть до Графік вкладку, щоб побачити очікуваний шаблон використання GPU

Прометей - візерунок gpuburn

Зупиніть процес переадресації портів Prometheus

Запустіть наступний командний рядок в оболонці хоста:

kill -9 $(ps -aef | grep port-forward | grep -v grep | grep prometheus | awk '{print $2}')

Тепер ми можемо візуалізувати показники DCGM за допомогою інформаційної панелі Grafana.

Отримайте пароль для входу в інтерфейс користувача Grafana

kubectl -n prometheus get secret $(kubectl -n prometheus get secrets | grep grafana | cut -d ' ' -f 1) -o jsonpath="{.data.admin-password}" | base64 --decode ; echo

Переадресація послуги Grafana

Запустіть наступний командний рядок в оболонці хоста:

kubectl port-forward -n prometheus svc/$(kubectl -n prometheus get svc | grep grafana | cut -d ' ' -f 1) 8080:80 &

Увійдіть в інтерфейс користувача Grafana

Отримайте доступ до екрана входу в інтерфейс Grafana так само, як і раніше до інтерфейсу Prometheus. Якщо використовується Cloud9, виберіть Preview->Preview Running Application, а потім відобразиться в новому вікні. Якщо ви використовуєте локальний хост або екземпляр EC2 із віддаленим робочим столом, відвідайте URL-адресу http://localhost:8080. Увійдіть за допомогою імені користувача admin і пароля, який ви отримали раніше.

Графана - логін

На панелі навігації виберіть Панелі

Графана - приладові панелі

Вибирати Нові та Імпортувати

Grafana - завантаження за ідентифікатором з grafana.com
Ми збираємося імпортувати інформаційну панель DCGM Grafana за замовчуванням, описану в Інформаційна панель NVIDIA DCGM Exporter.

В польових умовах import via grafana.com, введіть 12239 І вибирай Навантаження
Вибирати Прометей як джерело даних
Вибирати Імпортувати

Grafana - імпортна панель

Ви побачите інформаційну панель, подібну до тієї, що на наступному знімку екрана.

Графана - панель приладів

Щоб продемонструвати, що ці показники базуються на модулях, ми збираємося змінити Використання GPU на цій інформаційній панелі.

Виберіть панель і меню параметрів (три крапки)
Розгорнути Опції розділ і відредагуйте легенда поле
Замініть там значення на Pod {{pod}}, Потім виберіть зберегти

Графана - стручкова метрика
Тепер легенда показує gpu-burn назва модуля, пов’язана з відображеним використанням GPU.

Зупиніть перенаправлення портів служби Grafana UI

Виконайте наступне в оболонці хоста:

kill -9 $(ps -aef | grep port-forward | grep -v grep | grep prometheus | awk '{print $2}')

У цій публікації ми продемонстрували використання Prometheus і Grafana з відкритим кодом, розгорнутих у кластері EKS. При бажанні це розгортання можна замінити на Керована служба Amazon для Prometheus та Grafana під керуванням Amazon.

Прибирати

Щоб очистити створені ресурси, запустіть наступний сценарій із aws-do-eks оболонка контейнера:

./eks-delete.sh

Висновок

У цій публікації ми використали NVIDIA DCGM Exporter для збору показників GPU та візуалізації їх за допомогою CloudWatch або Prometheus і Grafana. Ми запрошуємо вас використовувати продемонстровані тут архітектури, щоб увімкнути моніторинг використання GPU за допомогою NVIDIA DCGM у вашому власному середовищі AWS.

Додаткові ресурси

Про авторів

Увімкніть метрики GPU на основі модуля в Amazon CloudWatch | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Амр Рагаб колишній головний архітектор рішень, EC2 Accelerated Computing в AWS. Він відданий тому, щоб допомогти клієнтам виконувати обчислювальні навантаження в масштабі. У вільний час він любить подорожувати та шукати нові способи інтеграції технологій у повсякденне життя.

Алекс Янкульський є головним архітектором рішень, самокероване машинне навчання в AWS. Він розробник програмного забезпечення та інфраструктури, який любить виконувати глибоку практичну роботу. У своїй ролі він зосереджується на допомозі клієнтам із контейнеризацією та оркестровкою робочих навантажень ML та AI у службах AWS на базі контейнерів. Він також є автором відкритого коду зробити каркас і капітан Docker, який любить застосовувати контейнерні технології для прискорення темпів інновацій, вирішуючи найбільші світові проблеми. Протягом останніх 10 років Алекс працював над демократизацією штучного інтелекту та машинного навчання, боровся зі зміною клімату, зробив подорож безпечнішою, охорону здоров’я кращою та енергію розумнішою.

Увімкніть метрики GPU на основі модуля в Amazon CloudWatch | Amazon Web Services PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. Кейта Ватанабе є старшим архітектором рішень Frameworks ML Solutions в Amazon Web Services, де він допомагає розробляти найкращі в галузі хмарні рішення для самокерованого машинного навчання. Він займається дослідженнями та розробкою машинного навчання. До приходу в AWS Кейта працював у сфері електронної комерції. Кейта має ступінь доктора філософії. доктор наук Токійського університету.

Розповсюдження контенту та PR на основі SEO. Отримайте посилення сьогодні.
PlatoData.Network Vertical Generative Ai. Додайте собі сили. Доступ тут.
PlatoAiStream. Web3 Intelligence. Розширення знань. Доступ тут.
ПлатонЕСГ. Автомобільні / електромобілі, вуглець, CleanTech, Енергія, Навколишнє середовище, Сонячна, Поводження з відходами. Доступ тут.
PlatoHealth. Розвідка про біотехнології та клінічні випробування. Доступ тут.
ChartPrime. Розвивайте свою торгову гру за допомогою ChartPrime. Доступ тут.
BlockOffsets. Модернізація екологічної компенсаційної власності. Доступ тут.
джерело: https://aws.amazon.com/blogs/machine-learning/enable-pod-based-gpu-metrics-in-amazon-cloudwatch/

Часова мітка: Вересень 7, 2023

Часова мітка: Червень 8, 2023

Перевидано Платоном

Як Chefz подає ідеальну їжу за допомогою Amazon Personalize

Вбудований у Amazon SageMaker LightGBM тепер пропонує розподілене навчання за допомогою Dask

Як BigBasket удосконалив перевірку з підтримкою штучного інтелекту у своїх фізичних магазинах за допомогою Amazon SageMaker | Веб-сервіси Amazon

Доповнюйте шахрайські транзакції за допомогою синтетичних даних в Amazon SageMaker

Підвищте точність транскрипції дзвінків між клієнтами та агентами за допомогою спеціального словника в Amazon Transcribe

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки