Observerbarhet med åpen kildekode for AWS-inferentia-noder i Amazon EKS-klynger

Publisert av Platon

Følgere: 0

Nylig utvikling innen maskinlæring (ML) har ført til stadig større modeller, hvorav noen krever hundrevis av milliarder av parametere. Selv om de er kraftigere, krever opplæring og slutning om disse modellene betydelige beregningsressurser. Til tross for tilgjengeligheten av avanserte distribuerte treningsbiblioteker, er det vanlig at trenings- og slutningsjobber trenger hundrevis av akseleratorer (GPUer eller spesialbygde ML-brikker som f.eks. AWS Trainium og AWS slutning), og derfor titalls eller hundrevis av forekomster.

I slike distribuerte miljøer blir observerbarhet av både forekomster og ML-brikker nøkkelen til finjustering av modellytelse og kostnadsoptimalisering. Beregninger lar team forstå arbeidsbelastningsatferd og optimalisere ressursallokering og utnyttelse, diagnostisere uregelmessigheter og øke den generelle infrastruktureffektiviteten. For dataforskere er utnyttelse og metning av ML-brikker også relevant for kapasitetsplanlegging.

Dette innlegget leder deg gjennom Åpen kildekode-observasjonsmønster for AWS Inferentia, som viser deg hvordan du overvåker ytelsen til ML-brikker, brukt i en Amazon Elastic Kubernetes-tjeneste (Amazon EKS) klynge, med dataplannoder basert på Amazon Elastic Compute Cloud (Amazon EC2) forekomster av typen Inf1 og Inf2.

Mønsteret er en del av AWS CDK Observability Accelerator, et sett med meningsfulle moduler som hjelper deg med å angi observerbarhet for Amazon EKS-klynger. AWS CDK Observability Accelerator er organisert rundt mønstre, som er gjenbrukbare enheter for å distribuere flere ressurser. Åpen kildekode observerbarhet sett med mønstre instrumenter observerbarhet med Amazon administrerte Grafana dashbord, en AWS Distro for OpenTelemetry samler for å samle beregninger, og Amazon Managed Service for Prometheus å lagre dem.

Løsningsoversikt

Følgende diagram illustrerer løsningsarkitekturen.

Åpen kildekode observerbarhet for AWS Inferentia-noder i Amazon EKS-klynger | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Denne løsningen distribuerer en Amazon EKS-klynge med en nodegruppe som inkluderer Inf1-forekomster.

AMI-typen til nodegruppen er AL2_x86_64_GPU, som bruker Amazon EKS-optimalisert akselerert Amazon Linux AMI. I tillegg til standard Amazon EKS-optimalisert AMI-konfigurasjon, inkluderer den akselererte AMI NeuronX kjøretid.

For å få tilgang til ML-brikkene fra Kubernetes, distribuerer mønsteret AWS nevron enhetsplugin.

Beregninger er utsatt for Amazon Managed Service for Prometheus av neuron-monitor DaemonSet, som distribuerer en minimal beholder, med Nevronverktøy installert. Nærmere bestemt neuron-monitor DaemonSet kjører neuron-monitor kommando ledet inn i neuron-monitor-prometheus.py følgeskript (begge kommandoene er en del av beholderen):

neuron-monitor | neuron-monitor-prometheus.py --port <port>

Kommandoen bruker følgende komponenter:

neuron-monitor samler inn beregninger og statistikk fra Neuron-applikasjonene som kjører på systemet og strømmer de innsamlede dataene til stdout i JSON-format
neuron-monitor-prometheus.py kartlegger og eksponerer telemetridata fra JSON-format til Prometheus-kompatibelt format

Data visualiseres i Amazon Managed Grafana av det tilsvarende dashbordet.

Resten av oppsettet for å samle inn og visualisere beregninger med Amazon Managed Service for Prometheus og Amazon Managed Grafana ligner på det som brukes i andre åpen kildekodebaserte mønstre, som er inkludert i AWS Observability Accelerator for CDK GitHub-depot.

Forutsetninger

Du trenger følgende for å fullføre trinnene i dette innlegget:

Sett opp miljøet

Fullfør følgende trinn for å konfigurere miljøet ditt:

Åpne et terminalvindu og kjør følgende kommandoer:

export AWS_REGION=<YOUR AWS REGION>
export ACCOUNT_ID=$(aws sts get-caller-identity --query 'Account' --output text)

Hent arbeidsområde-ID-ene til et eksisterende Amazon Managed Grafana-arbeidsområde:

aws grafana list-workspaces

Følgende er vårt eksempelutgang:

{
  "workspaces": [
    {
      "authentication": {
        "providers": [
          "AWS_SSO"
        ]
      },
      "created": "2023-06-07T12:23:56.625000-04:00",
      "description": "accelerator-workspace",
      "endpoint": "g-XYZ.grafana-workspace.us-east-2.amazonaws.com",
      "grafanaVersion": "9.4",
      "id": "g-XYZ",
      "modified": "2023-06-07T12:30:09.892000-04:00",
      "name": "accelerator-workspace",
      "notificationDestinations": [
        "SNS"
      ],
      "status": "ACTIVE",
      "tags": {}
    }
  ]
}

Tilordne verdiene til id og endpoint til følgende miljøvariabler:

export COA_AMG_WORKSPACE_ID="<<YOUR-WORKSPACE-ID, similar to the above g-XYZ, without quotation marks>>"
export COA_AMG_ENDPOINT_URL="<<https://YOUR-WORKSPACE-URL, including protocol (i.e. https://), without quotation marks, similar to the above https://g-XYZ.grafana-workspace.us-east-2.amazonaws.com>>"

COA_AMG_ENDPOINT_URL trenger å inkludere https://.

Opprett en Grafana API-nøkkel fra Amazon Managed Grafana-arbeidsområdet:

export AMG_API_KEY=$(aws grafana create-workspace-api-key 
--key-name "grafana-operator-key" 
--key-role "ADMIN" 
--seconds-to-live 432000 
--workspace-id $COA_AMG_WORKSPACE_ID 
--query key 
--output text)

Sett opp en hemmelighet i AWS systemansvarlig:

aws ssm put-parameter --name "/cdk-accelerator/grafana-api-key" 
--type "SecureString" 
--value $AMG_API_KEY 
--region $AWS_REGION

Hemmeligheten vil få tilgang til External Secrets-tillegget og gjøres tilgjengelig som en innebygd Kubernetes-hemmelighet i EKS-klyngen.

Bootstrap AWS CDK-miljøet

Det første trinnet til enhver AWS CDK-distribusjon er oppstart av miljøet. Du bruker cdk bootstrap kommando i AWS CDK CLI for å forberede miljøet (en kombinasjon av AWS-konto og AWS-region) med ressurser som kreves av AWS CDK for å utføre distribusjoner i det miljøet. AWS CDK bootstrapping er nødvendig for hver konto og region-kombinasjon, så hvis du allerede har bootstrapping AWS CDK i en region, trenger du ikke å gjenta bootstrapping-prosessen.

cdk bootstrap aws://$ACCOUNT_ID/$AWS_REGION

Distribuere løsningen

Fullfør følgende trinn for å distribuere løsningen:

Klone cdk-aws-observasjonsakselerator repository og installer avhengighetspakkene. Dette depotet inneholder AWS CDK v2-kode skrevet i TypeScript.

git clone https://github.com/aws-observability/cdk-aws-observability-accelerator.git
cd cdk-aws-observability-accelerator

De faktiske innstillingene for Grafana dashboard JSON-filer forventes å bli spesifisert i AWS CDK-konteksten. Du må oppdatere context i cdk.json fil, som ligger i gjeldende katalog. Plasseringen av dashbordet er spesifisert av fluxRepository.values.GRAFANA_NEURON_DASH_URL parameter, og neuronNodeGroup brukes til å angi forekomsttype, nummer og Amazon Elastic Block Store (Amazon EBS) størrelse brukt for nodene.

Skriv inn følgende kodebit i cdk.json, erstatte context:

"context": {
    "fluxRepository": {
      "name": "grafana-dashboards",
      "namespace": "grafana-operator",
      "repository": {
        "repoUrl": "https://github.com/aws-observability/aws-observability-accelerator",
        "name": "grafana-dashboards",
        "targetRevision": "main",
        "path": "./artifacts/grafana-operator-manifests/eks/infrastructure"
      },
      "values": {
        "GRAFANA_CLUSTER_DASH_URL" : "https://raw.githubusercontent.com/aws-observability/aws-observability-accelerator/main/artifacts/grafana-dashboards/eks/infrastructure/cluster.json",
        "GRAFANA_KUBELET_DASH_URL" : "https://raw.githubusercontent.com/aws-observability/aws-observability-accelerator/main/artifacts/grafana-dashboards/eks/infrastructure/kubelet.json",
        "GRAFANA_NSWRKLDS_DASH_URL" : "https://raw.githubusercontent.com/aws-observability/aws-observability-accelerator/main/artifacts/grafana-dashboards/eks/infrastructure/namespace-workloads.json",
        "GRAFANA_NODEEXP_DASH_URL" : "https://raw.githubusercontent.com/aws-observability/aws-observability-accelerator/main/artifacts/grafana-dashboards/eks/infrastructure/nodeexporter-nodes.json",
        "GRAFANA_NODES_DASH_URL" : "https://raw.githubusercontent.com/aws-observability/aws-observability-accelerator/main/artifacts/grafana-dashboards/eks/infrastructure/nodes.json",
        "GRAFANA_WORKLOADS_DASH_URL" : "https://raw.githubusercontent.com/aws-observability/aws-observability-accelerator/main/artifacts/grafana-dashboards/eks/infrastructure/workloads.json",
        "GRAFANA_NEURON_DASH_URL" : "https://raw.githubusercontent.com/aws-observability/aws-observability-accelerator/main/artifacts/grafana-dashboards/eks/neuron/neuron-monitor.json"
      },
      "kustomizations": [
        {
          "kustomizationPath": "./artifacts/grafana-operator-manifests/eks/infrastructure"
        },
        {
          "kustomizationPath": "./artifacts/grafana-operator-manifests/eks/neuron"
        }
      ]
    },
     "neuronNodeGroup": {
      "instanceClass": "inf1",
      "instanceSize": "2xlarge",
      "desiredSize": 1, 
      "minSize": 1, 
      "maxSize": 3,
      "ebsSize": 512
    }
  }

Du kan erstatte Inf1-forekomsttypen med Inf2 og endre størrelsen etter behov. For å sjekke tilgjengeligheten i den valgte regionen, kjør følgende kommando (endre Values slik du synes):

aws ec2 describe-instance-type-offerings 
--filters Name=instance-type,Values="inf1*" 
--query "InstanceTypeOfferings[].InstanceType" 
--region $AWS_REGION

Installer prosjektavhengighetene:

npm install

Kjør følgende kommandoer for å distribuere åpen kildekode-observasjonsmønsteret:

make build
make pattern single-new-eks-inferentia-opensource-observability deploy

Bekreft løsningen

Fullfør følgende trinn for å validere løsningen:

Kjør update-kubeconfig kommando. Du skal kunne hente kommandoen fra utdatameldingen til forrige kommando:

aws eks update-kubeconfig --name single-new-eks-inferentia-opensource... --region <your region> --role-arn arn:aws:iam::xxxxxxxxx:role/single-new-eks-....

Bekreft ressursene du opprettet:

kubectl get pods -A

Følgende skjermbilde viser vårt eksempelutgang.

Åpen kildekode observerbarhet for AWS Inferentia-noder i Amazon EKS-klynger | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Sørg for at neuron-device-plugin-daemonset DaemonSet kjører:

kubectl get ds neuron-device-plugin-daemonset --namespace kube-system

Følgende er vårt forventede resultat:

NAME                             DESIRED   CURRENT   READY   UP-TO-DATE   AVAILABLE   NODE SELECTOR   AGE
neuron-device-plugin-daemonset   1         1         1       1            1           <none>          2h

Bekreft at neuron-monitor DaemonSet kjører:

kubectl get ds neuron-monitor --namespace kube-system

Følgende er vårt forventede resultat:

NAME             DESIRED   CURRENT   READY   UP-TO-DATE   AVAILABLE   NODE SELECTOR   AGE
neuron-monitor   1         1         1       1            1           <none>          2h

For å bekrefte at Neuron-enhetene og -kjernene er synlige, kjør neuron-ls og neuron-top kommandoer fra for eksempel nevronmonitor-poden (du kan få podens navn fra utdataene til kubectl get pods -A):

kubectl exec -it {your neuron-monitor pod} -n kube-system -- /bin/bash -c "neuron-ls"

Følgende skjermbilde viser vår forventede produksjon.

Åpen kildekode observerbarhet for AWS Inferentia-noder i Amazon EKS-klynger | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

kubectl exec -it {your neuron-monitor pod} -n kube-system -- /bin/bash -c "neuron-top"

Følgende skjermbilde viser vår forventede produksjon.

Åpen kildekode observerbarhet for AWS Inferentia-noder i Amazon EKS-klynger | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Visualiser data ved hjelp av Grafana Neuron-dashbordet

Logg på ditt Amazon Managed Grafana-arbeidsområde og naviger til Instrumentbord panel. Du bør se et dashbord kalt Nevron / Monitor.

For å se noen interessante beregninger på Grafana-dashbordet bruker vi følgende manifest:

curl https://raw.githubusercontent.com/aws-observability/aws-observability-accelerator/main/artifacts/k8s-deployment-manifest-templates/neuron/pytorch-inference-resnet50.yml | kubectl apply -f -

Dette er et eksempel på en arbeidsmengde som kompilerer torchvision ResNet50-modell og kjører repeterende inferens i en sløyfe for å generere telemetridata.

For å bekrefte at poden ble distribuert, kjør følgende kode:

kubectl get pods

Du bør se en pod som heter pytorch-inference-resnet50.

Etter noen minutter ser du inn i Nevron / Monitor dashbord, bør du se de innsamlede beregningene som ligner på følgende skjermbilder.

Åpen kildekode observerbarhet for AWS Inferentia-noder i Amazon EKS-klynger | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai.

Grafana Operator og Flux jobber alltid sammen for å synkronisere dashbordene dine med Git. Hvis du sletter dashbordene ved et uhell, blir de klargjort på nytt automatisk.

Rydd opp

Du kan slette hele AWS CDK-stabelen med følgende kommando:

make pattern single-new-eks-inferentia-opensource-observability destroy

konklusjonen

I dette innlegget viste vi deg hvordan du introduserer observerbarhet, med åpen kildekodeverktøy, i en EKS-klynge med et dataplan som kjører EC2 Inf1-forekomster. Vi startet med å velge Amazon EKS-optimalisert akselerert AMI for dataplannodene, som inkluderer Neuron container runtime, som gir tilgang til AWS Inferentia og Trainium Neuron enheter. Deretter, for å eksponere Neuron-kjernene og enhetene for Kubernetes, distribuerte vi Neuron-enhetsplugin. Selve innsamlingen og kartleggingen av telemetridata til Prometheus-kompatibelt format ble oppnådd via neuron-monitor og neuron-monitor-prometheus.py. Beregninger ble hentet fra Amazon Managed Service for Prometheus og vist på Neuron-dashbordet til Amazon Managed Grafana.

Vi anbefaler at du utforsker ytterligere observerbarhetsmønstre i AWS Observability Accelerator for CDK GitHub repo. For å lære mer om Neuron, se AWS Neuron Dokumentasjon.

om forfatteren

Åpen kildekode observerbarhet for AWS Inferentia-noder i Amazon EKS-klynger | Amazon Web Services PlatoBlockchain Data Intelligence. Vertikalt søk. Ai. Riccardo Freschi er Sr. Solutions Architect hos AWS, med fokus på applikasjonsmodernisering. Han jobber tett med partnere og kunder for å hjelpe dem med å transformere IT-landskapet deres på reisen til AWS Cloud ved å omstrukturere eksisterende applikasjoner og bygge nye.

SEO-drevet innhold og PR-distribusjon. Bli forsterket i dag.
PlatoData.Network Vertical Generative Ai. Styrk deg selv. Tilgang her.
PlatoAiStream. Web3 Intelligence. Kunnskap forsterket. Tilgang her.
PlatoESG. Karbon, CleanTech, Energi, Miljø, Solenergi, Avfallshåndtering. Tilgang her.
PlatoHelse. Bioteknologisk og klinisk etterretning. Tilgang her.
kilde: https://aws.amazon.com/blogs/machine-learning/open-source-observability-for-aws-inferentia-nodes-within-amazon-eks-clusters/

Tidstempel: April 17, 2024

Publisert av Platon

Kom raskere til data i produksjonsgrad ved å bruke nye innebygde grensesnitt med Amazon SageMaker Ground Truth Plus

AWS Localization bruker Amazon Translate for å skalere lokalisering

AWS feirer 5 år med innovasjon med Amazon SageMaker

Vi introduserer Amazon Comprehend-svinghjulet for MLOps

Oversett dokumenter i sanntid med Amazon Translate | Amazon Web Services

Om Oss

Vertikal søk og Ai

Plattform

Hold kontakten

Logg inn