Scala LLM con PyTorch 2.0 FSDP su Amazon EKS – Parte 2

Ripubblicato da Platone

Seguaci: 0

Questo è un guest post scritto in collaborazione con il team PyTorch di Meta ed è la continuazione di Parte 1 di questa serie, in cui dimostriamo le prestazioni e la facilità di esecuzione di PyTorch 2.0 su AWS.

La ricerca sull'apprendimento automatico (ML) ha dimostrato che i modelli linguistici di grandi dimensioni (LLM) addestrati con set di dati significativamente grandi determinano una migliore qualità del modello. Negli ultimi anni, la dimensione dei modelli della generazione attuale è aumentata in modo significativo e richiedono strumenti e infrastrutture moderni per essere addestrati in modo efficiente e su larga scala. PyTorch Distributed Data Parallelism (DDP) aiuta a elaborare i dati su larga scala in modo semplice e robusto, ma richiede che il modello si adatti a una GPU. La libreria PyTorch Fully Sharded Data Parallel (FSDP) supera questa barriera consentendo lo sharding del modello per addestrare modelli di grandi dimensioni tra lavoratori paralleli dei dati.

L'addestramento del modello distribuito richiede un cluster di nodi di lavoro in grado di scalare. Servizio Amazon Elastic Kubernetes (Amazon EKS) è un popolare servizio conforme a Kubernetes che semplifica notevolmente il processo di esecuzione dei carichi di lavoro AI/ML, rendendolo più gestibile e richiede meno tempo.

In questo post del blog, AWS collabora con il team PyTorch di Meta per discutere come utilizzare la libreria PyTorch FSDP per ottenere il dimensionamento lineare dei modelli di deep learning su AWS senza problemi utilizzando Amazon EKS e Contenitori per l'apprendimento profondo AWS (DLC). Lo dimostriamo attraverso un'implementazione passo-passo dell'addestramento dei modelli Llama7 13B, 70B e 2B utilizzando Amazon EKS con 16 Cloud di calcolo elastico di Amazon (Amazon EC2) p4de.24xlarge istanze (ciascuna con 8 GPU NVIDIA A100 Tensor Core e ciascuna GPU con 80 GB di memoria HBM2e) o 16 EC2 p5.48xgrande istanze (ciascuna con 8 GPU NVIDIA H100 Tensor Core e ciascuna GPU con 80 GB di memoria HBM3), ottenendo una scalabilità quasi lineare nel throughput e, in definitiva, consentendo tempi di addestramento più rapidi.

Il seguente grafico di dimensionamento mostra che le istanze p5.48xlarge offrono un'efficienza di dimensionamento dell'87% con la regolazione fine di FSDP Llama2 in una configurazione di cluster a 16 nodi.

Scala LLM con PyTorch 2.0 FSDP su Amazon EKS – Parte 2 | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Le sfide della formazione dei LLM

Le aziende stanno adottando sempre più LLM per una serie di attività, tra cui assistenti virtuali, traduzione, creazione di contenuti e visione artificiale, per migliorare l'efficienza e la precisione in una varietà di applicazioni.

Tuttavia, l'addestramento o la messa a punto di questi modelli di grandi dimensioni per un caso d'uso personalizzato richiede una grande quantità di dati e potenza di calcolo, il che si aggiunge alla complessità ingegneristica complessiva dello stack ML. Ciò è dovuto anche alla memoria limitata disponibile su una singola GPU, che limita la dimensione del modello che può essere addestrato e limita anche la dimensione del batch per GPU utilizzata durante l'addestramento.

Per affrontare questa sfida, varie tecniche di parallelismo dei modelli come DeepSpeed Zero ed PyTorch FSDP sono stati creati per consentirti di superare questa barriera di memoria GPU limitata. Ciò viene fatto adottando una tecnica parallela di dati frammentati, in cui ciascun acceleratore contiene solo una sezione (a coccio) di una replica del modello anziché dell'intera replica del modello, riducendo drasticamente l'impronta di memoria del processo di training.

Questo post dimostra come utilizzare PyTorch FSDP per ottimizzare il modello Llama2 utilizzando Amazon EKS. Raggiungiamo questo obiettivo aumentando la capacità di elaborazione e GPU per soddisfare i requisiti del modello.

Panoramica della PFSDP

Nell'addestramento PyTorch DDP, ogni GPU (denominata a lavoratore nel contesto di PyTorch) contiene una copia completa del modello, inclusi i pesi, i gradienti e gli stati dell'ottimizzatore del modello. Ogni lavoratore elabora un batch di dati e, al termine del passaggio all'indietro, utilizza un file tutto-riduci operazione per sincronizzare i gradienti tra diversi lavoratori.

La presenza di una replica del modello su ciascuna GPU limita le dimensioni del modello che può essere ospitato in un flusso di lavoro DDP. FSDP aiuta a superare questa limitazione suddividendo in partizioni i parametri del modello, gli stati dell'ottimizzatore e i gradienti tra i lavoratori paralleli dei dati, pur preservando la semplicità del parallelismo dei dati.

Ciò è dimostrato nel diagramma seguente, dove nel caso di DDP, ciascuna GPU contiene una copia completa dello stato del modello, incluso lo stato dell'ottimizzatore (OS), i gradienti (G) e i parametri (P): M(OS + G +P). In FSDP, ogni GPU contiene solo una parte dello stato del modello, inclusi lo stato dell'ottimizzatore (OS), i gradienti (G) e i parametri (P): M (OS+G+P). L'utilizzo di FSDP comporta un ingombro di memoria della GPU significativamente inferiore rispetto a DDP su tutti i lavoratori, consentendo l'addestramento di modelli molto grandi o l'utilizzo di batch di dimensioni maggiori per i lavori di addestramento.

Scala LLM con PyTorch 2.0 FSDP su Amazon EKS – Parte 2 | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Ciò, tuttavia, ha il prezzo di un maggiore sovraccarico di comunicazione, che viene mitigato attraverso le ottimizzazioni FSDP come la sovrapposizione di processi di comunicazione e calcolo con funzionalità come prelettura. Per informazioni più dettagliate fare riferimento a Introduzione a Fully Sharded Data Parallel (FSDP).

FSDP offre vari parametri che ti consentono di ottimizzare le prestazioni e l'efficienza dei tuoi lavori di formazione. Alcune delle caratteristiche e capacità principali di FSDP includono:

Politica di avvolgimento del trasformatore
Precisione mista flessibile
Checkpoint di attivazione
Varie strategie di partizionamento orizzontale per adattarsi a diverse velocità di rete e topologie di cluster:
- FULL_SHARD – Parametri del modello shard, gradienti e stati dell'ottimizzatore
- IBRIDO_SHARD – Shard completo all'interno di un nodo DDP tra i nodi; supporta un gruppo di partizionamento flessibile flessibile per una replica completa del modello (HSDP)
- SHARD_GRAD_OP – Sharding solo gradienti e stati di ottimizzazione
- NO_SHARD – Simile al DDP

Per ulteriori informazioni su FSDP, fare riferimento a Formazione efficiente su larga scala con Pytorch FSDP e AWS.

La figura seguente mostra come funziona FSDP per due processi paralleli di dati.

Scala LLM con PyTorch 2.0 FSDP su Amazon EKS – Parte 2 | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Panoramica della soluzione

In questo post, configuriamo un cluster di calcolo utilizzando Amazon EKS, che è un servizio gestito per eseguire Kubernetes nel cloud AWS e nei data center locali. Molti clienti stanno adottando Amazon EKS per eseguire carichi di lavoro AI/ML basati su Kubernetes, sfruttando le sue prestazioni, scalabilità, affidabilità e disponibilità, nonché le sue integrazioni con reti, sicurezza e altri servizi AWS.

Per il nostro caso d'uso FSDP, utilizziamo il file Operatore di formazione Kubeflow su Amazon EKS, un progetto nativo di Kubernetes che facilita la messa a punto e la formazione distribuita scalabile per i modelli ML. Supporta vari framework ML, incluso PyTorch, che puoi utilizzare per distribuire e gestire processi di formazione PyTorch su larga scala.

Utilizzando la risorsa personalizzata PyTorchJob di Kubeflow Training Operator, eseguiamo lavori di formazione su Kubernetes con un numero configurabile di repliche di lavoro che ci consente di ottimizzare l'utilizzo delle risorse.

Di seguito sono riportati alcuni componenti dell'operatore di formazione che svolgono un ruolo nel nostro caso d'uso di messa a punto di Llama2:

Un controller Kubernetes centralizzato che orchestra i processi di formazione distribuiti per PyTorch.
PyTorchJob, una risorsa personalizzata Kubernetes per PyTorch, fornita da Kubeflow Training Operator, per definire e distribuire processi di formazione Llama2 su Kubernetes.
etcd, che è legato all'implementazione del meccanismo di rendezvous per coordinare l'addestramento distribuito dei modelli PyTorch. Questoetcdil server, come parte del processo di rendez-vous, facilita il coordinamento e la sincronizzazione dei lavoratori partecipanti durante la formazione distribuita.

Il diagramma seguente illustra l'architettura della soluzione.

Scala LLM con PyTorch 2.0 FSDP su Amazon EKS – Parte 2 | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

La maggior parte dei dettagli verranno estratti dagli script di automazione che utilizziamo per eseguire l'esempio Llama2.

Utilizziamo i seguenti riferimenti al codice in questo caso d'uso:

Cos'è Llama2?

Llama2 è un LLM pre-addestrato su 2 trilioni di token di testo e codice. È uno dei LLM più grandi e potenti oggi disponibili. Puoi utilizzare Llama2 per una varietà di attività, tra cui l'elaborazione del linguaggio naturale (PNL), la generazione di testo e la traduzione. Per ulteriori informazioni, fare riferimento a Iniziare con Lama.

Llama2 è disponibile in tre diverse dimensioni del modello:

Lama2-70b – Questo è il modello Llama2 più grande, con 70 miliardi di parametri. È il modello Llama2 più potente e può essere utilizzato per i compiti più impegnativi.
Lama2-13b – Questo è un modello Llama2 di medie dimensioni, con 13 miliardi di parametri. È un buon equilibrio tra prestazioni ed efficienza e può essere utilizzato per una varietà di attività.
Lama2-7b – Questo è il modello Llama2 più piccolo, con 7 miliardi di parametri. È il modello Llama2 più efficiente e può essere utilizzato per attività che non richiedono il massimo livello di prestazioni.

Questo post ti consente di ottimizzare tutti questi modelli su Amazon EKS. Per fornire un'esperienza semplice e riproducibile nella creazione di un cluster EKS e nell'esecuzione di processi FSDP al suo interno, utilizziamo il metodo aws-do-eks progetto. L'esempio funzionerà anche con un cluster EKS preesistente.

Una procedura dettagliata con script è disponibile su GitHub per un'esperienza fuori dagli schemi. Nelle sezioni seguenti spiegheremo il processo end-to-end in modo più dettagliato.

Fornire l'infrastruttura della soluzione

Per gli esperimenti descritti in questo post utilizziamo cluster con nodi p4de (GPU A100) e p5 (GPU H100).

Cluster con nodi p4de.24xlarge

Per il nostro cluster con nodi p4de, utilizziamo quanto segue eks-gpu-p4de-odcr.yaml sceneggiatura:

export ODCR_ID=<your-capacityreservation-id>

cat > ./eks-gpu-p4de-odcr.yaml <<EOF
apiVersion: eksctl.io/v1alpha5
kind: ClusterConfig
metadata:
  name: do-eks-yaml-p4de-odcr
  version: "1.28"
  region: us-east-1
  tags:
    karpenter.sh/discovery: do-eks-yaml-p4de-odcr
availabilityZones:
  - us-east-1a
  - us-east-1b
  - us-east-1c
  - us-east-1d
managedNodeGroups:
  - name: sys
    instanceType: c5.2xlarge
    desiredCapacity: 1
    iam:
      withAddonPolicies:
        autoScaler: true
        cloudWatch: true
nodeGroups:
  - name: p4de-odcr
    instanceType: p4de.24xlarge
    instancePrefix: p4de-odcr
    privateNetworking: true
    availabilityZones:
      - us-east-1c
    efaEnabled: true
    minSize: 0
    desiredCapacity: 2
    maxSize: 64
    volumeSize: 500
    capacityReservation:
      capacityReservationTarget:
        capacityReservationID: $ODCR_ID
    iam:
      withAddonPolicies:
        cloudWatch: true
        ebs: true
        fsx: true
iam:
  withOIDC: true
EOF

utilizzando escl e il manifest del cluster precedente, creiamo un cluster con nodi p4de:

eksctl create cluster -f ./eks-gpu-p4de-odcr.yaml

Cluster con nodi p5.48xlarge

Di seguito è riportato un modello di terraform per un cluster EKS con nodi P5 Repository GitHub.

È possibile personalizzare il cluster tramite il file variabili.tf file e quindi crearlo tramite la CLI Terraform:

terraform init && terraform plan -out tfplan && terraform apply tfplan

Puoi verificare la disponibilità del cluster eseguendo un semplice comando kubectl:

kubectl get nodes

Il cluster è integro se l'output di questo comando mostra il numero previsto di nodi in stato Pronto.

Distribuire i prerequisiti

Per eseguire FSDP su Amazon EKS, utilizziamo il file PyTorchJob risorsa personalizzata. Richiede etcd ed Operatore di formazione Kubeflow come prerequisiti.

Distribuisci etcd con il seguente codice:

kubectl apply -f https://raw.githubusercontent.com/aws-samples/aws-do-eks/main/Container-Root/eks/deployment/etcd/etcd-deployment.yaml

Distribuisci Kubeflow Training Operator con il seguente codice:

kubectl apply -k "github.com/kubeflow/training-operator/manifests/overlays/standalone?ref=v1.7.0"

Crea ed esegui il push di un'immagine del contenitore FSDP su Amazon ECR

Utilizza il codice seguente per creare un'immagine del contenitore FSDP ed eseguirne il push Registro dei contenitori Amazon Elastic (Amazon ECR):

# Download Dockerfile
curl -L -o ./Dockerfile.llama2-efa https://raw.githubusercontent.com/aws-samples/aws-do-eks/main/Container-Root/eks/deployment/distributed-training/pytorch/pytorchjob/fsdp/Dockerfile.llama2-efa

# Build Image
AWS_REGION=$(aws configure get region)
AWS_ACCOUNT=$(aws sts get-caller-identity --query Account --output text)
REGISTRY=${AWS_ACCOUNT}.dkr.ecr.${AWS_REGION}.amazonaws.com/
IMAGE=fsdp
TAG=":llama2-efa"

docker build --progress=plain -t ${REGISTRY}${IMAGE}${TAG} -f ./Dockerfile.llama2-efa .

# Log in to ECR, create registry, push image
aws ecr get-login-password | docker login --username AWS --password-stdin $REGISTRY
aws ecr create-repository --repository-name ${IMAGE}
docker image push ${REGISTRY}${IMAGE}${TAG}

Crea il manifest PyTorchJob FSDP

Inserisci il tuo Gettone Volto che abbraccia nel seguente frammento prima di eseguirlo:

HF_TOKEN=”<insert_your_huggingface_token_here>”

Configura il tuo PyTorchJob con .env file o direttamente nelle variabili di ambiente come di seguito:

JOB_NAME=fsdp
RDZV_HOST=etcd
RDZV_PORT=2379
NUM_WORKERS=2
INSTANCE_TYPE=p5.48xlarge
GPU_PER_WORKER=8
EFA_PER_WORKER=32
MODEL_NAME=meta-llama/Llama-2-7b-hf

CMD="huggingface-cli login --token ${HF_TOKEN} && torchrun --nproc_per_node=${GPU_PER_WORKER} --nnodes=${NUM_WORKERS} examples/finetuning.py --num_epochs=5 --batch_size_training=3 --enable_fsdp --model_name $MODEL_NAME --output_dir ."

Genera il manifest PyTorchJob utilizzando il file modello FSDP ed generare.sh script o crealo direttamente utilizzando lo script seguente:

cat > ./fsdp.yaml <<EOF
apiVersion: kubeflow.org/v1
kind: PyTorchJob
metadata:
  name: $JOB_NAME
spec:
  elasticPolicy:
    rdzvBackend: etcd
    rdzvHost: $RDZV_HOST
    rdzvPort: $RDZV_PORT
    minReplicas: 1
    maxReplicas: 64
    maxRestarts: 100
    metrics:
      - type: Resource
        resource:
          name: cpu
          target:
            type: Utilization
            averageUtilization: 90
  pytorchReplicaSpecs:
    Worker:
      replicas: $NUM_WORKERS
      restartPolicy: OnFailure
      template:
        metadata:
          labels:
            app: $JOB_NAME
        spec:
          volumes:
            - name: shmem
              hostPath:
                path: /dev/shm
          nodeSelector:
            node.kubernetes.io/instance-type: '${INSTANCE_TYPE}'
          containers:
            - name: pytorch
              image: '${REGISTRY}${IMAGE}${TAG}'
              imagePullPolicy: Always
              resources:
                requests:
                  nvidia.com/gpu: $GPU_PER_WORKER
                  vpc.amazonaws.com/efa: $EFA_PER_WORKER
                limits:
                  nvidia.com/gpu: $GPU_PER_WORKER
                  vpc.amazonaws.com/efa: $EFA_PER_WORKER
              env:
                - name: LOGLEVEL
                  value: DEBUG
                - name: NCCL_DEBUG
                  value: INFO
                - name: TORCH_NCCL_ASYNC_ERROR_HANDLING
                  value: '1'
              command:
                - bash
                - '-c'
                - '${CMD}'
              volumeMounts:
                - name: shmem
                  mountPath: /dev/shm
EOF

Esegui PyTorchJob

Esegui PyTorchJob con il seguente codice:

kubectl apply -f ./fsdp.yaml

Vedrai il numero specificato di pod di lavoro FDSP creati e, dopo aver estratto l'immagine, entreranno in uno stato In esecuzione.

Per visualizzare lo stato di PyTorchJob, utilizzare il seguente codice:

kubectl describe -f ./fsdp.yaml

Per interrompere PyTorchJob, utilizzare il seguente codice:

kubectl delete -f ./fsdp.yaml

Una volta completato un lavoro, è necessario eliminarlo prima di iniziare una nuova esecuzione. Abbiamo anche osservato che l'eliminazione del fileetcdpod e lasciarlo riavviare prima di avviare un nuovo lavoro aiuta a evitare a RendezvousClosedError.

Ridimensionare il cluster

Puoi ripetere i passaggi precedenti di creazione ed esecuzione dei lavori variando il numero e il tipo di istanza dei nodi di lavoro nel cluster. Ciò consente di produrre grafici in scala come quello mostrato in precedenza. In generale, dovresti notare una riduzione dell'ingombro della memoria della GPU, una riduzione del tempo di epoca e un aumento del throughput quando vengono aggiunti più nodi al cluster. Il grafico precedente è stato prodotto conducendo diversi esperimenti utilizzando un gruppo di nodi p5 di dimensioni variabili da 1 a 16 nodi.

Osservare il carico di lavoro della formazione FSDP

L'osservabilità dei carichi di lavoro di intelligenza artificiale generativa è importante per consentire la visibilità dei lavori in esecuzione e per aiutare a massimizzare l'utilizzo delle risorse di elaborazione. In questo post utilizziamo a questo scopo alcuni strumenti di osservabilità nativi di Kubernetes e open source. Questi strumenti consentono di tenere traccia di errori, statistiche e comportamento del modello, rendendo l'osservabilità dell'intelligenza artificiale una parte cruciale di qualsiasi caso d'uso aziendale. In questa sezione mostriamo diversi approcci per osservare le attività di formazione della PSDSP.

Registri dei pod di lavoro

Al livello più elementare, devi essere in grado di vedere i registri dei tuoi pod di allenamento. Questa operazione può essere eseguita facilmente utilizzando i comandi nativi di Kubernetes.
Per prima cosa, recupera un elenco di pod e individua il nome di quello di cui vuoi visualizzare i log:

kubectl get pods

Quindi visualizza i log per il pod selezionato:

kubectl logs -f <pod_name>

Scala LLM con PyTorch 2.0 FSDP su Amazon EKS – Parte 2 | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Solo il registro del pod di un lavoratore (leader eletto) elencherà le statistiche generali del lavoro. Il nome del pod leader eletto è disponibile all'inizio di ogni log del pod lavoratore, identificato dalla chiave master_addr=.

Utilizzo della CPU

I carichi di lavoro di formazione distribuiti richiedono risorse sia CPU che GPU. Per ottimizzare questi carichi di lavoro, è importante capire come vengono utilizzate queste risorse. Fortunatamente, sono disponibili alcune ottime utility open source che aiutano a visualizzare l'utilizzo di CPU e GPU. Per visualizzare l'utilizzo della CPU, è possibile utilizzarehtop. Se i tuoi pod di lavoro contengono questa utilità, puoi utilizzare il comando seguente per aprire una shell in un pod ed eseguirehtop.

kubectl exec -it <pod_name> -- bash

In alternativa, puoi distribuire un htopdaemonsetcome quello riportato di seguito Repository GitHub.

Ildaemonseteseguirà un pod htop leggero su ciascun nodo. Puoi eseguire l'esecuzione in uno qualsiasi di questi pod ed eseguire il filehtopcomando:

kubectl exec -it <htop_pod_name> -- htop

La schermata seguente mostra l'utilizzo della CPU su uno dei nodi del cluster. In questo caso, stiamo esaminando un'istanza P5.48xlarge, che ha 192 vCPU. I core del processore sono inattivi mentre i pesi del modello vengono scaricati e vediamo un utilizzo crescente mentre i pesi del modello vengono caricati nella memoria della GPU.

Scala LLM con PyTorch 2.0 FSDP su Amazon EKS – Parte 2 | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Utilizzo della GPU

Se l'nvtopè disponibile nel tuo pod, puoi eseguirla utilizzando di seguito e quindi eseguirenvtop.

kubectl exec -it <pod_name> -- bash

In alternativa, puoi distribuire un nvtopdaemonsetcome quello riportato di seguito Repository GitHub.

Questo eseguirà anvtoppod su ciascun nodo. Puoi eseguire l'esecuzione in uno qualsiasi di questi pod ed eseguirenvtop:

kubectl exec -it <nvtop_pod_name> -- nvtop

Lo screenshot seguente mostra l'utilizzo della GPU su uno dei nodi nel cluster di training. In questo caso, stiamo esaminando un'istanza P5.48xlarge, che ha 8 GPU NVIDIA H100. Le GPU sono inattive mentre i pesi del modello vengono scaricati, quindi l'utilizzo della memoria della GPU aumenta man mano che i pesi del modello vengono caricati sulla GPU e l'utilizzo della GPU raggiunge il 100% mentre sono in corso le iterazioni di training.

Scala LLM con PyTorch 2.0 FSDP su Amazon EKS – Parte 2 | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Cruscotto Grafana

Ora che hai compreso come funziona il tuo sistema a livello di pod e di nodo, è importante anche esaminare i parametri a livello di cluster. I parametri di utilizzo aggregati possono essere raccolti da NVIDIA DCGM Exporter e Prometheus e visualizzati in Grafana.

Di seguito è disponibile un esempio di distribuzione Prometheus-Grafana Repository GitHub.

Di seguito è disponibile un esempio di distribuzione dell'esportatore DCGM Repository GitHub.

Una semplice dashboard di Grafana è mostrata nello screenshot seguente. È stato costruito selezionando le seguenti metriche DCGM: DCGM_FI_DEV_GPU_UTIL, DCGM_FI_MEM_COPY_UTIL, DCGM_FI_DEV_XID_ERRORS, DCGM_FI_DEV_SM_CLOCK, DCGM_FI_DEV_GPU_TEMPe DCGM_FI_DEV_POWER_USAGE. La dashboard può essere importata in Prometheus da GitHub.

La seguente dashboard mostra un'esecuzione di un lavoro di formazione a epoca singola Llama2 7b. I grafici mostrano che all'aumentare del clock del multiprocessore di streaming (SM), aumentano anche l'assorbimento di potenza e la temperatura delle GPU, insieme all'utilizzo della GPU e della memoria. Puoi anche vedere che non si sono verificati errori XID e che le GPU erano integre durante questa esecuzione.

Scala LLM con PyTorch 2.0 FSDP su Amazon EKS – Parte 2 | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai.

Da marzo 2024 l'osservabilità della GPU per EKS è supportata in modo nativo in CloudWatch Container Insights. Per abilitare questa funzionalità è sufficiente distribuire il componente aggiuntivo CloudWatch Observability nel tuo cluster EKS. Potrai quindi sfogliare le metriche a livello di pod, nodo e cluster tramite dashboard preconfigurate e personalizzabili in Container Insights.

ripulire

Se hai creato il tuo cluster utilizzando gli esempi forniti in questo blog, puoi eseguire il seguente codice per eliminare il cluster e tutte le risorse ad esso associate, incluso il VPC:
Per eksctl:

eksctl delete cluster -f ./eks-gpu-p4de-odcr.yaml

Per la terraformazione:

terraform destroy

Caratteristiche imminenti

Si prevede che FSDP includa una funzionalità di sharding per parametro, con l'obiettivo di migliorare ulteriormente l'impronta di memoria per GPU. Inoltre, lo sviluppo continuo del supporto FP8 mira a migliorare le prestazioni FSDP sulle GPU H100. Infine, quando FSDP è integrato contorch.compile, speriamo di vedere ulteriori miglioramenti delle prestazioni e l'abilitazione di funzionalità come il checkpoint di attivazione selettiva.

Conclusione

In questo post abbiamo discusso di come FSDP riduca l'ingombro di memoria su ciascuna GPU, consentendo l'addestramento di modelli più grandi in modo più efficiente e ottenendo una scalabilità quasi lineare nel throughput. Lo abbiamo dimostrato attraverso un'implementazione passo-passo dell'addestramento di un modello Llama2 utilizzando Amazon EKS su istanze P4de e P5 e utilizzando strumenti di osservabilità come kubectl, htop, nvtop e dcgm per monitorare i log, nonché l'utilizzo di CPU e GPU.

Ti invitiamo a sfruttare PyTorch FSDP per i tuoi lavori di formazione LLM. Inizia da aws-do-fsdp.

Informazioni sugli autori

Scala LLM con PyTorch 2.0 FSDP su Amazon EKS – Parte 2 | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Kanwaljit Khurmi è Principal AI/ML Solutions Architect presso Amazon Web Services. Collabora con i clienti AWS per fornire indicazioni e assistenza tecnica, aiutandoli a migliorare il valore delle loro soluzioni di machine learning su AWS. Kanwaljit è specializzato nell'aiutare i clienti con applicazioni di elaborazione containerizzata e distribuita e di deep learning.

Scala LLM con PyTorch 2.0 FSDP su Amazon EKS – Parte 2 | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Alex Iankoulski è Principal Solutions Architect, Machine Learning autogestito presso AWS. È un ingegnere completo di software e infrastrutture a cui piace svolgere un lavoro approfondito e pratico. Nel suo ruolo, si concentra sull'aiutare i clienti con la containerizzazione e l'orchestrazione dei carichi di lavoro ML e AI su servizi AWS basati su container. È anche l'autore dell'open source fare quadro e un capitano Docker che ama applicare le tecnologie dei container per accelerare il ritmo dell'innovazione risolvendo al contempo le più grandi sfide del mondo.

Scala LLM con PyTorch 2.0 FSDP su Amazon EKS – Parte 2 | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Ana Simoes è uno specialista principale di machine learning, ML Frameworks presso AWS. Supporta i clienti che implementano intelligenza artificiale, machine learning e intelligenza artificiale generativa su larga scala sull'infrastruttura HPC nel cloud. Ana si concentra sul supportare i clienti per ottenere un buon rapporto prezzo-prestazioni per nuovi carichi di lavoro e casi d'uso per l'intelligenza artificiale generativa e l'apprendimento automatico.

Scala LLM con PyTorch 2.0 FSDP su Amazon EKS – Parte 2 | Amazon Web Services PlatoBlockchain Data Intelligence. Ricerca verticale. Ai. Hamid Shojanazeri è un ingegnere partner presso PyTorch che lavora su ottimizzazione di modelli open source e ad alte prestazioni, formazione distribuita (PFSDP) e inferenza. È il co-creatore di ricetta-lama e collaboratore di Torcia Servire. Il suo interesse principale è migliorare l’efficienza in termini di costi, rendendo l’intelligenza artificiale più accessibile a una comunità più ampia.

Meno Wright è un ingegnere AI/partner in PyTorch. Lavora su kernel Triton/CUDA (Accelerare Dequant con la scomposizione del lavoro SplitK); ottimizzatori paginati, streaming e quantizzati; e PyTorch distribuito (PyTorch FSDP).