Amazon EKS پر PyTorch 2.0 FSDP کے ساتھ LLM سکیل کریں – حصہ 2

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

یہ ایک مہمان پوسٹ ہے جو میٹا کی PyTorch ٹیم کے ساتھ مل کر لکھی گئی ہے اور اس کا تسلسل ہے۔ حصہ 1 اس سیریز کے، جہاں ہم AWS پر PyTorch 2.0 چلانے کی کارکردگی اور آسانی کا مظاہرہ کرتے ہیں۔

مشین لرننگ (ML) کی تحقیق نے ثابت کیا ہے کہ بڑے لینگویج ماڈل (LLMs) کو نمایاں طور پر بڑے ڈیٹاسیٹس کے ساتھ تربیت یافتہ ماڈل کے معیار کو بہتر بناتا ہے۔ گزشتہ چند سالوں میں، موجودہ نسل کے ماڈلز کے سائز میں نمایاں اضافہ ہوا ہے، اور ان کے لیے جدید آلات اور بنیادی ڈھانچے کی ضرورت ہوتی ہے تاکہ اسے موثر اور پیمانے پر تربیت دی جائے۔ PyTorch Distributed Data Parallelism (DDP) ڈیٹا کو پیمانے پر سادہ اور مضبوط انداز میں پروسیس کرنے میں مدد کرتا ہے، لیکن اس کے لیے ماڈل کا ایک GPU پر فٹ ہونے کی ضرورت ہوتی ہے۔ PyTorch Fullly Sharded Data Parallel (FSDP) لائبریری ڈیٹا کے متوازی کارکنوں میں بڑے ماڈلز کو تربیت دینے کے لیے ماڈل شارڈنگ کو فعال کر کے اس رکاوٹ کو توڑتی ہے۔

تقسیم شدہ ماڈل ٹریننگ کے لیے ورکر نوڈس کے ایک جھرمٹ کی ضرورت ہوتی ہے جو اسکیل کر سکتے ہیں۔ ایمیزون لچکدار کبیرنیٹس سروس (Amazon EKS) ایک مقبول Kubernetes-conformant سروس ہے جو AI/ML ورک بوجھ کو چلانے کے عمل کو بہت آسان بناتی ہے، جس سے یہ زیادہ قابل انتظام اور کم وقت لگتا ہے۔

اس بلاگ پوسٹ میں، AWS نے Meta کی PyTorch ٹیم کے ساتھ اس بات پر تبادلہ خیال کیا ہے کہ PyTorch FSDP لائبریری کو AWS پر بغیر کسی رکاوٹ کے Amazon EKS کا استعمال کرتے ہوئے ڈیپ لرننگ ماڈلز کی لکیری اسکیلنگ حاصل کرنے کے لیے کیسے استعمال کیا جائے۔ AWS ڈیپ لرننگ کنٹینرز (DLCs)۔ ہم 7 کے ساتھ Amazon EKS کا استعمال کرتے ہوئے ٹریننگ 13B، 70B، اور 2B Llama16 ماڈلز کے مرحلہ وار نفاذ کے ذریعے اس کا مظاہرہ کرتے ہیں۔ ایمیزون لچکدار کمپیوٹ کلاؤڈ (ایمیزون ای سی 2) p4de.24xlarge مثالیں (ہر ایک 8 NVIDIA A100 Tensor Core GPUs کے ساتھ اور ہر GPU 80 GB HBM2e میموری کے ساتھ) یا 16 EC2 p5.48x بڑا مثالیں (ہر ایک 8 NVIDIA H100 Tensor Core GPUs کے ساتھ اور ہر GPU 80 GB HBM3 میموری کے ساتھ)، تھرو پٹ میں قریب لکیری اسکیلنگ کو حاصل کرنا اور بالآخر تیز تر تربیتی وقت کو فعال کرنا۔

درج ذیل اسکیلنگ چارٹ سے پتہ چلتا ہے کہ p5.48x بڑی مثالیں 87 نوڈ کلسٹر کنفیگریشن میں FSDP Llama2 فائن ٹیوننگ کے ساتھ 16% اسکیلنگ کی کارکردگی پیش کرتی ہیں۔

Amazon EKS پر PyTorch 2.0 FSDP کے ساتھ LLM سکیل کریں – حصہ 2 | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

ایل ایل ایم کی تربیت کے چیلنجز

مختلف قسم کے ایپلی کیشنز میں کارکردگی اور درستگی کو بڑھانے کے لیے کاروبار تیزی سے مختلف کاموں کے لیے LLMs کو اپنا رہے ہیں، جن میں ورچوئل اسسٹنٹس، ترجمہ، مواد کی تخلیق، اور کمپیوٹر ویژن شامل ہیں۔

تاہم، حسب ضرورت استعمال کے کیس کے لیے ان بڑے ماڈلز کو تربیت دینے یا ٹھیک کرنے کے لیے بہت زیادہ ڈیٹا اور کمپیوٹ پاور کی ضرورت ہوتی ہے، جو ایم ایل اسٹیک کی مجموعی انجینئرنگ پیچیدگی میں اضافہ کرتی ہے۔ یہ ایک واحد GPU پر دستیاب محدود میموری کی وجہ سے بھی ہے، جو اس ماڈل کے سائز کو محدود کرتا ہے جسے تربیت دی جا سکتی ہے، اور تربیت کے دوران استعمال ہونے والے فی GPU بیچ کے سائز کو بھی محدود کرتی ہے۔

اس چیلنج سے نمٹنے کے لیے مختلف ماڈل متوازی تکنیکیں جیسے ڈیپ اسپیڈ زیرو اور PyTorch FSDP آپ کو محدود GPU میموری کی اس رکاوٹ کو دور کرنے کی اجازت دینے کے لیے بنایا گیا تھا۔ یہ ایک شارڈڈ ڈیٹا متوازی تکنیک کو اپنا کر کیا جاتا ہے، جہاں ہر ایکسلریٹر میں صرف ایک ٹکڑا ہوتا ہے (a شارڈ) پورے ماڈل کی نقل کی بجائے ایک ماڈل کی نقل کی، جو تربیتی کام کی یادداشت کے اثرات کو ڈرامائی طور پر کم کرتی ہے۔

یہ پوسٹ ظاہر کرتی ہے کہ آپ ایمیزون EKS کا استعمال کرتے ہوئے Llama2 ماڈل کو ٹھیک کرنے کے لیے PyTorch FSDP کا استعمال کیسے کر سکتے ہیں۔ ہم اسے ماڈل کی ضروریات کو پورا کرنے کے لیے کمپیوٹ اور GPU کی صلاحیت کو بڑھا کر حاصل کرتے ہیں۔

FSDP کا جائزہ

PyTorch DDP ٹریننگ میں، ہر GPU (کہا جاتا ہے a کارکن PyTorch کے تناظر میں) ماڈل کی ایک مکمل کاپی رکھتا ہے، بشمول ماڈل کے وزن، گریڈیئنٹس، اور آپٹیمائزر سٹیٹس۔ ہر کارکن ڈیٹا کے ایک بیچ پر کارروائی کرتا ہے اور، پسماندہ پاس کے اختتام پر، ایک استعمال کرتا ہے۔ تمام کم مختلف کارکنوں میں گریڈیئنٹس کو ہم آہنگ کرنے کے لیے آپریشن۔

ہر GPU پر ماڈل کی نقل رکھنے سے ماڈل کے سائز کو محدود کر دیا جاتا ہے جسے DDP ورک فلو میں ایڈجسٹ کیا جا سکتا ہے۔ FSDP ماڈل پیرامیٹرز، آپٹیمائزر سٹیٹس، اور ڈیٹا کے متوازی کارکنوں میں گریڈیئنٹس کو شارڈنگ کر کے اس حد پر قابو پانے میں مدد کرتا ہے جبکہ ڈیٹا کے ہم آہنگی کی سادگی کو بھی برقرار رکھتا ہے۔

اس کا مظاہرہ مندرجہ ذیل خاکہ میں کیا گیا ہے، جہاں DDP کے معاملے میں، ہر GPU کے پاس ماڈل اسٹیٹ کی مکمل کاپی ہوتی ہے، بشمول آپٹیمائزر اسٹیٹ (OS)، گریڈیئنٹس (G)، اور پیرامیٹرز (P): M(OS + G) + پی)۔ FSDP میں، ہر GPU ماڈل سٹیٹ کا صرف ایک ٹکڑا رکھتا ہے، بشمول آپٹیمائزر سٹیٹ (OS)، گریڈیئنٹس (G)، اور پیرامیٹرز (P): M (OS + G + P)۔ FSDP کے استعمال کے نتیجے میں تمام کارکنوں میں DDP کے مقابلے میں نمایاں طور پر چھوٹا GPU میموری فوٹ پرنٹ ہوتا ہے، بہت بڑے ماڈلز کی تربیت کو فعال کرنا یا تربیتی ملازمتوں کے لیے بڑے بیچ سائز کا استعمال کرنا۔

Amazon EKS پر PyTorch 2.0 FSDP کے ساتھ LLM سکیل کریں – حصہ 2 | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

تاہم، یہ کمیونیکیشن اوور ہیڈ کی بڑھتی ہوئی قیمت پر آتا ہے، جسے FSDP آپٹیمائزیشن کے ذریعے کم کیا جاتا ہے جیسے کہ اوور لیپنگ کمیونیکیشن اور کمپیوٹیشن کے عمل جیسے خصوصیات کے ساتھ پیشگی بازیافت. مزید تفصیلی معلومات کے لیے رجوع کریں۔ مکمل طور پر مشترکہ ڈیٹا متوازی (FSDP) کے ساتھ شروع کرنا.

FSDP مختلف پیرامیٹرز پیش کرتا ہے جو آپ کو اپنی تربیتی ملازمتوں کی کارکردگی اور کارکردگی کو ٹیون کرنے کی اجازت دیتا ہے۔ FSDP کی کچھ اہم خصوصیات اور صلاحیتوں میں شامل ہیں:

ٹرانسفارمر ریپنگ پالیسی
لچکدار مخلوط صحت سے متعلق
ایکٹیویشن چیک پوائنٹ
مختلف نیٹ ورک کی رفتار اور کلسٹر ٹوپولاجی کے مطابق شارڈنگ کی مختلف حکمت عملی:
- FULL_SHARD - شارڈ ماڈل پیرامیٹرز، گریڈیئنٹس، اور آپٹیمائزر اسٹیٹس
- HYBRID_SHARD - نوڈس میں ایک نوڈ DDP کے اندر مکمل شارڈ؛ ماڈل (HSDP) کی مکمل نقل کے لیے لچکدار شارڈنگ گروپ کی حمایت کرتا ہے۔
- SHARD_GRAD_OP - شارڈ صرف گریڈیئنٹس اور آپٹیمائزر اسٹیٹس
- NO_SHARD - ڈی ڈی پی کی طرح

FSDP کے بارے میں مزید معلومات کے لیے، رجوع کریں۔ Pytorch FSDP اور AWS کے ساتھ موثر بڑے پیمانے پر تربیت.

درج ذیل اعداد و شمار سے پتہ چلتا ہے کہ FSDP دو ڈیٹا متوازی عمل کے لیے کیسے کام کرتا ہے۔

Amazon EKS پر PyTorch 2.0 FSDP کے ساتھ LLM سکیل کریں – حصہ 2 | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

حل جائزہ

اس پوسٹ میں، ہم نے Amazon EKS کا استعمال کرتے ہوئے ایک کمپیوٹ کلسٹر قائم کیا، جو AWS کلاؤڈ اور آن پریمیسس ڈیٹا سینٹرز میں Kubernetes کو چلانے کے لیے ایک منظم سروس ہے۔ بہت سے گاہک Kubernetes پر مبنی AI/ML ورک لوڈز کو چلانے کے لیے Amazon EKS کو اپنا رہے ہیں، اس کی کارکردگی، اسکیل ایبلٹی، وشوسنییتا، اور دستیابی کے ساتھ ساتھ AWS نیٹ ورکنگ، سیکیورٹی اور دیگر خدمات کے ساتھ اس کے انضمام سے فائدہ اٹھا رہے ہیں۔

ہمارے FSDP استعمال کیس کے لیے، ہم استعمال کرتے ہیں۔ کیوب فلو ٹریننگ آپریٹر Amazon EKS پر، جو ایک Kubernetes-آبائی پروجیکٹ ہے جو ML ماڈلز کے لیے فائن ٹیوننگ اور اسکیل ایبل تقسیم شدہ تربیت کی سہولت فراہم کرتا ہے۔ یہ مختلف ML فریم ورکس کو سپورٹ کرتا ہے، بشمول PyTorch، جسے آپ PyTorch ٹریننگ جابز کو پیمانے پر تعینات اور ان کا نظم کرنے کے لیے استعمال کر سکتے ہیں۔

Kubeflow ٹریننگ آپریٹر کے PyTorchJob کسٹم وسیلہ کو استعمال کرتے ہوئے، ہم Kubernetes پر ورکر ریپلیکس کی قابل ترتیب تعداد کے ساتھ تربیتی جابز چلاتے ہیں جو ہمیں وسائل کے استعمال کو بہتر بنانے کی اجازت دیتا ہے۔

ذیل میں ٹریننگ آپریٹر کے چند اجزاء ہیں جو ہمارے Llama2 فائن ٹیوننگ کے استعمال کے معاملے میں کردار ادا کرتے ہیں:

ایک سنٹرلائزڈ Kubernetes کنٹرولر جو PyTorch کے لیے تربیتی ملازمتوں کو تقسیم کرتا ہے۔
PyTorchJob، PyTorch کے لیے Kubernetes کا ایک حسب ضرورت وسیلہ، جو Kubeflow ٹریننگ آپریٹر کے ذریعے فراہم کیا گیا ہے، تاکہ Kubernetes پر Llama2 تربیتی ملازمتوں کی وضاحت اور تعیناتی کی جا سکے۔
etcd، جو PyTorch ماڈلز کی تقسیم شدہ تربیت کو مربوط کرنے کے لیے ملاقات کے طریقہ کار کے نفاذ سے متعلق ہے۔ یہetcdسرور، ملاقات کے عمل کے ایک حصے کے طور پر، تقسیم شدہ تربیت کے دوران حصہ لینے والے کارکنوں کے ہم آہنگی اور ہم آہنگی کی سہولت فراہم کرتا ہے۔

مندرجہ ذیل خاکہ حل کے فن تعمیر کی وضاحت کرتا ہے۔

Amazon EKS پر PyTorch 2.0 FSDP کے ساتھ LLM سکیل کریں – حصہ 2 | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

زیادہ تر تفصیلات آٹومیشن اسکرپٹس کے ذریعہ خلاصہ کی جائیں گی جو ہم Llama2 مثال کو چلانے کے لئے استعمال کرتے ہیں۔

ہم اس استعمال کے معاملے میں درج ذیل کوڈ حوالہ جات استعمال کرتے ہیں:

Llama2 کیا ہے؟

Llama2 متن اور کوڈ کے 2 ٹریلین ٹوکنز پر پہلے سے تربیت یافتہ LLM ہے۔ یہ آج دستیاب سب سے بڑے اور سب سے زیادہ طاقتور LLMs میں سے ایک ہے آپ Llama2 کو مختلف کاموں کے لیے استعمال کر سکتے ہیں، بشمول نیچرل لینگویج پروسیسنگ (NLP)، ٹیکسٹ جنریشن، اور ترجمہ۔ مزید معلومات کے لیے رجوع کریں۔ لاما کے ساتھ شروع کرنا.

Llama2 تین مختلف ماڈل سائز میں دستیاب ہے:

Llama2-70b - یہ 2 بلین پیرامیٹرز کے ساتھ Llama70 کا سب سے بڑا ماڈل ہے۔ یہ سب سے طاقتور Llama2 ماڈل ہے اور اسے انتہائی ضروری کاموں کے لیے استعمال کیا جا سکتا ہے۔
Llama2-13b - یہ ایک درمیانے سائز کا Llama2 ماڈل ہے، جس میں 13 بلین پیرامیٹرز ہیں۔ یہ کارکردگی اور کارکردگی کے درمیان ایک اچھا توازن ہے، اور اسے مختلف کاموں کے لیے استعمال کیا جا سکتا ہے۔
Llama2-7b - یہ سب سے چھوٹا Llama2 ماڈل ہے، جس میں 7 بلین پیرامیٹرز ہیں۔ یہ سب سے زیادہ موثر Llama2 ماڈل ہے، اور اسے ایسے کاموں کے لیے استعمال کیا جا سکتا ہے جن کے لیے اعلیٰ سطح کی کارکردگی کی ضرورت نہیں ہے۔

یہ پوسٹ آپ کو ایمیزون ای کے ایس پر ان تمام ماڈلز کو ٹھیک کرنے کے قابل بناتی ہے۔ EKS کلسٹر بنانے اور اس پر FSDP جابز چلانے کا ایک سادہ اور قابل تولید تجربہ فراہم کرنے کے لیے، ہم استعمال کرتے ہیں aws-do-eks پروجیکٹ مثال پہلے سے موجود EKS کلسٹر کے ساتھ بھی کام کرے گی۔

ایک اسکرپٹڈ واک تھرو دستیاب ہے۔ GitHub کے باکس سے باہر کے تجربے کے لیے۔ درج ذیل حصوں میں، ہم آخر سے آخر تک کے عمل کی مزید تفصیل سے وضاحت کرتے ہیں۔

حل کے بنیادی ڈھانچے کی فراہمی

اس پوسٹ میں بیان کردہ تجربات کے لیے، ہم p4de (A100 GPU) اور p5 (H100 GPU) نوڈس والے کلسٹرز استعمال کرتے ہیں۔

p4de.24xlarge نوڈس کے ساتھ کلسٹر

p4de نوڈس کے ساتھ ہمارے کلسٹر کے لیے، ہم درج ذیل استعمال کرتے ہیں۔ eks-gpu-p4de-odcr.yaml سکرپٹ:

export ODCR_ID=<your-capacityreservation-id>

cat > ./eks-gpu-p4de-odcr.yaml <<EOF
apiVersion: eksctl.io/v1alpha5
kind: ClusterConfig
metadata:
  name: do-eks-yaml-p4de-odcr
  version: "1.28"
  region: us-east-1
  tags:
    karpenter.sh/discovery: do-eks-yaml-p4de-odcr
availabilityZones:
  - us-east-1a
  - us-east-1b
  - us-east-1c
  - us-east-1d
managedNodeGroups:
  - name: sys
    instanceType: c5.2xlarge
    desiredCapacity: 1
    iam:
      withAddonPolicies:
        autoScaler: true
        cloudWatch: true
nodeGroups:
  - name: p4de-odcr
    instanceType: p4de.24xlarge
    instancePrefix: p4de-odcr
    privateNetworking: true
    availabilityZones:
      - us-east-1c
    efaEnabled: true
    minSize: 0
    desiredCapacity: 2
    maxSize: 64
    volumeSize: 500
    capacityReservation:
      capacityReservationTarget:
        capacityReservationID: $ODCR_ID
    iam:
      withAddonPolicies:
        cloudWatch: true
        ebs: true
        fsx: true
iam:
  withOIDC: true
EOF

کا استعمال کرتے ہوئے eksctl اور پچھلے کلسٹر مینی فیسٹ میں، ہم p4de نوڈس کے ساتھ ایک کلسٹر بناتے ہیں:

eksctl create cluster -f ./eks-gpu-p4de-odcr.yaml

p5.48x بڑے نوڈس کے ساتھ کلسٹر

P5 نوڈس کے ساتھ EKS کلسٹر کے لیے ایک ٹیرافارم ٹیمپلیٹ درج ذیل میں واقع ہے۔ GitHub repo.

آپ کے ذریعے کلسٹر کو اپنی مرضی کے مطابق بنا سکتے ہیں۔ variables.tf فائل بنائیں اور پھر اسے Terraform CLI کے ذریعے بنائیں:

terraform init && terraform plan -out tfplan && terraform apply tfplan

آپ ایک سادہ kubectl کمانڈ چلا کر کلسٹر کی دستیابی کی تصدیق کر سکتے ہیں:

kubectl get nodes

کلسٹر صحت مند ہے اگر اس کمانڈ کا آؤٹ پٹ تیار حالت میں نوڈس کی متوقع تعداد کو ظاہر کرتا ہے۔

لازمی شرائط تعینات کریں۔

Amazon EKS پر FSDP چلانے کے لیے، ہم استعمال کرتے ہیں۔ پی ٹارچ جاب اپنی مرضی کے وسائل. یہ ضرورت ہے وغیرہ اور کیوب فلو ٹریننگ آپریٹر شرط کے طور پر.

وغیرہ کو درج ذیل کوڈ کے ساتھ تعینات کریں:

kubectl apply -f https://raw.githubusercontent.com/aws-samples/aws-do-eks/main/Container-Root/eks/deployment/etcd/etcd-deployment.yaml

درج ذیل کوڈ کے ساتھ Kubeflow ٹریننگ آپریٹر تعینات کریں:

kubectl apply -k "github.com/kubeflow/training-operator/manifests/overlays/standalone?ref=v1.7.0"

FSDP کنٹینر امیج بنائیں اور Amazon ECR پر پش کریں۔

FSDP کنٹینر کی تصویر بنانے کے لیے درج ذیل کوڈ کا استعمال کریں اور اسے آگے بڑھائیں۔ ایمیزون لچکدار کنٹینر رجسٹری (ایمیزون ای سی آر):

# Download Dockerfile
curl -L -o ./Dockerfile.llama2-efa https://raw.githubusercontent.com/aws-samples/aws-do-eks/main/Container-Root/eks/deployment/distributed-training/pytorch/pytorchjob/fsdp/Dockerfile.llama2-efa

# Build Image
AWS_REGION=$(aws configure get region)
AWS_ACCOUNT=$(aws sts get-caller-identity --query Account --output text)
REGISTRY=${AWS_ACCOUNT}.dkr.ecr.${AWS_REGION}.amazonaws.com/
IMAGE=fsdp
TAG=":llama2-efa"

docker build --progress=plain -t ${REGISTRY}${IMAGE}${TAG} -f ./Dockerfile.llama2-efa .

# Log in to ECR, create registry, push image
aws ecr get-login-password | docker login --username AWS --password-stdin $REGISTRY
aws ecr create-repository --repository-name ${IMAGE}
docker image push ${REGISTRY}${IMAGE}${TAG}

FSDP PyTorchJob مینی فیسٹ بنائیں

اپنا داخل کریں گلے ملتے ہوئے چہرے کا ٹوکن اسے چلانے سے پہلے درج ذیل ٹکڑوں میں:

HF_TOKEN=”<insert_your_huggingface_token_here>”

اپنے PyTorchJob کو اس کے ساتھ ترتیب دیں۔ .env فائل یا براہ راست آپ کے ماحولیاتی متغیرات میں ذیل میں:

JOB_NAME=fsdp
RDZV_HOST=etcd
RDZV_PORT=2379
NUM_WORKERS=2
INSTANCE_TYPE=p5.48xlarge
GPU_PER_WORKER=8
EFA_PER_WORKER=32
MODEL_NAME=meta-llama/Llama-2-7b-hf

CMD="huggingface-cli login --token ${HF_TOKEN} && torchrun --nproc_per_node=${GPU_PER_WORKER} --nnodes=${NUM_WORKERS} examples/finetuning.py --num_epochs=5 --batch_size_training=3 --enable_fsdp --model_name $MODEL_NAME --output_dir ."

کا استعمال کرتے ہوئے PyTorchJob مینی فیسٹ تیار کریں۔ fsdp ٹیمپلیٹ اور generate.sh اسکرپٹ یا اسے براہ راست نیچے اسکرپٹ کا استعمال کرتے ہوئے بنائیں:

cat > ./fsdp.yaml <<EOF
apiVersion: kubeflow.org/v1
kind: PyTorchJob
metadata:
  name: $JOB_NAME
spec:
  elasticPolicy:
    rdzvBackend: etcd
    rdzvHost: $RDZV_HOST
    rdzvPort: $RDZV_PORT
    minReplicas: 1
    maxReplicas: 64
    maxRestarts: 100
    metrics:
      - type: Resource
        resource:
          name: cpu
          target:
            type: Utilization
            averageUtilization: 90
  pytorchReplicaSpecs:
    Worker:
      replicas: $NUM_WORKERS
      restartPolicy: OnFailure
      template:
        metadata:
          labels:
            app: $JOB_NAME
        spec:
          volumes:
            - name: shmem
              hostPath:
                path: /dev/shm
          nodeSelector:
            node.kubernetes.io/instance-type: '${INSTANCE_TYPE}'
          containers:
            - name: pytorch
              image: '${REGISTRY}${IMAGE}${TAG}'
              imagePullPolicy: Always
              resources:
                requests:
                  nvidia.com/gpu: $GPU_PER_WORKER
                  vpc.amazonaws.com/efa: $EFA_PER_WORKER
                limits:
                  nvidia.com/gpu: $GPU_PER_WORKER
                  vpc.amazonaws.com/efa: $EFA_PER_WORKER
              env:
                - name: LOGLEVEL
                  value: DEBUG
                - name: NCCL_DEBUG
                  value: INFO
                - name: TORCH_NCCL_ASYNC_ERROR_HANDLING
                  value: '1'
              command:
                - bash
                - '-c'
                - '${CMD}'
              volumeMounts:
                - name: shmem
                  mountPath: /dev/shm
EOF

PyTorchJob چلائیں۔

PyTorchJob کو درج ذیل کوڈ کے ساتھ چلائیں:

kubectl apply -f ./fsdp.yaml

آپ FDSP ورکر پوڈز کی مخصوص تعداد کو تخلیق شدہ دیکھیں گے اور، تصویر کھینچنے کے بعد، وہ چلتی حالت میں داخل ہو جائیں گے۔

PyTorchJob کی حیثیت دیکھنے کے لیے، درج ذیل کوڈ کا استعمال کریں:

kubectl describe -f ./fsdp.yaml

PyTorchJob کو روکنے کے لیے درج ذیل کوڈ کا استعمال کریں:

kubectl delete -f ./fsdp.yaml

کسی کام کے مکمل ہونے کے بعد، اسے نئی دوڑ شروع کرنے سے پہلے حذف کرنے کی ضرورت ہے۔ ہم نے یہ بھی دیکھا ہے کہ حذف کرناetcdpod اور نئی نوکری شروع کرنے سے پہلے اسے دوبارہ شروع کرنے دینا a سے بچنے میں مدد کرتا ہے۔ RendezvousClosedError.

کلسٹر کی پیمائش کریں۔

آپ کلسٹر میں ورکر نوڈس کی تعداد اور مثال کی قسم کو مختلف کرتے ہوئے جابز بنانے اور چلانے کے پچھلے مراحل کو دہرا سکتے ہیں۔ یہ آپ کو اسکیلنگ چارٹ تیار کرنے کے قابل بناتا ہے جیسا کہ پہلے دکھایا گیا تھا۔ عام طور پر، آپ کو GPU میموری فوٹ پرنٹ میں کمی، ایپوک ٹائم میں کمی، اور جب کلسٹر میں مزید نوڈس شامل کیے جاتے ہیں تو تھرو پٹ میں اضافہ دیکھنا چاہیے۔ پچھلا چارٹ p5 نوڈ گروپ کا استعمال کرتے ہوئے متعدد تجربات کر کے تیار کیا گیا تھا جس کا سائز 1-16 نوڈس سے مختلف تھا۔

FSDP تربیتی کام کے بوجھ کا مشاہدہ کریں۔

تخلیقی مصنوعی ذہانت کے کام کے بوجھ کا مشاہدہ آپ کی چل رہی ملازمتوں میں مرئیت کی اجازت دینے کے ساتھ ساتھ آپ کے کمپیوٹ وسائل کے زیادہ سے زیادہ استعمال میں مدد دینے کے لیے اہم ہے۔ اس پوسٹ میں، ہم اس مقصد کے لیے کچھ Kubernetes-آبائی اور اوپن سورس آبزرویبلٹی ٹولز استعمال کرتے ہیں۔ یہ ٹولز آپ کو غلطیوں، اعدادوشمار اور ماڈل کے رویے کو ٹریک کرنے کے قابل بناتے ہیں، جس سے AI مشاہدے کو کسی بھی کاروباری استعمال کے معاملے کا ایک اہم حصہ بناتا ہے۔ اس سیکشن میں، ہم FSDP کی تربیتی ملازمتوں کے مشاہدے کے لیے مختلف طریقے دکھاتے ہیں۔

ورکر پوڈ لاگ

سب سے بنیادی سطح پر، آپ کو اپنے تربیتی پوڈز کے لاگز دیکھنے کے قابل ہونے کی ضرورت ہے۔ یہ آسانی سے Kubernetes-native کمانڈز کا استعمال کر کے کیا جا سکتا ہے۔
سب سے پہلے، پوڈز کی فہرست بازیافت کریں اور اس کا نام تلاش کریں جس کے لیے آپ لاگ دیکھنا چاہتے ہیں:

kubectl get pods

پھر منتخب پوڈ کے نوشتہ جات دیکھیں:

kubectl logs -f <pod_name>

Amazon EKS پر PyTorch 2.0 FSDP کے ساتھ LLM سکیل کریں – حصہ 2 | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

صرف ایک کارکن (منتخب لیڈر) پوڈ لاگ میں ملازمت کے مجموعی اعدادوشمار درج ہوں گے۔ منتخب لیڈر پوڈ کا نام ہر ورکر پوڈ لاگ کے شروع میں دستیاب ہوتا ہے، جس کی شناخت کلید سے ہوتی ہے۔ master_addr=.

سی پی یو استعمال۔

تقسیم شدہ تربیتی کام کا بوجھ CPU اور GPU دونوں وسائل کی ضرورت ہے۔ ان کام کے بوجھ کو بہتر بنانے کے لیے، یہ سمجھنا ضروری ہے کہ ان وسائل کو کس طرح استعمال کیا جاتا ہے۔ خوش قسمتی سے، کچھ زبردست اوپن سورس یوٹیلیٹیز دستیاب ہیں جو سی پی یو اور جی پی یو کے استعمال کو دیکھنے میں مدد کرتی ہیں۔ سی پی یو کے استعمال کو دیکھنے کے لیے، آپ استعمال کر سکتے ہیں۔htop. اگر آپ کے ورکر پوڈ میں یہ یوٹیلیٹی موجود ہے، تو آپ نیچے دی گئی کمانڈ کو پوڈ میں شیل کھولنے اور پھر چلانے کے لیے استعمال کر سکتے ہیں۔htop.

kubectl exec -it <pod_name> -- bash

متبادل طور پر، آپ ایک htop کو تعینات کر سکتے ہیں۔daemonsetجیسا کہ درج ذیل میں دیا گیا ہے۔ GitHub repo.

۔daemonsetہر نوڈ پر ہلکا پھلکا htop پوڈ چلائے گا۔ آپ ان میں سے کسی بھی پوڈ کو چلا سکتے ہیں اور چلا سکتے ہیں۔htopکمانڈ:

kubectl exec -it <htop_pod_name> -- htop

درج ذیل اسکرین شاٹ کلسٹر میں نوڈس میں سے ایک پر CPU کے استعمال کو دکھاتا ہے۔ اس صورت میں، ہم ایک P5.48xlarge مثال دیکھ رہے ہیں، جس میں 192 vCPUs ہیں۔ ماڈل کے وزن کے ڈاؤن لوڈ ہونے کے دوران پروسیسر کور بیکار ہیں، اور ہم استعمال میں اضافہ دیکھتے ہیں جب کہ ماڈل کے وزن کو GPU میموری پر لوڈ کیا جا رہا ہے۔

Amazon EKS پر PyTorch 2.0 FSDP کے ساتھ LLM سکیل کریں – حصہ 2 | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

GPU کا استعمال

اگرnvtopیوٹیلیٹی آپ کے پوڈ میں دستیاب ہے، آپ نیچے کا استعمال کرتے ہوئے اس میں عمل کر سکتے ہیں اور پھر چلا سکتے ہیں۔nvtop.

kubectl exec -it <pod_name> -- bash

متبادل طور پر، آپ ایک nvtop تعینات کر سکتے ہیں۔daemonsetجیسا کہ درج ذیل میں دیا گیا ہے۔ GitHub repo.

یہ چلائے گا anvtopہر نوڈ پر پوڈ. آپ ان میں سے کسی بھی پوڈ کو چلا سکتے ہیں اور چلا سکتے ہیں۔nvtop:

kubectl exec -it <nvtop_pod_name> -- nvtop

مندرجہ ذیل اسکرین شاٹ ٹریننگ کلسٹر میں سے ایک نوڈس پر GPU کا استعمال دکھاتا ہے۔ اس معاملے میں، ہم ایک P5.48x بڑا مثال دیکھ رہے ہیں، جس میں 8 NVIDIA H100 GPUs ہیں۔ ماڈل کے وزن کے ڈاؤن لوڈ ہونے کے دوران GPUs بیکار رہتے ہیں، پھر GPU میموری کا استعمال بڑھ جاتا ہے کیونکہ ماڈل کے وزن GPU پر لوڈ ہوتے ہیں، اور GPU کا استعمال 100% تک بڑھ جاتا ہے جب کہ تربیتی تکرار جاری ہے۔

Amazon EKS پر PyTorch 2.0 FSDP کے ساتھ LLM سکیل کریں – حصہ 2 | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

گرافانا ڈیش بورڈ

اب جب کہ آپ سمجھ گئے ہیں کہ آپ کا سسٹم پوڈ اور نوڈ لیول پر کیسے کام کرتا ہے، تو کلسٹر لیول پر میٹرکس کو دیکھنا بھی ضروری ہے۔ مجموعی استعمال کی پیمائشیں NVIDIA DCGM برآمد کنندہ اور Prometheus کے ذریعہ جمع کی جا سکتی ہیں اور گرافانا میں تصور کی جا سکتی ہیں۔

Prometheus-Grafana کی تعیناتی کی ایک مثال درج ذیل میں دستیاب ہے۔ GitHub repo.

DCGM برآمد کنندگان کی تعیناتی کی ایک مثال درج ذیل میں دستیاب ہے۔ GitHub repo.

درج ذیل اسکرین شاٹ میں ایک سادہ گرافانا ڈیش بورڈ دکھایا گیا ہے۔ اسے درج ذیل DCGM میٹرکس کو منتخب کرکے بنایا گیا تھا: DCGM_FI_DEV_GPU_UTIL, DCGM_FI_MEM_COPY_UTIL, DCGM_FI_DEV_XID_ERRORS, DCGM_FI_DEV_SM_CLOCK, DCGM_FI_DEV_GPU_TEMP، اور DCGM_FI_DEV_POWER_USAGE. ڈیش بورڈ کو Prometheus میں درآمد کیا جا سکتا ہے۔ GitHub کے.

مندرجہ ذیل ڈیش بورڈ Llama2 7b سنگل ایپوک ٹریننگ جاب کا ایک رن دکھاتا ہے۔ گراف دکھاتے ہیں کہ جیسے جیسے سٹریمنگ ملٹی پروسیسر (SM) گھڑی بڑھتی ہے، GPU اور میموری کے استعمال کے ساتھ ساتھ GPUs کا پاور ڈرا اور درجہ حرارت بھی بڑھتا ہے۔ آپ یہ بھی دیکھ سکتے ہیں کہ XID کی کوئی خرابیاں نہیں تھیں اور اس رن کے دوران GPUs صحت مند تھے۔

Amazon EKS پر PyTorch 2.0 FSDP کے ساتھ LLM سکیل کریں – حصہ 2 | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

مارچ 2024 سے EKS کے لیے GPU آبزرویبلٹی کو مقامی طور پر تعاون حاصل ہے۔ CloudWatch کنٹینر کی بصیرتیں۔. اس فعالیت کو فعال کرنے کے لیے صرف اپنے EKS کلسٹر میں CloudWatch آبزرویبلٹی ایڈ آن کو تعینات کریں۔ پھر آپ کنٹینر انسائٹس میں پہلے سے ترتیب شدہ اور حسب ضرورت ڈیش بورڈز کے ذریعے پوڈ، نوڈ، اور کلسٹر لیول میٹرکس کو براؤز کرنے کے قابل ہو جائیں گے۔

صاف کرو

اگر آپ نے اس بلاگ میں فراہم کردہ مثالوں کا استعمال کرتے ہوئے اپنا کلسٹر بنایا ہے، تو آپ کلسٹر اور اس سے وابستہ کسی بھی وسائل کو حذف کرنے کے لیے درج ذیل کوڈ پر عمل کر سکتے ہیں، بشمول VPC:
eksctl کے لیے:

eksctl delete cluster -f ./eks-gpu-p4de-odcr.yaml

ٹیرافارم کے لیے:

terraform destroy

آنے والی خصوصیات

FSDP میں فی پیرامیٹر شارڈنگ کی خصوصیت شامل ہونے کی توقع ہے، جس کا مقصد فی GPU اس کے میموری فوٹ پرنٹ کو مزید بہتر بنانا ہے۔ مزید برآں، FP8 سپورٹ کی جاری ترقی کا مقصد H100 GPUs پر FSDP کی کارکردگی کو بہتر بنانا ہے۔ آخر میں، جب FSDP کے ساتھ ضم کیا جاتا ہے۔torch.compile، ہمیں کارکردگی میں اضافی بہتری اور سلیکٹیو ایکٹیویشن چیک پوائنٹنگ جیسی خصوصیات کو فعال کرنے کی امید ہے۔

نتیجہ

اس پوسٹ میں، ہم نے اس بات پر تبادلہ خیال کیا کہ کس طرح FSDP ہر GPU پر میموری فوٹ پرنٹ کو کم کرتا ہے، بڑے ماڈلز کی تربیت کو زیادہ موثر طریقے سے اور تھرو پٹ میں لکیری اسکیلنگ کو حاصل کرنے کے قابل بناتا ہے۔ ہم نے P2de اور P4 مثالوں پر Amazon EKS کا استعمال کرتے ہوئے Llama5 ماڈل کی تربیت کے مرحلہ وار نفاذ کے ذریعے اس کا مظاہرہ کیا اور لاگز کی نگرانی کے لیے kubectl، htop، nvtop، اور dcgm جیسے مشاہداتی ٹولز کا استعمال کیا، ساتھ ہی ساتھ CPU اور GPU کے استعمال کو بھی۔

ہم آپ کو اپنی LLM تربیتی ملازمتوں کے لیے PyTorch FSDP سے فائدہ اٹھانے کی ترغیب دیتے ہیں۔ پر شروع کریں۔ aws-do-fsdp.

مصنفین کے بارے میں

Amazon EKS پر PyTorch 2.0 FSDP کے ساتھ LLM سکیل کریں – حصہ 2 | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی کنولجیت خرمی ایمیزون ویب سروسز میں پرنسپل AI/ML سلوشنز آرکیٹیکٹ ہیں۔ وہ AWS صارفین کے ساتھ رہنمائی اور تکنیکی مدد فراہم کرنے کے لیے کام کرتا ہے، جس سے انہیں AWS پر مشین لرننگ سلوشنز کی قدر کو بہتر بنانے میں مدد ملتی ہے۔ کنولجیت کنٹینرائزڈ، تقسیم شدہ کمپیوٹنگ اور ڈیپ لرننگ ایپلی کیشنز کے ساتھ صارفین کی مدد کرنے میں مہارت رکھتا ہے۔

Amazon EKS پر PyTorch 2.0 FSDP کے ساتھ LLM سکیل کریں – حصہ 2 | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی الیکس ایانکولسکی AWS میں ایک پرنسپل سولیوشن آرکیٹیکٹ، سیلف مینیجڈ مشین لرننگ ہے۔ وہ ایک مکمل اسٹیک سافٹ ویئر اور انفراسٹرکچر انجینئر ہے جو گہرا، ہاتھ سے کام کرنا پسند کرتا ہے۔ اپنے کردار میں، وہ کنٹینر سے چلنے والی AWS سروسز پر ML اور AI ورک بوجھ کے کنٹینرائزیشن اور آرکیسٹریشن کے ساتھ صارفین کی مدد کرنے پر توجہ مرکوز کرتا ہے۔ وہ اوپن سورس کے مصنف بھی ہیں۔ فریم ورک کرو اور ایک ڈوکر کپتان جو دنیا کے سب سے بڑے چیلنجز کو حل کرتے ہوئے اختراع کی رفتار کو تیز کرنے کے لیے کنٹینر ٹیکنالوجیز کا اطلاق کرنا پسند کرتا ہے۔

Amazon EKS پر PyTorch 2.0 FSDP کے ساتھ LLM سکیل کریں – حصہ 2 | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی اینا سیموز AWS میں ایک پرنسپل مشین لرننگ اسپیشلسٹ، ML Frameworks ہے۔ وہ کلاؤڈ میں HPC انفراسٹرکچر پر بڑے پیمانے پر AI، ML، اور جنریٹو AI تعینات کرنے والے صارفین کی حمایت کرتی ہے۔ Ana نئے کام کے بوجھ کے لیے قیمت کی کارکردگی کو حاصل کرنے اور جنریٹیو AI اور مشین لرننگ کے لیے کیسز استعمال کرنے کے لیے صارفین کی مدد کرنے پر توجہ مرکوز کرتی ہے۔

Amazon EKS پر PyTorch 2.0 FSDP کے ساتھ LLM سکیل کریں – حصہ 2 | ایمیزون ویب سروسز پلیٹو بلاکچین ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی حامد شجنازری PyTorch میں ایک پارٹنر انجینئر ہے جو اوپن سورس، ہائی پرفارمنس ماڈل آپٹیمائزیشن، تقسیم شدہ تربیت (ایف ایس ڈی پی)، اور اندازہ۔ وہ اس کا شریک تخلیق کار ہے۔ لاما ہدایت اور شراکت دار ٹارچ سرو. اس کی بنیادی دلچسپی لاگت کی کارکردگی کو بہتر بنانا ہے، جس سے اے آئی کو وسیع تر کمیونٹی کے لیے مزید قابل رسائی بنانا ہے۔

کم رائٹ PyTorch میں AI/ پارٹنر انجینئر ہے۔ وہ Triton/CUDA دانا پر کام کرتا ہے (SplitK کام کے سڑن کے ساتھ ڈیکوانٹ کو تیز کرنا); صفحہ بندی، سلسلہ بندی، اور کوانٹائزڈ آپٹیمائزرز؛ اور PyTorch تقسیم شدہ (PyTorch FSDP).

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://aws.amazon.com/blogs/machine-learning/scale-llms-with-pytorch-2-0-fsdp-on-amazon-eks-part-2/

ٹائم اسٹیمپ: اپریل 1، 2024

ٹائم اسٹیمپ: اگست 14، 2023

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

تحقیقی ڈیٹا کے تجزیہ کے لیے Amazon SageMaker کینوس کا استعمال کریں۔

حصہ 4: نیٹ ویسٹ گروپ نے ایم ایل ماڈلز کو ایمیزون سیج میکر آرکیٹیکچرز میں کیسے منتقل کیا

Amazon SageMaker، Amazon Neptune، اور Deep Graph Library کا استعمال کرتے ہوئے GNN پر مبنی ریئل ٹائم فراڈ کا پتہ لگانے کا حل تیار کریں۔

Amazon Recognition کے ساتھ آڈیو ایونٹس کا پتہ لگائیں۔

Amazon SageMaker کے ساتھ اپنے مشین لرننگ ماڈلز کی گورننس کو بہتر بنائیں

ذہین دستاویز کی پروسیسنگ کے لیے Amazon Comprehend کے ساتھ ایک قدمی درجہ بندی اور ہستی کی شناخت متعارف کرانا

LLMs کے ساتھ Haystack پائپ لائنز اور Amazon SageMaker JumpStart کا استعمال کرتے ہوئے انٹرپرائز تلاش کے لیے پروڈکشن کے لیے تیار جنریٹو AI ایپلی کیشنز بنائیں۔ ایمیزون ویب سروسز

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ