ایمیزون سیج میکر پر شارڈڈ ڈیٹا کی ہم آہنگی کا استعمال کرتے ہوئے قریب لکیری اسکیلنگ کے ساتھ بڑے ماڈلز کو تربیت دیں

اعلیٰ درستگی کے حصول میں، قدرتی لینگویج پروسیسنگ اور کمپیوٹر ویژن جیسے شعبوں میں گہرے سیکھنے کے ماڈلز نے پچھلے کچھ سالوں میں نمایاں طور پر سائز میں اضافہ کیا ہے، جو اکثر دسیوں سے اربوں پیرامیٹرز میں شمار کیے جاتے ہیں۔ ان بڑے ماڈلز کو تربیت دینا مشکل ہے اور اس کے لیے تقسیم کی پیچیدہ حکمت عملیوں کی ضرورت ہے۔ ڈیٹا سائنس دان اور مشین لرننگ انجینئرز اپنے تربیتی کمپیوٹ کو بہتر بنانے کے لیے مسلسل بہترین طریقہ تلاش کر رہے ہیں، پھر بھی وہ کمیونیکیشن اوور ہیڈ کے ساتھ جدوجہد کر رہے ہیں جو کلسٹر سائز کے ساتھ ساتھ بڑھ سکتا ہے۔

یہی وجہ ہے کہ ہم نے حال ہی میں لانچ کیا ہے۔ sسخت ڈیٹا متوازی on ایمیزون سیج میکرمیں میموری کی بچت کی تقسیم شدہ تربیتی تکنیک SageMaker ماڈل متوازی (SMP) لائبریری. شارڈڈ ڈیٹا کی ہم آہنگی انتہائی پیمانے کے ماڈلز کے لیے مقصد سے بنائی گئی ہے اور گھر میں Amazon استعمال کرتی ہے۔ ایم آئی سی ایس ٹکنالوجی انڈر دی ہڈ، پیرامیٹر اکٹھا کرنے اور گریڈینٹ سنکرونائزیشن میں جڑی ہوئی مہنگی کمیونیکیشن اوور ہیڈ کو نیچے لا کر کمیونیکیشن کے پیمانے کو کم کرنے کی سائنس کی کوشش۔ ترتیب کی لمبائی 30 کے ساتھ 2B پیرامیٹر GPT-2048 ماڈل کے ساتھ، اس نئی خصوصیت نے 141 TFLOPs حاصل کیے، جو DeepSpeed ​​ZeRO-39.7 کے مقابلے میں 3٪ کی رفتار ہے۔ ترتیب کی لمبائی 10 کے ساتھ 2B GPT-512 ماڈل کے لیے، اس نئی خصوصیت نے فی سیکنڈ 564 نمونے بھی حاصل کیے، جو PyTorch کے مکمل طور پر شارڈڈ ڈیٹا متوازی (FSDP) کے مقابلے میں 13.9٪ کی رفتار میں اضافہ ہے۔ یاد رکھیں کہ بہت بڑے ماڈل ٹریننگ میں، رفتار کا ہر فیصد آپ کی ٹیم میں بچائے گئے ڈالرز اور پیداواری صلاحیت میں ترجمہ کرتا ہے۔

اس بلاگ پوسٹ میں، ہم سب سے پہلے شارڈڈ ڈیٹا متوازی کے کلیدی تفریق پر گہری نظر ڈالیں گے اور اسے کب استعمال کرنا ہے۔ اس کے بعد، آپ اس نئی خصوصیت کے ساتھ آسانی کے ساتھ SageMaker پر 30B پیرامیٹر GPT-2 ماڈل کو تربیت دینے کا طریقہ سیکھیں گے۔ آخر میں ہم دیگر اوپن سورس آپشنز کے ساتھ کارکردگی کا موازنہ کریں گے، خاص طور پر 39.7 GPUs پر ڈیپ اسپیڈ زیرو کو 256 فیصد تک پیچھے چھوڑنا۔

شارڈڈ ڈیٹا کی ہم آہنگی کیسے کام کرتی ہے اور اسے کب استعمال کرنا ہے۔

اس سے پہلے کہ ہم شارڈڈ ڈیٹا کی ہم آہنگی کو متعارف کرائیں، آئیے اس کی وسیع تکنیک فیملی کو دیکھیں۔ بڑے ماڈلز کے لیے حالیہ تقسیم شدہ تربیتی نقطہ نظر ایک ایسے نمونے میں منتقل ہو گئے ہیں جہاں ماڈل کے پیرامیٹرز، گریڈیئنٹس، اور آپٹیمائزر اسٹیٹس کو ڈیٹا کے متوازی نوڈس میں شیئر کیا جاتا ہے۔ پائپ لائن متوازی کے برعکس جس میں تمام آلات پر تقسیم کے لیے تہوں کو منتخب کرنے کی فطری پیچیدگی ہوتی ہے خاص طور پر جب آپ کا فریم ورک تعاون نہیں کرتا ہے۔ خودکار ماڈل کی تقسیم، یہ تمثیل ڈیٹا کے متوازی کی سادگی کو خوبصورتی سے محفوظ رکھتی ہے، جبکہ ڈیٹا کے متوازی کی رکاوٹ کو ہٹاتا ہے جہاں ایک ماڈل کو ایک GPU میں فٹ ہونا ضروری ہے۔

موجودہ فریم ورکس میں جو اس تمثیل کے تحت آتے ہیں، خاص طور پر ڈیپ اسپیڈ زیرو 3 اور پائی ٹارچ کا FSDP FairScale سے اپ اسٹریم میں، ماڈل اسٹیٹس کو ایک دوسرے پر تقسیم کیا گیا ہے۔ تمام GPUs، ایک ایسی حکمت عملی جو ہر GPU پر میموری کی کھپت کو کم کرتی ہے جس میں بڑے کمیونیکیشن اوور ہیڈ کی لاگت آتی ہے جو کلسٹر سائز کے ساتھ بڑھتا ہے اور اس وجہ سے اسکیل ایبلٹی میں نمایاں طور پر کمی واقع ہوتی ہے۔ اس کے برعکس، ایس ایم پی لائبریری پارٹیشنز ماڈل میں شارڈڈ ڈیٹا کی ہم آہنگی پیمانے سے آگاہ ماڈل ریاستوں کی ہر نقل کو صرف اندر ہی تقسیم کرکے ایک ذیلی سیٹ GPUs کا۔

آئیے قریب سے دیکھیں پیمانے سے آگاہ ماڈل کی تقسیم MiCS میں، شارڈڈ ڈیٹا کے متوازی کے پیچھے بنیادی ٹیکنالوجی۔ اس ڈیزائن کے پیچھے بصیرت یہ ہے کہ پورے ڈیٹا-متوازی گروپ میں تقسیم کرنے والی تربیتی ریاستوں کو دسیوں اربوں پیرامیٹرز والے ماڈل کو تربیت دینے کی ضرورت نہیں ہوسکتی ہے۔ مثال کے طور پر، 8 V100 GPUs (ہر ​​ایک 32GB) 10B-پیرامیٹر ماڈل کی ماڈل سٹیٹس ریپلیکا رکھنے کے لیے کافی ہیں جس کو ایڈم آپٹیمائزر کے ساتھ مخلوط درستگی کا استعمال کرتے ہوئے تربیت دیتے وقت تقریباً 200GB میموری کی ضرورت ہوتی ہے۔ میں ماڈل ریاستوں کی مکمل نقل کو محدود کرکے سب سے چھوٹی GPUs کے ذیلی سیٹ، ہم ڈیپ اسپیڈ اور PyTorch FSDP کے مقابلے میں مواصلات کے اوور ہیڈ کو مؤثر طریقے سے کم کر سکتے ہیں۔ شارڈڈ ڈیٹا متوازی MiCS میں دیگر تکنیکوں کا بھی فائدہ اٹھاتا ہے جیسے ہیئرارکیکل کمیونیکیشن اور 2-ہاپ گریڈینٹ سنکرونائزیشن۔ مزید معلومات کے لیے، چیک آؤٹ کریں۔ AWS پر بہت بڑا ماڈل ٹریننگ کی قریبی لکیری اسکیلنگ or ایم آئی سی ایس: پبلک کلاؤڈ پر دیو ہیکل ماڈل کی تربیت کے لیے قریبی لکیری اسکیلنگ.

اب، آپ کیسے جانتے ہیں کہ دیگر تقسیم شدہ تربیتی تکنیکوں کے مقابلے میں شارڈ ڈیٹا کا انتخاب کب کرنا ہے؟ عام اصول یہ ہے کہ اگر آپ کے ماڈل میں 1 بلین سے کم پیرامیٹرز ہیں اور وہ GPU میموری میں فٹ ہو سکتے ہیں، سیج میکر ڈیٹا متوازی لائبریری or سیج میکر ٹریننگ کمپائلر آپ کے لئے کافی ہو سکتا ہے. اگر آپ کے پاس بڑی زبان یا کمپیوٹر ویژن ماڈلز ہیں، تو ہماری تجویز یہ ہے کہ اس کو شارڈڈ ڈیٹا متوازی تکنیک کے ساتھ مل کر تربیت دیں۔ ایکٹیویشن چیک پوائنٹنگ اور ایکٹیویشن آف لوڈنگ SageMaker ماڈل متوازی لائبریری میں پہلے، دوسری تکنیکوں سے پہلے جیسے کہ ٹینسر متوازی یا پائپ لائن متوازی.

Amazon SageMaker پر GPT-2 کو تربیت دینے کے لیے شارڈڈ ڈیٹا کی ہم آہنگی کا استعمال

آئیے اب سیکھتے ہیں کہ GPT-2 ماڈل کو شارڈ ڈیٹا کے ساتھ متوازی تربیت دینے کا طریقہ، SMP آپ کے لیے پیچیدگی کو سمیٹتا ہے۔ یہ مکمل ٹیوٹوریل نوٹ بک ڈیٹا پروسیسنگ، تربیتی جابز کی وضاحت اور جمع کروانے سے لے کر ٹریننگ لاگز کی نگرانی تک آپ کو پورے عمل میں لے جاتا ہے۔ اس خصوصیت کو استعمال کرنے کے لیے اہم اقدامات کو اجاگر کرنے کے لیے ایک مختصر جائزہ مندرجہ ذیل ہے۔

1. شروع کریں

PyTorch v1.12.0+ میں شارڈ ڈیٹا کی ہم آہنگی دستیاب ہے اور FP16 اور BF16 دونوں کے ساتھ کام کرتی ہے۔ SMP لائبریری کو استعمال کرنے کا سب سے آسان طریقہ PyTorch کے لیے پہلے سے تعمیر شدہ AWS ڈیپ لرننگ کنٹینر کے ذریعے ہے۔ تاہم، اگر آپ اپنا ڈوکر کنٹینر لانا چاہتے ہیں، تو آپ حوالہ دے سکتے ہیں۔ SageMaker تقسیم شدہ ماڈل متوازی لائبریری کے ساتھ اپنا اپنا ڈوکر کنٹینر بنائیں۔ شروع کرنے کے لیے، پیروی کریں۔ PyTorch ٹریننگ اسکرپٹ میں ترمیم کریں۔ SMPs کے APIs کو اپنی ٹریننگ اسکرپٹ میں ڈھالنے کے لیے۔ اس سیکشن میں، ہم استعمال کے لیے تیار ٹریننگ اسکرپٹ سے کوڈ کے ٹکڑوں کے ساتھ صرف چند اہم مراحل بتاتے ہیں۔ train_gpt_simple.py. آپ سکرپٹ میں تبصرے کی پیروی کر سکتے ہیں اور API دستاویز اس بارے میں مزید جاننے کے لیے کہ SMP APIs کہاں استعمال ہوتے ہیں۔

سب سے پہلے، کال کرکے لائبریری درآمد کریں اور شروع کریں۔ smdistributed.modelparallel.torch.init() تربیتی اسکرپٹ کے آغاز میں:

import smdistributed.modelparallel.torch as smp

smp.init(smp_config)

دوسرا، اس ماڈل کو لپیٹیں جس کے ساتھ تقسیم کیا جانا ہے۔ smdistributed.modelparallel.torch.DistributedModel اور واپسی کا استعمال کریں۔ DistributedModel اعتراض آگے بڑھنا:

from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_config(model_config)
model = smp.DistributedModel(model, trace_device="gpu", backward_passes_per_step=args.gradient_accumulation)

آپٹیمائزر کے ساتھ لپیٹیں۔ smdistributed.modelparallel.torch.DistributedOptimizer آپٹیمائزر سٹیٹس کو بچانے اور لوڈ کرنے کے لیے۔

from torch import optim

optimizer = optim.Adam(
    param_groups, betas=(args.beta1, args.beta2), lr=args.lr, weight_decay=args.weight_decay
)

optimizer = smp.DistributedOptimizer(
        optimizer, 
        static_loss_scale=None, 
        dynamic_loss_scale=True,
        dynamic_loss_args={"scale_window": 1000, "min_scale": 1, "delayed_shift": 2},
        )

آگے اور پیچھے کی منطق کو ایک سٹیپ فنکشن میں ڈالیں اور اسے سجائیں۔ smdistributed.modelparallel.torch.step.  کوئی بھی حساب کتاب کے اندر بیان کیا گیا ہے۔ smp.step-decorated فنکشن کو تقسیم شدہ طریقے سے انجام دیا جاتا ہے۔

@smp.step
def train_step(model, optimizer, input_ids, attention_mask, args):
    loss = model(input_ids=input_ids, attention_mask=attention_mask, labels=input_ids)["loss"]
    model.backward(loss)

    return loss

@smp.step
def test_step(model, input_ids, attention_mask):
    loss = model(input_ids=input_ids, attention_mask=attention_mask, labels=input_ids)["loss"]
    
    return loss

2. ڈیٹاسیٹ تیار کریں۔

ہم استعمال کرتے ہیں اوپن ویب ٹیکسٹ ڈیٹا سیٹ ہے جسے ہم اس مثال میں استعمال کرتے ہیں۔ نوٹ بک اسکرپٹ کا استعمال کرتی ہے۔ data_prep_512.py ڈیٹا سیٹ کو ڈاؤن لوڈ اور پری پروسیس کرنے کے لیے۔ آپ ترمیم کرکے دوسرے ڈیٹاسیٹس کے ساتھ بھی تربیت حاصل کرسکتے ہیں۔ data_pipeline.py. بڑے ڈیٹاسیٹ اور ماڈل کے ساتھ کام کرتے وقت، آپ اس میں محفوظ کردہ ڈیٹا کا استعمال کر کے تربیتی کام کو تیز کر سکتے ہیں۔ ایمیزون ایف ایس ایکس لسٹر، جو مقامی طور پر مربوط ایک اعلی کارکردگی کا فائل سسٹم فراہم کرتا ہے۔ ایمیزون سادہ اسٹوریج سروس (S3)۔ براہ کرم سے ہدایات دیکھیں Luster کے لیے Amazon FSx استعمال کرنے کے لیے ڈیٹا ان پٹ چینل کو کنفیگر کریں۔ FSx Luster فائل سسٹم کو ڈیٹا ان پٹ چینل کے طور پر ترتیب دینے کے لیے رہنمائی کے لیے۔

3. تربیتی ملازمتیں شروع کریں۔

یہ مرحلہ فرض کرتا ہے کہ آپ کے پاس پہلے ہی موجود ہے۔ آپ کی تربیتی اسکرپٹ میں ترمیم کی گئی۔ اور ڈیٹاسیٹ تیار کیا جیسا کہ پچھلے حصوں میں بتایا گیا ہے۔ کو شارڈڈ ڈیٹا متوازی کو فعال کریں، بس سیٹ کریں۔ sharded_data_parallel_degree میں PyTorch تخمینہ لگانے والا. اس ٹیوٹوریل میں، ہم سیٹ کرتے ہیں۔ sharded_data_parallel_degree=128 اور instace_count=32 p4d.24xlarge نوڈس کے لیے، جو اس بات کی نشاندہی کرتا ہے کہ ماڈل اسٹیٹس کو کل 128 GPUs میں سے 256 GPUs میں شارڈ کیا جائے گا۔ اس منتخب قدر کی بنیاد پر، SMP پھر خود بخود ڈیٹا کے متوازی ڈگری کو 2 پر سیٹ کر دے گا (کیونکہ 256/128=2)، یعنی ہمارے پاس ڈیٹا کے متوازی کے لیے دو نقلیں ہوں گی۔ کے لیے ایک مثالی قدر منتخب کرنے کا ایک عمومی اصول sharded_data_parallel_degree ماڈل پیرامیٹرز کے ہر 3B فی شیئرنگ گروپ میں ایک اور نوڈ شامل کرنا ہے۔ اس ٹیوٹوریل میں، ہمارے ماڈل کا سائز 30B ہے، لہذا ہمیں شارڈنگ کے لیے کم از کم 10 نوڈس کا استعمال کرنا چاہیے۔ اور چونکہ 16 نوڈس (128 GPUs) حد سے اوپر 2 کی سب سے چھوٹی طاقت ہے، ہم نے سیٹ sharded_data_parallel_degree=128.

چیک پوائنٹنگ کے لیے، ہم چیک پوائنٹ کی سہولیات کا ایک سیٹ بھی فراہم کرتے ہیں۔ sharded_data_parallel_checkpoint.py مکمل تعمیر نو کے لیے ایک افادیت سمیت state_dict اعلی درجے کے استعمال کے معاملات کے لئے۔ آخر میں، ہم تخمینہ کنندہ پر fit() کو کال کرکے تقسیم شدہ تربیتی کام شروع کر سکتے ہیں۔

smp_estimator = PyTorch(
    entry_point="train_gpt_simple.py",
    instance_type="ml.p4d.24xlarge",
    source_dir=os.getcwd(),
    volume_size=500,
    instance_count=32,
    distribution={
        "mpi": {
            "enabled": True,
            "processes_per_host": processes_per_host,
            "custom_mpi_options": mpioptions,
        },
        "smdistributed": {
            "modelparallel": {
                "enabled": True,
                "parameters": {
                    "ddp": True,
                    "skip_tracing": True,
                    "delayed_parameter_initialization": True,
                    "offload_activations": True,
                    "activation_loading_horizon": 4,
                    # To enable sharded data parallelism.
                    # Here we shard model states across 128 GPUs. 
                    "sharded_data_parallel_degree": 128, 
                    "fp16": False,
                    "bf16": True,
                    # This is to disable pipeline parallelism.
                    "partitions": 1,
                },
            }
        },
    },
    framework_version="1.12",
    py_version="py38",
    hyperparameters=hyperparameters,
    checkpoint_s3_uri=checkpoint_s3_uri if not use_fsx else None,
    checkpoint_local_path=hyperparameters["checkpoint-dir"] if use_fsx else None,
    ...
)

smp_estimator.fit(inputs=data_channels)

4. تربیتی کاموں کی نگرانی کریں۔

آپ ٹریننگ لاگز تک رسائی حاصل کر سکتے ہیں اور GPU اور میموری کے استعمال کو ٹریک کر سکتے ہیں۔ ایمیزون کلاؤڈ واچ. "algo-1" کے لاگز کو دیکھنا یقینی بنائیں کیونکہ یہ مرکزی نوڈ ہے جس کے آؤٹ پٹ سٹریم میں تمام مثالوں سے ٹریننگ جاب لاگز ہوتے ہیں۔

بینچ مارکنگ کی کارکردگی

ہم نے ترتیب کی لمبائی 16 اور 32 کے لیے بالترتیب 4 اور 24 p512d.2048x بڑے نوڈس دونوں پر SMP لائبریری میں شارڈڈ ڈیٹا کی ہم آہنگی کو بینچ مارک کیا۔ 30B-پیرامیٹر GPT2 ماڈل کو 7168، 48 تہوں اور 64 ہیڈز کی پوشیدہ چوڑائی استعمال کرنے کے لیے ترتیب دیا گیا ہے۔ آپ بالکل اسی ترتیب کو اپنا سکتے ہیں جہاں ترتیب کے ذریعہ ترتیب کی لمبائی 2048 ہے۔ model_config = "gpt2-30b" ٹیوٹوریل نوٹ بک میں۔ اس ترتیب کے ساتھ، SMP نے 73.52 نمونے فی سیکنڈ حاصل کیے، جو DeepSpeed ​​ZeRO-39.7 کے مقابلے میں 3% رفتار ہے۔ اگر آپ کے ٹوکن کا سائز 500 بلین ہے، تو اس سپیڈ اپ کا مطلب ہے p367d.4xlarge نوڈس پر تقریباً 24 گھنٹے کی بچت، جو کہ فی ٹریننگ $12,000 سے زیادہ کے بجٹ کے برابر بچتی ہے! درج ذیل جدول ہمارے بینچ مارک کے نتائج کا خلاصہ کرتا ہے۔

ترتیب کارکردگی SMP کے ساتھ تربیت کا وقت (دن)
ماڈل/ٹریننگ کلسٹر ڈیپ اسپیڈ SMP رفتار (نمونے/سیکنڈ)
ڈیپ اسپیڈ v0.7.2
رفتار (نمونے/سیکنڈ)
SMP v1.11
SMP کی رفتار SMP کے ذریعے حاصل کردہ TFLOPS 100 بلین ٹوکن۔ 500 بلین ٹوکن۔
30B GPT-2
ترتیب کی لمبائی: 512
عالمی بیچ کا سائز: 3072
FP16
16 p4d.24x بڑے نوڈس ایکٹیویشن چیک پوائنٹ
gradient_accumulation_steps:2
ایکٹیویشن چیک پوائنٹ
sharded_data_parallel_degree:64
gradient_accumulation:1
142 181.05 27.5 173.6 12.49 62.43
30B GPT-2
ترتیب کی لمبائی: 2048
عالمی بیچ سائز 1536
FP16
32 p4d.24x بڑے نوڈس ایکٹیویشن چیک پوائنٹ
gradient_accumulation_steps:2
ایکٹیویشن چیک پوائنٹنگ sharded_data_parallel_degree:128
gradient_accumulation:1
52.6 73.52 39.77 141 7.69 38.43
1/ ہر ماڈل کنفیگریشن کے لیے، ہم نے DeepSpeed ​​ZeRO میں مختلف خصوصیات، مراحل، اور کنفیگریشنز کا تجربہ کیا اور ڈیپ اسپیڈ بیس لائن کے طور پر بہترین تھرو پٹ فراہم کرنے والے کو منتخب کیا۔ بینچ مارک پر چلایا گیا۔ ایمیزون لچکدار کمپیوٹ کلاؤڈ (ایمیزون ای سی 2)۔ 2/ یہ نتائج AWS کے لیے بہتر کردہ مواصلاتی مجموعہ پر انحصار کرتے ہیں جو جلد ہی دستیاب کرائے جائیں گے۔ 3/ پروسیس شدہ ٹوکنز کی تعداد کی بنیاد پر ٹریننگ کا وقت رفتار سے لگایا جاتا ہے۔

خلاصہ طور پر، ہم نے ماڈلز اور کنفیگریشنز کی ایک رینج میں ڈیپ اسپیڈ کے مقابلے میں SMP میں شارڈڈ ڈیٹا متوازی کے ساتھ مسلسل زیادہ تھرو پٹ کا مشاہدہ کیا۔ اس نئی خصوصیت نے ڈیپ اسپیڈ کے مقابلے میں میموری کی بہتر کارکردگی کا بھی مظاہرہ کیا، جس سے ایس ایم پی کو ایک بڑے بیچ سائز میں فٹ ہونے کے قابل بناتا ہے اور کسی خاص عالمی بیچ سائز میں فٹ ہونے کے لیے درکار تدریجی جمع ہونے کی سطح کو کم کرتا ہے۔

نتیجہ

اس پوسٹ میں، ہم نے ایک نئی تقسیم شدہ تربیتی تکنیک متعارف کرائی ہے — شارڈڈ ڈیٹا کی ہم آہنگی — اور یہ کہ یہ Amazon SageMaker پر قریب لکیری اسکیلنگ کے ساتھ بڑے ماڈل ٹریننگ کو کیسے تیز کرتا ہے۔ ہم نے اس کے بعد نئی تکنیک کے ساتھ GPT-2 ماڈل کو تربیت دینے کا طریقہ بھی سیکھا۔ مکمل مثال. آپ کی پیروی کر سکتے ہیں ایمیزون سیج میکر کی مثالیں گٹ ہب ریپو SageMaker ماڈل کی تمام متوازی مثالوں کو ٹریک کرنے یا ہماری اگلی میں شرکت کرنے کے لیے تربیتی ورکشاپس تقسیم کیں۔. شارڈڈ ڈیٹا کے متوازی کے بارے میں مزید جاننے کے لیے، براہ کرم دیکھیں دستاویزات.


مصنفین کے بارے میں

Train gigantic models with near-linear scaling using sharded data parallelism on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.ایملی ویبر SageMaker کے لانچ ہونے کے فوراً بعد AWS میں شامل ہوا، اور تب سے دنیا کو اس کے بارے میں بتانے کی کوشش کر رہا ہے! صارفین کے لیے ایم ایل کے نئے تجربات بنانے کے علاوہ، ایملی کو تبتی بدھ مت کا مراقبہ اور مطالعہ کرنا پسند ہے۔

Train gigantic models with near-linear scaling using sharded data parallelism on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.کراکوس AWS میں ایک سینئر اپلائیڈ سائنٹسٹ ہے، جو AWS پر بڑے پیمانے پر تقسیم شدہ گہری تعلیم کو بہتر بنا رہا ہے۔ اس کی تحقیقی دلچسپیوں میں گہری سیکھنے، تقسیم شدہ اصلاح، تقسیم شدہ نظام، اور معلوماتی تھیوری شامل ہیں۔ کام کے علاوہ، وہ سائیکلنگ، سفر، پڑھنے اور سیکھنے سے لطف اندوز ہوتا ہے.

Train gigantic models with near-linear scaling using sharded data parallelism on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.راہول ہیلگول AWS میں ایک سینئر سافٹ ویئر انجینئر ہے۔ وہ کلاؤڈ میں بڑے ڈیپ لرننگ ماڈلز کو تربیت دینے کو آسان اور پرفارمنس بنانے کے لیے تقسیم شدہ ڈیپ لرننگ سسٹمز پر کام کرتا ہے۔ اپنے فارغ وقت میں، وہ فوٹو گرافی، بائیک چلانے اور باغبانی سے لطف اندوز ہوتا ہے۔

Train gigantic models with near-linear scaling using sharded data parallelism on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.سوہت کوڈگولے AWS آرٹیفیشل انٹیلی جنس گروپ کے ساتھ ایک سافٹ ویئر ڈویلپمنٹ انجینئر ہے جو گہری سیکھنے کے فریم ورک پر کام کر رہا ہے۔ اپنے فارغ وقت میں، وہ پیدل سفر، سفر اور کھانا پکانے سے لطف اندوز ہوتا ہے۔

Train gigantic models with near-linear scaling using sharded data parallelism on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.ایرن ہو اے ڈبلیو ایس ڈیپ لرننگ کے لیے پروڈکٹ مینیجر ہے۔ وہ ایسی مصنوعات پر کام کرتی ہے جو صارفین کے لیے AWS پر گہری سیکھنے کے ماڈلز کو تربیت دینا آسان بناتی ہیں۔ تفریحی کام کے لیے وہ ہائیکنگ اور سکینگ سے لطف اندوز ہوتی ہیں۔

ٹائم اسٹیمپ:

سے زیادہ AWS مشین لرننگ