Amazon SageMaker-এ শার্ড ডেটা সমান্তরালতা ব্যবহার করে কাছাকাছি-রৈখিক স্কেলিং সহ বিশাল মডেলগুলিকে প্রশিক্ষণ দিন

উচ্চতর নির্ভুলতার অন্বেষণে, প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এবং কম্পিউটার দৃষ্টির মতো ক্ষেত্রগুলিতে গভীর শিক্ষার মডেলগুলি গত কয়েক বছরে উল্লেখযোগ্যভাবে আকারে বৃদ্ধি পেয়েছে, প্রায়শই দশ থেকে কয়েক বিলিয়ন প্যারামিটারে গণনা করা হয়। এই বিশাল মডেলগুলিকে প্রশিক্ষণ দেওয়া চ্যালেঞ্জিং এবং জটিল বিতরণ কৌশল প্রয়োজন। ডেটা সায়েন্টিস্ট এবং মেশিন লার্নিং ইঞ্জিনিয়াররা ক্রমাগত তাদের ট্রেনিং কম্পিউট অপ্টিমাইজ করার সর্বোত্তম উপায় খুঁজছেন, তবুও যোগাযোগের ওভারহেডের সাথে লড়াই করছেন যা সামগ্রিক ক্লাস্টার আকারের সাথে বাড়তে পারে।

এই কারণেই আমরা সম্প্রতি চালু করেছি sকঠিন তথ্য সমান্তরালতা on আমাজন সেজমেকার, একটি নতুন মেমরি সংরক্ষণ বিতরণ প্রশিক্ষণ কৌশল SageMaker মডেল সমান্তরাল (SMP) লাইব্রেরি. শার্ডেড ডেটা সমান্তরালতা চরম-স্কেল মডেলের জন্য উদ্দেশ্য-নির্মিত এবং অ্যামাজন ইন-হাউস ব্যবহার করে এমআইসিএস হুডের অধীনে প্রযুক্তি, পরামিতি সংগ্রহ এবং গ্রেডিয়েন্ট সিঙ্ক্রোনাইজেশনের মূলে থাকা ব্যয়বহুল যোগাযোগের ওভারহেড নামিয়ে এনে যোগাযোগের স্কেলকে হ্রাস করার একটি বিজ্ঞান প্রচেষ্টা। সিকোয়েন্স দৈর্ঘ্য 30 সহ একটি 2B প্যারামিটার GPT-2048 মডেলের সাথে, এই নতুন বৈশিষ্ট্যটি 141 টিএফএলওএস অর্জন করেছে, ডিপস্পিড জিরো-39.7 এর তুলনায় একটি 3% গতি বৃদ্ধি পেয়েছে। সিকোয়েন্স দৈর্ঘ্য 10 সহ একটি 2B GPT-512 মডেলের জন্য, এই নতুন বৈশিষ্ট্যটি প্রতি সেকেন্ডে 564টি নমুনাও অর্জন করেছে, PyTorch-এর সম্পূর্ণরূপে শার্ডেড ডেটা প্যারালাল (FSDP) এর তুলনায় একটি 13.9% গতি বৃদ্ধি করেছে। মনে রাখবেন যে বিশাল মডেল প্রশিক্ষণে, গতির প্রতিটি শতাংশ আপনার দলে সংরক্ষিত ডলার এবং উত্পাদনশীলতায় অনুবাদ করে।

এই ব্লগ পোস্টে, আমরা প্রথমে শার্ড ডেটা সমান্তরালতার মূল পার্থক্যকারী এবং কখন এটি ব্যবহার করতে হবে তা ঘনিষ্ঠভাবে দেখব। তারপর, আপনি এই নতুন বৈশিষ্ট্যের সাথে সহজে SageMaker-এ একটি 30B প্যারামিটার GPT-2 মডেলকে প্রশিক্ষণ দিতে শিখবেন। অবশেষে আমরা অন্যান্য ওপেন সোর্স বিকল্পগুলির সাথে পারফরম্যান্সের তুলনা করব, বিশেষত 39.7 জিপিইউতে ডিপস্পিড জিরোকে 256% পর্যন্ত ছাড়িয়ে গেছে।

শার্ডেড ডেটা সমান্তরালতা কীভাবে কাজ করে এবং কখন এটি ব্যবহার করতে হয়

আমরা শার্ডেড ডেটা সমান্তরালতা প্রবর্তন করার আগে, এর বিস্তৃত কৌশল পরিবারটি দেখুন। বৃহৎ মডেলগুলির জন্য সাম্প্রতিক বিতরণকৃত প্রশিক্ষণ পদ্ধতিগুলি একটি দৃষ্টান্তে চলে গেছে যেখানে মডেল প্যারামিটার, গ্রেডিয়েন্ট এবং অপ্টিমাইজার স্টেটগুলি ডেটা-সমান্তরাল নোড জুড়ে ভাগ করা হয়। পাইপলাইন সমান্তরালতার বিপরীতে যা ডিভাইস জুড়ে পার্টিশন করার জন্য স্তরগুলি বেছে নেওয়ার সহজাত জটিলতা রয়েছে বিশেষত যখন আপনার কাঠামো সমর্থন করে না স্বয়ংক্রিয় মডেল বিভাজন, এই দৃষ্টান্তটি সুন্দরভাবে ডেটা সমান্তরালতার সরলতা সংরক্ষণ করে, যেখানে ডেটা সমান্তরালতার সীমাবদ্ধতা দূর করে যেখানে একটি মডেলকে একটি একক GPU-তে ফিট করতে হবে।

বিদ্যমান কাঠামোতে যা এই দৃষ্টান্তের অধীনে পড়ে, বিশেষ করে ডিপস্পিড জিরো-৩ এবং পাইটর্চের এফএসডিপি ফেয়ারস্কেল থেকে আপস্ট্রিম করা হয়েছে, মডেল স্টেটগুলি জুড়ে রয়েছে সব জিপিইউ, একটি কৌশল যা প্রতিটি জিপিইউতে মেমরির খরচ কমিয়ে দেয় যা বৃহৎ যোগাযোগের ওভারহেড খরচ করে যা ক্লাস্টারের আকারের সাথে বৃদ্ধি পায় এবং তাই স্কেলেবিলিটি উল্লেখযোগ্যভাবে স্কেলে হ্রাস পায়। বিপরীতে, SMP লাইব্রেরি পার্টিশনের মডেলে শার্ড ডেটা সমান্তরালতা একটি স্কেল-সচেতন মডেল স্টেটগুলির প্রতিটি প্রতিলিপিকে বিভাজন করার মাধ্যমে শুধুমাত্র ভিতরে একটি উপসেট GPU এর।

এর কাছাকাছি তাকান স্কেল-সচেতন মডেল পার্টিশন এমআইসিএস-এ, সমান্তরাল শার্ডেড ডেটার পিছনে মূল প্রযুক্তি। এই নকশার পিছনে অন্তর্দৃষ্টি হল যে সমগ্র ডেটা-সমান্তরাল গোষ্ঠী জুড়ে বিভাজন প্রশিক্ষণ রাজ্যগুলিকে কয়েক বিলিয়ন প্যারামিটার সহ একটি মডেলকে প্রশিক্ষণের প্রয়োজন হতে পারে না। উদাহরণস্বরূপ, 8 V100 GPU (32GB প্রতিটি) একটি 10B-প্যারামিটার মডেলের মডেল স্টেট রেপ্লিকা ধরে রাখার জন্য যথেষ্ট যার জন্য অ্যাডাম অপ্টিমাইজারের সাথে মিশ্র-নির্ভুলতা ব্যবহার করে প্রশিক্ষণের সময় প্রায় 200GB মেমরি প্রয়োজন। মডেল রাজ্যের একটি সম্পূর্ণ প্রতিরূপ সীমিত দ্বারা কনিষ্ঠ GPU-এর উপসেট, আমরা DeepSpeed ​​এবং PyTorch FSDP-এর তুলনায় যোগাযোগের ওভারহেডের স্কেল কার্যকরভাবে কমাতে পারি। শার্ডেড ডেটা সমান্তরাল এছাড়াও এমআইসিএস-এর অন্যান্য কৌশলগুলি যেমন হায়ারার্কিক্যাল কমিউনিকেশন এবং 2-হপ গ্রেডিয়েন্ট সিঙ্ক্রোনাইজেশন ব্যবহার করে। আরো তথ্যের জন্য, চেক আউট AWS-এ বিশাল-মডেল প্রশিক্ষণের কাছাকাছি-রৈখিক স্কেলিং or MiCS: পাবলিক ক্লাউডে বিশাল মডেলের প্রশিক্ষণের জন্য কাছাকাছি-রৈখিক স্কেলিং.

এখন, অন্যান্য বিতরণকৃত প্রশিক্ষণ কৌশলগুলির তুলনায় সমান্তরাল শার্ড ডেটা কখন চয়ন করবেন তা আপনি কীভাবে জানবেন? সাধারণ নিয়ম হল যে যদি আপনার মডেলের 1 বিলিয়নের কম প্যারামিটার থাকে এবং GPU মেমরিতে ফিট করতে পারে, সেজমেকার ডেটা সমান্তরাল লাইব্রেরি or সেজমেকার প্রশিক্ষণ কম্পাইলার আপনার জন্য যথেষ্ট হতে পারে। আপনার যদি বৃহত্তর ভাষা বা কম্পিউটার ভিশন মডেল থাকে, আমাদের পরামর্শ হল এটিকে শার্ডেড ডেটা প্যারালেলিজম কৌশলের সাথে একত্রিত করে প্রশিক্ষণ দেওয়া। সক্রিয়করণ চেকপয়েন্টিং এবং সক্রিয়করণ অফলোডিং SageMaker মডেলের সমান্তরাল লাইব্রেরিতে প্রথমে, অন্যান্য কৌশলগুলির আগে যেমন টেনসর সমান্তরালতা বা পাইপলাইনের সমান্তরালতা।

Amazon SageMaker-এ GPT-2 প্রশিক্ষণের জন্য শার্ডেড ডেটা সমান্তরালতা ব্যবহার করা

আসুন এখন শিখি কিভাবে একটি GPT-2 মডেলকে শার্ড করা ডেটা সমান্তরাল সহ, SMP আপনার জন্য জটিলতাকে এনক্যাপসুলেট করে। এই সম্পূর্ণ টিউটোরিয়াল নোটবুক ডেটা প্রসেসিং, প্রশিক্ষণের কাজ সংজ্ঞায়িত করা এবং জমা দেওয়া থেকে শুরু করে প্রশিক্ষণ লগ পর্যবেক্ষণ করা পর্যন্ত পুরো প্রক্রিয়ার মধ্য দিয়ে আপনাকে নিয়ে যায়। এই বৈশিষ্ট্যটি ব্যবহার করার জন্য মূল পদক্ষেপগুলিকে হাইলাইট করার জন্য একটি সংক্ষিপ্ত ওভারভিউ নিচে দেওয়া হল।

1. শুরু করুন

PyTorch v1.12.0+-এ Sharded ডেটা সমান্তরালতা উপলব্ধ এবং FP16 এবং BF16 উভয়ের সাথেই কাজ করে। SMP লাইব্রেরি ব্যবহার করার সবচেয়ে সহজ উপায় হল PyTorch-এর জন্য একটি পূর্বনির্মাণ AWS ডিপ লার্নিং কন্টেইনারের মাধ্যমে। যাইহোক, আপনি যদি আপনার নিজের ডকার কন্টেইনার আনতে চান তবে আপনি উল্লেখ করতে পারেন সেজমেকার বিতরণকৃত মডেল সমান্তরাল লাইব্রেরির সাথে আপনার নিজস্ব ডকার কন্টেইনার তৈরি করুন। শুরু করতে, অনুসরণ করুন একটি PyTorch প্রশিক্ষণ স্ক্রিপ্ট পরিবর্তন করুন আপনার প্রশিক্ষণ স্ক্রিপ্টে SMPs' APIs মানিয়ে নিতে। এই বিভাগে, আমরা শুধুমাত্র রেডি-টু-ব্যবহারের প্রশিক্ষণ স্ক্রিপ্ট থেকে কোড স্নিপেট সহ কয়েকটি প্রধান পদক্ষেপের কথা বলি। train_gpt_simple.py. আপনি স্ক্রিপ্ট এবং মন্তব্য অনুসরণ করতে পারেন এপিআই ডকুমেন্ট SMP APIs কোথায় ব্যবহার করা হয় সে সম্পর্কে আরও জানতে।

প্রথমে, কল করে লাইব্রেরি আমদানি করুন এবং শুরু করুন smdistributed.modelparallel.torch.init() প্রশিক্ষণ স্ক্রিপ্টের শুরুতে:

import smdistributed.modelparallel.torch as smp

smp.init(smp_config)

দ্বিতীয়ত, বিভাজন করা মডেলটি মোড়ানো smdistributed.modelparallel.torch.DistributedModel এবং ফেরত ব্যবহার করুন DistributedModel বস্তু এগিয়ে যাচ্ছে:

from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_config(model_config)
model = smp.DistributedModel(model, trace_device="gpu", backward_passes_per_step=args.gradient_accumulation)

সঙ্গে অপ্টিমাইজার মোড়ানো smdistributed.modelparallel.torch.DistributedOptimizer অপ্টিমাইজার অবস্থা সংরক্ষণ এবং লোড করার জন্য।

from torch import optim

optimizer = optim.Adam(
    param_groups, betas=(args.beta1, args.beta2), lr=args.lr, weight_decay=args.weight_decay
)

optimizer = smp.DistributedOptimizer(
        optimizer, 
        static_loss_scale=None, 
        dynamic_loss_scale=True,
        dynamic_loss_args={"scale_window": 1000, "min_scale": 1, "delayed_shift": 2},
        )

একটি ধাপ ফাংশনে এগিয়ে এবং পিছনের যুক্তি রাখুন এবং এটি দিয়ে সাজান smdistributed.modelparallel.torch.step.  ভিতরে সংজ্ঞায়িত কোনো গণনা smp.step-decorated ফাংশন একটি বিতরণ পদ্ধতিতে সম্পাদিত হয়।

@smp.step
def train_step(model, optimizer, input_ids, attention_mask, args):
    loss = model(input_ids=input_ids, attention_mask=attention_mask, labels=input_ids)["loss"]
    model.backward(loss)

    return loss

@smp.step
def test_step(model, input_ids, attention_mask):
    loss = model(input_ids=input_ids, attention_mask=attention_mask, labels=input_ids)["loss"]
    
    return loss

2. ডেটাসেট প্রস্তুত করুন

আমরা ব্যবহার করি openwebtext আমরা এই উদাহরণে ব্যবহার করা ডেটাসেট। নোটবুক স্ক্রিপ্ট ব্যবহার করে data_prep_512.py ডেটাসেট ডাউনলোড এবং প্রিপ্রসেস করতে। আপনি পরিবর্তন করে অন্যান্য ডেটাসেটের সাথেও প্রশিক্ষণ নিতে পারেন data_pipeline.py. বড় ডেটাসেট এবং মডেলের সাথে কাজ করার সময়, আপনি সঞ্চিত ডেটা ব্যবহার করে প্রশিক্ষণের কাজটি দ্রুত করতে পারেন দীপ্তি জন্য Amazon FSx, যা স্থানীয়ভাবে একত্রিত একটি উচ্চ-পারফরম্যান্স ফাইল সিস্টেম প্রদান করে আমাজন সিম্পল স্টোরেজ সার্ভিস (S3)। থেকে নির্দেশাবলী দেখুন Luster জন্য Amazon FSx ব্যবহার করতে ডেটা ইনপুট চ্যানেল কনফিগার করুন ডেটা ইনপুট চ্যানেল হিসাবে একটি FSx লুস্টার ফাইল সিস্টেম সেট করার নির্দেশিকা জন্য।

3. প্রশিক্ষণের কাজ শুরু করুন

এই ধাপটি অনুমান করে যে আপনি ইতিমধ্যেই আছে আপনার প্রশিক্ষণ স্ক্রিপ্ট পরিবর্তন এবং পূর্ববর্তী বিভাগে উল্লিখিত হিসাবে ডেটাসেট প্রস্তুত। প্রতি শার্ডেড ডেটা সমান্তরাল সক্ষম করুন, সহজভাবে সেট করুন sharded_data_parallel_degree মধ্যে পাইটর্চ এস্টিমেটর. এই টিউটোরিয়ালে, আমরা সেট করেছি sharded_data_parallel_degree=128 এবং instace_count=32 p4d.24xlarge নোডের জন্য, যা নির্দেশ করে যে মডেল স্টেটগুলি মোট 128 GPU-এর মধ্যে 256 GPU জুড়ে শার্ড করা হবে। এই নির্বাচিত মানের উপর ভিত্তি করে, SMP স্বয়ংক্রিয়ভাবে ডেটা সমান্তরাল ডিগ্রী 2 এ সেট করবে (কারণ 256/128=2), যার অর্থ আমাদের কাছে ডেটা সমান্তরালতার জন্য দুটি প্রতিলিপি থাকবে। একটি আদর্শ মান বাছাই করার জন্য একটি সাধারণ নিয়ম sharded_data_parallel_degree প্রতি 3B মডেল প্যারামিটারে শেয়ারিং গ্রুপে আরও একটি নোড যোগ করতে হবে। এই টিউটোরিয়ালে, আমাদের মডেলের আকার 30B, তাই আমাদের শর্ডিংয়ের জন্য কমপক্ষে 10টি নোড ব্যবহার করা উচিত। এবং যেহেতু 16 নোড (128 GPUs) হল থ্রেশহোল্ডের উপরে সবচেয়ে ছোট পাওয়ার-অফ-2, আমরা সেট করি sharded_data_parallel_degree=128.

চেকপয়েন্টিংয়ের জন্য, আমরা চেকপয়েন্টিং ইউটিলিটিগুলির একটি সেটও প্রদান করি sharded_data_parallel_checkpoint.py , সম্পূর্ণ পুনর্গঠনের জন্য একটি ইউটিলিটি সহ state_dict উন্নত ব্যবহারের ক্ষেত্রে। অবশেষে, আমরা এস্টিমেটরে fit() কল করে একটি বিতরণ করা প্রশিক্ষণ কাজ চালু করতে পারি।

smp_estimator = PyTorch(
    entry_point="train_gpt_simple.py",
    instance_type="ml.p4d.24xlarge",
    source_dir=os.getcwd(),
    volume_size=500,
    instance_count=32,
    distribution={
        "mpi": {
            "enabled": True,
            "processes_per_host": processes_per_host,
            "custom_mpi_options": mpioptions,
        },
        "smdistributed": {
            "modelparallel": {
                "enabled": True,
                "parameters": {
                    "ddp": True,
                    "skip_tracing": True,
                    "delayed_parameter_initialization": True,
                    "offload_activations": True,
                    "activation_loading_horizon": 4,
                    # To enable sharded data parallelism.
                    # Here we shard model states across 128 GPUs. 
                    "sharded_data_parallel_degree": 128, 
                    "fp16": False,
                    "bf16": True,
                    # This is to disable pipeline parallelism.
                    "partitions": 1,
                },
            }
        },
    },
    framework_version="1.12",
    py_version="py38",
    hyperparameters=hyperparameters,
    checkpoint_s3_uri=checkpoint_s3_uri if not use_fsx else None,
    checkpoint_local_path=hyperparameters["checkpoint-dir"] if use_fsx else None,
    ...
)

smp_estimator.fit(inputs=data_channels)

4. প্রশিক্ষণ কাজ নিরীক্ষণ

আপনি প্রশিক্ষণ লগগুলি অ্যাক্সেস করতে পারেন এবং GPU এবং মেমরি ব্যবহার ট্র্যাক করতে পারেন৷ অ্যামাজন ক্লাউডওয়াচ. "algo-1" এর লগগুলি দেখতে ভুলবেন না কারণ এটি হল প্রধান নোড যার আউটপুট স্ট্রীমে সমস্ত উদাহরণ থেকে প্রশিক্ষণ কাজের লগ রয়েছে।

বেঞ্চমার্কিং কর্মক্ষমতা

আমরা যথাক্রমে 16 এবং 32 ক্রম দৈর্ঘ্যের জন্য 4 এবং 24 p512d.2048x বড় নোডগুলিতে SMP লাইব্রেরিতে শার্ডেড ডেটা সমান্তরালতাকে বেঞ্চমার্ক করেছি। 30B-প্যারামিটার GPT2 মডেলটি 7168, 48টি স্তর এবং 64টি মাথার লুকানো প্রস্থ ব্যবহার করার জন্য কনফিগার করা হয়েছে। আপনি ঠিক একই কনফিগারেশন গ্রহণ করতে পারেন যেখানে ক্রম দৈর্ঘ্য 2048 সেট করে model_config = "gpt2-30b" টিউটোরিয়াল নোটবুকে। এই সেটিং সহ, SMP প্রতি সেকেন্ডে 73.52টি নমুনা অর্জন করেছে, ডিপস্পিড ZeRO-39.7 এর তুলনায় একটি 3% গতি বৃদ্ধি পেয়েছে। যদি আপনার টোকেনের আকার 500 বিলিয়ন হয়, তাহলে এই গতি বৃদ্ধির অর্থ হল p367d.4xlarge নোডগুলিতে প্রায় 24 ঘন্টা সঞ্চয়, যা প্রতি প্রশিক্ষণে $12,000-এর বেশি বাজেট সংরক্ষিত হয়! নিম্নলিখিত সারণীটি আমাদের বেঞ্চমার্ক ফলাফলের সংক্ষিপ্ত বিবরণ দেয়।

কনফিগারেশন সম্পাদন SMP দিয়ে প্রশিক্ষণের সময় (দিন)
মডেল/প্রশিক্ষণ গুচ্ছ ডিপস্পিড জন্য SMP গতি (নমুনা/সেকেন্ড)
ডিপস্পীড v0.7.2
গতি (নমুনা/সেকেন্ড)
SMP v1.11
SMP এর % গতি SMP দ্বারা অর্জিত TFLOPS 100 বিলিয়ন টোকেন 500 বিলিয়ন টোকেন
30B GPT-2
অনুক্রমের দৈর্ঘ্য: 512
গ্লোবাল ব্যাচের আকার: 3072
FP16
16 p4d.24x বড় নোড সক্রিয়করণ চেকপয়েন্টিং
গ্রেডিয়েন্ট_সঞ্চয়_পদক্ষেপ:2
সক্রিয়করণ চেকপয়েন্টিং
শার্ডেড_ডেটা_সমান্তরাল_ডিগ্রী:64
gradient_accumulation:1
142 181.05 27.5 173.6 12.49 62.43
30B GPT-2
অনুক্রমের দৈর্ঘ্য: 2048
গ্লোবাল ব্যাচের আকার 1536
FP16
32 p4d.24x বড় নোড সক্রিয়করণ চেকপয়েন্টিং
গ্রেডিয়েন্ট_সঞ্চয়_পদক্ষেপ:2
সক্রিয়করণ চেকপয়েন্টিং শার্ডেড_ডেটা_সমান্তরে_ডিগ্রী:128
gradient_accumulation:1
52.6 73.52 39.77 141 7.69 38.43
1/ প্রতিটি মডেল কনফিগারেশনের জন্য, আমরা DeepSpeed ​​ZeRO-তে বিভিন্ন বৈশিষ্ট্য, পর্যায় এবং কনফিগারেশন পরীক্ষা করেছি এবং ডিপস্পীড বেসলাইন হিসাবে সেরা থ্রুপুট প্রদান করে এমন একটি বেছে নিয়েছি। বেঞ্চমার্ক চালু ছিল অ্যামাজন ইলাস্টিক কম্পিউট ক্লাউড (Amazon EC2)। 2/ এই ফলাফলগুলি AWS-এর জন্য অপ্টিমাইজ করা উন্নত যোগাযোগ সংগ্রহের উপর নির্ভর করে যা শীঘ্রই উপলব্ধ করা হবে। 3/ প্রসেস করা টোকেনের সংখ্যার উপর ভিত্তি করে গতি থেকে প্রশিক্ষণের সময় অনুমান করা হয়।

সংক্ষেপে, আমরা মডেল এবং কনফিগারেশনের একটি পরিসর জুড়ে ডিপস্পিডের সাথে তুলনা করার সময় SMP-তে শার্ডেড ডেটা সমান্তরালতার সাথে ধারাবাহিকভাবে উচ্চতর থ্রুপুট লক্ষ্য করেছি। এই নতুন বৈশিষ্ট্যটি ডিপস্পিডের তুলনায় একটি ভাল মেমরি দক্ষতাও প্রদর্শন করেছে, এসএমপিকে একটি বড় ব্যাচের আকারের সাথে মানানসই করতে সক্ষম করে এবং একটি নির্দিষ্ট গ্লোবাল ব্যাচের আকারের সাথে ফিট করার জন্য প্রয়োজনীয় গ্রেডিয়েন্ট জমার মাত্রা কমিয়ে দেয়।

উপসংহার

এই পোস্টে, আমরা একটি নতুন বিতরণ করা প্রশিক্ষণ কৌশল প্রবর্তন করেছি — শার্ডেড ডেটা সমান্তরালতা — এবং কীভাবে এটি অ্যামাজন সেজমেকারে রৈখিক-স্কেলিংয়ের সাথে বিশাল মডেল প্রশিক্ষণের গতি বাড়ায়। আমরা এটি অনুসরণ করে নতুন কৌশল সহ একটি GPT-2 মডেলকে কীভাবে প্রশিক্ষণ দেওয়া যায় তাও দেখেছি সম্পূর্ণ উদাহরণ. আপনি অনুসরণ করতে পারেন Amazon SageMaker উদাহরণ GitHub রেপো সমস্ত SageMaker মডেলের সমান্তরাল উদাহরণ ট্র্যাক করতে বা আমাদের পরবর্তীতে যোগ দিতে প্রশিক্ষণ কর্মশালা বিতরণ. শার্ড ডেটা সমান্তরাল সম্পর্কে আরও জানতে, অনুগ্রহ করে দেখুন ডকুমেন্টেশন.


লেখক সম্পর্কে

Train gigantic models with near-linear scaling using sharded data parallelism on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.এমিলি ওয়েবার SageMaker চালু হওয়ার ঠিক পরে AWS-এ যোগদান করেছে, এবং তখন থেকেই বিশ্বকে এটি সম্পর্কে জানানোর চেষ্টা করছে! গ্রাহকদের জন্য নতুন ML অভিজ্ঞতা তৈরির বাইরে, এমিলি তিব্বতি বৌদ্ধধর্মের ধ্যান ও অধ্যয়ন উপভোগ করেন।

Train gigantic models with near-linear scaling using sharded data parallelism on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.ক্যান কারাকুস তিনি AWS-এর একজন সিনিয়র ফলিত বিজ্ঞানী, AWS-এ বৃহৎ-স্কেল ডিস্ট্রিবিউটেড ডিপ লার্নিং অপ্টিমাইজ করছেন। তার গবেষণার আগ্রহ গভীর শিক্ষা, বিতরণ করা অপ্টিমাইজেশান, বিতরণ সিস্টেম এবং তথ্য তত্ত্বকে কভার করে। কাজের বাইরে, তিনি সাইকেল চালানো, ভ্রমণ, পড়া এবং শেখা উপভোগ করেন।

Train gigantic models with near-linear scaling using sharded data parallelism on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.রাহুল হুইলগোল AWS-এর একজন সিনিয়র সফটওয়্যার ইঞ্জিনিয়ার। তিনি ক্লাউডে বৃহৎ গভীর শিক্ষার মডেলগুলিকে প্রশিক্ষিত করা সহজ এবং পারফরম্যান্ট করার জন্য ডিস্ট্রিবিউটেড ডিপ লার্নিং সিস্টেমে কাজ করেন। তার অবসর সময়ে, তিনি ফটোগ্রাফি, বাইক চালানো এবং বাগান করা উপভোগ করেন।

Train gigantic models with near-linear scaling using sharded data parallelism on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.সুহিত কোডগুলে AWS আর্টিফিশিয়াল ইন্টেলিজেন্স গ্রুপের সাথে ডিপ লার্নিং ফ্রেমওয়ার্ক নিয়ে কাজ করা একজন সফটওয়্যার ডেভেলপমেন্ট ইঞ্জিনিয়ার। তার অবসর সময়ে, তিনি হাইকিং, ভ্রমণ এবং রান্না উপভোগ করেন।

Train gigantic models with near-linear scaling using sharded data parallelism on Amazon SageMaker PlatoBlockchain Data Intelligence. Vertical Search. Ai.ইরিন হো AWS গভীর শিক্ষার জন্য একজন পণ্য ব্যবস্থাপক। তিনি এমন পণ্যগুলিতে কাজ করেন যা গ্রাহকদের AWS-এ গভীর শিক্ষার মডেলগুলিকে প্রশিক্ষণ দেওয়া সহজ করে তোলে৷ বাইরে কাজের মজার জন্য, তিনি হাইকিং এবং স্কিইং উপভোগ করেন।

সময় স্ট্যাম্প:

থেকে আরো এডাব্লুএস মেশিন লার্নিং

ওপেনফোল্ডের জন্য স্কেলে অনুমান চালান, একটি পাইটর্চ-ভিত্তিক প্রোটিন ফোল্ডিং এমএল মডেল, অ্যামাজন ইকেএস ব্যবহার করে

উত্স নোড: 1729331
সময় স্ট্যাম্প: অক্টোবর 25, 2022

Amazon SageMaker এবং Amazon Recognition ব্যবহার করে ইমেজে গাড়ির অবস্থান সনাক্ত করতে কম্পিউটার ভিশন মডেল তৈরি এবং প্রশিক্ষণ দিন | আমাজন ওয়েব সার্ভিসেস

উত্স নোড: 1870831
সময় স্ট্যাম্প: আগস্ট 3, 2023