Train Gigantic Models With Near-linear Scaling Using Sharded Data Parallelism On Amazon SageMaker

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

উচ্চতর নির্ভুলতার অন্বেষণে, প্রাকৃতিক ভাষা প্রক্রিয়াকরণ এবং কম্পিউটার দৃষ্টির মতো ক্ষেত্রগুলিতে গভীর শিক্ষার মডেলগুলি গত কয়েক বছরে উল্লেখযোগ্যভাবে আকারে বৃদ্ধি পেয়েছে, প্রায়শই দশ থেকে কয়েক বিলিয়ন প্যারামিটারে গণনা করা হয়। এই বিশাল মডেলগুলিকে প্রশিক্ষণ দেওয়া চ্যালেঞ্জিং এবং জটিল বিতরণ কৌশল প্রয়োজন। ডেটা সায়েন্টিস্ট এবং মেশিন লার্নিং ইঞ্জিনিয়াররা ক্রমাগত তাদের ট্রেনিং কম্পিউট অপ্টিমাইজ করার সর্বোত্তম উপায় খুঁজছেন, তবুও যোগাযোগের ওভারহেডের সাথে লড়াই করছেন যা সামগ্রিক ক্লাস্টার আকারের সাথে বাড়তে পারে।

এই কারণেই আমরা সম্প্রতি চালু করেছি sকঠিন তথ্য সমান্তরালতা on আমাজন সেজমেকার, একটি নতুন মেমরি সংরক্ষণ বিতরণ প্রশিক্ষণ কৌশল SageMaker মডেল সমান্তরাল (SMP) লাইব্রেরি. শার্ডেড ডেটা সমান্তরালতা চরম-স্কেল মডেলের জন্য উদ্দেশ্য-নির্মিত এবং অ্যামাজন ইন-হাউস ব্যবহার করে এমআইসিএস হুডের অধীনে প্রযুক্তি, পরামিতি সংগ্রহ এবং গ্রেডিয়েন্ট সিঙ্ক্রোনাইজেশনের মূলে থাকা ব্যয়বহুল যোগাযোগের ওভারহেড নামিয়ে এনে যোগাযোগের স্কেলকে হ্রাস করার একটি বিজ্ঞান প্রচেষ্টা। সিকোয়েন্স দৈর্ঘ্য 30 সহ একটি 2B প্যারামিটার GPT-2048 মডেলের সাথে, এই নতুন বৈশিষ্ট্যটি 141 টিএফএলওএস অর্জন করেছে, ডিপস্পিড জিরো-39.7 এর তুলনায় একটি 3% গতি বৃদ্ধি পেয়েছে। সিকোয়েন্স দৈর্ঘ্য 10 সহ একটি 2B GPT-512 মডেলের জন্য, এই নতুন বৈশিষ্ট্যটি প্রতি সেকেন্ডে 564টি নমুনাও অর্জন করেছে, PyTorch-এর সম্পূর্ণরূপে শার্ডেড ডেটা প্যারালাল (FSDP) এর তুলনায় একটি 13.9% গতি বৃদ্ধি করেছে। মনে রাখবেন যে বিশাল মডেল প্রশিক্ষণে, গতির প্রতিটি শতাংশ আপনার দলে সংরক্ষিত ডলার এবং উত্পাদনশীলতায় অনুবাদ করে।

এই ব্লগ পোস্টে, আমরা প্রথমে শার্ড ডেটা সমান্তরালতার মূল পার্থক্যকারী এবং কখন এটি ব্যবহার করতে হবে তা ঘনিষ্ঠভাবে দেখব। তারপর, আপনি এই নতুন বৈশিষ্ট্যের সাথে সহজে SageMaker-এ একটি 30B প্যারামিটার GPT-2 মডেলকে প্রশিক্ষণ দিতে শিখবেন। অবশেষে আমরা অন্যান্য ওপেন সোর্স বিকল্পগুলির সাথে পারফরম্যান্সের তুলনা করব, বিশেষত 39.7 জিপিইউতে ডিপস্পিড জিরোকে 256% পর্যন্ত ছাড়িয়ে গেছে।

শার্ডেড ডেটা সমান্তরালতা কীভাবে কাজ করে এবং কখন এটি ব্যবহার করতে হয়

আমরা শার্ডেড ডেটা সমান্তরালতা প্রবর্তন করার আগে, এর বিস্তৃত কৌশল পরিবারটি দেখুন। বৃহৎ মডেলগুলির জন্য সাম্প্রতিক বিতরণকৃত প্রশিক্ষণ পদ্ধতিগুলি একটি দৃষ্টান্তে চলে গেছে যেখানে মডেল প্যারামিটার, গ্রেডিয়েন্ট এবং অপ্টিমাইজার স্টেটগুলি ডেটা-সমান্তরাল নোড জুড়ে ভাগ করা হয়। পাইপলাইন সমান্তরালতার বিপরীতে যা ডিভাইস জুড়ে পার্টিশন করার জন্য স্তরগুলি বেছে নেওয়ার সহজাত জটিলতা রয়েছে বিশেষত যখন আপনার কাঠামো সমর্থন করে না স্বয়ংক্রিয় মডেল বিভাজন, এই দৃষ্টান্তটি সুন্দরভাবে ডেটা সমান্তরালতার সরলতা সংরক্ষণ করে, যেখানে ডেটা সমান্তরালতার সীমাবদ্ধতা দূর করে যেখানে একটি মডেলকে একটি একক GPU-তে ফিট করতে হবে।

বিদ্যমান কাঠামোতে যা এই দৃষ্টান্তের অধীনে পড়ে, বিশেষ করে ডিপস্পিড জিরো-৩ এবং পাইটর্চের এফএসডিপি ফেয়ারস্কেল থেকে আপস্ট্রিম করা হয়েছে, মডেল স্টেটগুলি জুড়ে রয়েছে সব জিপিইউ, একটি কৌশল যা প্রতিটি জিপিইউতে মেমরির খরচ কমিয়ে দেয় যা বৃহৎ যোগাযোগের ওভারহেড খরচ করে যা ক্লাস্টারের আকারের সাথে বৃদ্ধি পায় এবং তাই স্কেলেবিলিটি উল্লেখযোগ্যভাবে স্কেলে হ্রাস পায়। বিপরীতে, SMP লাইব্রেরি পার্টিশনের মডেলে শার্ড ডেটা সমান্তরালতা একটি স্কেল-সচেতন মডেল স্টেটগুলির প্রতিটি প্রতিলিপিকে বিভাজন করার মাধ্যমে শুধুমাত্র ভিতরে একটি উপসেট GPU এর।

এর কাছাকাছি তাকান স্কেল-সচেতন মডেল পার্টিশন এমআইসিএস-এ, সমান্তরাল শার্ডেড ডেটার পিছনে মূল প্রযুক্তি। এই নকশার পিছনে অন্তর্দৃষ্টি হল যে সমগ্র ডেটা-সমান্তরাল গোষ্ঠী জুড়ে বিভাজন প্রশিক্ষণ রাজ্যগুলিকে কয়েক বিলিয়ন প্যারামিটার সহ একটি মডেলকে প্রশিক্ষণের প্রয়োজন হতে পারে না। উদাহরণস্বরূপ, 8 V100 GPU (32GB প্রতিটি) একটি 10B-প্যারামিটার মডেলের মডেল স্টেট রেপ্লিকা ধরে রাখার জন্য যথেষ্ট যার জন্য অ্যাডাম অপ্টিমাইজারের সাথে মিশ্র-নির্ভুলতা ব্যবহার করে প্রশিক্ষণের সময় প্রায় 200GB মেমরি প্রয়োজন। মডেল রাজ্যের একটি সম্পূর্ণ প্রতিরূপ সীমিত দ্বারা কনিষ্ঠ GPU-এর উপসেট, আমরা DeepSpeed এবং PyTorch FSDP-এর তুলনায় যোগাযোগের ওভারহেডের স্কেল কার্যকরভাবে কমাতে পারি। শার্ডেড ডেটা সমান্তরাল এছাড়াও এমআইসিএস-এর অন্যান্য কৌশলগুলি যেমন হায়ারার্কিক্যাল কমিউনিকেশন এবং 2-হপ গ্রেডিয়েন্ট সিঙ্ক্রোনাইজেশন ব্যবহার করে। আরো তথ্যের জন্য, চেক আউট AWS-এ বিশাল-মডেল প্রশিক্ষণের কাছাকাছি-রৈখিক স্কেলিং or MiCS: পাবলিক ক্লাউডে বিশাল মডেলের প্রশিক্ষণের জন্য কাছাকাছি-রৈখিক স্কেলিং.

এখন, অন্যান্য বিতরণকৃত প্রশিক্ষণ কৌশলগুলির তুলনায় সমান্তরাল শার্ড ডেটা কখন চয়ন করবেন তা আপনি কীভাবে জানবেন? সাধারণ নিয়ম হল যে যদি আপনার মডেলের 1 বিলিয়নের কম প্যারামিটার থাকে এবং GPU মেমরিতে ফিট করতে পারে, সেজমেকার ডেটা সমান্তরাল লাইব্রেরি or সেজমেকার প্রশিক্ষণ কম্পাইলার আপনার জন্য যথেষ্ট হতে পারে। আপনার যদি বৃহত্তর ভাষা বা কম্পিউটার ভিশন মডেল থাকে, আমাদের পরামর্শ হল এটিকে শার্ডেড ডেটা প্যারালেলিজম কৌশলের সাথে একত্রিত করে প্রশিক্ষণ দেওয়া। সক্রিয়করণ চেকপয়েন্টিং এবং সক্রিয়করণ অফলোডিং SageMaker মডেলের সমান্তরাল লাইব্রেরিতে প্রথমে, অন্যান্য কৌশলগুলির আগে যেমন টেনসর সমান্তরালতা বা পাইপলাইনের সমান্তরালতা।

Amazon SageMaker-এ GPT-2 প্রশিক্ষণের জন্য শার্ডেড ডেটা সমান্তরালতা ব্যবহার করা

আসুন এখন শিখি কিভাবে একটি GPT-2 মডেলকে শার্ড করা ডেটা সমান্তরাল সহ, SMP আপনার জন্য জটিলতাকে এনক্যাপসুলেট করে। এই সম্পূর্ণ টিউটোরিয়াল নোটবুক ডেটা প্রসেসিং, প্রশিক্ষণের কাজ সংজ্ঞায়িত করা এবং জমা দেওয়া থেকে শুরু করে প্রশিক্ষণ লগ পর্যবেক্ষণ করা পর্যন্ত পুরো প্রক্রিয়ার মধ্য দিয়ে আপনাকে নিয়ে যায়। এই বৈশিষ্ট্যটি ব্যবহার করার জন্য মূল পদক্ষেপগুলিকে হাইলাইট করার জন্য একটি সংক্ষিপ্ত ওভারভিউ নিচে দেওয়া হল।

1. শুরু করুন

PyTorch v1.12.0+-এ Sharded ডেটা সমান্তরালতা উপলব্ধ এবং FP16 এবং BF16 উভয়ের সাথেই কাজ করে। SMP লাইব্রেরি ব্যবহার করার সবচেয়ে সহজ উপায় হল PyTorch-এর জন্য একটি পূর্বনির্মাণ AWS ডিপ লার্নিং কন্টেইনারের মাধ্যমে। যাইহোক, আপনি যদি আপনার নিজের ডকার কন্টেইনার আনতে চান তবে আপনি উল্লেখ করতে পারেন সেজমেকার বিতরণকৃত মডেল সমান্তরাল লাইব্রেরির সাথে আপনার নিজস্ব ডকার কন্টেইনার তৈরি করুন। শুরু করতে, অনুসরণ করুন একটি PyTorch প্রশিক্ষণ স্ক্রিপ্ট পরিবর্তন করুন আপনার প্রশিক্ষণ স্ক্রিপ্টে SMPs' APIs মানিয়ে নিতে। এই বিভাগে, আমরা শুধুমাত্র রেডি-টু-ব্যবহারের প্রশিক্ষণ স্ক্রিপ্ট থেকে কোড স্নিপেট সহ কয়েকটি প্রধান পদক্ষেপের কথা বলি। train_gpt_simple.py. আপনি স্ক্রিপ্ট এবং মন্তব্য অনুসরণ করতে পারেন এপিআই ডকুমেন্ট SMP APIs কোথায় ব্যবহার করা হয় সে সম্পর্কে আরও জানতে।

প্রথমে, কল করে লাইব্রেরি আমদানি করুন এবং শুরু করুন smdistributed.modelparallel.torch.init() প্রশিক্ষণ স্ক্রিপ্টের শুরুতে:

import smdistributed.modelparallel.torch as smp

smp.init(smp_config)

দ্বিতীয়ত, বিভাজন করা মডেলটি মোড়ানো smdistributed.modelparallel.torch.DistributedModel এবং ফেরত ব্যবহার করুন DistributedModel বস্তু এগিয়ে যাচ্ছে:

from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_config(model_config)
model = smp.DistributedModel(model, trace_device="gpu", backward_passes_per_step=args.gradient_accumulation)

সঙ্গে অপ্টিমাইজার মোড়ানো smdistributed.modelparallel.torch.DistributedOptimizer অপ্টিমাইজার অবস্থা সংরক্ষণ এবং লোড করার জন্য।

from torch import optim

optimizer = optim.Adam(
    param_groups, betas=(args.beta1, args.beta2), lr=args.lr, weight_decay=args.weight_decay
)

optimizer = smp.DistributedOptimizer(
        optimizer, 
        static_loss_scale=None, 
        dynamic_loss_scale=True,
        dynamic_loss_args={"scale_window": 1000, "min_scale": 1, "delayed_shift": 2},
        )

একটি ধাপ ফাংশনে এগিয়ে এবং পিছনের যুক্তি রাখুন এবং এটি দিয়ে সাজান smdistributed.modelparallel.torch.step. ভিতরে সংজ্ঞায়িত কোনো গণনা smp.step-decorated ফাংশন একটি বিতরণ পদ্ধতিতে সম্পাদিত হয়।

@smp.step
def train_step(model, optimizer, input_ids, attention_mask, args):
    loss = model(input_ids=input_ids, attention_mask=attention_mask, labels=input_ids)["loss"]
    model.backward(loss)

    return loss

@smp.step
def test_step(model, input_ids, attention_mask):
    loss = model(input_ids=input_ids, attention_mask=attention_mask, labels=input_ids)["loss"]
    
    return loss

2. ডেটাসেট প্রস্তুত করুন

আমরা ব্যবহার করি openwebtext আমরা এই উদাহরণে ব্যবহার করা ডেটাসেট। নোটবুক স্ক্রিপ্ট ব্যবহার করে data_prep_512.py ডেটাসেট ডাউনলোড এবং প্রিপ্রসেস করতে। আপনি পরিবর্তন করে অন্যান্য ডেটাসেটের সাথেও প্রশিক্ষণ নিতে পারেন data_pipeline.py. বড় ডেটাসেট এবং মডেলের সাথে কাজ করার সময়, আপনি সঞ্চিত ডেটা ব্যবহার করে প্রশিক্ষণের কাজটি দ্রুত করতে পারেন দীপ্তি জন্য Amazon FSx, যা স্থানীয়ভাবে একত্রিত একটি উচ্চ-পারফরম্যান্স ফাইল সিস্টেম প্রদান করে আমাজন সিম্পল স্টোরেজ সার্ভিস (S3)। থেকে নির্দেশাবলী দেখুন Luster জন্য Amazon FSx ব্যবহার করতে ডেটা ইনপুট চ্যানেল কনফিগার করুন ডেটা ইনপুট চ্যানেল হিসাবে একটি FSx লুস্টার ফাইল সিস্টেম সেট করার নির্দেশিকা জন্য।

3. প্রশিক্ষণের কাজ শুরু করুন

এই ধাপটি অনুমান করে যে আপনি ইতিমধ্যেই আছে আপনার প্রশিক্ষণ স্ক্রিপ্ট পরিবর্তন এবং পূর্ববর্তী বিভাগে উল্লিখিত হিসাবে ডেটাসেট প্রস্তুত। প্রতি শার্ডেড ডেটা সমান্তরাল সক্ষম করুন, সহজভাবে সেট করুন sharded_data_parallel_degree মধ্যে পাইটর্চ এস্টিমেটর. এই টিউটোরিয়ালে, আমরা সেট করেছি sharded_data_parallel_degree=128 এবং instace_count=32 p4d.24xlarge নোডের জন্য, যা নির্দেশ করে যে মডেল স্টেটগুলি মোট 128 GPU-এর মধ্যে 256 GPU জুড়ে শার্ড করা হবে। এই নির্বাচিত মানের উপর ভিত্তি করে, SMP স্বয়ংক্রিয়ভাবে ডেটা সমান্তরাল ডিগ্রী 2 এ সেট করবে (কারণ 256/128=2), যার অর্থ আমাদের কাছে ডেটা সমান্তরালতার জন্য দুটি প্রতিলিপি থাকবে। একটি আদর্শ মান বাছাই করার জন্য একটি সাধারণ নিয়ম sharded_data_parallel_degree প্রতি 3B মডেল প্যারামিটারে শেয়ারিং গ্রুপে আরও একটি নোড যোগ করতে হবে। এই টিউটোরিয়ালে, আমাদের মডেলের আকার 30B, তাই আমাদের শর্ডিংয়ের জন্য কমপক্ষে 10টি নোড ব্যবহার করা উচিত। এবং যেহেতু 16 নোড (128 GPUs) হল থ্রেশহোল্ডের উপরে সবচেয়ে ছোট পাওয়ার-অফ-2, আমরা সেট করি sharded_data_parallel_degree=128.

চেকপয়েন্টিংয়ের জন্য, আমরা চেকপয়েন্টিং ইউটিলিটিগুলির একটি সেটও প্রদান করি sharded_data_parallel_checkpoint.py , সম্পূর্ণ পুনর্গঠনের জন্য একটি ইউটিলিটি সহ state_dict উন্নত ব্যবহারের ক্ষেত্রে। অবশেষে, আমরা এস্টিমেটরে fit() কল করে একটি বিতরণ করা প্রশিক্ষণ কাজ চালু করতে পারি।

smp_estimator = PyTorch(
    entry_point="train_gpt_simple.py",
    instance_type="ml.p4d.24xlarge",
    source_dir=os.getcwd(),
    volume_size=500,
    instance_count=32,
    distribution={
        "mpi": {
            "enabled": True,
            "processes_per_host": processes_per_host,
            "custom_mpi_options": mpioptions,
        },
        "smdistributed": {
            "modelparallel": {
                "enabled": True,
                "parameters": {
                    "ddp": True,
                    "skip_tracing": True,
                    "delayed_parameter_initialization": True,
                    "offload_activations": True,
                    "activation_loading_horizon": 4,
                    # To enable sharded data parallelism.
                    # Here we shard model states across 128 GPUs. 
                    "sharded_data_parallel_degree": 128, 
                    "fp16": False,
                    "bf16": True,
                    # This is to disable pipeline parallelism.
                    "partitions": 1,
                },
            }
        },
    },
    framework_version="1.12",
    py_version="py38",
    hyperparameters=hyperparameters,
    checkpoint_s3_uri=checkpoint_s3_uri if not use_fsx else None,
    checkpoint_local_path=hyperparameters["checkpoint-dir"] if use_fsx else None,
    ...
)

smp_estimator.fit(inputs=data_channels)

4. প্রশিক্ষণ কাজ নিরীক্ষণ

আপনি প্রশিক্ষণ লগগুলি অ্যাক্সেস করতে পারেন এবং GPU এবং মেমরি ব্যবহার ট্র্যাক করতে পারেন৷ অ্যামাজন ক্লাউডওয়াচ. "algo-1" এর লগগুলি দেখতে ভুলবেন না কারণ এটি হল প্রধান নোড যার আউটপুট স্ট্রীমে সমস্ত উদাহরণ থেকে প্রশিক্ষণ কাজের লগ রয়েছে।

বেঞ্চমার্কিং কর্মক্ষমতা

আমরা যথাক্রমে 16 এবং 32 ক্রম দৈর্ঘ্যের জন্য 4 এবং 24 p512d.2048x বড় নোডগুলিতে SMP লাইব্রেরিতে শার্ডেড ডেটা সমান্তরালতাকে বেঞ্চমার্ক করেছি। 30B-প্যারামিটার GPT2 মডেলটি 7168, 48টি স্তর এবং 64টি মাথার লুকানো প্রস্থ ব্যবহার করার জন্য কনফিগার করা হয়েছে। আপনি ঠিক একই কনফিগারেশন গ্রহণ করতে পারেন যেখানে ক্রম দৈর্ঘ্য 2048 সেট করে model_config = "gpt2-30b" টিউটোরিয়াল নোটবুকে। এই সেটিং সহ, SMP প্রতি সেকেন্ডে 73.52টি নমুনা অর্জন করেছে, ডিপস্পিড ZeRO-39.7 এর তুলনায় একটি 3% গতি বৃদ্ধি পেয়েছে। যদি আপনার টোকেনের আকার 500 বিলিয়ন হয়, তাহলে এই গতি বৃদ্ধির অর্থ হল p367d.4xlarge নোডগুলিতে প্রায় 24 ঘন্টা সঞ্চয়, যা প্রতি প্রশিক্ষণে $12,000-এর বেশি বাজেট সংরক্ষিত হয়! নিম্নলিখিত সারণীটি আমাদের বেঞ্চমার্ক ফলাফলের সংক্ষিপ্ত বিবরণ দেয়।

কনফিগারেশন				সম্পাদন				SMP দিয়ে প্রশিক্ষণের সময় (দিন)
মডেল/প্রশিক্ষণ	গুচ্ছ	ডিপস্পিড	জন্য SMP	গতি (নমুনা/সেকেন্ড) ডিপস্পীড v0.7.2	গতি (নমুনা/সেকেন্ড) SMP v1.11	SMP এর % গতি	SMP দ্বারা অর্জিত TFLOPS	100 বিলিয়ন টোকেন	500 বিলিয়ন টোকেন
30B GPT-2 অনুক্রমের দৈর্ঘ্য: 512 গ্লোবাল ব্যাচের আকার: 3072 FP16	16 p4d.24x বড় নোড	সক্রিয়করণ চেকপয়েন্টিং গ্রেডিয়েন্ট_সঞ্চয়_পদক্ষেপ:2	সক্রিয়করণ চেকপয়েন্টিং শার্ডেড_ডেটা_সমান্তরাল_ডিগ্রী:64 gradient_accumulation:1	142	181.05	27.5	173.6	12.49	62.43
30B GPT-2 অনুক্রমের দৈর্ঘ্য: 2048 গ্লোবাল ব্যাচের আকার 1536 FP16	32 p4d.24x বড় নোড	সক্রিয়করণ চেকপয়েন্টিং গ্রেডিয়েন্ট_সঞ্চয়_পদক্ষেপ:2	সক্রিয়করণ চেকপয়েন্টিং শার্ডেড_ডেটা_সমান্তরে_ডিগ্রী:128 gradient_accumulation:1	52.6	73.52	39.77	141	7.69	38.43

1/ প্রতিটি মডেল কনফিগারেশনের জন্য, আমরা DeepSpeed ZeRO-তে বিভিন্ন বৈশিষ্ট্য, পর্যায় এবং কনফিগারেশন পরীক্ষা করেছি এবং ডিপস্পীড বেসলাইন হিসাবে সেরা থ্রুপুট প্রদান করে এমন একটি বেছে নিয়েছি। বেঞ্চমার্ক চালু ছিল অ্যামাজন ইলাস্টিক কম্পিউট ক্লাউড (Amazon EC2)। 2/ এই ফলাফলগুলি AWS-এর জন্য অপ্টিমাইজ করা উন্নত যোগাযোগ সংগ্রহের উপর নির্ভর করে যা শীঘ্রই উপলব্ধ করা হবে। 3/ প্রসেস করা টোকেনের সংখ্যার উপর ভিত্তি করে গতি থেকে প্রশিক্ষণের সময় অনুমান করা হয়।

সংক্ষেপে, আমরা মডেল এবং কনফিগারেশনের একটি পরিসর জুড়ে ডিপস্পিডের সাথে তুলনা করার সময় SMP-তে শার্ডেড ডেটা সমান্তরালতার সাথে ধারাবাহিকভাবে উচ্চতর থ্রুপুট লক্ষ্য করেছি। এই নতুন বৈশিষ্ট্যটি ডিপস্পিডের তুলনায় একটি ভাল মেমরি দক্ষতাও প্রদর্শন করেছে, এসএমপিকে একটি বড় ব্যাচের আকারের সাথে মানানসই করতে সক্ষম করে এবং একটি নির্দিষ্ট গ্লোবাল ব্যাচের আকারের সাথে ফিট করার জন্য প্রয়োজনীয় গ্রেডিয়েন্ট জমার মাত্রা কমিয়ে দেয়।

উপসংহার

এই পোস্টে, আমরা একটি নতুন বিতরণ করা প্রশিক্ষণ কৌশল প্রবর্তন করেছি — শার্ডেড ডেটা সমান্তরালতা — এবং কীভাবে এটি অ্যামাজন সেজমেকারে রৈখিক-স্কেলিংয়ের সাথে বিশাল মডেল প্রশিক্ষণের গতি বাড়ায়। আমরা এটি অনুসরণ করে নতুন কৌশল সহ একটি GPT-2 মডেলকে কীভাবে প্রশিক্ষণ দেওয়া যায় তাও দেখেছি সম্পূর্ণ উদাহরণ. আপনি অনুসরণ করতে পারেন Amazon SageMaker উদাহরণ GitHub রেপো সমস্ত SageMaker মডেলের সমান্তরাল উদাহরণ ট্র্যাক করতে বা আমাদের পরবর্তীতে যোগ দিতে প্রশিক্ষণ কর্মশালা বিতরণ. শার্ড ডেটা সমান্তরাল সম্পর্কে আরও জানতে, অনুগ্রহ করে দেখুন ডকুমেন্টেশন.

লেখক সম্পর্কে

এমিলি ওয়েবার SageMaker চালু হওয়ার ঠিক পরে AWS-এ যোগদান করেছে, এবং তখন থেকেই বিশ্বকে এটি সম্পর্কে জানানোর চেষ্টা করছে! গ্রাহকদের জন্য নতুন ML অভিজ্ঞতা তৈরির বাইরে, এমিলি তিব্বতি বৌদ্ধধর্মের ধ্যান ও অধ্যয়ন উপভোগ করেন।

ক্যান কারাকুস তিনি AWS-এর একজন সিনিয়র ফলিত বিজ্ঞানী, AWS-এ বৃহৎ-স্কেল ডিস্ট্রিবিউটেড ডিপ লার্নিং অপ্টিমাইজ করছেন। তার গবেষণার আগ্রহ গভীর শিক্ষা, বিতরণ করা অপ্টিমাইজেশান, বিতরণ সিস্টেম এবং তথ্য তত্ত্বকে কভার করে। কাজের বাইরে, তিনি সাইকেল চালানো, ভ্রমণ, পড়া এবং শেখা উপভোগ করেন।

রাহুল হুইলগোল AWS-এর একজন সিনিয়র সফটওয়্যার ইঞ্জিনিয়ার। তিনি ক্লাউডে বৃহৎ গভীর শিক্ষার মডেলগুলিকে প্রশিক্ষিত করা সহজ এবং পারফরম্যান্ট করার জন্য ডিস্ট্রিবিউটেড ডিপ লার্নিং সিস্টেমে কাজ করেন। তার অবসর সময়ে, তিনি ফটোগ্রাফি, বাইক চালানো এবং বাগান করা উপভোগ করেন।

সুহিত কোডগুলে AWS আর্টিফিশিয়াল ইন্টেলিজেন্স গ্রুপের সাথে ডিপ লার্নিং ফ্রেমওয়ার্ক নিয়ে কাজ করা একজন সফটওয়্যার ডেভেলপমেন্ট ইঞ্জিনিয়ার। তার অবসর সময়ে, তিনি হাইকিং, ভ্রমণ এবং রান্না উপভোগ করেন।

ইরিন হো AWS গভীর শিক্ষার জন্য একজন পণ্য ব্যবস্থাপক। তিনি এমন পণ্যগুলিতে কাজ করেন যা গ্রাহকদের AWS-এ গভীর শিক্ষার মডেলগুলিকে প্রশিক্ষণ দেওয়া সহজ করে তোলে৷ বাইরে কাজের মজার জন্য, তিনি হাইকিং এবং স্কিইং উপভোগ করেন।

সময় স্ট্যাম্প: অক্টোবর 31, 2022নভেম্বর 3, 2022

সময় স্ট্যাম্প: এপ্রিল 18, 2024

কিভাবে JPMorgan Chase & Co. গ্লোবাল ক্লাউড গ্রহণের জন্য AWS DeepRacer ইভেন্ট ব্যবহার করে

উত্স ক্লাস্টার:

এডাব্লুএস মেশিন লার্নিং

উত্স নোড: 1761091

সময় স্ট্যাম্প: নভেম্বর 23, 2022

Amazon SageMaker-এ শার্ড ডেটা সমান্তরালতা ব্যবহার করে কাছাকাছি-রৈখিক স্কেলিং সহ বিশাল মডেলগুলিকে প্রশিক্ষণ দিন

প্লেটো দ্বারা প্রকাশিত

শার্ডেড ডেটা সমান্তরালতা কীভাবে কাজ করে এবং কখন এটি ব্যবহার করতে হয়

Amazon SageMaker-এ GPT-2 প্রশিক্ষণের জন্য শার্ডেড ডেটা সমান্তরালতা ব্যবহার করা

1. শুরু করুন

2. ডেটাসেট প্রস্তুত করুন

3. প্রশিক্ষণের কাজ শুরু করুন

4. প্রশিক্ষণ কাজ নিরীক্ষণ

বেঞ্চমার্কিং কর্মক্ষমতা

উপসংহার

লেখক সম্পর্কে

থেকে আরো এডাব্লুএস মেশিন লার্নিং

Amazon কেন্দ্রের জন্য আপডেট করা Salesforce সংযোগকারী (V2) ঘোষণা করা হচ্ছে

সেজমেকারে মডেল হোস্টিং প্যাটার্নস: সেজমেকারে মডেল পরীক্ষা এবং আপডেট করার সেরা অনুশীলন

MongoDB টাইম সিরিজ সংগ্রহ এবং Amazon SageMaker ক্যানভাসের সাথে টাইম টু ইনসাইটকে ত্বরান্বিত করা | আমাজন ওয়েব সার্ভিসেস

হাগিং ফেস ট্রান্সফরমারের সাথে একটি পাঠ্য সংক্ষিপ্তকরণ প্রকল্প সেট আপ করুন: পার্ট 2

কিভাবে JPMorgan Chase & Co. গ্লোবাল ক্লাউড গ্রহণের জন্য AWS DeepRacer ইভেন্ট ব্যবহার করে

আমাদের সম্পর্কে

উল্লম্ব অনুসন্ধান এবং আই

প্ল্যাটফর্ম

যোগাযোগ রেখো

হিসাব