अमेज़ॅन सेजमेकर पर साझा डेटा समांतरता का उपयोग करके नियर-लीनियर स्केलिंग के साथ विशाल मॉडल को प्रशिक्षित करें

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

बेहतर सटीकता की खोज में, प्राकृतिक भाषा प्रसंस्करण और कंप्यूटर दृष्टि जैसे क्षेत्रों में गहन शिक्षण मॉडल पिछले कुछ वर्षों में आकार में काफी बढ़ गए हैं, जिन्हें अक्सर दसियों से सैकड़ों अरबों मापदंडों में गिना जाता है। इन विशाल मॉडलों को प्रशिक्षित करना चुनौतीपूर्ण है और इसके लिए जटिल वितरण रणनीतियों की आवश्यकता होती है। डेटा वैज्ञानिक और मशीन लर्निंग इंजीनियर लगातार अपने प्रशिक्षण गणना को अनुकूलित करने के सर्वोत्तम तरीके की तलाश में हैं, फिर भी संचार ओवरहेड के साथ संघर्ष कर रहे हैं जो समग्र क्लस्टर आकार के साथ बढ़ सकता है।

यही कारण है कि हमने हाल ही में लॉन्च किया है sकठोर डेटा समानता on अमेज़न SageMaker, में एक नई स्मृति-बचत वितरित प्रशिक्षण तकनीक सेजमेकर मॉडल समानांतर (एसएमपी) पुस्तकालय. साझा डेटा समानता चरम-पैमाने के मॉडल के लिए उद्देश्य से बनाई गई है और अमेज़ॅन इन-हाउस का उपयोग करती है माइक हुड के तहत प्रौद्योगिकी, पैरामीटर एकत्रीकरण और ग्रेडिएंट सिंक्रोनाइज़ेशन में निहित महंगे संचार ओवरहेड को नीचे लाकर संचार पैमाने को कम करने का एक विज्ञान प्रयास। अनुक्रम लंबाई 30 के साथ 2B पैरामीटर GPT-2048 मॉडल के साथ, इस नई सुविधा ने 141 TFLOPs हासिल किए, जो डीपस्पीड ज़ीरो-39.7 की तुलना में 3% की गति है। अनुक्रम लंबाई 10 के साथ 2B GPT-512 मॉडल के लिए, इस नई सुविधा ने प्रति सेकंड 564 नमूने भी हासिल किए, जो कि PyTorch के फुली शेयर्ड डेटा पैरेलल (FSDP) की तुलना में 13.9% की गति है। याद रखें कि विशाल मॉडल प्रशिक्षण में, स्पीडअप का हर प्रतिशत आपकी टीम में बचाए गए डॉलर और उत्पादकता में तब्दील हो जाता है।

इस ब्लॉग पोस्ट में, हम सबसे पहले शार्प किए गए डेटा समांतरता के प्रमुख विभेदकों और इसका उपयोग कब करना है, इस पर करीब से नज़र डालेंगे। फिर, आप सीखेंगे कि इस नई सुविधा के साथ सेजमेकर पर 30B पैरामीटर GPT-2 मॉडल को आसानी से कैसे प्रशिक्षित किया जाए। अंत में हम अन्य ओपन सोर्स विकल्पों के साथ प्रदर्शन की तुलना करेंगे, विशेष रूप से 39.7 GPU पर डीपस्पीड ज़ीरो से 256% तक बेहतर प्रदर्शन करेंगे।

शार्प्ड डेटा समांतरता कैसे काम करती है और इसका उपयोग कब करना है

इससे पहले कि हम शार्प किए गए डेटा समांतरता का परिचय दें, आइए इसके व्यापक तकनीक परिवार को देखें। बड़े मॉडलों के लिए हाल ही में वितरित प्रशिक्षण दृष्टिकोण एक ऐसे प्रतिमान में चले गए हैं जहां मॉडल पैरामीटर, ग्रेडिएंट और ऑप्टिमाइज़र राज्यों को डेटा-समानांतर नोड्स में साझा किया जाता है। पाइपलाइन समानांतरवाद के विपरीत, जिसमें उपकरणों में विभाजन के लिए परतों को चुनने की सहज जटिलता होती है, खासकर जब आपका ढांचा समर्थन नहीं करता है स्वचालित मॉडल विभाजन, यह प्रतिमान डेटा समानांतरवाद की सरलता को बनाए रखता है, जबकि डेटा समानांतरवाद की बाधा को दूर करता है जहां एक मॉडल को एक एकल GPU में फिट होना चाहिए।

मौजूदा ढांचे में, जो इस प्रतिमान के अंतर्गत आते हैं, विशेष रूप से डीपस्पीड ज़ीरो -3 और पायटॉर्च की एफएसडीपी फेयरस्केल से अपस्ट्रीम, मॉडल राज्यों में विभाजित हैं सब GPUs, एक रणनीति जो प्रत्येक GPU पर मेमोरी की खपत को कम करती है और बड़े संचार ओवरहेड की कीमत पर जो क्लस्टर आकार के साथ बढ़ता है और इसलिए स्केलेबिलिटी को बड़े पैमाने पर गिराने का कारण बनता है। इसके विपरीत, SMP लाइब्रेरी पार्टिशन मॉडल में शार्प्ड डेटा समांतरता a . में बताता है पैमाना-जागरूक मॉडल राज्यों की प्रत्येक प्रतिकृति को केवल भीतर विभाजित करके तरीके से उपसमुच्चय जीपीयू के।

आइए करीब से देखें स्केल-अवेयर मॉडल विभाजन एमआईसीएस में, शार्प किए गए डेटा समानांतर के पीछे मुख्य तकनीक। इस डिजाइन के पीछे अंतर्ज्ञान यह है कि पूरे डेटा-समानांतर समूह में विभाजन प्रशिक्षण राज्यों को दसियों अरबों मापदंडों वाले मॉडल को प्रशिक्षित करने की आवश्यकता नहीं हो सकती है। उदाहरण के लिए, 8 V100 GPU (प्रत्येक 32GB) 10B-पैरामीटर मॉडल की मॉडल स्टेट्स प्रतिकृति को रखने के लिए पर्याप्त हैं, जिसे मिश्रित-परिशुद्धता का उपयोग करके एडम ऑप्टिमाइज़र के साथ प्रशिक्षण के दौरान लगभग 200GB मेमोरी की आवश्यकता होती है। में मॉडल राज्यों की पूरी प्रतिकृति को सीमित करके सबसे छोटा GPU का सबसेट, हम डीपस्पीड और पायटॉर्च FSDP की तुलना में संचार ओवरहेड के पैमाने को प्रभावी ढंग से कम कर सकते हैं। साझा डेटा समानांतर एमआईसीएस में अन्य तकनीकों जैसे पदानुक्रमित संचार और 2-हॉप ग्रेडियंट सिंक्रनाइज़ेशन का भी लाभ उठाता है। अधिक जानकारी के लिए देखें एडब्ल्यूएस पर विशाल-मॉडल प्रशिक्षण के निकट-रैखिक स्केलिंग or एमआईसीएस: पब्लिक क्लाउड पर विशाल मॉडल के प्रशिक्षण के लिए नियर-लीनियर स्केलिंग.

अब, आप कैसे जानते हैं कि अन्य वितरित प्रशिक्षण तकनीकों के समानांतर शार्प किए गए डेटा को कब चुनना है? सामान्य नियम यह है कि यदि आपके मॉडल में 1 बिलियन से कम पैरामीटर हैं और GPU मेमोरी में फ़िट हो सकते हैं, सेजमेकर डेटा समानांतर पुस्तकालय or सेजमेकर प्रशिक्षण संकलक आपके लिए पर्याप्त हो सकता है। यदि आपके पास बड़ी भाषा या कंप्यूटर विज़न मॉडल हैं, तो हमारा सुझाव है कि इसे शार्प्ड डेटा पैरेललिज़्म तकनीक के साथ संयुक्त रूप से प्रशिक्षित किया जाए सक्रियण चेकपॉइंटिंग और सक्रियण ऑफलोडिंग सेजमेकर मॉडल समानांतर पुस्तकालय में पहले, अन्य तकनीकों से पहले जैसे टेंसर समानता या पाइपलाइन समानता।

Amazon SageMaker पर GPT-2 को प्रशिक्षित करने के लिए शार्प्ड डेटा समांतरता का उपयोग करना

आइए अब सीखें कि शार्प डेटा समानांतर के साथ GPT-2 मॉडल को कैसे प्रशिक्षित किया जाए, जिसमें SMP आपके लिए जटिलता को समाहित करता है। इस पूरा ट्यूटोरियल नोटबुक आपको डेटा प्रोसेसिंग, प्रशिक्षण कार्य को परिभाषित करने और सबमिट करने से लेकर प्रशिक्षण लॉग की निगरानी तक की पूरी प्रक्रिया से रूबरू कराता है। इस सुविधा का उपयोग करने के लिए महत्वपूर्ण चरणों को उजागर करने वाला एक संक्षिप्त अवलोकन इस प्रकार है।

1. आरंभ करें

साझा डेटा समानता PyTorch v1.12.0+ में उपलब्ध है और FP16 और BF16 दोनों के साथ काम करता है। SMP लाइब्रेरी का उपयोग करने का सबसे आसान तरीका PyTorch के लिए एक पूर्वनिर्मित AWS डीप लर्निंग कंटेनर है। हालाँकि, यदि आप अपना खुद का डॉकर कंटेनर लाना चाहते हैं, तो आप इसका उल्लेख कर सकते हैं सेजमेकर डिस्ट्रीब्यूटेड मॉडल पैरेलल लाइब्रेरी के साथ अपना खुद का डॉकटर कंटेनर बनाएं। आरंभ करने के लिए, अनुसरण करें एक PyTorch प्रशिक्षण स्क्रिप्ट को संशोधित करें अपनी प्रशिक्षण स्क्रिप्ट में एसएमपी के एपीआई को अनुकूलित करने के लिए। इस खंड में, हम केवल उपयोग के लिए तैयार प्रशिक्षण स्क्रिप्ट से कोड स्निपेट के साथ कुछ मुख्य चरणों को कहते हैं train_gpt_simple.py. आप स्क्रिप्ट में टिप्पणियों का अनुसरण कर सकते हैं और एपीआई दस्तावेज़ एसएमपी एपीआई का उपयोग कहां किया जाता है, इसके बारे में अधिक जानने के लिए।

सबसे पहले, कॉल करके लाइब्रेरी को इंपोर्ट और इनिशियलाइज़ करें smdistributed.modelparallel.torch.init() प्रशिक्षण स्क्रिप्ट की शुरुआत में:

import smdistributed.modelparallel.torch as smp

smp.init(smp_config)

दूसरा, मॉडल को विभाजित करने के लिए लपेटें smdistributed.modelparallel.torch.DistributedModel और लौटे का उपयोग करें DistributedModel आगे बढ़ने वाली वस्तु:

from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_config(model_config)
model = smp.DistributedModel(model, trace_device="gpu", backward_passes_per_step=args.gradient_accumulation)

ऑप्टिमाइज़र को इसके साथ लपेटें smdistributed.modelparallel.torch.DistributedOptimizer ऑप्टिमाइज़र राज्यों को सहेजने और लोड करने के लिए।

from torch import optim

optimizer = optim.Adam(
    param_groups, betas=(args.beta1, args.beta2), lr=args.lr, weight_decay=args.weight_decay
)

optimizer = smp.DistributedOptimizer(
        optimizer, 
        static_loss_scale=None, 
        dynamic_loss_scale=True,
        dynamic_loss_args={"scale_window": 1000, "min_scale": 1, "delayed_shift": 2},
        )

फॉरवर्ड और बैकवर्ड लॉजिक को स्टेप फंक्शन में रखें और इसे सजाएँ smdistributed.modelparallel.torch.step. के अंदर परिभाषित कोई भी गणना smp.step-decorated कार्य वितरित तरीके से निष्पादित किया जाता है।

@smp.step
def train_step(model, optimizer, input_ids, attention_mask, args):
    loss = model(input_ids=input_ids, attention_mask=attention_mask, labels=input_ids)["loss"]
    model.backward(loss)

    return loss

@smp.step
def test_step(model, input_ids, attention_mask):
    loss = model(input_ids=input_ids, attention_mask=attention_mask, labels=input_ids)["loss"]
    
    return loss

2. डेटासेट तैयार करें

हम उपयोग ओपनवेबटेक्स्ट वह डेटासेट है जिसका हम इस उदाहरण में उपयोग करते हैं। नोटबुक स्क्रिप्ट का उपयोग करता है data_prep_512.py डेटासेट को डाउनलोड और प्रीप्रोसेस करने के लिए। आप संशोधित करके अन्य डेटासेट के साथ भी प्रशिक्षण ले सकते हैं data_pipeline.py. बड़े डेटासेट और मॉडल के साथ काम करते समय, आप में संग्रहीत डेटा का उपयोग करके प्रशिक्षण कार्य को गति दे सकते हैं चमक के लिए अमेज़न FSx, जो मूल रूप से एकीकृत एक उच्च-प्रदर्शन फ़ाइल सिस्टम प्रदान करता है अमेज़न सरल भंडारण सेवा (एस 3)। कृपया निर्देश देखें चमक के लिए Amazon FSx का उपयोग करने के लिए डेटा इनपुट चैनल को कॉन्फ़िगर करें FSx Luster फ़ाइल सिस्टम को डेटा इनपुट चैनल के रूप में सेट करने पर मार्गदर्शन के लिए।

3. प्रशिक्षण कार्य शुरू करें

यह कदम मानता है कि आपके पास पहले से ही है अपनी प्रशिक्षण स्क्रिप्ट को संशोधित किया और पिछले अनुभागों में बताए अनुसार डेटासेट तैयार किया। प्रति शार्प किए गए डेटा समांतरता को सक्षम करें, बस सेट करें sharded_data_parallel_degree में PyTorch अनुमानक. इस ट्यूटोरियल में, हम सेट करते हैं sharded_data_parallel_degree=128 और instace_count=32 p4d.24xlarge नोड्स के लिए, जो इंगित करता है कि मॉडल की स्थिति कुल 128 GPU के बीच 256 GPU में विभाजित होगी। इस चयनित मान के आधार पर, एसएमपी स्वचालित रूप से डेटा समानांतर डिग्री को 2 (क्योंकि 256/128 = 2) पर सेट कर देगा, जिसका अर्थ है कि हमारे पास डेटा समांतरता के लिए दो प्रतिकृतियां होंगी। के लिए एक आदर्श मान चुनने का एक सामान्य नियम sharded_data_parallel_degree प्रत्येक 3B मॉडल पैरामीटर के अनुसार साझाकरण समूह में एक और नोड जोड़ना है। इस ट्यूटोरियल में, हमारे मॉडल का आकार 30B है, इसलिए हमें शार्डिंग के लिए कम से कम 10 नोड्स का उपयोग करना चाहिए। और क्योंकि 16 नोड्स (128 GPU) थ्रेशोल्ड के ऊपर सबसे छोटा पावर-ऑफ़-2 है, हम सेट करते हैं sharded_data_parallel_degree=128.

चेकपॉइंटिंग के लिए, हम चेकपॉइंटिंग उपयोगिताओं का एक सेट भी प्रदान करते हैं sharded_data_parallel_checkpoint.py , पूर्ण पुनर्निर्माण के लिए एक उपयोगिता सहित state_dict उन्नत उपयोग के मामलों के लिए। अंत में, हम एस्टिमेटर पर फिट () कॉल करके एक वितरित प्रशिक्षण कार्य शुरू कर सकते हैं।

smp_estimator = PyTorch(
    entry_point="train_gpt_simple.py",
    instance_type="ml.p4d.24xlarge",
    source_dir=os.getcwd(),
    volume_size=500,
    instance_count=32,
    distribution={
        "mpi": {
            "enabled": True,
            "processes_per_host": processes_per_host,
            "custom_mpi_options": mpioptions,
        },
        "smdistributed": {
            "modelparallel": {
                "enabled": True,
                "parameters": {
                    "ddp": True,
                    "skip_tracing": True,
                    "delayed_parameter_initialization": True,
                    "offload_activations": True,
                    "activation_loading_horizon": 4,
                    # To enable sharded data parallelism.
                    # Here we shard model states across 128 GPUs. 
                    "sharded_data_parallel_degree": 128, 
                    "fp16": False,
                    "bf16": True,
                    # This is to disable pipeline parallelism.
                    "partitions": 1,
                },
            }
        },
    },
    framework_version="1.12",
    py_version="py38",
    hyperparameters=hyperparameters,
    checkpoint_s3_uri=checkpoint_s3_uri if not use_fsx else None,
    checkpoint_local_path=hyperparameters["checkpoint-dir"] if use_fsx else None,
    ...
)

smp_estimator.fit(inputs=data_channels)

4. प्रशिक्षण कार्यों की निगरानी करें

आप प्रशिक्षण लॉग तक पहुंच सकते हैं और GPU और मेमोरी उपयोग को ट्रैक कर सकते हैं अमेज़ॅन क्लाउडवॉच. "algo-1" के लॉग को देखना सुनिश्चित करें क्योंकि वह मुख्य नोड है जिसके आउटपुट स्ट्रीम में सभी उदाहरणों से प्रशिक्षण कार्य लॉग होते हैं।

बेंचमार्किंग प्रदर्शन

हमने क्रमशः 16 और 32 p4d.24xबड़े नोड्स पर अनुक्रम लंबाई 512 और 2048 दोनों पर SMP लाइब्रेरी में शार्प्ड डेटा समांतरता को बेंचमार्क किया। 30B-पैरामीटर GPT2 मॉडल को 7168, 48 लेयर्स और 64 हेड्स की छिपी चौड़ाई का उपयोग करने के लिए कॉन्फ़िगर किया गया है। आप ठीक उसी कॉन्फ़िगरेशन को अपना सकते हैं जहां अनुक्रम लंबाई 2048 सेटिंग द्वारा है model_config = "gpt2-30b" ट्यूटोरियल नोटबुक में। इस सेटिंग के साथ, एसएमपी ने प्रति सेकंड 73.52 नमूने हासिल किए, जो डीपस्पीड ज़ीरो-39.7 की तुलना में 3% की गति है। यदि आपके टोकन का आकार 500 बिलियन है, तो इस गति का अर्थ है p367d.4xlarge नोड्स पर लगभग 24 घंटे की बचत, जो प्रति प्रशिक्षण $12,000 से अधिक बजट के बराबर है! निम्न तालिका हमारे बेंचमार्क परिणामों को सारांशित करती है।

विन्यास				प्रदर्शन				एसएमपी के साथ प्रशिक्षण का समय (दिन)
मॉडल/प्रशिक्षण	समूह	गहरा	एसएमपी	गति (नमूने/सेकंड) डीपस्पीड v0.7.2	गति (नमूने/सेकंड) एसएमपी v1.11	एसएमपी का % स्पीडअप	एसएमपी द्वारा हासिल किया गया टीएफएलओपीएस	100 बिलियन टोकन	500 बिलियन टोकन
30बी जीपीटी-2 सेक लंबाई: 512 वैश्विक बैच आकार: 3072 FP16	16 p4d.24xबड़े नोड्स	एक्टिवेशन चेकपॉइंटिंग ढाल_संचय_चरण:2	एक्टिवेशन चेकपॉइंटिंग शार्डेड_डेटा_पैरेलल_डिग्री:64 ढाल_संचय:1	142	181.05	27.5	173.6	12.49	62.43
30बी जीपीटी-2 सेक लंबाई: 2048 वैश्विक बैच आकार 1536 FP16	32 p4d.24xबड़े नोड्स	एक्टिवेशन चेकपॉइंटिंग ढाल_संचय_चरण:2	सक्रियण जांच बिंदु sharded_data_parallel_degree:128 ढाल_संचय:1	52.6	73.52	39.77	141	7.69	38.43

1/ प्रत्येक मॉडल कॉन्फ़िगरेशन के लिए, हमने डीपस्पीड ज़ीरो में विभिन्न विशेषताओं, चरणों और कॉन्फ़िगरेशन का परीक्षण किया और डीपस्पीड बेसलाइन के रूप में सर्वश्रेष्ठ थ्रूपुट प्रदान करने वाले को चुना। बेंचमार्क पर चलाया गया था अमेज़ॅन इलास्टिक कम्प्यूट क्लाउड (अमेज़ॅन ईसी 2)। 2/ये परिणाम एडब्ल्यूएस के लिए अनुकूलित बेहतर संचार समूहों पर निर्भर करते हैं जिन्हें जल्द ही उपलब्ध कराया जाएगा। 3/ ट्रेन का समय संसाधित टोकन की संख्या के आधार पर गति से अनुमानित है।

संक्षेप में, हमने मॉडल और कॉन्फ़िगरेशन की एक श्रृंखला में डीपस्पीड की तुलना में एसएमपी में शार्प डेटा समांतरता के साथ लगातार उच्च थ्रूपुट देखा। इस नई सुविधा ने डीपस्पीड की तुलना में बेहतर मेमोरी दक्षता का भी प्रदर्शन किया, जिससे एसएमपी एक बड़े बैच आकार में फिट हो सके और एक विशेष वैश्विक बैच आकार में फिट होने के लिए आवश्यक ढाल संचय के स्तर को कम कर सके।

निष्कर्ष

इस पोस्ट में, हमने एक नई वितरित प्रशिक्षण तकनीक पेश की - शार्प डेटा समानांतरवाद - और यह अमेज़ॅन सेजमेकर पर रैखिक-स्केलिंग के साथ विशाल मॉडल प्रशिक्षण को कैसे गति देता है। हम इसके बाद नई तकनीक के साथ GPT-2 मॉडल को प्रशिक्षित करने के तरीके के बारे में भी गए पूरा उदाहरण. आप अनुसरण कर सकते हैं अमेज़ॅन सेजमेकर उदाहरण गिटहब रेपो सभी सेजमेकर मॉडल समानांतर उदाहरणों को ट्रैक करने के लिए या हमारे अगले में भाग लेने के लिए वितरित प्रशिक्षण कार्यशालाएं. शार्प किए गए डेटा समांतरता के बारे में अधिक जानने के लिए, कृपया देखें दस्तावेज़ीकरण.

लेखक के बारे में

एमिली वेबर सेजमेकर के लॉन्च होने के ठीक बाद एडब्ल्यूएस में शामिल हुआ, और तब से दुनिया को इसके बारे में बताने की कोशिश कर रहा है! ग्राहकों के लिए नए एमएल अनुभवों के निर्माण के अलावा, एमिली को तिब्बती बौद्ध धर्म का ध्यान और अध्ययन करना पसंद है।

करकुसु कर सकते हैं AWS में एक वरिष्ठ अनुप्रयुक्त वैज्ञानिक हैं, जो AWS पर बड़े पैमाने पर वितरित गहन शिक्षण का अनुकूलन करते हैं। उनके शोध हितों में गहन शिक्षा, वितरित अनुकूलन, वितरित प्रणाली और सूचना सिद्धांत शामिल हैं। काम के अलावा, उन्हें साइकिल चलाना, यात्रा करना, पढ़ना और सीखना पसंद है।

राहुल हुइलगोली एडब्ल्यूएस में वरिष्ठ सॉफ्टवेयर इंजीनियर हैं। वह क्लाउड में बड़े डीप लर्निंग मॉडल को प्रशिक्षित करना आसान और बेहतर बनाने के लिए डिस्ट्रीब्यूटेड डीप लर्निंग सिस्टम पर काम करता है। अपने खाली समय में उन्हें फोटोग्राफी, बाइकिंग और बागवानी का शौक है।

सुहित कोडगुले एडब्ल्यूएस आर्टिफिशियल इंटेलिजेंस ग्रुप के साथ एक सॉफ्टवेयर डेवलपमेंट इंजीनियर है जो डीप लर्निंग फ्रेमवर्क पर काम कर रहा है। अपने खाली समय में, उन्हें लंबी पैदल यात्रा, यात्रा और खाना पकाने का आनंद मिलता है।

एरिन हो एडब्ल्यूएस डीप लर्निंग के लिए एक उत्पाद प्रबंधक है। वह ऐसे उत्पादों पर काम करती है जो ग्राहकों के लिए AWS पर गहन शिक्षण मॉडल को प्रशिक्षित करना आसान बनाते हैं। काम के बाहर मौज-मस्ती के लिए, वह लंबी पैदल यात्रा और स्कीइंग का आनंद लेती है।

समय टिकट: अक्टूबर 31नवम्बर 3/2022

समय टिकट: अप्रैल 18, 2024

JPMorgan Chase & Co. कैसे वैश्विक क्लाउड अपनाने को बढ़ावा देने के लिए AWS DeepRacer इवेंट का उपयोग करता है

स्रोत क्लस्टर:

AWS मशीन लर्निंग

स्रोत नोड: 1761091

समय टिकट: नवम्बर 23, 2022

Amazon SageMaker पर शार्प्ड डेटा पैरेललिज़्म का उपयोग करके नियर-लीनियर स्केलिंग के साथ विशाल मॉडल को प्रशिक्षित करें

प्लेटो द्वारा पुनर्प्रकाशित

शार्प्ड डेटा समांतरता कैसे काम करती है और इसका उपयोग कब करना है

Amazon SageMaker पर GPT-2 को प्रशिक्षित करने के लिए शार्प्ड डेटा समांतरता का उपयोग करना

1. आरंभ करें

2. डेटासेट तैयार करें

3. प्रशिक्षण कार्य शुरू करें

4. प्रशिक्षण कार्यों की निगरानी करें

बेंचमार्किंग प्रदर्शन

निष्कर्ष

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

Amazon Kendra के लिए अपडेटेड Salesforce कनेक्टर (V2) की घोषणा

SageMaker में मॉडल होस्टिंग पैटर्न: SageMaker पर मॉडलों के परीक्षण और अद्यतन करने में सर्वोत्तम अभ्यास

MongoDB समय श्रृंखला संग्रह और अमेज़ॅन सेजमेकर कैनवस के साथ समय-से-अंतर्दृष्टि में तेजी लाना | अमेज़न वेब सेवाएँ

Amazon EKS . का उपयोग करते हुए, एक PyTorch-आधारित प्रोटीन फोल्डिंग ML मॉडल OpenFold के लिए पैमाने पर अनुमान चलाएँ

हगिंग फेस ट्रांसफॉर्मर्स के साथ एक टेक्स्ट सारांश प्रोजेक्ट सेट करें: भाग 2

JPMorgan Chase & Co. कैसे वैश्विक क्लाउड अपनाने को बढ़ावा देने के लिए AWS DeepRacer इवेंट का उपयोग करता है

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा