गहन शिक्षण में हाल के विकास ने GPT-3, BLOOM और OPT जैसे बड़े मॉडलों को जन्म दिया है, जिनमें से कुछ पहले से ही 100 बिलियन से अधिक मापदंडों में हैं। हालाँकि बड़े मॉडल अधिक शक्तिशाली होते हैं, ऐसे मॉडलों के प्रशिक्षण के लिए महत्वपूर्ण कम्प्यूटेशनल संसाधनों की आवश्यकता होती है। यहां तक कि एफएसडीपी और डीपस्पीड जैसे उन्नत वितरित प्रशिक्षण पुस्तकालयों के उपयोग के साथ, प्रशिक्षण नौकरियों के लिए एक समय में कई हफ्तों या महीनों के लिए सैकड़ों त्वरक उपकरणों की आवश्यकता होना आम बात है।
2022 के अंत में, AWS ने इसकी सामान्य उपलब्धता की घोषणा की अमेज़न EC2 Trn1 उदाहरण द्वारा संचालित एडब्ल्यूएस ट्रेनियम- एक उद्देश्य-निर्मित मशीन लर्निंग (एमएल) त्वरक जो क्लाउड में गहन शिक्षण मॉडल के प्रशिक्षण के लिए एक उच्च-प्रदर्शन, लागत प्रभावी और बड़े पैमाने पर स्केलेबल मंच प्रदान करने के लिए अनुकूलित है। Trn1 इंस्टेंसेस कई आकारों में उपलब्ध हैं (निम्न तालिका देखें), प्रति इंस्टेंस 16 ट्रेनियम त्वरक तक।
उदाहरण का आकार | ट्रेनियम त्वरक | त्वरक मेमोरी (जीबी) | वीसीपीयू | इंस्टेंस मेमोरी (GiB) | नेटवर्क बैंडविड्थ (जीबीपीएस) |
trn1.2xlarge | 1 | 32 | 8 | 32 | 12.5 करने के लिए ऊपर |
trn1.32xlarge | 16 | 512 | 128 | 512 | 800 |
trn1n.32xlarge (जल्द ही आ रहा है) | 16 | 512 | 128 | 512 | 1600 |
Trn1 उदाहरणों को या तो छोटे प्रशिक्षण कार्यों के लिए स्टैंडअलोन उदाहरणों के रूप में तैनात किया जा सकता है, या उच्च स्केलेबल अल्ट्राक्लस्टर में जो हजारों ट्रेनियम त्वरक में वितरित प्रशिक्षण का समर्थन करते हैं। सभी Trn1 उदाहरण स्टैंडअलोन कॉन्फ़िगरेशन का समर्थन करते हैं, जबकि Trn1 अल्ट्राक्लस्टर को trn1.32xlarge या trn1n.32xlarge उदाहरणों की आवश्यकता होती है। एक अल्ट्राक्लस्टर में, कई Trn1 इंस्टेंसेस दिए गए AWS उपलब्धता क्षेत्र में सह-स्थित होते हैं और हाई-स्पीड, लो-लेटेंसी, इलास्टिक फैब्रिक एडाप्टर (EFA) नेटवर्किंग से जुड़े होते हैं जो सामूहिक गणना संचालन के लिए प्रति इंस्टेंस 800 Gbps नॉनब्लॉकिंग नेटवर्क बैंडविड्थ प्रदान करता है। . 1 की शुरुआत में लॉन्च होने वाला trn32n.2023xlarge इंस्टेंस प्रकार, इस बैंडविड्थ को प्रति इंस्टेंस 1600 Gbps तक बढ़ा देगा।
कई उद्यम ग्राहक कुबेरनेट्स का उपयोग करके अपने गहन शिक्षण कार्यभार को तैनात करना चुनते हैं - जो क्लाउड में कंटेनर ऑर्केस्ट्रेशन के लिए वास्तविक मानक है। AWS ग्राहक अक्सर इन कार्यभारों का उपयोग करके तैनात करते हैं अमेज़ॅन इलास्टिक कुबेरनेट्स सेवा (अमेज़ॅन ईकेएस)। अमेज़ॅन ईकेएस एक प्रबंधित कुबेरनेट्स सेवा है जो अपस्ट्रीम कुबेरनेट्स की पूर्ण लचीलेपन की पेशकश करते हुए कुबेरनेट्स समूहों के निर्माण, कॉन्फ़िगरेशन, जीवनचक्र और निगरानी को सरल बनाती है।
आज, हम Amazon EKS और EC2 Trn1 इंस्टेंसेस का उपयोग करके वितरित प्रशिक्षण नौकरियों के लिए आधिकारिक समर्थन की घोषणा करते हुए उत्साहित हैं। इस घोषणा के साथ, अब आप Trn1 उदाहरणों द्वारा पेश किए गए मूल्य-प्रदर्शन, स्केलेबिलिटी और उपयोग में आसानी का पूरा लाभ उठाते हुए अमेज़ॅन ईकेएस के भीतर बड़े पैमाने पर कंटेनरीकृत प्रशिक्षण कार्य आसानी से चला सकते हैं।
इस घोषणा के साथ, हम एक विस्तृत ट्यूटोरियल भी प्रकाशित कर रहे हैं जो आपको अमेज़ॅन ईकेएस और टीआरएन1 इंस्टेंस का उपयोग करके मल्टी-इंस्टेंस वितरित प्रशिक्षण कार्य (बीईआरटी चरण 1 प्री-ट्रेनिंग) चलाने के लिए आवश्यक चरणों के माध्यम से मार्गदर्शन करता है। इस पोस्ट में, आप समाधान आर्किटेक्चर के बारे में जानेंगे और ट्यूटोरियल के कई प्रमुख चरणों की समीक्षा करेंगे। को देखें आधिकारिक ट्यूटोरियल रिपॉजिटरी संपूर्ण एंड-टू-एंड वर्कफ़्लो के लिए।
साथ चलने के लिए, मुख्य AWS सेवाओं जैसे कि एक व्यापक परिचय अमेज़ॅन इलास्टिक कम्प्यूट क्लाउड (अमेज़ॅन EC2) और Amazon EKS निहित है, और गहन शिक्षण और PyTorch के साथ बुनियादी परिचितता सहायक होगी।
समाधान वास्तुकला
निम्नलिखित चित्र समाधान वास्तुकला को दर्शाता है।
समाधान में निम्नलिखित मुख्य घटक शामिल हैं:
- एक ईकेएस क्लस्टर
- एक EKS नोड समूह जिसमें trn1.32xlarge उदाहरण शामिल हैं
- RSI AWS न्यूरॉन एसडीके
- न्यूरॉन और ईएफए के लिए ईकेएस प्लगइन्स
- An अमेज़ॅन इलास्टिक कंटेनर रजिस्ट्री (अमेज़ॅन ईसीआर) रिपोजिटरी
- एक प्रशिक्षण कंटेनर छवि
- An चमक के लिए अमेज़न FSx संचिका तंत्र
- एक ज्वालामुखी बैच अनुसूचक और आदि सर्वर
- टॉर्चएक्स यूनिवर्सल जॉब लॉन्चर
- ट्रेनियम के लिए टॉर्चएक्स डीडीपी मॉड्यूल
समाधान के केंद्र में एक ईकेएस क्लस्टर है जो आपको ईकेएस सेवा समापन बिंदु के माध्यम से कोर कुबेरनेट्स प्रबंधन कार्यक्षमता प्रदान करता है। अमेज़ॅन ईकेएस के लाभों में से एक यह है कि सेवा सक्रिय रूप से लोड के आधार पर नियंत्रण विमान की निगरानी और स्केल करती है, जो वितरित प्रशिक्षण जैसे बड़े कार्यभार के लिए उच्च प्रदर्शन सुनिश्चित करती है। ईकेएस क्लस्टर के अंदर एक नोड समूह है जिसमें एक ही उपलब्धता क्षेत्र में रहने वाले दो या दो से अधिक trn1.32xlarge ट्रेनियम-आधारित उदाहरण शामिल हैं।
न्यूरॉन एसडीके एक सॉफ्टवेयर स्टैक है जो ड्राइवर, कंपाइलर, रनटाइम, फ्रेमवर्क इंटीग्रेशन (उदाहरण के लिए, पायटोरच न्यूरॉन) और उपयोगकर्ता टूल प्रदान करता है जो आपको ट्रेनियम एक्सेलेरेटर के लाभों तक पहुंचने की अनुमति देता है। न्यूरॉन डिवाइस ड्राइवर सीधे EKS नोड्स (Trn1 इंस्टेंस) पर चलता है और नोड्स पर लॉन्च किए गए प्रशिक्षण कंटेनरों के भीतर से ट्रेनियम चिप्स तक पहुंच प्रदान करता है। वितरित प्रशिक्षण के लिए आवश्यक ट्रेनियम चिप्स और ईएफए नेटवर्किंग उपकरणों तक पहुंच प्रदान करने के लिए ईकेएस क्लस्टर के भीतर न्यूरॉन और ईएफए प्लगइन्स स्थापित किए गए हैं।
प्रशिक्षण कंटेनर छवियों को संग्रहीत करने के लिए एक ईसीआर रिपॉजिटरी का उपयोग किया जाता है। इन छवियों में न्यूरॉन एसडीके (न्यूरॉन ड्राइवर को छोड़कर, जो सीधे Trn1 इंस्टेंस पर चलता है), PyTorch प्रशिक्षण स्क्रिप्ट और आवश्यक निर्भरताएँ शामिल हैं। जब ईकेएस क्लस्टर पर एक प्रशिक्षण कार्य शुरू किया जाता है, तो कंटेनर छवियों को पहले अमेज़ॅन ईसीआर से ईकेएस नोड्स पर खींचा जाता है, और फिर छवियों से PyTorch वर्कर कंटेनरों को इंस्टेंट किया जाता है।
साझा भंडारण लस्टर फ़ाइल सिस्टम के लिए एक उच्च-प्रदर्शन एफएसएक्स का उपयोग करके प्रदान किया जाता है जो कि trn1.32xlarge उदाहरणों के समान उपलब्धता क्षेत्र में मौजूद है। ईकेएस क्लस्टर के लिए लस्टर फ़ाइल सिस्टम के लिए एफएसएक्स का निर्माण और अनुलग्नक किसके द्वारा मध्यस्थ है लस्टर सीएसआई ड्राइवर के लिए अमेज़ॅन एफएसएक्स. इस समाधान में, साझा भंडारण का उपयोग प्रशिक्षण डेटासेट और प्रशिक्षण प्रक्रिया के दौरान बनाए गए किसी भी लॉग या कलाकृतियों को संग्रहीत करने के लिए किया जाता है।
समाधान का उपयोग करता है टॉर्चएक्स यूनिवर्सल जॉब लॉन्चर अमेज़ॅन ईकेएस के भीतर वितरित प्रशिक्षण नौकरियां लॉन्च करना। TorchX की दो महत्वपूर्ण निर्भरताएँ हैं: ज्वालामुखी बैच अनुसूचक और आदि सर्वर। ज्वालामुखी प्रशिक्षण नौकरियों की शेड्यूलिंग और कतार को संभालता है, जबकि आदि सर्वर एक कुंजी-मूल्य स्टोर है जिसका उपयोग नौकरी स्टार्टअप के दौरान सिंक्रनाइज़ेशन और सहकर्मी खोज के लिए TorchElastic द्वारा किया जाता है।
जब TorchX का उपयोग करके एक प्रशिक्षण कार्य लॉन्च किया जाता है, तो लॉन्च कमांड समग्र प्रशिक्षण कार्य को कॉन्फ़िगर करने के लिए ट्रेनियम के लिए प्रदान किए गए TorchX वितरित DDP मॉड्यूल का उपयोग करता है और फिर प्रत्येक PyTorch वर्कर पॉड्स पर उपयुक्त टॉर्चरन कमांड चलाता है। जब कोई कार्य चल रहा होता है, तो इसकी निगरानी मानक कुबेरनेट्स टूल (जैसे कुबेक्टल) या मानक एमएल टूलसेट जैसे टेन्सरबोर्ड के माध्यम से की जा सकती है।
समाधान अवलोकन
आइए इस समाधान के महत्वपूर्ण चरणों पर नजर डालें। इस पूरे अवलोकन में, हम इसका उल्लेख करते हैं TorchX और EKS का उपयोग करके ट्रेनियम पर मल्टी-नोड PyTorch न्यूरॉन प्रशिक्षण कार्य लॉन्च करें GitHub पर ट्यूटोरियल।
एक ईकेएस क्लस्टर बनाएं
Trn1 उदाहरणों के साथ Amazon EKS में वितरित प्रशिक्षण नौकरियों के साथ शुरुआत करने के लिए, आप सबसे पहले एक EKS क्लस्टर बनाएं जैसा कि इसमें बताया गया है GitHub पर ट्यूटोरियल. जैसे मानक उपकरणों का उपयोग करके क्लस्टर निर्माण प्राप्त किया जा सकता है eksctl
और एडब्ल्यूएस CloudFormation.
एक ईकेएस नोड समूह बनाएं
इसके बाद, हमें एक समर्थित क्षेत्र में दो या अधिक trn1.32xlarge उदाहरणों वाला एक EKS नोड समूह बनाने की आवश्यकता है। ट्यूटोरियल में, AWS CloudFormation का उपयोग ट्रेनियम-विशिष्ट EC2 लॉन्च टेम्पलेट बनाने के लिए किया जाता है, जो यह सुनिश्चित करता है कि Trn1 इंस्टेंसेस को उपयुक्त अमेज़ॅन मशीन इमेज (एएमआई) और वितरित प्रशिक्षण का समर्थन करने के लिए आवश्यक सही ईएफए नेटवर्क कॉन्फ़िगरेशन के साथ लॉन्च किया गया है। एएमआई में न्यूरॉन डिवाइस ड्राइवर भी शामिल है जो ट्रेनियम एक्सेलेरेटर चिप्स के लिए समर्थन प्रदान करता है। साथ eksctl
अमेज़ॅन ईकेएस प्रबंधन उपकरण, आप एक बुनियादी YAML मेनिफेस्ट का उपयोग करके आसानी से एक ट्रेनियम नोड समूह बना सकते हैं जो नए बनाए गए लॉन्च टेम्पलेट का संदर्भ देता है। उदाहरण के लिए:
पिछले मैनिफ़ेस्ट में, EKS क्लस्टर में Trn1 इंस्टेंसेस के उपयोग की अनुमति देने के लिए कई विशेषताओं को कॉन्फ़िगर किया गया है। पहला, metadata.region
उन क्षेत्रों में से एक पर सेट किया गया है जो Trn1 उदाहरणों का समर्थन करता है (वर्तमान में)। us-east-1
और us-west-2
). इसके बाद, उपलब्धता क्षेत्रों के लिए, अमेज़ॅन ईकेएस के लिए आवश्यक है कि दो उपलब्धता क्षेत्र निर्दिष्ट किए जाएं। इन उपलब्धता क्षेत्रों में से एक को Trn1 उदाहरणों के उपयोग का समर्थन करना चाहिए, जबकि दूसरे को यादृच्छिक रूप से चुना जा सकता है। ट्यूटोरियल दिखाता है कि कैसे करें निर्धारित करें कि कौन से उपलब्धता क्षेत्र आपके AWS खाते के भीतर Trn1 उदाहरणों के लिए अनुमति देंगे. उसी Trn1-समर्थक उपलब्धता क्षेत्र को भी का उपयोग करके निर्दिष्ट किया जाना चाहिए availabiltyZones
ईकेएस नोड समूह से जुड़ी विशेषता। efaEnabled
इसके लिए सेट है true
वितरित प्रशिक्षण के लिए आवश्यक उपयुक्त ईएफए नेटवर्क कॉन्फ़िगरेशन के साथ नोड्स को कॉन्फ़िगर करना। अंत में, launchTemplate.id
नोड समूह से जुड़ी विशेषता पिछले चरण में AWS CloudFormation के माध्यम से बनाए गए EC2 लॉन्च टेम्पलेट की ओर इशारा करती है।
यह मानते हुए कि आपने पहले ही CloudFormation टेम्पलेट लागू कर लिया है और इंस्टॉल कर लिया है eksctl
प्रबंधन उपकरण, आप निम्नलिखित कोड चलाकर एक ट्रेनियम-सक्षम ईकेएस नोड समूह बना सकते हैं:
ट्रेनियम और ईएफए उपकरणों के लिए कुबेरनेट्स प्लगइन्स स्थापित करें
नोड समूह के साथ, अगला कदम कुबेरनेट्स प्लगइन्स स्थापित करना है जो ट्रेनियम एक्सेलेरेटर (न्यूरॉन प्लगइन के माध्यम से) और ईएफए उपकरणों (ईएफए प्लगइन के माध्यम से) के लिए समर्थन प्रदान करता है। इन प्लगइन्स को मानक का उपयोग करके क्लस्टर पर आसानी से इंस्टॉल किया जा सकता है kubectl
प्रबंधन उपकरण जैसा कि ट्यूटोरियल में दिखाया गया है।
वितरित प्रशिक्षण नौकरियों को लॉन्च करने के लिए TorchX यूनिवर्सल PyTorch लॉन्चर का उपयोग करने के लिए, दो पूर्वापेक्षाएँ आवश्यक हैं: ज्वालामुखी बैच शेड्यूलर, और आदि सर्वर। न्यूरॉन और ईएफए प्लगइन्स की तरह, हम इसका उपयोग कर सकते हैं kubectl
ईकेएस क्लस्टर पर ज्वालामुखी और आदि सर्वर स्थापित करने के लिए उपकरण।
साझा संग्रहण को EKS क्लस्टर से जोड़ें
ट्यूटोरियल में, लस्टर के लिए एफएसएक्स का उपयोग एक उच्च-प्रदर्शन साझा फ़ाइल सिस्टम प्रदान करने के लिए किया जाता है जिसे विभिन्न ईकेएस वर्कर पॉड्स द्वारा एक्सेस किया जा सकता है। इस साझा भंडारण का उपयोग प्रशिक्षण डेटासेट, साथ ही प्रशिक्षण प्रक्रिया के दौरान बनाए जाने वाले किसी भी कलाकृति और लॉग को होस्ट करने के लिए किया जाता है। ट्यूटोरियल बताता है कि क्लस्टर में साझा स्टोरेज को कैसे बनाया और संलग्न किया जाए लस्टर सीएसआई ड्राइवर के लिए अमेज़ॅन एफएसएक्स.
एक प्रशिक्षण कंटेनर छवि बनाएं
इसके बाद, हमें एक प्रशिक्षण कंटेनर छवि बनाने की आवश्यकता है जिसमें किसी भी निर्भरता के साथ PyTorch प्रशिक्षण स्क्रिप्ट शामिल हो। ट्यूटोरियल में डॉकरफाइल का एक उदाहरण शामिल है, जिसमें सॉफ्टवेयर निर्भरता के साथ BERT प्री-ट्रेनिंग स्क्रिप्ट शामिल है। Dockerfile का उपयोग प्रशिक्षण कंटेनर छवि बनाने के लिए किया जाता है, और फिर छवि को ECR रिपॉजिटरी में धकेल दिया जाता है, जहां से PyTorch कार्यकर्ता क्लस्टर पर प्रशिक्षण कार्य शुरू होने पर छवि खींचने में सक्षम होते हैं।
प्रशिक्षण डेटा सेट करें
प्रशिक्षण कार्य शुरू करने से पहले, प्रशिक्षण डेटा को पहले लस्टर के लिए एफएसएक्स पर साझा स्टोरेज वॉल्यूम में कॉपी किया जाता है। ट्यूटोरियल बताता है कि एक अस्थायी कुबेरनेट्स पॉड कैसे बनाया जाए, जिसमें साझा स्टोरेज वॉल्यूम तक पहुंच हो, और मानक लिनक्स शेल कमांड का उपयोग करके प्रशिक्षण डेटासेट को डाउनलोड करने और निकालने के लिए पॉड में लॉग इन करने का तरीका दिखाया गया है।
विभिन्न बुनियादी ढांचे और सॉफ्टवेयर आवश्यकताओं के साथ, अब हम समाधान के ट्रेनियम पहलुओं पर ध्यान केंद्रित कर सकते हैं।
अपने मॉडल को प्रीकंपाइल करें
न्यूरॉन SDK नामक एक एकीकरण परत के माध्यम से PyTorch का समर्थन करता है PyTorch न्यूरॉन. डिफ़ॉल्ट रूप से, PyTorch न्यूरॉन जस्ट-इन-टाइम संकलन के साथ काम करता है, जहां एक प्रशिक्षण कार्य के भीतर विभिन्न तंत्रिका नेटवर्क गणना ग्राफ़ संकलित किए जाते हैं क्योंकि वे प्रशिक्षण प्रक्रिया के दौरान सामने आते हैं। बड़े मॉडलों के लिए, दिए गए का उपयोग करना अधिक सुविधाजनक हो सकता है neuron_parallel_compile
प्रशिक्षण के समय ग्राफ़ संकलन से बचने के लिए विभिन्न गणना ग्राफ़ को पहले से संकलित और कैश करने का उपकरण। ईकेएस क्लस्टर पर प्रशिक्षण कार्य शुरू करने से पहले, ट्यूटोरियल दिखाता है कि सबसे पहले टॉर्चएक्स के माध्यम से प्रीकंपाइलेशन कार्य कैसे लॉन्च किया जाए neuron_parallel_compile
औजार। प्रीकंपाइलेशन कार्य पूरा होने पर, न्यूरॉन कंपाइलर ने सभी न्यूरल नेटवर्क कंप्यूट ग्राफ़ को पहचाना और संकलित किया होगा, और उन्हें वास्तविक BERT प्री-ट्रेनिंग कार्य के दौरान बाद में उपयोग के लिए साझा स्टोरेज वॉल्यूम में कैश किया होगा।
वितरित प्रशिक्षण कार्य लॉन्च करें
प्रीकंपाइलेशन पूरा होने के बाद, TorchX का उपयोग दो trn64xबड़े उदाहरणों में 1.32-कर्मचारियों को वितरित प्रशिक्षण कार्य शुरू करने के लिए किया जाता है, जिसमें प्रति उदाहरण 32 कर्मचारी होते हैं। हम प्रति उदाहरण 32 श्रमिकों का उपयोग करते हैं क्योंकि प्रत्येक trn1.32xlarge उदाहरण में 16 ट्रेनियम त्वरक होते हैं, प्रत्येक त्वरक 2 प्रदान करता है न्यूरॉनकोर्स. प्रत्येक न्यूरॉनकोर को एक अद्वितीय के रूप में एक्सेस किया जा सकता है PyTorch XLA डिवाइस प्रशिक्षण स्क्रिप्ट में. ट्यूटोरियल से TorchX लॉन्च कमांड का एक उदाहरण निम्नलिखित कोड जैसा दिखता है:
पूर्ववर्ती TorchX कमांड में विभिन्न कमांड लाइन तर्कों को ट्यूटोरियल में विस्तार से वर्णित किया गया है। हालाँकि, प्रशिक्षण कार्य को कॉन्फ़िगर करने में निम्नलिखित तर्क सबसे महत्वपूर्ण हैं:
- -सीएफजी कतार = परीक्षण - प्रशिक्षण कार्य के लिए उपयोग की जाने वाली ज्वालामुखी कतार निर्दिष्ट करता है
- -सीएफजी इमेज_रेपो - TorchX कंटेनर छवियों के लिए उपयोग किए जाने वाले ECR रिपॉजिटरी को निर्दिष्ट करता है
- -स्क्रिप्ट_आर्ग्स - किसी भी तर्क को निर्दिष्ट करता है जिसे PyTorch प्रशिक्षण स्क्रिप्ट में पारित किया जाना चाहिए
- –एननोड और –एनप्रोक_पर_नोड - प्रशिक्षण कार्य के लिए उपयोग किए जाने वाले प्रति उदाहरण उदाहरणों और श्रमिकों की संख्या
- -लिखी हुई कहानी - प्रशिक्षण कंटेनर के भीतर लॉन्च करने के लिए PyTorch प्रशिक्षण स्क्रिप्ट का नाम
- --छवि - अमेज़ॅन ईसीआर में प्रशिक्षण कंटेनर छवि का पथ
- -बीएफ16 - BF16 डेटा प्रकार को सक्षम करना है या नहीं
प्रशिक्षण कार्य की निगरानी करें
प्रशिक्षण कार्य शुरू होने के बाद, ऐसे कई तरीके हैं जिनसे कार्य की निगरानी की जा सकती है। ट्यूटोरियल दिखाता है कि कमांड लाइन का उपयोग करके बुनियादी प्रशिक्षण स्क्रिप्ट मेट्रिक्स की निगरानी कैसे करें kubectl
, टेन्सरबोर्ड में प्रशिक्षण स्क्रिप्ट की प्रगति की निगरानी कैसे करें (निम्न स्क्रीनशॉट देखें), और ट्रेनियम त्वरक उपयोग की निगरानी कैसे करें neuron-top
न्यूरॉन एसडीके से उपकरण।
पर्यावरण को साफ़ करें या पुन: उपयोग करें
जब प्रशिक्षण कार्य पूरा हो जाता है, तो क्लस्टर को अतिरिक्त प्रशिक्षण कार्यों के लिए पुन: उपयोग या पुन: कॉन्फ़िगर किया जा सकता है। उदाहरण के लिए, ईकेएस नोड समूह को इसका उपयोग करके शीघ्रता से बढ़ाया जा सकता है eksctl
अतिरिक्त Trn1 उदाहरणों की आवश्यकता वाले प्रशिक्षण कार्यों का समर्थन करने के लिए कमांड। इसी तरह, अतिरिक्त गहन शिक्षण मॉडल और प्रशिक्षण टोपोलॉजी वितरित करने का समर्थन करने के लिए प्रदान किए गए डॉकरफाइल और टॉर्चएक्स लॉन्च कमांड को आसानी से संशोधित किया जा सकता है।
यदि क्लस्टर की अब आवश्यकता नहीं है, तो ट्यूटोरियल में ईकेएस बुनियादी ढांचे और संबंधित संसाधनों को हटाने के लिए आवश्यक सभी चरण भी शामिल हैं।
निष्कर्ष
इस पोस्ट में, हमने पता लगाया कि कैसे Trn1 इंस्टेंसेस और Amazon EKS गहन शिक्षण मॉडल के उच्च-प्रदर्शन, लागत प्रभावी और बड़े पैमाने पर स्केलेबल वितरित प्रशिक्षण के लिए एक प्रबंधित मंच प्रदान करते हैं। हमने एक व्यापक ट्यूटोरियल भी साझा किया है जिसमें दिखाया गया है कि Trn1 इंस्टेंस का उपयोग करके अमेज़ॅन ईकेएस में वास्तविक दुनिया के मल्टी-इंस्टेंस वितरित प्रशिक्षण कार्य को कैसे चलाया जाए, और समाधान में कई प्रमुख चरणों और घटकों पर प्रकाश डाला गया है। इस ट्यूटोरियल सामग्री को अन्य मॉडलों और वर्कलोड के लिए आसानी से अनुकूलित किया जा सकता है, और यह आपको AWS में गहन शिक्षण मॉडल के वितरित प्रशिक्षण के लिए एक मूलभूत समाधान प्रदान करता है।
ट्रेनियम-संचालित Trn1 इंस्टेंसेस के साथ शुरुआत करने के तरीके के बारे में अधिक जानने के लिए, देखें न्यूरॉन प्रलेखन.
लेखक के बारे में
स्कॉट पेरी AWS में अन्नपूर्णा ML एक्सेलेरेटर टीम में एक सॉल्यूशन आर्किटेक्ट है। कनाडा में स्थित, वह ग्राहकों को एडब्ल्यूएस इनफेरेंटिया और एडब्ल्यूएस ट्रेनियम का उपयोग करके गहन शिक्षण प्रशिक्षण और अनुमान कार्यभार को तैनात और अनुकूलित करने में मदद करता है। उनकी रुचियों में बड़े भाषा मॉडल, गहन सुदृढीकरण सीखना, IoT और जीनोमिक्स शामिल हैं।
लोरिया अरिज़ाबलागा यूके पब्लिक सेक्टर से जुड़ी एक सॉल्यूशन आर्किटेक्ट है, जहां वह ग्राहकों को अमेज़ॅन सेजमेकर के साथ एमएल समाधान डिजाइन करने में मदद करती है। वह हार्डवेयर त्वरण के लिए समर्पित तकनीकी क्षेत्र समुदाय का भी हिस्सा है और एडब्ल्यूएस इनफेरेंटिया और एडब्ल्यूएस ट्रेनियम वर्कलोड के परीक्षण और बेंचमार्किंग में मदद करती है।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- स्रोत: https://aws.amazon.com/blogs/machine-learning/scaling-distributed-training-with-aws-trainium-and-amazon-eks/
- 1
- 100
- 11
- 2022
- 2023
- 7
- a
- योग्य
- About
- त्वरक
- त्वरक
- पहुँच
- पहुँचा
- हासिल
- के पार
- सक्रिय रूप से
- अतिरिक्त
- उन्नत
- उन्नत
- लाभ
- गठबंधन
- सब
- पहले ही
- हालांकि
- वीरांगना
- अमेज़ॅन EC2
- अमेज़न SageMaker
- और
- की घोषणा
- की घोषणा
- घोषणा
- लागू
- उपयुक्त
- स्थापत्य
- तर्क
- पहलुओं
- जुड़े
- संलग्न करना
- विशेषताओं
- उपलब्धता
- उपलब्ध
- एडब्ल्यूएस
- एडब्ल्यूएस CloudFormation
- एडब्ल्यूएस इन्फेंटेंटिया
- बैंडविड्थ
- आधारित
- बुनियादी
- क्योंकि
- से पहले
- बेंच मार्किंग
- लाभ
- बिलियन
- फूल का खिलना
- विस्तृत
- निर्माण
- कैश
- बुलाया
- कनाडा
- चिप्स
- चुनें
- करने के लिए चुना
- बादल
- समूह
- कोड
- सामूहिक
- अ रहे है
- जल्द ही आ रहा है
- सामान्य
- समुदाय
- पूरा
- समापन
- घटकों
- व्यापक
- गणना करना
- विन्यास
- जुड़ा हुआ
- मिलकर
- कंटेनर
- कंटेनरों
- शामिल हैं
- सामग्री
- नियंत्रण
- सुविधाजनक
- मूल
- प्रभावी लागत
- बनाना
- बनाया
- बनाना
- निर्माण
- सीएसआई
- वर्तमान में
- ग्राहक
- तिथि
- डीडीपी
- समर्पित
- गहरा
- ध्यान लगा के पढ़ना या सीखना
- चूक
- तैनात
- तैनात
- वर्णित
- डिज़ाइन
- विस्तार
- विस्तृत
- के घटनाक्रम
- युक्ति
- डिवाइस
- सीधे
- खोज
- वितरित
- वितरित प्रशिक्षण
- वितरण
- डाउनलोड
- ड्राइवर
- दौरान
- से प्रत्येक
- पूर्व
- शीघ्र
- उपयोग में आसानी
- आसानी
- भी
- सक्षम
- शुरू से अंत तक
- endpoint
- सुनिश्चित
- उद्यम
- और भी
- उदाहरण
- उत्तेजित
- के सिवा
- मौजूद
- पता लगाया
- उद्धरण
- कपड़ा
- सुपरिचय
- खेत
- पट्टिका
- प्रथम
- लचीलापन
- फोकस
- का पालन करें
- निम्नलिखित
- ढांचा
- से
- पूर्ण
- कार्यक्षमता
- सामान्य जानकारी
- जीनोमिक्स
- मिल
- GitHub
- दी
- ग्राफ
- रेखांकन
- समूह
- मार्गदर्शिकाएँ
- हैंडल
- हार्डवेयर
- दिल
- सहायक
- मदद करता है
- हाई
- उच्च प्रदर्शन
- हाइलाइट
- अत्यधिक
- मेजबान
- कैसे
- How To
- तथापि
- एचटीएमएल
- HTTPS
- सैकड़ों
- ID
- पहचान
- की छवि
- छवियों
- अस्पष्ट
- महत्वपूर्ण
- in
- शामिल
- शामिल
- शामिल
- बढ़ना
- तेजी
- इंफ्रास्ट्रक्चर
- स्थापित
- installed
- उदाहरण
- एकीकरण
- रुचियों
- IOT
- IT
- काम
- नौकरियां
- कुंजी
- बच्चा
- भाषा
- बड़ा
- बड़े पैमाने पर
- बड़ा
- देर से
- लांच
- शुभारंभ
- शुरू करने
- परत
- जानें
- सीख रहा हूँ
- नेतृत्व
- पुस्तकालयों
- लाइन
- लिनक्स
- भार
- लंबे समय तक
- देखिए
- लग रहा है
- मशीन
- यंत्र अधिगम
- मुख्य
- कामयाब
- प्रबंध
- बड़े पैमाने पर
- याद
- मेटाडाटा
- मेट्रिक्स
- ML
- मॉडल
- संशोधित
- मॉड्यूल
- मॉनिटर
- नजर रखी
- निगरानी
- पर नज़र रखता है
- महीने
- अधिक
- अधिकांश
- विभिन्न
- नाम
- आवश्यकता
- नेटवर्क
- शुद्ध कार्यशील
- तंत्रिका नेटवर्क
- अगला
- नोड
- नोड्स
- संख्या
- प्रस्तुत
- की पेशकश
- सरकारी
- ONE
- संचालित
- संचालन
- ऑप्टिमाइज़ करें
- अनुकूलित
- आर्केस्ट्रा
- आदेश
- अन्य
- उल्लिखित
- रूपरेखा
- कुल
- सिंहावलोकन
- पैरामीटर
- भाग
- पारित कर दिया
- पथ
- सहकर्मी
- प्रदर्शन
- चरण
- जगह
- मंच
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- लगाना
- plugins
- अंक
- पद
- संचालित
- शक्तिशाली
- आवश्यक शर्तें
- प्रक्रिया
- प्रगति
- प्रदान करना
- बशर्ते
- प्रदान करता है
- प्रदान कर
- सार्वजनिक
- प्रकाशन
- धकेल दिया
- pytorch
- जल्दी से
- बिना सोचे समझे
- असली दुनिया
- संदर्भ
- क्षेत्र
- क्षेत्रों
- सम्बंधित
- हटाना
- कोष
- की आवश्यकता होती है
- अपेक्षित
- की आवश्यकता होती है
- उपयुक्त संसाधन चुनें
- की समीक्षा
- रन
- दौड़ना
- sagemaker
- वही
- अनुमापकता
- स्केलेबल
- तराजू
- स्केलिंग
- एसडीके
- सेक्टर
- सेवा
- सेवाएँ
- सेट
- कई
- साझा
- खोल
- चाहिए
- दिखाया
- दिखाता है
- महत्वपूर्ण
- उसी प्रकार
- आकार
- छोटे
- So
- सॉफ्टवेयर
- समाधान
- समाधान ढूंढे
- कुछ
- विनिर्दिष्ट
- धुआँरा
- स्टैंडअलोन
- मानक
- शुरू
- स्टार्टअप
- कदम
- कदम
- फिर भी
- भंडारण
- की दुकान
- ऐसा
- समर्थन
- समर्थित
- समर्थन करता है
- तुल्यकालन
- प्रणाली
- तालिका
- ले जा
- टीम
- तकनीकी
- टेम्पलेट
- अस्थायी
- परीक्षण
- RSI
- यूके
- लेकिन हाल ही
- हजारों
- यहाँ
- भर
- पहर
- सेवा मेरे
- साधन
- उपकरण
- प्रशिक्षण
- <strong>उद्देश्य</strong>
- ट्यूटोरियल
- Uk
- अद्वितीय
- सार्वभौम
- उपयोग
- उपयोगकर्ता
- विभिन्न
- संस्करण
- के माध्यम से
- आयतन
- तरीके
- सप्ताह
- या
- कौन कौन से
- जब
- मर्जी
- अंदर
- कामगार
- श्रमिकों
- होगा
- यमलो
- आप
- आपका
- जेफिरनेट
- क्षेत्र