एडब्ल्यूएस ट्रेनियम और अमेज़ॅन ईकेएस के साथ स्केलिंग वितरित प्रशिक्षण

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

गहन शिक्षण में हाल के विकास ने GPT-3, BLOOM और OPT जैसे बड़े मॉडलों को जन्म दिया है, जिनमें से कुछ पहले से ही 100 बिलियन से अधिक मापदंडों में हैं। हालाँकि बड़े मॉडल अधिक शक्तिशाली होते हैं, ऐसे मॉडलों के प्रशिक्षण के लिए महत्वपूर्ण कम्प्यूटेशनल संसाधनों की आवश्यकता होती है। यहां तक कि एफएसडीपी और डीपस्पीड जैसे उन्नत वितरित प्रशिक्षण पुस्तकालयों के उपयोग के साथ, प्रशिक्षण नौकरियों के लिए एक समय में कई हफ्तों या महीनों के लिए सैकड़ों त्वरक उपकरणों की आवश्यकता होना आम बात है।

2022 के अंत में, AWS ने इसकी सामान्य उपलब्धता की घोषणा की अमेज़न EC2 Trn1 उदाहरण द्वारा संचालित एडब्ल्यूएस ट्रेनियम- एक उद्देश्य-निर्मित मशीन लर्निंग (एमएल) त्वरक जो क्लाउड में गहन शिक्षण मॉडल के प्रशिक्षण के लिए एक उच्च-प्रदर्शन, लागत प्रभावी और बड़े पैमाने पर स्केलेबल मंच प्रदान करने के लिए अनुकूलित है। Trn1 इंस्टेंसेस कई आकारों में उपलब्ध हैं (निम्न तालिका देखें), प्रति इंस्टेंस 16 ट्रेनियम त्वरक तक।

उदाहरण का आकार	ट्रेनियम त्वरक	त्वरक मेमोरी (जीबी)	वीसीपीयू	इंस्टेंस मेमोरी (GiB)	नेटवर्क बैंडविड्थ (जीबीपीएस)
trn1.2xlarge	1	32	8	32	12.5 करने के लिए ऊपर
trn1.32xlarge	16	512	128	512	800
trn1n.32xlarge (जल्द ही आ रहा है)	16	512	128	512	1600

Trn1 उदाहरणों को या तो छोटे प्रशिक्षण कार्यों के लिए स्टैंडअलोन उदाहरणों के रूप में तैनात किया जा सकता है, या उच्च स्केलेबल अल्ट्राक्लस्टर में जो हजारों ट्रेनियम त्वरक में वितरित प्रशिक्षण का समर्थन करते हैं। सभी Trn1 उदाहरण स्टैंडअलोन कॉन्फ़िगरेशन का समर्थन करते हैं, जबकि Trn1 अल्ट्राक्लस्टर को trn1.32xlarge या trn1n.32xlarge उदाहरणों की आवश्यकता होती है। एक अल्ट्राक्लस्टर में, कई Trn1 इंस्टेंसेस दिए गए AWS उपलब्धता क्षेत्र में सह-स्थित होते हैं और हाई-स्पीड, लो-लेटेंसी, इलास्टिक फैब्रिक एडाप्टर (EFA) नेटवर्किंग से जुड़े होते हैं जो सामूहिक गणना संचालन के लिए प्रति इंस्टेंस 800 Gbps नॉनब्लॉकिंग नेटवर्क बैंडविड्थ प्रदान करता है। . 1 की शुरुआत में लॉन्च होने वाला trn32n.2023xlarge इंस्टेंस प्रकार, इस बैंडविड्थ को प्रति इंस्टेंस 1600 Gbps तक बढ़ा देगा।

कई उद्यम ग्राहक कुबेरनेट्स का उपयोग करके अपने गहन शिक्षण कार्यभार को तैनात करना चुनते हैं - जो क्लाउड में कंटेनर ऑर्केस्ट्रेशन के लिए वास्तविक मानक है। AWS ग्राहक अक्सर इन कार्यभारों का उपयोग करके तैनात करते हैं अमेज़ॅन इलास्टिक कुबेरनेट्स सेवा (अमेज़ॅन ईकेएस)। अमेज़ॅन ईकेएस एक प्रबंधित कुबेरनेट्स सेवा है जो अपस्ट्रीम कुबेरनेट्स की पूर्ण लचीलेपन की पेशकश करते हुए कुबेरनेट्स समूहों के निर्माण, कॉन्फ़िगरेशन, जीवनचक्र और निगरानी को सरल बनाती है।

आज, हम Amazon EKS और EC2 Trn1 इंस्टेंसेस का उपयोग करके वितरित प्रशिक्षण नौकरियों के लिए आधिकारिक समर्थन की घोषणा करते हुए उत्साहित हैं। इस घोषणा के साथ, अब आप Trn1 उदाहरणों द्वारा पेश किए गए मूल्य-प्रदर्शन, स्केलेबिलिटी और उपयोग में आसानी का पूरा लाभ उठाते हुए अमेज़ॅन ईकेएस के भीतर बड़े पैमाने पर कंटेनरीकृत प्रशिक्षण कार्य आसानी से चला सकते हैं।

इस घोषणा के साथ, हम एक विस्तृत ट्यूटोरियल भी प्रकाशित कर रहे हैं जो आपको अमेज़ॅन ईकेएस और टीआरएन1 इंस्टेंस का उपयोग करके मल्टी-इंस्टेंस वितरित प्रशिक्षण कार्य (बीईआरटी चरण 1 प्री-ट्रेनिंग) चलाने के लिए आवश्यक चरणों के माध्यम से मार्गदर्शन करता है। इस पोस्ट में, आप समाधान आर्किटेक्चर के बारे में जानेंगे और ट्यूटोरियल के कई प्रमुख चरणों की समीक्षा करेंगे। को देखें आधिकारिक ट्यूटोरियल रिपॉजिटरी संपूर्ण एंड-टू-एंड वर्कफ़्लो के लिए।

साथ चलने के लिए, मुख्य AWS सेवाओं जैसे कि एक व्यापक परिचय अमेज़ॅन इलास्टिक कम्प्यूट क्लाउड (अमेज़ॅन EC2) और Amazon EKS निहित है, और गहन शिक्षण और PyTorch के साथ बुनियादी परिचितता सहायक होगी।

समाधान वास्तुकला

निम्नलिखित चित्र समाधान वास्तुकला को दर्शाता है।

स्केलिंग ने AWS ट्रेनियम और Amazon EKS प्लेटोब्लॉकचेन डेटा इंटेलिजेंस के साथ प्रशिक्षण वितरित किया। लंबवत खोज. ऐ.

समाधान में निम्नलिखित मुख्य घटक शामिल हैं:

एक ईकेएस क्लस्टर
एक EKS नोड समूह जिसमें trn1.32xlarge उदाहरण शामिल हैं
RSI AWS न्यूरॉन एसडीके
न्यूरॉन और ईएफए के लिए ईकेएस प्लगइन्स
An अमेज़ॅन इलास्टिक कंटेनर रजिस्ट्री (अमेज़ॅन ईसीआर) रिपोजिटरी
एक प्रशिक्षण कंटेनर छवि
An चमक के लिए अमेज़न FSx संचिका तंत्र
एक ज्वालामुखी बैच अनुसूचक और आदि सर्वर
टॉर्चएक्स यूनिवर्सल जॉब लॉन्चर
ट्रेनियम के लिए टॉर्चएक्स डीडीपी मॉड्यूल

समाधान के केंद्र में एक ईकेएस क्लस्टर है जो आपको ईकेएस सेवा समापन बिंदु के माध्यम से कोर कुबेरनेट्स प्रबंधन कार्यक्षमता प्रदान करता है। अमेज़ॅन ईकेएस के लाभों में से एक यह है कि सेवा सक्रिय रूप से लोड के आधार पर नियंत्रण विमान की निगरानी और स्केल करती है, जो वितरित प्रशिक्षण जैसे बड़े कार्यभार के लिए उच्च प्रदर्शन सुनिश्चित करती है। ईकेएस क्लस्टर के अंदर एक नोड समूह है जिसमें एक ही उपलब्धता क्षेत्र में रहने वाले दो या दो से अधिक trn1.32xlarge ट्रेनियम-आधारित उदाहरण शामिल हैं।

न्यूरॉन एसडीके एक सॉफ्टवेयर स्टैक है जो ड्राइवर, कंपाइलर, रनटाइम, फ्रेमवर्क इंटीग्रेशन (उदाहरण के लिए, पायटोरच न्यूरॉन) और उपयोगकर्ता टूल प्रदान करता है जो आपको ट्रेनियम एक्सेलेरेटर के लाभों तक पहुंचने की अनुमति देता है। न्यूरॉन डिवाइस ड्राइवर सीधे EKS नोड्स (Trn1 इंस्टेंस) पर चलता है और नोड्स पर लॉन्च किए गए प्रशिक्षण कंटेनरों के भीतर से ट्रेनियम चिप्स तक पहुंच प्रदान करता है। वितरित प्रशिक्षण के लिए आवश्यक ट्रेनियम चिप्स और ईएफए नेटवर्किंग उपकरणों तक पहुंच प्रदान करने के लिए ईकेएस क्लस्टर के भीतर न्यूरॉन और ईएफए प्लगइन्स स्थापित किए गए हैं।

प्रशिक्षण कंटेनर छवियों को संग्रहीत करने के लिए एक ईसीआर रिपॉजिटरी का उपयोग किया जाता है। इन छवियों में न्यूरॉन एसडीके (न्यूरॉन ड्राइवर को छोड़कर, जो सीधे Trn1 इंस्टेंस पर चलता है), PyTorch प्रशिक्षण स्क्रिप्ट और आवश्यक निर्भरताएँ शामिल हैं। जब ईकेएस क्लस्टर पर एक प्रशिक्षण कार्य शुरू किया जाता है, तो कंटेनर छवियों को पहले अमेज़ॅन ईसीआर से ईकेएस नोड्स पर खींचा जाता है, और फिर छवियों से PyTorch वर्कर कंटेनरों को इंस्टेंट किया जाता है।

साझा भंडारण लस्टर फ़ाइल सिस्टम के लिए एक उच्च-प्रदर्शन एफएसएक्स का उपयोग करके प्रदान किया जाता है जो कि trn1.32xlarge उदाहरणों के समान उपलब्धता क्षेत्र में मौजूद है। ईकेएस क्लस्टर के लिए लस्टर फ़ाइल सिस्टम के लिए एफएसएक्स का निर्माण और अनुलग्नक किसके द्वारा मध्यस्थ है लस्टर सीएसआई ड्राइवर के लिए अमेज़ॅन एफएसएक्स. इस समाधान में, साझा भंडारण का उपयोग प्रशिक्षण डेटासेट और प्रशिक्षण प्रक्रिया के दौरान बनाए गए किसी भी लॉग या कलाकृतियों को संग्रहीत करने के लिए किया जाता है।

समाधान का उपयोग करता है टॉर्चएक्स यूनिवर्सल जॉब लॉन्चर अमेज़ॅन ईकेएस के भीतर वितरित प्रशिक्षण नौकरियां लॉन्च करना। TorchX की दो महत्वपूर्ण निर्भरताएँ हैं: ज्वालामुखी बैच अनुसूचक और आदि सर्वर। ज्वालामुखी प्रशिक्षण नौकरियों की शेड्यूलिंग और कतार को संभालता है, जबकि आदि सर्वर एक कुंजी-मूल्य स्टोर है जिसका उपयोग नौकरी स्टार्टअप के दौरान सिंक्रनाइज़ेशन और सहकर्मी खोज के लिए TorchElastic द्वारा किया जाता है।

जब TorchX का उपयोग करके एक प्रशिक्षण कार्य लॉन्च किया जाता है, तो लॉन्च कमांड समग्र प्रशिक्षण कार्य को कॉन्फ़िगर करने के लिए ट्रेनियम के लिए प्रदान किए गए TorchX वितरित DDP मॉड्यूल का उपयोग करता है और फिर प्रत्येक PyTorch वर्कर पॉड्स पर उपयुक्त टॉर्चरन कमांड चलाता है। जब कोई कार्य चल रहा होता है, तो इसकी निगरानी मानक कुबेरनेट्स टूल (जैसे कुबेक्टल) या मानक एमएल टूलसेट जैसे टेन्सरबोर्ड के माध्यम से की जा सकती है।

समाधान अवलोकन

आइए इस समाधान के महत्वपूर्ण चरणों पर नजर डालें। इस पूरे अवलोकन में, हम इसका उल्लेख करते हैं TorchX और EKS का उपयोग करके ट्रेनियम पर मल्टी-नोड PyTorch न्यूरॉन प्रशिक्षण कार्य लॉन्च करें GitHub पर ट्यूटोरियल।

एक ईकेएस क्लस्टर बनाएं

Trn1 उदाहरणों के साथ Amazon EKS में वितरित प्रशिक्षण नौकरियों के साथ शुरुआत करने के लिए, आप सबसे पहले एक EKS क्लस्टर बनाएं जैसा कि इसमें बताया गया है GitHub पर ट्यूटोरियल. जैसे मानक उपकरणों का उपयोग करके क्लस्टर निर्माण प्राप्त किया जा सकता है eksctl और एडब्ल्यूएस CloudFormation.

एक ईकेएस नोड समूह बनाएं

इसके बाद, हमें एक समर्थित क्षेत्र में दो या अधिक trn1.32xlarge उदाहरणों वाला एक EKS नोड समूह बनाने की आवश्यकता है। ट्यूटोरियल में, AWS CloudFormation का उपयोग ट्रेनियम-विशिष्ट EC2 लॉन्च टेम्पलेट बनाने के लिए किया जाता है, जो यह सुनिश्चित करता है कि Trn1 इंस्टेंसेस को उपयुक्त अमेज़ॅन मशीन इमेज (एएमआई) और वितरित प्रशिक्षण का समर्थन करने के लिए आवश्यक सही ईएफए नेटवर्क कॉन्फ़िगरेशन के साथ लॉन्च किया गया है। एएमआई में न्यूरॉन डिवाइस ड्राइवर भी शामिल है जो ट्रेनियम एक्सेलेरेटर चिप्स के लिए समर्थन प्रदान करता है। साथ eksctl अमेज़ॅन ईकेएस प्रबंधन उपकरण, आप एक बुनियादी YAML मेनिफेस्ट का उपयोग करके आसानी से एक ट्रेनियम नोड समूह बना सकते हैं जो नए बनाए गए लॉन्च टेम्पलेट का संदर्भ देता है। उदाहरण के लिए:

apiVersion: eksctl.io/v1alpha5
kind: ClusterConfig metadata: name: my-trn1-cluster region: us-west-2 version: "1.23" iam: withOIDC: true availabilityZones: ["us-west-xx","us-west-yy"] managedNodeGroups: - name: trn1-ng1 launchTemplate: id: TRN1_LAUNCH_TEMPLATE_ID minSize: 2 desiredCapacity: 2 maxSize: 2 availabilityZones: ["us-west-xx"] privateNetworking: true efaEnabled: true

पिछले मैनिफ़ेस्ट में, EKS क्लस्टर में Trn1 इंस्टेंसेस के उपयोग की अनुमति देने के लिए कई विशेषताओं को कॉन्फ़िगर किया गया है। पहला, metadata.region उन क्षेत्रों में से एक पर सेट किया गया है जो Trn1 उदाहरणों का समर्थन करता है (वर्तमान में)। us-east-1 और us-west-2). इसके बाद, उपलब्धता क्षेत्रों के लिए, अमेज़ॅन ईकेएस के लिए आवश्यक है कि दो उपलब्धता क्षेत्र निर्दिष्ट किए जाएं। इन उपलब्धता क्षेत्रों में से एक को Trn1 उदाहरणों के उपयोग का समर्थन करना चाहिए, जबकि दूसरे को यादृच्छिक रूप से चुना जा सकता है। ट्यूटोरियल दिखाता है कि कैसे करें निर्धारित करें कि कौन से उपलब्धता क्षेत्र आपके AWS खाते के भीतर Trn1 उदाहरणों के लिए अनुमति देंगे. उसी Trn1-समर्थक उपलब्धता क्षेत्र को भी का उपयोग करके निर्दिष्ट किया जाना चाहिए availabiltyZones ईकेएस नोड समूह से जुड़ी विशेषता। efaEnabled इसके लिए सेट है true वितरित प्रशिक्षण के लिए आवश्यक उपयुक्त ईएफए नेटवर्क कॉन्फ़िगरेशन के साथ नोड्स को कॉन्फ़िगर करना। अंत में, launchTemplate.id नोड समूह से जुड़ी विशेषता पिछले चरण में AWS CloudFormation के माध्यम से बनाए गए EC2 लॉन्च टेम्पलेट की ओर इशारा करती है।

यह मानते हुए कि आपने पहले ही CloudFormation टेम्पलेट लागू कर लिया है और इंस्टॉल कर लिया है eksctl प्रबंधन उपकरण, आप निम्नलिखित कोड चलाकर एक ट्रेनियम-सक्षम ईकेएस नोड समूह बना सकते हैं:

> eksctl create nodegroup -f TEMPLATE.yaml

ट्रेनियम और ईएफए उपकरणों के लिए कुबेरनेट्स प्लगइन्स स्थापित करें

नोड समूह के साथ, अगला कदम कुबेरनेट्स प्लगइन्स स्थापित करना है जो ट्रेनियम एक्सेलेरेटर (न्यूरॉन प्लगइन के माध्यम से) और ईएफए उपकरणों (ईएफए प्लगइन के माध्यम से) के लिए समर्थन प्रदान करता है। इन प्लगइन्स को मानक का उपयोग करके क्लस्टर पर आसानी से इंस्टॉल किया जा सकता है kubectl प्रबंधन उपकरण जैसा कि ट्यूटोरियल में दिखाया गया है।

वितरित प्रशिक्षण नौकरियों को लॉन्च करने के लिए TorchX यूनिवर्सल PyTorch लॉन्चर का उपयोग करने के लिए, दो पूर्वापेक्षाएँ आवश्यक हैं: ज्वालामुखी बैच शेड्यूलर, और आदि सर्वर। न्यूरॉन और ईएफए प्लगइन्स की तरह, हम इसका उपयोग कर सकते हैं kubectl ईकेएस क्लस्टर पर ज्वालामुखी और आदि सर्वर स्थापित करने के लिए उपकरण।

साझा संग्रहण को EKS क्लस्टर से जोड़ें

ट्यूटोरियल में, लस्टर के लिए एफएसएक्स का उपयोग एक उच्च-प्रदर्शन साझा फ़ाइल सिस्टम प्रदान करने के लिए किया जाता है जिसे विभिन्न ईकेएस वर्कर पॉड्स द्वारा एक्सेस किया जा सकता है। इस साझा भंडारण का उपयोग प्रशिक्षण डेटासेट, साथ ही प्रशिक्षण प्रक्रिया के दौरान बनाए जाने वाले किसी भी कलाकृति और लॉग को होस्ट करने के लिए किया जाता है। ट्यूटोरियल बताता है कि क्लस्टर में साझा स्टोरेज को कैसे बनाया और संलग्न किया जाए लस्टर सीएसआई ड्राइवर के लिए अमेज़ॅन एफएसएक्स.

एक प्रशिक्षण कंटेनर छवि बनाएं

इसके बाद, हमें एक प्रशिक्षण कंटेनर छवि बनाने की आवश्यकता है जिसमें किसी भी निर्भरता के साथ PyTorch प्रशिक्षण स्क्रिप्ट शामिल हो। ट्यूटोरियल में डॉकरफाइल का एक उदाहरण शामिल है, जिसमें सॉफ्टवेयर निर्भरता के साथ BERT प्री-ट्रेनिंग स्क्रिप्ट शामिल है। Dockerfile का उपयोग प्रशिक्षण कंटेनर छवि बनाने के लिए किया जाता है, और फिर छवि को ECR रिपॉजिटरी में धकेल दिया जाता है, जहां से PyTorch कार्यकर्ता क्लस्टर पर प्रशिक्षण कार्य शुरू होने पर छवि खींचने में सक्षम होते हैं।

प्रशिक्षण डेटा सेट करें

प्रशिक्षण कार्य शुरू करने से पहले, प्रशिक्षण डेटा को पहले लस्टर के लिए एफएसएक्स पर साझा स्टोरेज वॉल्यूम में कॉपी किया जाता है। ट्यूटोरियल बताता है कि एक अस्थायी कुबेरनेट्स पॉड कैसे बनाया जाए, जिसमें साझा स्टोरेज वॉल्यूम तक पहुंच हो, और मानक लिनक्स शेल कमांड का उपयोग करके प्रशिक्षण डेटासेट को डाउनलोड करने और निकालने के लिए पॉड में लॉग इन करने का तरीका दिखाया गया है।

विभिन्न बुनियादी ढांचे और सॉफ्टवेयर आवश्यकताओं के साथ, अब हम समाधान के ट्रेनियम पहलुओं पर ध्यान केंद्रित कर सकते हैं।

अपने मॉडल को प्रीकंपाइल करें

न्यूरॉन SDK नामक एक एकीकरण परत के माध्यम से PyTorch का समर्थन करता है PyTorch न्यूरॉन. डिफ़ॉल्ट रूप से, PyTorch न्यूरॉन जस्ट-इन-टाइम संकलन के साथ काम करता है, जहां एक प्रशिक्षण कार्य के भीतर विभिन्न तंत्रिका नेटवर्क गणना ग्राफ़ संकलित किए जाते हैं क्योंकि वे प्रशिक्षण प्रक्रिया के दौरान सामने आते हैं। बड़े मॉडलों के लिए, दिए गए का उपयोग करना अधिक सुविधाजनक हो सकता है neuron_parallel_compile प्रशिक्षण के समय ग्राफ़ संकलन से बचने के लिए विभिन्न गणना ग्राफ़ को पहले से संकलित और कैश करने का उपकरण। ईकेएस क्लस्टर पर प्रशिक्षण कार्य शुरू करने से पहले, ट्यूटोरियल दिखाता है कि सबसे पहले टॉर्चएक्स के माध्यम से प्रीकंपाइलेशन कार्य कैसे लॉन्च किया जाए neuron_parallel_compile औजार। प्रीकंपाइलेशन कार्य पूरा होने पर, न्यूरॉन कंपाइलर ने सभी न्यूरल नेटवर्क कंप्यूट ग्राफ़ को पहचाना और संकलित किया होगा, और उन्हें वास्तविक BERT प्री-ट्रेनिंग कार्य के दौरान बाद में उपयोग के लिए साझा स्टोरेज वॉल्यूम में कैश किया होगा।

वितरित प्रशिक्षण कार्य लॉन्च करें

प्रीकंपाइलेशन पूरा होने के बाद, TorchX का उपयोग दो trn64xबड़े उदाहरणों में 1.32-कर्मचारियों को वितरित प्रशिक्षण कार्य शुरू करने के लिए किया जाता है, जिसमें प्रति उदाहरण 32 कर्मचारी होते हैं। हम प्रति उदाहरण 32 श्रमिकों का उपयोग करते हैं क्योंकि प्रत्येक trn1.32xlarge उदाहरण में 16 ट्रेनियम त्वरक होते हैं, प्रत्येक त्वरक 2 प्रदान करता है न्यूरॉनकोर्स. प्रत्येक न्यूरॉनकोर को एक अद्वितीय के रूप में एक्सेस किया जा सकता है PyTorch XLA डिवाइस प्रशिक्षण स्क्रिप्ट में. ट्यूटोरियल से TorchX लॉन्च कमांड का एक उदाहरण निम्नलिखित कोड जैसा दिखता है:

 torchx run -s kubernetes --workspace="file:///$PWD/docker" -cfg queue=test,image_repo=$ECR_REPO lib/trn1_dist_ddp.py:generateAppDef --name berttrain --script_args "--batch_size 16 --grad_accum_usteps 32 --data_dir /data/bert_pretrain_wikicorpus_tokenized_hdf5_seqlen128 --output_dir /data/output" --nnodes 2 --nproc_per_node 32 --image $ECR_REPO:bert_pretrain --script dp_bert_large_hf_pretrain_hdf5.py --bf16 True --cacheset bert-large

पूर्ववर्ती TorchX कमांड में विभिन्न कमांड लाइन तर्कों को ट्यूटोरियल में विस्तार से वर्णित किया गया है। हालाँकि, प्रशिक्षण कार्य को कॉन्फ़िगर करने में निम्नलिखित तर्क सबसे महत्वपूर्ण हैं:

-सीएफजी कतार = परीक्षण - प्रशिक्षण कार्य के लिए उपयोग की जाने वाली ज्वालामुखी कतार निर्दिष्ट करता है
-सीएफजी इमेज_रेपो - TorchX कंटेनर छवियों के लिए उपयोग किए जाने वाले ECR रिपॉजिटरी को निर्दिष्ट करता है
-स्क्रिप्ट_आर्ग्स - किसी भी तर्क को निर्दिष्ट करता है जिसे PyTorch प्रशिक्षण स्क्रिप्ट में पारित किया जाना चाहिए
–एननोड और –एनप्रोक_पर_नोड - प्रशिक्षण कार्य के लिए उपयोग किए जाने वाले प्रति उदाहरण उदाहरणों और श्रमिकों की संख्या
-लिखी हुई कहानी - प्रशिक्षण कंटेनर के भीतर लॉन्च करने के लिए PyTorch प्रशिक्षण स्क्रिप्ट का नाम
--छवि - अमेज़ॅन ईसीआर में प्रशिक्षण कंटेनर छवि का पथ
-बीएफ16 - BF16 डेटा प्रकार को सक्षम करना है या नहीं

प्रशिक्षण कार्य की निगरानी करें

प्रशिक्षण कार्य शुरू होने के बाद, ऐसे कई तरीके हैं जिनसे कार्य की निगरानी की जा सकती है। ट्यूटोरियल दिखाता है कि कमांड लाइन का उपयोग करके बुनियादी प्रशिक्षण स्क्रिप्ट मेट्रिक्स की निगरानी कैसे करें kubectl, टेन्सरबोर्ड में प्रशिक्षण स्क्रिप्ट की प्रगति की निगरानी कैसे करें (निम्न स्क्रीनशॉट देखें), और ट्रेनियम त्वरक उपयोग की निगरानी कैसे करें neuron-top न्यूरॉन एसडीके से उपकरण।

पर्यावरण को साफ़ करें या पुन: उपयोग करें

जब प्रशिक्षण कार्य पूरा हो जाता है, तो क्लस्टर को अतिरिक्त प्रशिक्षण कार्यों के लिए पुन: उपयोग या पुन: कॉन्फ़िगर किया जा सकता है। उदाहरण के लिए, ईकेएस नोड समूह को इसका उपयोग करके शीघ्रता से बढ़ाया जा सकता है eksctl अतिरिक्त Trn1 उदाहरणों की आवश्यकता वाले प्रशिक्षण कार्यों का समर्थन करने के लिए कमांड। इसी तरह, अतिरिक्त गहन शिक्षण मॉडल और प्रशिक्षण टोपोलॉजी वितरित करने का समर्थन करने के लिए प्रदान किए गए डॉकरफाइल और टॉर्चएक्स लॉन्च कमांड को आसानी से संशोधित किया जा सकता है।

यदि क्लस्टर की अब आवश्यकता नहीं है, तो ट्यूटोरियल में ईकेएस बुनियादी ढांचे और संबंधित संसाधनों को हटाने के लिए आवश्यक सभी चरण भी शामिल हैं।

निष्कर्ष

इस पोस्ट में, हमने पता लगाया कि कैसे Trn1 इंस्टेंसेस और Amazon EKS गहन शिक्षण मॉडल के उच्च-प्रदर्शन, लागत प्रभावी और बड़े पैमाने पर स्केलेबल वितरित प्रशिक्षण के लिए एक प्रबंधित मंच प्रदान करते हैं। हमने एक व्यापक ट्यूटोरियल भी साझा किया है जिसमें दिखाया गया है कि Trn1 इंस्टेंस का उपयोग करके अमेज़ॅन ईकेएस में वास्तविक दुनिया के मल्टी-इंस्टेंस वितरित प्रशिक्षण कार्य को कैसे चलाया जाए, और समाधान में कई प्रमुख चरणों और घटकों पर प्रकाश डाला गया है। इस ट्यूटोरियल सामग्री को अन्य मॉडलों और वर्कलोड के लिए आसानी से अनुकूलित किया जा सकता है, और यह आपको AWS में गहन शिक्षण मॉडल के वितरित प्रशिक्षण के लिए एक मूलभूत समाधान प्रदान करता है।

ट्रेनियम-संचालित Trn1 इंस्टेंसेस के साथ शुरुआत करने के तरीके के बारे में अधिक जानने के लिए, देखें न्यूरॉन प्रलेखन.

लेखक के बारे में

स्कॉट पेरी AWS में अन्नपूर्णा ML एक्सेलेरेटर टीम में एक सॉल्यूशन आर्किटेक्ट है। कनाडा में स्थित, वह ग्राहकों को एडब्ल्यूएस इनफेरेंटिया और एडब्ल्यूएस ट्रेनियम का उपयोग करके गहन शिक्षण प्रशिक्षण और अनुमान कार्यभार को तैनात और अनुकूलित करने में मदद करता है। उनकी रुचियों में बड़े भाषा मॉडल, गहन सुदृढीकरण सीखना, IoT और जीनोमिक्स शामिल हैं।

लोरिया अरिज़ाबलागा यूके पब्लिक सेक्टर से जुड़ी एक सॉल्यूशन आर्किटेक्ट है, जहां वह ग्राहकों को अमेज़ॅन सेजमेकर के साथ एमएल समाधान डिजाइन करने में मदद करती है। वह हार्डवेयर त्वरण के लिए समर्पित तकनीकी क्षेत्र समुदाय का भी हिस्सा है और एडब्ल्यूएस इनफेरेंटिया और एडब्ल्यूएस ट्रेनियम वर्कलोड के परीक्षण और बेंचमार्किंग में मदद करती है।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोब्लॉकचैन। Web3 मेटावर्स इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
स्रोत: https://aws.amazon.com/blogs/machine-learning/scaling-distributed-training-with-aws-trainium-and-amazon-eks/

समय टिकट: फ़रवरी 1, 2023

समय टिकट: जुलाई 31, 2023

प्लेटो द्वारा पुनर्प्रकाशित

अमेज़ॅन सैजमेकर छाया परीक्षण के साथ एमएल मॉडल अपडेट के उत्पादन प्रभाव को कम करें

Amazon फ्रॉड डिटेक्टर में नए अकाउंट टेकओवर इनसाइट्स मॉडल के साथ लॉगिन पर अकाउंट टेकओवर को रोकें

अमेज़ॅन सेजमेकर एज मैनेजर और एडब्ल्यूएस आईओटी ग्रीनग्रास के साथ किनारे पर एमएलओप्स

एंड-टू-एंड कार्यबल प्रबंधन प्राप्त करें: अमेज़ॅन पूर्वानुमान और एडब्ल्यूएस चरण कार्य | अमेज़न वेब सेवाएँ

एडब्ल्यूएस लो कोड-नो कोड सेवाओं के साथ निवेश प्रक्रिया में तेजी लाएं

Amazon SageMaker डेटा समानांतर लाइब्रेरी के साथ तेज़ प्रशिक्षण सक्षम करें | अमेज़न वेब सेवाएँ

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा