AWS पर PyTorch 2.0 का उपयोग करके उच्च-प्रदर्शन ML मॉडल बनाएं - भाग 1

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

PyTorch एक मशीन लर्निंग (ML) फ्रेमवर्क है जिसका व्यापक रूप से AWS ग्राहकों द्वारा विभिन्न प्रकार के अनुप्रयोगों के लिए उपयोग किया जाता है, जैसे कि कंप्यूटर विज़न, प्राकृतिक भाषा प्रसंस्करण, सामग्री निर्माण, और बहुत कुछ। हाल ही में PyTorch 2.0 रिलीज़ के साथ, AWS ग्राहक अब वही काम कर सकते हैं जो वे PyTorch 1.x के साथ कर सकते थे, लेकिन तेज़ और बड़े पैमाने पर बेहतर प्रशिक्षण गति, कम मेमोरी उपयोग और बढ़ी हुई वितरित क्षमताओं के साथ। Torch.compile, TorchDynamo, AOTAutograd, PrimTorch, और TorchInductor सहित कई नई तकनीकों को PyTorch2.0 रिलीज़ में शामिल किया गया है। को देखें PyTorch 2.0: हमारी अगली पीढ़ी की रिलीज़ जो पहले की तरह तेज़, अधिक पाइथोनिक और गतिशील है ब्योरा हेतु।

यह पोस्ट AWS पर PyTorch 2.0 का उपयोग करके बड़े पैमाने पर, उच्च-प्रदर्शन वितरित एमएल मॉडल प्रशिक्षण और परिनियोजन के प्रदर्शन और आसानी को प्रदर्शित करता है। यह पोस्ट भावना विश्लेषण के लिए रोबर्टा (मजबूत रूप से अनुकूलित बीईआरटी प्रीट्रेनिंग दृष्टिकोण) मॉडल को फाइन-ट्यूनिंग के चरण-दर-चरण कार्यान्वयन के माध्यम से चलता है। एडब्ल्यूएस डीप लर्निंग एएमआई (एडब्ल्यूएस डलामी) और AWS डीप लर्निंग कंटेनर (डीएलसी) पर अमेज़ॅन इलास्टिक कम्प्यूट क्लाउड (Amazon EC2 p4d.24xlarge) जब PyTorch 42 टॉर्च.कंपाइल + bf2.0 + फ्यूज्ड एडमडब्ल्यू के साथ इस्तेमाल किया गया तो 16% स्पीडअप देखा गया। इसके बाद फाइन-ट्यून किए गए मॉडल को तैनात किया जाता है एडब्ल्यूएस ग्रेविटनआधारित C7g EC2 उदाहरण पर अमेज़न SageMaker PyTorch 10 की तुलना में 1.13% स्पीडअप देखा गया।

निम्नलिखित चित्र Amazon EC2 p4d.24xlarge पर AWS PyTorch 2.0 DLAMI + DLC के साथ RoBERTa मॉडल को फ़ाइन-ट्यूनिंग करने का एक प्रदर्शन बेंचमार्क दिखाता है।

AWS पर PyTorch 2.0 का उपयोग करके उच्च-प्रदर्शन ML मॉडल बनाएं - भाग 1 | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

का संदर्भ लें AWS Graviton प्रोसेसर के साथ अनुकूलित PyTorch 2.0 अनुमान PyTorch 2.0 के लिए AWS Graviton- आधारित उदाहरण अनुमान प्रदर्शन बेंचमार्क पर विवरण के लिए।

AWS पर PyTorch 2.0 के लिए समर्थन

PyTorch2.0 समर्थन सेवाओं तक ही सीमित नहीं है और इस पोस्ट में उदाहरण उपयोग-मामले में दिखाई गई गणना; यह AWS पर कई अन्य लोगों तक फैला हुआ है, जिसकी चर्चा हम इस खंड में करेंगे।

व्यवसाय की आवश्यकता

कई AWS ग्राहक, उद्योगों के एक विविध सेट में, कृत्रिम बुद्धिमत्ता (AI) का उपयोग करके अपने व्यवसायों को बदल रहे हैं, विशेष रूप से जनरेटिव AI और बड़े भाषा मॉडल (LLM) के क्षेत्र में जो मानव-समान पाठ उत्पन्न करने के लिए डिज़ाइन किए गए हैं। ये मूल रूप से गहन शिक्षण तकनीकों पर आधारित बड़े मॉडल हैं जिन्हें सैकड़ों अरबों मापदंडों के साथ प्रशिक्षित किया जाता है। मॉडल के आकार में वृद्धि प्रशिक्षण के समय को दिनों से लेकर हफ्तों तक और यहां तक कि कुछ मामलों में महीनों तक बढ़ा रही है। यह प्रशिक्षण और अनुमान लागत में तेजी से वृद्धि कर रहा है, जिसके लिए पहले से कहीं अधिक, त्वरित मॉडल प्रशिक्षण के अंतर्निहित समर्थन के साथ PyTorch 2.0 जैसे ढांचे और विशिष्ट वर्कलोड और प्रदर्शन आवश्यकताओं के अनुरूप AWS के अनुकूलित बुनियादी ढांचे की आवश्यकता है।

गणना का विकल्प

AWS शक्तिशाली कंप्यूट, हाई-स्पीड नेटवर्किंग और स्केलेबल हाई-परफॉर्मेंस स्टोरेज विकल्पों के व्यापक विकल्प पर PyTorch 2.0 सपोर्ट प्रदान करता है, जिसका उपयोग आप किसी भी ML प्रोजेक्ट या एप्लिकेशन के लिए कर सकते हैं और अपने प्रदर्शन और बजट आवश्यकताओं को पूरा करने के लिए अनुकूलित कर सकते हैं। यह अगले भाग में आरेख में प्रकट होता है; निचले स्तर में, हम एडब्ल्यूएस ग्रेविटॉन, एनवीडिया, एएमडी और इंटेल प्रोसेसर द्वारा संचालित कम्प्यूट इंस्टेंस का विस्तृत चयन प्रदान करते हैं।

मॉडल परिनियोजन के लिए, आप एआरएम-आधारित प्रोसेसर का उपयोग कर सकते हैं जैसे कि हाल ही में घोषित एडब्ल्यूएस ग्रेविटॉन-आधारित उदाहरण जो कि पिछले पाइटोरेक रिलीज की तुलना में Resnet2.0 के लिए 3.5 गुना गति के साथ PyTorch 50 के लिए अनुमान प्रदर्शन प्रदान करता है, और 1.4 गुना तक गति प्रदान करता है। BERT के लिए गति, AWS ग्रेविटॉन-आधारित उदाहरणों को CPU-आधारित मॉडल अनुमान समाधानों के लिए AWS पर सबसे तेज़ गणना-अनुकूलित उदाहरण बनाता है।

एमएल सेवाओं का विकल्प

AWS कंप्यूट का उपयोग करने के लिए, आप ML डेवलपमेंट, कंप्यूट और वर्कफ़्लो ऑर्केस्ट्रेशन के लिए वैश्विक क्लाउड-आधारित सेवाओं के व्यापक सेट से चयन कर सकते हैं। यह विकल्प आपको अपने व्यवसाय और क्लाउड रणनीतियों के साथ संरेखित करने और अपनी पसंद के प्लेटफॉर्म पर PyTorch 2.0 जॉब चलाने की अनुमति देता है। उदाहरण के लिए, यदि आपके पास ऑन-प्रिमाइसेस प्रतिबंध हैं या ओपन-सोर्स उत्पादों में मौजूदा निवेश हैं, तो आप Amazon EC2 का उपयोग कर सकते हैं, एडब्ल्यूएस समानांतर क्लस्टरया, एडब्ल्यूएस अल्ट्राक्लस्टर एक स्व-प्रबंधित दृष्टिकोण के आधार पर वितरित प्रशिक्षण कार्यभार चलाने के लिए। आप लागत-अनुकूलित, पूरी तरह से प्रबंधित और उत्पादन-स्तर के प्रशिक्षण बुनियादी ढांचे के लिए सेजमेकर जैसी पूरी तरह से प्रबंधित सेवा का भी उपयोग कर सकते हैं। SageMaker विभिन्न MLOps टूल के साथ भी एकीकृत होता है, जो आपको अपने मॉडल परिनियोजन को स्केल करने, अनुमान लागत कम करने, उत्पादन में मॉडल को अधिक प्रभावी ढंग से प्रबंधित करने और परिचालन बोझ को कम करने की अनुमति देता है।

इसी तरह, यदि आपके पास मौजूदा कुबेरनेट्स निवेश हैं, तो आप भी उपयोग कर सकते हैं अमेज़ॅन इलास्टिक कुबेरनेट्स सेवा (अमेज़ॅन ईकेएस) और एडब्ल्यूएस पर क्यूबफ्लो वितरित प्रशिक्षण के लिए एक एमएल पाइपलाइन को लागू करने या एडब्ल्यूएस-देशी कंटेनर ऑर्केस्ट्रेशन सेवा का उपयोग करने के लिए अमेज़ॅन इलास्टिक कंटेनर सेवा (अमेज़ॅन ईसीएस) मॉडल प्रशिक्षण और परिनियोजन के लिए। आपके एमएल प्लेटफॉर्म के निर्माण के विकल्प इन सेवाओं तक सीमित नहीं हैं; आप अपनी PyTorch 2.0 नौकरियों के लिए अपनी संगठनात्मक आवश्यकताओं के आधार पर चुन सकते हैं और चुन सकते हैं।

धुआँरा

AWS DLAMI और AWS DLC के साथ PyTorch 2.0 को सक्षम करना

AWS सेवाओं और शक्तिशाली गणना के पूर्वोक्त स्टैक का उपयोग करने के लिए, आपको PyTorch2.0 ढांचे और इसकी आवश्यक निर्भरता का एक अनुकूलित संकलित संस्करण स्थापित करना होगा, जिनमें से कई स्वतंत्र परियोजनाएं हैं, और अंत तक उनका परीक्षण करें। आपको त्वरित गणित रूटीन के लिए सीपीयू-विशिष्ट लाइब्रेरी, त्वरित गणित और इंटर-जीपीयू संचार रूटीन के लिए जीपीयू-विशिष्ट लाइब्रेरी और जीपीयू ड्राइवर की आवश्यकता हो सकती है, जिन्हें जीपीयू लाइब्रेरी संकलित करने के लिए उपयोग किए जाने वाले जीपीयू कंपाइलर के साथ संरेखित करने की आवश्यकता होती है। यदि आपकी नौकरियों के लिए बड़े पैमाने पर मल्टी-नोड प्रशिक्षण की आवश्यकता है, तो आपको एक अनुकूलित नेटवर्क की आवश्यकता है जो न्यूनतम विलंबता और उच्चतम थ्रूपुट प्रदान कर सके। अपना स्टैक बनाने के बाद, आपको सुरक्षा भेद्यता के लिए उन्हें नियमित रूप से स्कैन और पैच करने की आवश्यकता होती है और प्रत्येक फ्रेमवर्क संस्करण अपग्रेड के बाद स्टैक का पुनर्निर्माण और पुन: परीक्षण करना होता है।

AWS क्लाउड में गहन सीखने में तेजी लाने के लिए फ्रेमवर्क, निर्भरता और उपकरणों के एक क्यूरेटेड और सुरक्षित सेट की पेशकश करके इस भारी भार को कम करने में मदद करता है। एडब्ल्यूएस DLAMIs और एडब्ल्यूएस डीएलसी. ये पूर्व-निर्मित और परीक्षण की गई मशीन छवियां और कंटेनर EC2 त्वरित कंप्यूटिंग इंस्टेंस प्रकारों पर गहन सीखने के लिए अनुकूलित हैं, जिससे आप अधिक कुशलतापूर्वक और आसानी से वितरित वर्कलोड के लिए कई नोड्स को स्केल कर सकते हैं। इसमें एक पूर्व निर्मित शामिल है लोचदार कपड़ा एडाप्टर (ईएफए), एनवीडिया जीपीयू स्टैक, और उच्च प्रदर्शन वितरित गहन शिक्षण प्रशिक्षण के लिए कई गहरे शिक्षण ढांचे (टेंसरफ्लो, एमएक्सनेट, और 2.0 की नवीनतम रिलीज के साथ पायटॉर्च)। आपको गहन शिक्षण सॉफ़्टवेयर और ड्राइवरों को स्थापित करने और समस्याओं का निवारण करने या एमएल बुनियादी ढांचे के निर्माण में समय बिताने की ज़रूरत नहीं है, न ही आपको सुरक्षा कमजोरियों के लिए इन छवियों को पैच करने या हर नए फ्रेमवर्क संस्करण के उन्नयन के बाद छवियों को फिर से बनाने की आवर्ती लागत वहन करने की आवश्यकता नहीं है। इसके बजाय, आप कम समय में बड़े पैमाने पर प्रशिक्षण नौकरियों के उच्च मूल्य वर्धित प्रयास पर ध्यान केंद्रित कर सकते हैं और अपने एमएल मॉडल पर तेजी से पुनरावृत्ति कर सकते हैं।

समाधान अवलोकन

यह देखते हुए कि GPU पर प्रशिक्षण और CPU पर अनुमान AWS ग्राहकों के लिए एक लोकप्रिय उपयोग मामला है, हमने इस पोस्ट के हिस्से के रूप में एक हाइब्रिड आर्किटेक्चर के चरण-दर-चरण कार्यान्वयन को शामिल किया है (जैसा कि निम्नलिखित आरेख में दिखाया गया है)। हम संभव की कला का पता लगाएंगे और एक RoBERTa भावना विश्लेषण मॉडल को ठीक करने के लिए NVIDIA ड्राइवर, CUDA, NCCL, EFA स्टैक, और PyTorch4 DLC सहित बेस GPU DLAMI के साथ प्रारंभ किए गए BF2 समर्थन के साथ P16 EC2.0 उदाहरण का उपयोग करेंगे। जो आपको किसी भी ओपन-सोर्स या मालिकाना पुस्तकालयों का उपयोग करने के लिए नियंत्रण और लचीलापन देता है। फिर हम अपने मॉडल को AWS Graviton3-आधारित पर होस्ट करने के लिए पूरी तरह से प्रबंधित मॉडल होस्टिंग इंफ्रास्ट्रक्चर के लिए SageMaker का उपयोग करते हैं C7g उदाहरण. हमने SageMaker पर C7g को चुना क्योंकि यह अनुमान लागत को 50% तक कम करने के लिए तुलनीय EC2 उदाहरणों के सापेक्ष साबित हुआ है वास्तविक समय अनुमान सेजमेकर पर। निम्नलिखित आरेख इस वास्तुकला को दिखाता है।

फ़ॉलो करें

इस उपयोग मामले में मॉडल प्रशिक्षण और होस्टिंग में निम्नलिखित चरण होते हैं:

अपने VPC में GPU DLAMI-आधारित EC2 Ubuntu उदाहरण लॉन्च करें और SSH का उपयोग करके अपने उदाहरण से कनेक्ट करें।
अपने EC2 उदाहरण में लॉग इन करने के बाद, AWS PyTorch 2.0 DLC डाउनलोड करें।
RoBERTa मॉडल को फ़ाइन-ट्यून करने के लिए मॉडल प्रशिक्षण स्क्रिप्ट के साथ अपना DLC कंटेनर चलाएँ।
मॉडल प्रशिक्षण पूरा होने के बाद, सहेजे गए मॉडल, इंट्रेंस स्क्रिप्ट्स और कुछ मेटाडेटा फ़ाइलों को एक टार फ़ाइल में पैकेज करें, जिसे SageMaker इंट्रेंस मॉडल पैकेज का उपयोग और अपलोड कर सकता है अमेज़न सरल भंडारण सेवा (अमेज़न S3) बाल्टी।
SageMaker का उपयोग करके मॉडल को परिनियोजित करें और एक HTTPS अनुमान समापन बिंदु बनाएँ। SageMaker इंट्रेंस एंडपॉइंट एक लोड बैलेंसर और विभिन्न उपलब्धता क्षेत्रों में आपके इंट्रेंस कंटेनर के एक या अधिक उदाहरण रखता है। आप इस एकल समापन बिंदु के पीछे एक ही मॉडल के या तो कई संस्करण या पूरी तरह से अलग मॉडल तैनात कर सकते हैं। इस उदाहरण में, हम एक एकल मॉडल होस्ट करते हैं।
परीक्षण डेटा भेजकर अपने मॉडल समापन बिंदु को आमंत्रित करें और निष्कर्ष आउटपुट को सत्यापित करें।

निम्नलिखित अनुभागों में, हम मनोभाव विश्लेषण के लिए एक RoBERTa मॉडल को फ़ाइन-ट्यूनिंग दिखाते हैं। RoBERTa को Facebook AI द्वारा विकसित किया गया है, जो प्रमुख हाइपरपरमेटर्स को संशोधित करके और बड़े कॉर्पस पर पूर्व-प्रशिक्षण द्वारा लोकप्रिय BERT मॉडल में सुधार कर रहा है। इससे वैनिला BERT की तुलना में बेहतर प्रदर्शन होता है।

हम उपयोग ट्रान्सफ़ॉर्मर लगभग 124 मिलियन ट्वीट्स पर रोबर्टा मॉडल को पूर्व-प्रशिक्षित करने के लिए हगिंग फेस द्वारा लाइब्रेरी, और हम भावना विश्लेषण के लिए इसे ट्विटर डेटासेट पर फाइन-ट्यून करते हैं।

.. पूर्वापेक्षाएँ

सुनिश्चित करें कि आप निम्नलिखित पूर्वापेक्षाओं को पूरा करते हैं:

आपके पास है AWS खाता.
सुनिश्चित करें कि आप अंदर हैं us-west-2 इस उदाहरण को चलाने के लिए क्षेत्र। (इस उदाहरण का परीक्षण किया गया है us-west-2; हालाँकि, आप किसी अन्य क्षेत्र में दौड़ सकते हैं।)
एक भूमिका बनाएँ नाम के साथ sagemakerrole. प्रबंधित नीतियां जोड़ें AmazonSageMakerFullAccess और AmazonS3FullAccess सेजमेकर को S3 बकेट तक पहुंच प्रदान करने के लिए।
एक EC2 भूमिका बनाएँ नाम के साथ ec2_role. निम्नलिखित अनुमति नीति का प्रयोग करें:

#Refer - Make sure EC2 role has following policies
{ "Version": "2012-10-17", "Statement": [ { "Sid": "VisualEditor0", "Effect": "Allow", "Action": [ "ecr:BatchGetImage", "ecr:BatchCheckLayerAvailability", "ecr:CompleteLayerUpload", "ecr:GetDownloadUrlForLayer", "ecr:InitiateLayerUpload", "ecr:PutImage", "ecr:UploadLayerPart", "ecr:GetAuthorizationToken", "s3:*", "s3-object-lambda:*", "iam:Get*", "iam:PassRole", "sagemaker:*" ], "Resource": "*" } ]
}

1. अपना विकास उदाहरण लॉन्च करें

हम एक p4d.24xlarge उदाहरण बनाते हैं जो 8 NVIDIA A100 Tensor Core GPU प्रदान करता है us-west-2:

एएमआई का चयन करते समय, इसका पालन करें रिलीज नोट्स इस आदेश का उपयोग करने के लिए AWS कमांड लाइन इंटरफ़ेस (एडब्ल्यूएस सीएलआई) उपयोग करने के लिए एएमआई आईडी खोजने के लिए us-west-2:

#STEP 1.2 - This requires AWS CLI credentials to call ec2 describe-images api (ec2:DescribeImages).
aws ec2 describe-images --region us-west-2 --owners amazon --filters 'Name=name,Values=Deep Learning Base GPU AMI (Ubuntu 20.04) ????????' 'Name=state,Values=available' --query 'reverse(sort_by(Images, &CreationDate))[:1].ImageId' --output text

सुनिश्चित करें कि gp3 रूट वॉल्यूम का आकार 200 GiB है।

ईबीएस वॉल्यूम एन्क्रिप्शन डिफ़ॉल्ट रूप से सक्षम नहीं है। इस समाधान को उत्पादन में ले जाते समय इसे बदलने पर विचार करें।

2. डीप लर्निंग कंटेनर डाउनलोड करें

AWS DLCs डॉकर छवियों के रूप में उपलब्ध हैं अमेज़ॅन लोचदार कंटेनर रजिस्ट्री सार्वजनिक, एक प्रबंधित AWS कंटेनर छवि रजिस्ट्री सेवा जो सुरक्षित, स्केलेबल और विश्वसनीय है। प्रत्येक डॉकर छवि सीपीयू या जीपीयू समर्थन के साथ एक विशिष्ट डीप लर्निंग फ्रेमवर्क संस्करण, पायथन संस्करण पर प्रशिक्षण या अनुमान लगाने के लिए बनाई गई है। उपलब्ध सूची से PyTorch 2.0 फ्रेमवर्क का चयन करें डीप लर्निंग कंटेनर इमेज.

अपना डीएलसी डाउनलोड करने के लिए निम्नलिखित चरणों को पूरा करें:

एक। उदाहरण के लिए एसएसएच। डिफ़ॉल्ट रूप से, EC2 के साथ प्रयुक्त सुरक्षा समूह सभी के लिए SSH पोर्ट खोलता है। यदि आप इस समाधान को उत्पादन में ले जा रहे हैं तो कृपया इस पर विचार करें:

#STEP 2.1 - Use Public IP
ssh -i ~/.ssh/<pub_key> ubuntu@<IP_ADDR> #Refer - Output: Notice python3.9 package that we will use to run and install Inference scripts __| __|_ )
_| ( / Deep Learning Base GPU AMI (Ubuntu 20.04)
___|___|___| Welcome to Ubuntu 20.04.6 LTS (GNU/Linux 5.15.0-1035-aws x86_64v) * Please note that Amazon EC2 P2 Instance is not supported on current DLAMI.
* Supported EC2 instances: G3, P3, P3dn, P4d, P4de, G5, G4dn.
NVIDIA driver version: 525.85.12
Default CUDA version: 11.2 Utility libraries are installed in /usr/bin/python3.9.
To access them, use /usr/bin/python3.9.

डिफ़ॉल्ट रूप से, Amazon EC2 के साथ उपयोग किया जाने वाला सुरक्षा समूह SSH पोर्ट को सभी के लिए खोल देता है। यदि आप इस समाधान को उत्पादन में ले जा रहे हैं तो इसे बदलने पर विचार करें।

बी। इस कार्यान्वयन के शेष चरणों को चलाने के लिए आवश्यक परिवेश चर सेट करें:

#STEP 2.2
Attach the role “ec2_role” to your EC2 instance from the AWS console. #STEP 2.3
Follow the steps here to create a S3 bucket in us-west-2 region #STEP 2.4 - Set Environment variables
#Bucket created in step 2.3
export S3_BUCKET=<your-s3-bucket>
export PYTHON_V=python3.9
export SAGEMAKER_ROLE=$(aws iam get-role --role-name sagemakerrole --output text --query 'Role.Arn')
aws configure set default.region 'us-west-2'

अमेज़ॅन ईसीआर संसाधन-आधारित अनुमतियों के साथ सार्वजनिक छवि रिपॉजिटरी का समर्थन करता है AWS पहचान और अभिगम प्रबंधन (आईएएम) ताकि विशिष्ट उपयोगकर्ता या सेवाएं छवियों तक पहुंच सकें।

सी। डीएलसी रजिस्ट्री में लॉग इन करें:

#STEP 2.5 - login
aws ecr get-login-password --region us-west-2 | docker login --username AWS --password-stdin 763104351884.dkr.ecr.us-west-2.amazonaws.com #Refer - Output
Login Succeeded

डी। GPU समर्थन के साथ नवीनतम PyTorch 2.0 कंटेनर को अंदर खींचें us-west-2

#STEP 2.6 - pull the latest DLC PyTorch image
docker pull 763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-ec2 #Refer - Output
7608715873ec: Pull complete
a0bad51e1731: Pull complete
f7778ea3b9cc: Pull complete
.... Digest: sha256:1ab0d477345a11970d811cc252bc461dd70859f15caa19a65198e7941953e6b8
StaRefertus: Downloaded newer image for 763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-ec2
763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-ec2

यदि आपको "डिवाइस पर कोई स्थान नहीं बचा है" त्रुटि मिलती है, तो सुनिश्चित करें कि आप वृद्धि EC2 EBS वॉल्यूम को 200 GiB और फिर विस्तार लिनक्स फाइल सिस्टम।

3. PyTorch 2.0 के लिए अनुकूलित नवीनतम स्क्रिप्ट को क्लोन करें

निम्नलिखित कोड के साथ स्क्रिप्ट को क्लोन करें:

#STEP 3.1
cd $HOME
git clone https://github.com/aws-samples/aws-deeplearning-labs.git
cd aws-deeplearning-labs/workshop/twitter_lm/scripts/
export ml_working_dir=$PWD

क्योंकि हम नवीनतम संस्करण 4.28.1 के साथ हगिंग फेस ट्रांसफॉर्मर एपीआई का उपयोग कर रहे हैं, यह पहले से ही PyTorch 2.0 समर्थन को सक्षम कर चुका है। हमने निम्नलिखित तर्क को ट्रेनर एपीआई में जोड़ा है train_sentiment.py नई PyTorch 2.0 सुविधाओं को सक्षम करने के लिए:

मशाल संकलन - बदलाव की सिंगल लाइन के साथ एनवीडिया ए43 जीपीयू पर औसत 100% स्पीडअप का अनुभव करें।
बीएफ 16 डेटाटाइप - एम्पीयर या नए जीपीयू के लिए नया डेटा प्रकार समर्थन (ब्रेन फ़्लोटिंग पॉइंट)।
जुड़े एडम डब्ल्यू अनुकूलक - प्रशिक्षण को और तेज करने के लिए जुड़े हुए एडम डब्ल्यू कार्यान्वयन। यह स्टोकास्टिक ऑप्टिमाइज़ेशन विधि ग्रेडियेंट अपडेट से वज़न क्षय को कम करके एडम में वज़न क्षय के सामान्य कार्यान्वयन को संशोधित करती है।

#Refer - updated training config
training_args = TrainingArguments(
do_eval=True,
evaluation_strategy='epoch',
output_dir='test_trainer',
logging_dir='test_trainer',
logging_strategy='epoch',
save_strategy='epoch',
num_train_epochs=10,
learning_rate=1e-05,
# pytorch 2.0.0 specific args
torch_compile=True,
bf16=True,
optim='adamw_torch_fused',
per_device_train_batch_size=16,
per_device_eval_batch_size=16,
load_best_model_at_end=True,
metric_for_best_model='recall',
)

4. निर्भरता के साथ एक नई डॉकर छवि बनाएँ

हम हगिंग फेस ट्रांसफॉर्मर और अन्य पुस्तकालयों को स्थापित करने के लिए पूर्व-निर्मित PyTorch 2.0 DLC छवि का विस्तार करते हैं, जिन्हें हमें अपने मॉडल को ठीक करने की आवश्यकता होती है। यह आपको खरोंच से एक छवि बनाने के बिना शामिल परीक्षण और अनुकूलित गहन शिक्षण पुस्तकालयों और सेटिंग्स का उपयोग करने की अनुमति देता है। निम्नलिखित कोड देखें:

#STEP 4.1 - Create Dockerfile with following content
printf 'FROM 763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-training:2.0.0-gpu-py310-cu118-ubuntu20.04-ec2
RUN pip install scikit-learn evaluate transformers xformers ' > Dockerfile #STEP 4.2 - Build new docker file
docker build -f Dockerfile -t pytorch2.0:roberta-sentiment-analysis .

5. कंटेनर का उपयोग करके प्रशिक्षण प्रारंभ करें

मॉडल पर फ़ाइन-ट्यूनिंग शुरू करने के लिए निम्नलिखित डॉकर कमांड चलाएँ tweet_eval भावना डेटासेट। हम डॉकर कंटेनर तर्कों का उपयोग कर रहे हैं (साझा स्मृति आकार, अधिकतम लॉक मेमोरी, और ढेर आकार) एनवीडिया द्वारा सिफारिश गहन शिक्षण कार्यभार के लिए।

#STEP 5.1 - run docker container for model training
docker run --net=host --uts=host --ipc=host --shm-size=1g --ulimit stack=67108864 --ulimit memlock=-1 --gpus all -v "/home/ubuntu:/workspace" pytorch2.0:roberta-sentiment-analysis python /workspace/aws-deeplearning-labs/workshop/twitter_lm/scripts/train_sentiment.py

आपको निम्न आउटपुट की अपेक्षा करनी चाहिए। स्क्रिप्ट सबसे पहले TweetEval डेटासेट को डाउनलोड करती है, जिसमें ट्विटर में सात विषम कार्य शामिल हैं, सभी को मल्टी-क्लास ट्वीट वर्गीकरण के रूप में तैयार किया गया है। कार्यों में विडंबना, घृणा, आपत्तिजनक, रुख, इमोजी, भावना और भावना शामिल हैं।

स्क्रिप्ट तब बेस मॉडल को डाउनलोड करती है और फाइन-ट्यूनिंग प्रक्रिया शुरू करती है। प्रत्येक युग के अंत में प्रशिक्षण और मूल्यांकन मेट्रिक्स की सूचना दी जाती है।

#Refer - Output
{'loss': 0.6927, 'learning_rate': 9e-06, 'epoch': 1.0}
{'eval_loss': 0.6144512295722961, 'eval_recall': 0.7129473901625799, 'eval_runtime': 3.2694, 'eval_samples_per_second': 611.74, 'eval_steps_per_second': 4.894, 'epoch': 1.0}
{'loss': 0.5554, 'learning_rate': 8.000000000000001e-06, 'epoch': 2.0}
{'eval_loss': 0.5860999822616577, 'eval_recall': 0.7312511094156663, 'eval_runtime': 3.3918, 'eval_samples_per_second': 589.655, 'eval_steps_per_second': 4.717, 'epoch': 2.0}
{'loss': 0.5084, 'learning_rate': 7e-06, 'epoch': 3.0}
{'eval_loss': 0.6119785308837891, 'eval_recall': 0.730757638985487, 'eval_runtime': 3.592, 'eval_samples_per_second': 556.791, 'eval_steps_per_second': 4.454, 'epoch': 3.0}

प्रदर्शन आँकड़े

PyTorch 2.0 और नवीनतम हगिंग फेस ट्रांसफॉर्मर लाइब्रेरी 4.28.1 के साथ, हमने 42 A4 24GB GPU के साथ एकल p8d.100xबड़े उदाहरण पर 40% स्पीडअप देखा। प्रदर्शन में सुधार मशाल के संयोजन से आता है। संकलन, बीएफ 16 डेटा प्रकार, और जुड़े हुए एडमडब्लू अनुकूलक। निम्नलिखित कोड नई सुविधाओं के साथ और बिना दो प्रशिक्षणों का अंतिम परिणाम है:

#Refer performance statistics
wihtout torch.compile + bf16 + fused adamw:
{'eval_loss': 0.7532123327255249, 'eval_recall': 0.7315191840508296, 'eval_runtime': 3.7641, 'eval_samples_per_second': 531.341, 'eval_steps_per_second': 4.251, 'epoch': 10.0}
{'train_runtime': 1891.5635, 'train_samples_per_second': 241.15, 'train_steps_per_second': 1.887, 'train_loss': 0.4372138784713104, 'epoch': 10.0} with torch.compile + bf16 + fused adamw
{'eval_loss': 0.7548801898956299, 'eval_recall': 0.7251081080195005, 'eval_runtime': 3.5685, 'eval_samples_per_second': 560.453, 'eval_steps_per_second': 4.484, 'epoch': 10.0}
{'train_runtime': 1095.388, 'train_samples_per_second': 416.428, 'train_steps_per_second': 3.259, 'train_loss': 0.44210514314368327, 'epoch': 10.0}

6. SageMaker के अनुमान की तैयारी करने से पहले स्थानीय रूप से प्रशिक्षित मॉडल का परीक्षण करें

आप निम्न फ़ाइलों के अंतर्गत पा सकते हैं $ml_working_dir/saved_model/ प्रशिक्षण के बाद:

#Refer - model training artifacts
config.json
merges.txt
pytorch_model.bin
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.json

आइए सुनिश्चित करें कि हम सैजमेकर अनुमान की तैयारी करने से पहले स्थानीय रूप से अनुमान लगा सकते हैं। हम सहेजे गए मॉडल को लोड कर सकते हैं और स्थानीय रूप से test_trained_model.py स्क्रिप्ट:

#STEP 6.1 - run docker container for test model infernce
docker run --net=host --uts=host --ipc=host --ulimit stack=67108864 --ulimit memlock=-1 --gpus all -v "/home/ubuntu:/workspace" pytorch2.0:roberta-sentiment-analysis python /workspace/aws-deeplearning-labs/workshop/twitter_lm/scripts/test_trained_model.py

आपको "कोविड के मामले तेजी से बढ़ रहे हैं!" इनपुट के साथ निम्नलिखित आउटपुट की उम्मीद करनी चाहिए:

#Refer - Output
[{'label': 'negative', 'score': 0.854185163974762}]

7. सैजमेकर अनुमान के लिए मॉडल टारबॉल तैयार करें

उस निर्देशिका के अंतर्गत जहां मॉडल स्थित है, नामक एक नई निर्देशिका बनाएं code:

#STEP 7.1 - set permissions
cd $ml_working_dir
sudo chown ubuntu:ubuntu saved_model
cd saved_model
mkdir code

नई निर्देशिका में, फ़ाइल बनाएँ inference.py और इसमें निम्नलिखित जोड़ें:

#STEP 7.2 - write inference.py
printf 'import json
from transformers import pipeline REQUEST_CONTENT_TYPE = "application/x-text"
STR_DECODE_CODE = "utf-8"
RESULT_CLASS = "sentiment"
RESULT_SCORE = "score" def model_fn(model_dir): sentiment_analysis = pipeline( "sentiment-analysis", model=model_dir, tokenizer=model_dir, return_all_scores=True ) return sentiment_analysis def input_fn(request_body, request_content_type): if request_content_type == REQUEST_CONTENT_TYPE: input_data = request_body.decode(STR_DECODE_CODE) return input_data def predict_fn(input_data, model): return model(input_data) def output_fn(prediction, accept): class_label = None score = -1 for _pred in prediction[0]: if _pred["score"] > score: score = _pred["score"] class_label = _pred["label"] return json.dumps({RESULT_CLASS: class_label, RESULT_SCORE: score})' > code/inference.py

उसी डायरेक्टरी में एक और फाइल बनाएं जिसे कहा जाता है requirements.txt और उसमें ट्रांसफार्मर लगा दो। SageMaker में निर्भरताएँ स्थापित करता है requirements.txt आपके लिए निष्कर्ष कंटेनर में।

#STEP 7.3 - write requirements.txt
printf 'transformers' > code/requirements.txt

अंत में, आपके पास निम्न फ़ोल्डर संरचना होनी चाहिए:

#Refer - inference package folder structure
code/
code/inference.py
code/requirements.txt
config.json
merges.txt
pytorch_model.bin
special_tokens_map.json
tokenizer.json
tokenizer_config.json
vocab.json

मॉडल पैक किए जाने के लिए तैयार है और SageMaker अनुमान के साथ उपयोग के लिए Amazon S3 पर अपलोड किया गया है:

#STEP 7.4 - Create inference package tar file and upload it to S3
sudo tar -cvpzf ./personal-roberta-base-sentiment.tar.gz -C ./ .
aws s3 cp ./personal-roberta-base-sentiment.tar.gz s3://$S3_BUCKET

8. एक SageMaker AWS Graviton उदाहरण पर मॉडल को परिनियोजित करें

सीपीयू की नई पीढ़ी विशिष्ट अंतर्निहित निर्देशों के कारण एमएल अनुमान में एक महत्वपूर्ण प्रदर्शन सुधार प्रदान करती है। इस उपयोग के मामले में, हम AWS Graviton3-आधारित C7g उदाहरणों के साथ पूरी तरह से प्रबंधित होस्टिंग अवसंरचना का उपयोग करते हैं। AWS ने Torch हब ResNet50 में AWS Graviton3-आधारित EC2 C7g उदाहरणों के साथ PyTorch के अनुमान के लिए 50% तक की लागत बचत और तुलनीय EC2 उदाहरणों के सापेक्ष कई हगिंग फेस मॉडल को भी मापा है।

AWS Graviton उदाहरणों में मॉडल को तैनात करने के लिए, हम AWS DLCs का उपयोग करते हैं जो PyTorch 2.0 और TorchServe 0.8.0 के लिए समर्थन प्रदान करते हैं, या आप कर सकते हैं अपने खुद के कंटेनर लाओ जो ARMv8.2 आर्किटेक्चर के अनुकूल हैं।

हम उस मॉडल का उपयोग करते हैं जिसे हमने पहले प्रशिक्षित किया था: s3://<your-s3-bucket>/twitter-roberta-base-sentiment-latest.tar.gz. यदि आपने पहले SageMaker का उपयोग नहीं किया है, तो समीक्षा करें अमेज़ॅन सैजमेकर के साथ शुरुआत करें.

शुरू करने के लिए, सुनिश्चित करें कि सैजमेकर पैकेज अप टू डेट है:

#STEP 8.1 - Install SageMaker library
cd $ml_working_dir
$PYTHON_V -m pip install -U sagemaker

चूंकि यह एक उदाहरण है, नाम की एक फाइल बनाएं start_endpoint.py और निम्न कोड जोड़ें। यह मोड के साथ एक सैजमेकर इंट्रेंस एंडपॉइंट शुरू करने के लिए पायथन स्क्रिप्ट होगी:

#STEP 8.2 - write start_endpoint.py
printf '# Import some needed modules
from sagemaker import get_execution_role, Session, image_uris
from sagemaker.model import Model
import boto3
import os model_name = "pytorch-roberta-model" # Setup SageMaker session
region = boto3.Session().region_name
role = os.environ.get("SAGEMAKER_ROLE")
sm_client = boto3.client("sagemaker", region_name=region)
sagemaker_session = Session()
bucket = os.environ.get("S3_BUCKET") # Select container. In our case,its graviton
container_uri = image_uris.retrieve(
region="us-west-2",
framework="pytorch",
version="2.0.0",
image_scope="inference_graviton") # Set model parameters
model = Model(
image_uri=container_uri,
model_data=f"s3://{bucket}/personal-roberta-base-sentiment.tar.gz",
role=role,
name=model_name,
sagemaker_session=sagemaker_session
) # Deploy model
endpoint = model.deploy(
initial_instance_count=1,
instance_type="ml.c7g.4xlarge",
endpoint_name="sm-endpoint-" + model_name
)' > start_endpoint.py

हम उदाहरण के लिए ml.c7g.4xlarge का उपयोग कर रहे हैं और एक इमेज स्कोप के साथ PT 2.0 को पुनः प्राप्त कर रहे हैं inference_graviton. यह हमारा AWS Graviton3 उदाहरण है।

अगला, हम वह फ़ाइल बनाते हैं जो पूर्वानुमान चलाती है। हम इन्हें अलग-अलग स्क्रिप्ट के रूप में करते हैं ताकि हम भविष्यवाणियों को जितनी बार चाहें उतनी बार चला सकें। बनाएं predict.py निम्नलिखित कोड के साथ:

#STEP 8.3 - write predict.py
printf 'import boto3
from boto3 import Session, client model_name = "pytorch-roberta-model"
data = "Writing data to analyze sentiments and see how the data is viewed" sagemaker_runtime = boto3.client("sagemaker-runtime", region_name="us-west-2")
endpoint_name="sm-endpoint-" + model_name
print("Calling model:" + endpoint_name)
response = sagemaker_runtime.invoke_endpoint(
EndpointName=endpoint_name,
Body=bytes(data, "utf-8"),
ContentType="application/x-text",
)
print(response["Body"].read().decode("utf-8"))' > predict.py

तैयार की गई स्क्रिप्ट के साथ, अब हम एक एंडपॉइंट शुरू कर सकते हैं, एंडपॉइंट के खिलाफ भविष्यवाणियां कर सकते हैं, और काम पूरा होने पर सफाई कर सकते हैं:

#Step 8.4 - Start the SageMaker Inference endpoint
$PYTHON_V start_endpoint.py #Step 8.5 Do a prediction this can be run as many times as we like
$PYTHON_V predict.py #Refer - Prediction Output
Calling model:sm-endpoint-pytorch-roberta-model
{"sentiment": "neutral", "score": 0.9342969059944153}

9. साफ करें

अंत में, हम इस उदाहरण से सफाई करना चाहते हैं। Cleanup.py बनाएं और निम्न कोड जोड़ें:

#STEP 9.1 CleanUp Script
printf 'from boto3 import client model_name = "pytorch-roberta-model"
endpoint_name="sm-endpoint-" + model_name sagemaker_client = client("sagemaker", region_name="us-west-2")
sagemaker_client.delete_endpoint(EndpointName=endpoint_name)
sagemaker_client.delete_endpoint_config(EndpointConfigName=endpoint_name)
sagemaker_client.delete_model(ModelName=model_name)' > cleanup.py #Step 9.2 Cleanup
$PYTHON_V cleanup.py

निष्कर्ष

AWS DLAMI और DLC, AWS पर कम्प्यूट और ML सेवाओं के व्यापक चयन पर गहन शिक्षण कार्यभार चलाने के लिए मानक बन गए हैं। AWS ML सेवाओं पर फ्रेमवर्क-विशिष्ट DLCs का उपयोग करने के साथ, आप Amazon EC2 पर एकल फ्रेमवर्क का भी उपयोग कर सकते हैं, जो डेवलपर्स के लिए गहन शिक्षण अनुप्रयोगों को बनाने और बनाए रखने के लिए आवश्यक भारी भारोत्तोलन को हटा देता है। को देखें DLAMI के लिए रिलीज़ नोट और उपलब्ध डीप लर्निंग कंटेनर इमेज आरंभ करना।

इस पोस्ट ने AWS पर आपके अगले मॉडल को प्रशिक्षित करने और पेश करने की कई संभावनाओं में से एक को दिखाया और कई प्रारूपों पर चर्चा की जिन्हें आप अपने व्यावसायिक उद्देश्यों को पूरा करने के लिए अपना सकते हैं। इस उदाहरण को आज़माएं या अपने व्यवसाय के लिए डेटा उत्पादकता बढ़ाने के लिए हमारी अन्य AWS ML सेवाओं का उपयोग करें। हमने एक सरल भावना विश्लेषण समस्या को शामिल किया है ताकि एमएल के लिए नए ग्राहक समझ सकें कि AWS पर PyTorch 2.0 के साथ आरंभ करना कितना सरल है। हम आगामी ब्लॉग पोस्टों में अधिक उन्नत उपयोग के मामलों, मॉडलों और AWS तकनीकों को शामिल करेंगे।

लेखक के बारे में

कंवलजीत खुर्मी Amazon Web Services में प्रिंसिपल सॉल्यूशंस आर्किटेक्ट हैं। वह AWS ग्राहकों के साथ मार्गदर्शन और तकनीकी सहायता प्रदान करने के लिए काम करता है, जिससे उन्हें AWS का उपयोग करते समय उनके समाधानों के मूल्य में सुधार करने में मदद मिलती है। कंवलजीत कंटेनरीकृत और मशीन लर्निंग एप्लिकेशन के साथ ग्राहकों की मदद करने में माहिर हैं।

AWS पर PyTorch 2.0 का उपयोग करके उच्च-प्रदर्शन ML मॉडल बनाएं - भाग 1 | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ. माइक श्नाइडर फीनिक्स AZ में स्थित एक सिस्टम डेवलपर है। वह डीप लर्निंग कंटेनरों का सदस्य है, जो विभिन्न फ्रेमवर्क कंटेनर छवियों का समर्थन करता है, जिसमें ग्रेविटॉन इनफेरेंस शामिल है। वह बुनियादी ढांचे की दक्षता और स्थिरता के लिए समर्पित है।

लाइ वेई Amazon Web Services में सीनियर सॉफ्टवेयर इंजीनियर हैं। वह वितरित मॉडल प्रशिक्षण में तेजी लाने के लिए उपयोग में आसान, उच्च-प्रदर्शन और स्केलेबल डीप लर्निंग फ्रेमवर्क बनाने पर ध्यान केंद्रित कर रहा है। काम से बाहर, वह अपने परिवार के साथ समय बिताना, लंबी पैदल यात्रा और स्कीइंग करना पसंद करते हैं।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोआईस्ट्रीम। Web3 डेटा इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
मिंटिंग द फ्यूचर डब्ल्यू एड्रिएन एशले। यहां पहुंचें।
PREIPO® के साथ PRE-IPO कंपनियों में शेयर खरीदें और बेचें। यहां पहुंचें।
स्रोत: https://aws.amazon.com/blogs/machine-learning/part-1-build-high-performance-ml-models-using-pytorch-2-0-on-aws/

समय टिकट: 6 जून 2023