AWS प्रयोजन-निर्मित एक्सेलेरेटर के साथ अपने मशीन लर्निंग वर्कलोड की ऊर्जा खपत को 90% तक कम करें

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

मशीन लर्निंग (एमएल) इंजीनियरों ने पारंपरिक रूप से मॉडल प्रशिक्षण और तैनाती लागत बनाम प्रदर्शन के बीच संतुलन बनाने पर ध्यान केंद्रित किया है। तेजी से, स्थिरता (ऊर्जा दक्षता) ग्राहकों के लिए एक अतिरिक्त उद्देश्य बनता जा रहा है। यह महत्वपूर्ण है क्योंकि एमएल मॉडल को प्रशिक्षित करना और फिर पूर्वानुमान (अनुमान) लगाने के लिए प्रशिक्षित मॉडल का उपयोग करना अत्यधिक ऊर्जा-गहन कार्य हो सकता है। इसके अलावा, हमारे आस-पास अधिक से अधिक एप्लिकेशन एमएल से जुड़े हुए हैं, और हर दिन नए एमएल-संचालित अनुप्रयोगों की कल्पना की जाती है। एक लोकप्रिय उदाहरण ओपनएआई का चैटजीपीटी है, जो अत्याधुनिक बड़े भाषा मॉडल (एलएमएम) द्वारा संचालित है। संदर्भ के लिए, GPT-3, पिछली पीढ़ी का एलएलएम इसमें 175 बिलियन पैरामीटर हैं और इसके लिए हजारों त्वरित प्रोसेसर के क्लस्टर पर महीनों के नॉन-स्टॉप प्रशिक्षण की आवश्यकता होती है। कार्बनट्रैकर अध्ययन अनुमान है कि विशेष हार्डवेयर त्वरक के समूहों का उपयोग करके GPT-3 को शुरू से प्रशिक्षित करने से 85 मीट्रिक टन तक CO2 समकक्ष उत्सर्जित हो सकता है।

ऐसे कई तरीके हैं जिनसे AWS एमएल चिकित्सकों को उनके कार्यभार के पर्यावरणीय प्रभाव को कम करने में सक्षम बना रहा है। एक तरीका उपलब्ध कराना है स्थिरता के लिए आपके एआई/एमएल कार्यभार को व्यवस्थित करने के लिए निर्देशात्मक मार्गदर्शन. दूसरा तरीका प्रबंधित एमएल प्रशिक्षण और ऑर्केस्ट्रेशन सेवाएं प्रदान करना है अमेज़ॅन सैजमेकर स्टूडियो, जो उपयोग में न होने पर स्वचालित रूप से एमएल संसाधनों को तोड़ता है और बढ़ाता है, और कई आउट-ऑफ-द-बॉक्स टूलींग प्रदान करता है जो लागत और संसाधनों को बचाता है। एक अन्य प्रमुख प्रवर्तक का विकास है ऊर्जा कुशल, उच्च-प्रदर्शन, उद्देश्य-निर्मित त्वरक एमएल मॉडल के प्रशिक्षण और तैनाती के लिए।

इस पोस्ट का फोकस टिकाऊ एमएल के लिए लीवर के रूप में हार्डवेयर पर है। हम AWS द्वारा किए गए हालिया प्रदर्शन और पावर ड्रॉ प्रयोगों के परिणाम प्रस्तुत करते हैं जो ऊर्जा दक्षता लाभों की मात्रा निर्धारित करते हैं जिनकी आप अपने गहन शिक्षण कार्यभार को अन्य अनुमानों से स्थानांतरित करते समय उम्मीद कर सकते हैं- और प्रशिक्षण-अनुकूलित त्वरित अमेज़ॅन इलास्टिक कम्प्यूट क्लाउड (अमेज़ॅन EC2) के उदाहरण एडब्ल्यूएस इन्फेंटेंटिया और एडब्ल्यूएस ट्रेनियम. इनफेरेंटिया और ट्रेनियम हैं AWS ने हाल ही में उद्देश्य-निर्मित त्वरक के अपने पोर्टफोलियो में शामिल किया है विशेष रूप से अमेज़न द्वारा डिज़ाइन किया गया अन्नपूर्णा लैब्स एमएल अनुमान और प्रशिक्षण कार्यभार के लिए।

टिकाऊ एमएल के लिए एडब्ल्यूएस इनफेरेंटिया और एडब्ल्यूएस ट्रेनियम

आपको वास्तविक दुनिया के अनुप्रयोग में एडब्ल्यूएस इनफेरेंटिया और एडब्ल्यूएस ट्रेनियम की ऊर्जा बचत क्षमता की यथार्थवादी संख्या प्रदान करने के लिए, हमने कई पावर ड्रॉ बेंचमार्क प्रयोग किए हैं। हमने इन बेंचमार्क को निम्नलिखित प्रमुख मानदंडों को ध्यान में रखकर डिज़ाइन किया है:

सबसे पहले, हम यह सुनिश्चित करना चाहते थे कि हमने परीक्षण कार्यभार के कारण प्रत्यक्ष ऊर्जा खपत पर कब्जा कर लिया है, जिसमें न केवल एमएल त्वरक बल्कि गणना, मेमोरी और नेटवर्क भी शामिल है। इसलिए, हमारे परीक्षण सेटअप में, हमने उस स्तर पर पावर ड्रॉ को मापा।
दूसरा, प्रशिक्षण और अनुमान कार्यभार चलाते समय, हमने यह सुनिश्चित किया कि सभी उदाहरण अपनी-अपनी भौतिक हार्डवेयर सीमाओं पर काम कर रहे थे और तुलनीयता सुनिश्चित करने के लिए उस सीमा तक पहुंचने के बाद ही माप लिया।
अंत में, हम निश्चित होना चाहते थे कि इस पोस्ट में बताई गई ऊर्जा बचत व्यावहारिक वास्तविक दुनिया के अनुप्रयोग में हासिल की जा सकती है। इसलिए, हमने बेंचमार्किंग और परीक्षण के लिए सामान्य ग्राहक-प्रेरित एमएल उपयोग मामलों का उपयोग किया।

परिणाम निम्नलिखित अनुभागों में बताए गए हैं।

अनुमान प्रयोग: लेआउटएलएम के साथ वास्तविक समय दस्तावेज़ को समझना

प्रशिक्षण के विपरीत, अनुमान एक सतत, असीमित कार्यभार है जिसका कोई परिभाषित समापन बिंदु नहीं होता है। इसलिए यह एमएल कार्यभार के जीवनकाल संसाधन खपत का एक बड़ा हिस्सा बनाता है। पूर्ण एमएल जीवनचक्र के साथ उच्च प्रदर्शन, कम लागत और स्थिरता (बेहतर ऊर्जा दक्षता) प्राप्त करने के लिए सही अनुमान प्राप्त करना महत्वपूर्ण है। अनुमान कार्यों के साथ, ग्राहक आम तौर पर अंतर्ग्रहण मांग को पूरा करने के लिए एक निश्चित अनुमान दर प्राप्त करने में रुचि रखते हैं।

इस पोस्ट में प्रस्तुत प्रयोग वास्तविक समय दस्तावेज़ समझ के उपयोग के मामले से प्रेरित है, जो बैंकिंग या बीमा जैसे उद्योगों में एक सामान्य अनुप्रयोग है (उदाहरण के लिए, दावों या आवेदन पत्र प्रसंस्करण के लिए)। विशेष रूप से, हम चयन करते हैं लेआउट एलएम, एक पूर्व-प्रशिक्षित ट्रांसफार्मर मॉडल जिसका उपयोग दस्तावेज़ छवि प्रसंस्करण और सूचना निष्कर्षण के लिए किया जाता है। हम प्रति घंटे 1,000,000 अनुमानों का एक लक्ष्य SLA निर्धारित करते हैं, एक मान जिसे अक्सर वास्तविक समय के रूप में माना जाता है, और फिर इस आवश्यकता को पूरा करने में सक्षम दो हार्डवेयर कॉन्फ़िगरेशन निर्दिष्ट करते हैं: एक का उपयोग करना अमेज़न EC2 Inf1 के उदाहरण, जिसमें AWS Inferentia शामिल है, और एक अनुमान कार्यों के लिए अनुकूलित तुलनीय त्वरित EC2 उदाहरणों का उपयोग करता है। पूरे प्रयोग के दौरान, हम दोनों हार्डवेयर कॉन्फ़िगरेशन के अनुमान प्रदर्शन, लागत और ऊर्जा दक्षता को मापने के लिए कई संकेतकों को ट्रैक करते हैं। परिणाम निम्नलिखित चित्र में प्रस्तुत किये गये हैं।

AWS प्रयोजन-निर्मित त्वरक के साथ अपने मशीन लर्निंग वर्कलोड की ऊर्जा खपत को 90% तक कम करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

अनुमान बेंचमार्क के प्रदर्शन, लागत और ऊर्जा दक्षता परिणाम

AWS Inferentia 6.3 गुना अधिक अनुमान थ्रूपुट प्रदान करता है। परिणामस्वरूप, इनफेरेंटिया के साथ, आप समान वास्तविक समय लेआउटएलएम-आधारित दस्तावेज़ को कम उदाहरणों पर वर्कलोड को समझकर चला सकते हैं (6 एडब्ल्यूएस इनफेरेंटिया उदाहरण बनाम 33 अन्य अनुमान-अनुकूलित त्वरित ईसी2 उदाहरण, 82% कटौती के बराबर), कम उपयोग करें इस प्रक्रिया में ऊर्जा के दसवें (-92%) से भी अधिक, प्रति अनुमान काफी कम लागत प्राप्त करते हुए (2 अमेरिकी डॉलर बनाम 25 अमेरिकी डॉलर प्रति मिलियन अनुमान, 91% लागत में कमी के बराबर)।

प्रशिक्षण प्रयोग: शुरू से ही बड़े पैमाने पर प्रशिक्षण

प्रशिक्षण, अनुमान के विपरीत, एक सीमित प्रक्रिया है जिसे बहुत कम बार दोहराया जाता है। एमएल इंजीनियर आमतौर पर लागत को नियंत्रण में रखते हुए प्रशिक्षण समय को कम करने के लिए उच्च क्लस्टर प्रदर्शन में रुचि रखते हैं। ऊर्जा दक्षता एक द्वितीयक (अभी तक बढ़ती हुई) चिंता है। एडब्ल्यूएस ट्रेनियम के साथ, कोई समझौता निर्णय नहीं है: एमएल इंजीनियर लागत के अनुकूलन और पर्यावरणीय प्रभाव को कम करने के साथ-साथ उच्च प्रशिक्षण प्रदर्शन से लाभ उठा सकते हैं।

इसे स्पष्ट करने के लिए, हम चयन करते हैं बर्ट लार्ज, एक लोकप्रिय भाषा मॉडल जिसका उपयोग प्राकृतिक भाषा को समझने के उपयोग के मामलों जैसे कि चैटबॉट-आधारित प्रश्न उत्तर और संवादी प्रतिक्रिया भविष्यवाणी के लिए किया जाता है। एक अच्छे प्रदर्शन वाले BERT लार्ज मॉडल को शुरुआत से प्रशिक्षित करने के लिए आमतौर पर 450 मिलियन अनुक्रमों को संसाधित करने की आवश्यकता होती है। हम दो क्लस्टर कॉन्फ़िगरेशन की तुलना करते हैं, प्रत्येक 16 उदाहरणों के निश्चित आकार के साथ और एक दिन से भी कम समय में बीईआरटी लार्ज को स्क्रैच (450 मिलियन अनुक्रम संसाधित) से प्रशिक्षित करने में सक्षम है। पहला पारंपरिक त्वरित EC2 उदाहरणों का उपयोग करता है। दूसरा सेटअप उपयोग करता है अमेज़न EC2 Trn1 उदाहरण AWS ट्रेनियम की विशेषता। फिर, हम प्रशिक्षण प्रदर्शन, लागत और पर्यावरणीय प्रभाव (ऊर्जा दक्षता) के संदर्भ में दोनों कॉन्फ़िगरेशन को बेंचमार्क करते हैं। परिणाम निम्नलिखित चित्र में दिखाए गए हैं।

प्रशिक्षण बेंचमार्क का प्रदर्शन, लागत और ऊर्जा दक्षता परिणाम

प्रयोगों में, AWS ट्रेनियम-आधारित उदाहरणों ने प्रति घंटे संसाधित अनुक्रमों के संदर्भ में तुलनीय प्रशिक्षण-अनुकूलित त्वरित EC2 उदाहरणों को 1.7 के कारक से बेहतर प्रदर्शन किया, जिससे कुल प्रशिक्षण समय में 43% की कटौती हुई (तुलनीय त्वरित EC2.3 उदाहरणों पर 4 घंटे बनाम 2 घंटे) . परिणामस्वरूप, ट्रेनियम-आधारित इंस्टेंस क्लस्टर का उपयोग करते समय, शुरुआत से BERT लार्ज को प्रशिक्षित करने के लिए कुल ऊर्जा खपत तुलनीय त्वरित EC29 इंस्टेंसेस के समान आकार के क्लस्टर की तुलना में लगभग 2% कम है। फिर, ये प्रदर्शन और ऊर्जा दक्षता लाभ भी महत्वपूर्ण लागत सुधारों के साथ आते हैं: बीईआरटी एमएल वर्कलोड के लिए प्रशिक्षित करने की लागत ट्रेनियम उदाहरणों पर लगभग 62% कम है (प्रति पूर्ण प्रशिक्षण रन यूएसडी 787 बनाम यूएसडी 2091)।

एमएल के लिए AWS उद्देश्य-निर्मित त्वरक के साथ शुरुआत करना

यद्यपि यहां किए गए सभी प्रयोग प्राकृतिक भाषा प्रसंस्करण (एनएलपी) डोमेन से मानक मॉडल का उपयोग करते हैं, एडब्ल्यूएस इनफेरेंटिया और एडब्ल्यूएस ट्रेनियम एलएलएम और सबसे चुनौतीपूर्ण सहित कई अन्य जटिल मॉडल आर्किटेक्चर के साथ उत्कृष्टता प्राप्त करते हैं। जनरेटिव ए.आई. आर्किटेक्चर जो उपयोगकर्ता बना रहे हैं (जैसे GPT-3)। ये त्वरक विशेष रूप से 10 बिलियन से अधिक मापदंडों वाले मॉडल या स्थिर प्रसार जैसे कंप्यूटर विज़न मॉडल के साथ अच्छा प्रदर्शन करते हैं (देखें) मॉडल आर्किटेक्चर फ़िट दिशानिर्देश अधिक जानकारी के लिए)। दरअसल, हमारे कई ग्राहक पहले से ही विभिन्न प्रकार के लिए इनफेरेंटिया और ट्रेनियम का उपयोग कर रहे हैं एमएल उपयोग के मामले.

AWS Inferentia- और AWS ट्रेनियम-आधारित उदाहरणों पर अपने एंड-टू-एंड डीप लर्निंग वर्कलोड को चलाने के लिए, आप इसका उपयोग कर सकते हैं AWS न्यूरॉन. न्यूरॉन एक एंड-टू-एंड सॉफ्टवेयर डेवलपमेंट किट (एसडीके) है जिसमें एक गहन शिक्षण कंपाइलर, रनटाइम और टूल शामिल हैं जो मूल रूप से टेन्सरफ्लो और पायटोरच जैसे सबसे लोकप्रिय एमएल फ्रेमवर्क में एकीकृत हैं। आप अपने मौजूदा TensorFlow या PyTorch डीप लर्निंग ML वर्कलोड को इनफेरेंटिया और ट्रेनियम में आसानी से पोर्ट करने के लिए न्यूरॉन SDK का उपयोग कर सकते हैं और समान प्रसिद्ध ML फ्रेमवर्क का उपयोग करके नए मॉडल का निर्माण शुरू कर सकते हैं। आसान सेटअप के लिए, हमारे में से किसी एक का उपयोग करें गहन शिक्षण के लिए अमेज़ॅन मशीन इमेजेज (एएमआई)।, जो कई आवश्यक पैकेजों और निर्भरताओं के साथ आता है। और भी सरल: आप अमेज़ॅन सेजमेकर स्टूडियो का उपयोग कर सकते हैं, जो मूल रूप से इनफेरेंटिया और ट्रेनियम पर टेन्सरफ्लो और पायटोरच का समर्थन करता है (देखें) aws-नमूने GitHub रेपो एक उदाहरण के लिए)।

एक अंतिम नोट: जबकि इनफेरेंटिया और ट्रेनियम को गहन शिक्षण कार्यभार के लिए बनाया गया है, कई कम जटिल एमएल एल्गोरिदम सीपीयू-आधारित उदाहरणों पर अच्छा प्रदर्शन कर सकते हैं (उदाहरण के लिए, XGBoost और लाइटGBM और भी कुछ सी.एन.एन). इन मामलों में, की ओर पलायन एडब्ल्यूएस ग्रेविटॉन3 आपके एमएल कार्यभार के पर्यावरणीय प्रभाव को महत्वपूर्ण रूप से कम कर सकता है। AWS ग्रेविटॉन-आधारित इंस्टेंसेस तुलनीय त्वरित EC60 इंस्टेंसेस की तुलना में समान प्रदर्शन के लिए 2% कम ऊर्जा का उपयोग करते हैं।

निष्कर्ष

एक आम ग़लतफ़हमी है कि एमएल कार्यभार को टिकाऊ और ऊर्जा-कुशल तरीके से चलाने का मतलब प्रदर्शन या लागत पर त्याग करना है। मशीन लर्निंग के लिए एडब्ल्यूएस उद्देश्य-निर्मित त्वरक के साथ, एमएल इंजीनियरों को वह समझौता नहीं करना पड़ता है। इसके बजाय, वे अपने गहन शिक्षण कार्यभार को अत्यधिक विशिष्ट उद्देश्य-निर्मित गहन शिक्षण हार्डवेयर, जैसे कि AWS इनफेरेंटिया और AWS ट्रेनियम पर चला सकते हैं, जो तुलनात्मक रूप से त्वरित EC2 उदाहरण प्रकारों से बेहतर प्रदर्शन करते हैं, कम लागत, उच्च प्रदर्शन और बेहतर ऊर्जा दक्षता प्रदान करते हैं - तक 90%—सब एक ही समय में। इनफेरेंटिया और ट्रेनियम पर अपना एमएल वर्कलोड चलाना शुरू करने के लिए, देखें AWS न्यूरॉन दस्तावेज़ीकरण या इनमें से किसी एक को स्पिन करें नमूना नोटबुक. आप AWS re:Invent 2022 टॉक को भी देख सकते हैं स्थिरता और AWS सिलिकॉन (SUS206), जो इस पोस्ट में चर्चा किए गए कई विषयों को शामिल करता है।

लेखक के बारे में

कार्स्टन श्रोएर AWS में सॉल्यूशन आर्किटेक्ट हैं। वह अपने आईटी बुनियादी ढांचे की स्थिरता को बढ़ाने और डेटा-संचालित समाधान बनाने के लिए डेटा और प्रौद्योगिकी का लाभ उठाने में ग्राहकों का समर्थन करता है जो उनके संबंधित क्षेत्रों में टिकाऊ संचालन को सक्षम बनाता है। एप्लाइड मशीन लर्निंग और ऑपरेशंस मैनेजमेंट में पीएचडी की पढ़ाई के बाद कार्स्टन AWS में शामिल हुए। वह वास्तव में सामाजिक चुनौतियों के लिए प्रौद्योगिकी-सक्षम समाधानों के बारे में भावुक हैं और इन समाधानों को रेखांकित करने वाले तरीकों और अनुप्रयोग आर्किटेक्चर में गहराई से उतरना पसंद करते हैं।

कामरान खान AWS अन्नपूर्णा लैब्स में एक वरिष्ठ तकनीकी उत्पाद प्रबंधक हैं। वह अमेज़ॅन की अन्नपूर्णा लैब्स से निकलने वाले एडब्ल्यूएस उद्देश्य-निर्मित सिलिकॉन नवाचारों के रोडमैप को आकार देने के लिए एआई/एमएल ग्राहकों के साथ मिलकर काम करता है। उनका विशेष ध्यान AWS ट्रेनियम और AWS इनफेरेंटिया सहित त्वरित डीप-लर्निंग चिप्स पर है। कामरान के पास सेमीकंडक्टर उद्योग में 18 साल का अनुभव है। कामरान के पास डेवलपर्स को उनके एमएल लक्ष्य हासिल करने में मदद करने का एक दशक से अधिक का अनुभव है।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
ईवीएम वित्त। विकेंद्रीकृत वित्त के लिए एकीकृत इंटरफ़ेस। यहां पहुंचें।
क्वांटम मीडिया समूह। आईआर/पीआर प्रवर्धित। यहां पहुंचें।
प्लेटोआईस्ट्रीम। Web3 डेटा इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
स्रोत: https://aws.amazon.com/blogs/machine-learning/reduce-energy-consumption-of-your-machine-learning-workloads-by-up-to-90-with-aws-purpose-built-accelerators/

समय टिकट: 20 जून 2023

समय टिकट: नवम्बर 9, 2022

AWS उद्देश्य से निर्मित त्वरक के साथ अपने मशीन लर्निंग वर्कलोड की ऊर्जा खपत को 90% तक कम करें | अमेज़न वेब सेवाएँ

प्लेटो द्वारा पुनर्प्रकाशित

टिकाऊ एमएल के लिए एडब्ल्यूएस इनफेरेंटिया और एडब्ल्यूएस ट्रेनियम

अनुमान प्रयोग: लेआउटएलएम के साथ वास्तविक समय दस्तावेज़ को समझना

प्रशिक्षण प्रयोग: शुरू से ही बड़े पैमाने पर प्रशिक्षण

एमएल के लिए AWS उद्देश्य-निर्मित त्वरक के साथ शुरुआत करना

निष्कर्ष

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

भाग 4: कैसे नेटवेस्ट ग्रुप ने एमएल मॉडल को अमेज़ॅन सेजमेकर आर्किटेक्चर में माइग्रेट किया

अमेज़ॅन सेजमेकर जम्पस्टार्ट पर कोड लामा को फाइन-ट्यून करें | अमेज़न वेब सेवाएँ

सेजमेकर डेटा रैंगलर का उपयोग करके मशीन लर्निंग के लिए लागत प्रभावी डेटा तैयार करना

उपयोगकर्ता वैक्टर के साथ अमेज़ॅन रिकॉग्निशन फेस सर्च की सटीकता में सुधार करें | अमेज़न वेब सेवाएँ

TensorFlow और Amazon SageMaker के साथ टेराबाइट्स डेटा पर एक अरब-पैरामीटर भाषा मॉडल बनाएं, प्रशिक्षित करें और तैनात करें

Amazon SageMaker और Triton Inference Server के साथ कई मॉडल परोसें

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा