AWS उद्देश्य से निर्मित त्वरक के साथ अपने मशीन लर्निंग वर्कलोड की ऊर्जा खपत को 90% तक कम करें | अमेज़न वेब सेवाएँ

AWS उद्देश्य से निर्मित त्वरक के साथ अपने मशीन लर्निंग वर्कलोड की ऊर्जा खपत को 90% तक कम करें | अमेज़न वेब सेवाएँ

मशीन लर्निंग (एमएल) इंजीनियरों ने पारंपरिक रूप से मॉडल प्रशिक्षण और तैनाती लागत बनाम प्रदर्शन के बीच संतुलन बनाने पर ध्यान केंद्रित किया है। तेजी से, स्थिरता (ऊर्जा दक्षता) ग्राहकों के लिए एक अतिरिक्त उद्देश्य बनता जा रहा है। यह महत्वपूर्ण है क्योंकि एमएल मॉडल को प्रशिक्षित करना और फिर पूर्वानुमान (अनुमान) लगाने के लिए प्रशिक्षित मॉडल का उपयोग करना अत्यधिक ऊर्जा-गहन कार्य हो सकता है। इसके अलावा, हमारे आस-पास अधिक से अधिक एप्लिकेशन एमएल से जुड़े हुए हैं, और हर दिन नए एमएल-संचालित अनुप्रयोगों की कल्पना की जाती है। एक लोकप्रिय उदाहरण ओपनएआई का चैटजीपीटी है, जो अत्याधुनिक बड़े भाषा मॉडल (एलएमएम) द्वारा संचालित है। संदर्भ के लिए, GPT-3, पिछली पीढ़ी का एलएलएम इसमें 175 बिलियन पैरामीटर हैं और इसके लिए हजारों त्वरित प्रोसेसर के क्लस्टर पर महीनों के नॉन-स्टॉप प्रशिक्षण की आवश्यकता होती है। कार्बनट्रैकर अध्ययन अनुमान है कि विशेष हार्डवेयर त्वरक के समूहों का उपयोग करके GPT-3 को शुरू से प्रशिक्षित करने से 85 मीट्रिक टन तक CO2 समकक्ष उत्सर्जित हो सकता है।

ऐसे कई तरीके हैं जिनसे AWS एमएल चिकित्सकों को उनके कार्यभार के पर्यावरणीय प्रभाव को कम करने में सक्षम बना रहा है। एक तरीका उपलब्ध कराना है स्थिरता के लिए आपके एआई/एमएल कार्यभार को व्यवस्थित करने के लिए निर्देशात्मक मार्गदर्शन. दूसरा तरीका प्रबंधित एमएल प्रशिक्षण और ऑर्केस्ट्रेशन सेवाएं प्रदान करना है अमेज़ॅन सैजमेकर स्टूडियो, जो उपयोग में न होने पर स्वचालित रूप से एमएल संसाधनों को तोड़ता है और बढ़ाता है, और कई आउट-ऑफ-द-बॉक्स टूलींग प्रदान करता है जो लागत और संसाधनों को बचाता है। एक अन्य प्रमुख प्रवर्तक का विकास है ऊर्जा कुशल, उच्च-प्रदर्शन, उद्देश्य-निर्मित त्वरक एमएल मॉडल के प्रशिक्षण और तैनाती के लिए।

इस पोस्ट का फोकस टिकाऊ एमएल के लिए लीवर के रूप में हार्डवेयर पर है। हम AWS द्वारा किए गए हालिया प्रदर्शन और पावर ड्रॉ प्रयोगों के परिणाम प्रस्तुत करते हैं जो ऊर्जा दक्षता लाभों की मात्रा निर्धारित करते हैं जिनकी आप अपने गहन शिक्षण कार्यभार को अन्य अनुमानों से स्थानांतरित करते समय उम्मीद कर सकते हैं- और प्रशिक्षण-अनुकूलित त्वरित अमेज़ॅन इलास्टिक कम्प्यूट क्लाउड (अमेज़ॅन EC2) के उदाहरण एडब्ल्यूएस इन्फेंटेंटिया और एडब्ल्यूएस ट्रेनियम. इनफेरेंटिया और ट्रेनियम हैं AWS ने हाल ही में उद्देश्य-निर्मित त्वरक के अपने पोर्टफोलियो में शामिल किया है विशेष रूप से अमेज़न द्वारा डिज़ाइन किया गया अन्नपूर्णा लैब्स एमएल अनुमान और प्रशिक्षण कार्यभार के लिए।

टिकाऊ एमएल के लिए एडब्ल्यूएस इनफेरेंटिया और एडब्ल्यूएस ट्रेनियम

आपको वास्तविक दुनिया के अनुप्रयोग में एडब्ल्यूएस इनफेरेंटिया और एडब्ल्यूएस ट्रेनियम की ऊर्जा बचत क्षमता की यथार्थवादी संख्या प्रदान करने के लिए, हमने कई पावर ड्रॉ बेंचमार्क प्रयोग किए हैं। हमने इन बेंचमार्क को निम्नलिखित प्रमुख मानदंडों को ध्यान में रखकर डिज़ाइन किया है:

  • सबसे पहले, हम यह सुनिश्चित करना चाहते थे कि हमने परीक्षण कार्यभार के कारण प्रत्यक्ष ऊर्जा खपत पर कब्जा कर लिया है, जिसमें न केवल एमएल त्वरक बल्कि गणना, मेमोरी और नेटवर्क भी शामिल है। इसलिए, हमारे परीक्षण सेटअप में, हमने उस स्तर पर पावर ड्रॉ को मापा।
  • दूसरा, प्रशिक्षण और अनुमान कार्यभार चलाते समय, हमने यह सुनिश्चित किया कि सभी उदाहरण अपनी-अपनी भौतिक हार्डवेयर सीमाओं पर काम कर रहे थे और तुलनीयता सुनिश्चित करने के लिए उस सीमा तक पहुंचने के बाद ही माप लिया।
  • अंत में, हम निश्चित होना चाहते थे कि इस पोस्ट में बताई गई ऊर्जा बचत व्यावहारिक वास्तविक दुनिया के अनुप्रयोग में हासिल की जा सकती है। इसलिए, हमने बेंचमार्किंग और परीक्षण के लिए सामान्य ग्राहक-प्रेरित एमएल उपयोग मामलों का उपयोग किया।

परिणाम निम्नलिखित अनुभागों में बताए गए हैं।

अनुमान प्रयोग: लेआउटएलएम के साथ वास्तविक समय दस्तावेज़ को समझना

प्रशिक्षण के विपरीत, अनुमान एक सतत, असीमित कार्यभार है जिसका कोई परिभाषित समापन बिंदु नहीं होता है। इसलिए यह एमएल कार्यभार के जीवनकाल संसाधन खपत का एक बड़ा हिस्सा बनाता है। पूर्ण एमएल जीवनचक्र के साथ उच्च प्रदर्शन, कम लागत और स्थिरता (बेहतर ऊर्जा दक्षता) प्राप्त करने के लिए सही अनुमान प्राप्त करना महत्वपूर्ण है। अनुमान कार्यों के साथ, ग्राहक आम तौर पर अंतर्ग्रहण मांग को पूरा करने के लिए एक निश्चित अनुमान दर प्राप्त करने में रुचि रखते हैं।

इस पोस्ट में प्रस्तुत प्रयोग वास्तविक समय दस्तावेज़ समझ के उपयोग के मामले से प्रेरित है, जो बैंकिंग या बीमा जैसे उद्योगों में एक सामान्य अनुप्रयोग है (उदाहरण के लिए, दावों या आवेदन पत्र प्रसंस्करण के लिए)। विशेष रूप से, हम चयन करते हैं लेआउट एलएम, एक पूर्व-प्रशिक्षित ट्रांसफार्मर मॉडल जिसका उपयोग दस्तावेज़ छवि प्रसंस्करण और सूचना निष्कर्षण के लिए किया जाता है। हम प्रति घंटे 1,000,000 अनुमानों का एक लक्ष्य SLA निर्धारित करते हैं, एक मान जिसे अक्सर वास्तविक समय के रूप में माना जाता है, और फिर इस आवश्यकता को पूरा करने में सक्षम दो हार्डवेयर कॉन्फ़िगरेशन निर्दिष्ट करते हैं: एक का उपयोग करना अमेज़न EC2 Inf1 के उदाहरण, जिसमें AWS Inferentia शामिल है, और एक अनुमान कार्यों के लिए अनुकूलित तुलनीय त्वरित EC2 उदाहरणों का उपयोग करता है। पूरे प्रयोग के दौरान, हम दोनों हार्डवेयर कॉन्फ़िगरेशन के अनुमान प्रदर्शन, लागत और ऊर्जा दक्षता को मापने के लिए कई संकेतकों को ट्रैक करते हैं। परिणाम निम्नलिखित चित्र में प्रस्तुत किये गये हैं।

AWS प्रयोजन-निर्मित त्वरक के साथ अपने मशीन लर्निंग वर्कलोड की ऊर्जा खपत को 90% तक कम करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

अनुमान बेंचमार्क के प्रदर्शन, लागत और ऊर्जा दक्षता परिणाम

AWS Inferentia 6.3 गुना अधिक अनुमान थ्रूपुट प्रदान करता है। परिणामस्वरूप, इनफेरेंटिया के साथ, आप समान वास्तविक समय लेआउटएलएम-आधारित दस्तावेज़ को कम उदाहरणों पर वर्कलोड को समझकर चला सकते हैं (6 एडब्ल्यूएस इनफेरेंटिया उदाहरण बनाम 33 अन्य अनुमान-अनुकूलित त्वरित ईसी2 उदाहरण, 82% कटौती के बराबर), कम उपयोग करें इस प्रक्रिया में ऊर्जा के दसवें (-92%) से भी अधिक, प्रति अनुमान काफी कम लागत प्राप्त करते हुए (2 अमेरिकी डॉलर बनाम 25 अमेरिकी डॉलर प्रति मिलियन अनुमान, 91% लागत में कमी के बराबर)।

प्रशिक्षण प्रयोग: शुरू से ही बड़े पैमाने पर प्रशिक्षण

प्रशिक्षण, अनुमान के विपरीत, एक सीमित प्रक्रिया है जिसे बहुत कम बार दोहराया जाता है। एमएल इंजीनियर आमतौर पर लागत को नियंत्रण में रखते हुए प्रशिक्षण समय को कम करने के लिए उच्च क्लस्टर प्रदर्शन में रुचि रखते हैं। ऊर्जा दक्षता एक द्वितीयक (अभी तक बढ़ती हुई) चिंता है। एडब्ल्यूएस ट्रेनियम के साथ, कोई समझौता निर्णय नहीं है: एमएल इंजीनियर लागत के अनुकूलन और पर्यावरणीय प्रभाव को कम करने के साथ-साथ उच्च प्रशिक्षण प्रदर्शन से लाभ उठा सकते हैं।

इसे स्पष्ट करने के लिए, हम चयन करते हैं बर्ट लार्ज, एक लोकप्रिय भाषा मॉडल जिसका उपयोग प्राकृतिक भाषा को समझने के उपयोग के मामलों जैसे कि चैटबॉट-आधारित प्रश्न उत्तर और संवादी प्रतिक्रिया भविष्यवाणी के लिए किया जाता है। एक अच्छे प्रदर्शन वाले BERT लार्ज मॉडल को शुरुआत से प्रशिक्षित करने के लिए आमतौर पर 450 मिलियन अनुक्रमों को संसाधित करने की आवश्यकता होती है। हम दो क्लस्टर कॉन्फ़िगरेशन की तुलना करते हैं, प्रत्येक 16 उदाहरणों के निश्चित आकार के साथ और एक दिन से भी कम समय में बीईआरटी लार्ज को स्क्रैच (450 मिलियन अनुक्रम संसाधित) से प्रशिक्षित करने में सक्षम है। पहला पारंपरिक त्वरित EC2 उदाहरणों का उपयोग करता है। दूसरा सेटअप उपयोग करता है अमेज़न EC2 Trn1 उदाहरण AWS ट्रेनियम की विशेषता। फिर, हम प्रशिक्षण प्रदर्शन, लागत और पर्यावरणीय प्रभाव (ऊर्जा दक्षता) के संदर्भ में दोनों कॉन्फ़िगरेशन को बेंचमार्क करते हैं। परिणाम निम्नलिखित चित्र में दिखाए गए हैं।

AWS प्रयोजन-निर्मित त्वरक के साथ अपने मशीन लर्निंग वर्कलोड की ऊर्जा खपत को 90% तक कम करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.

प्रशिक्षण बेंचमार्क का प्रदर्शन, लागत और ऊर्जा दक्षता परिणाम

प्रयोगों में, AWS ट्रेनियम-आधारित उदाहरणों ने प्रति घंटे संसाधित अनुक्रमों के संदर्भ में तुलनीय प्रशिक्षण-अनुकूलित त्वरित EC2 उदाहरणों को 1.7 के कारक से बेहतर प्रदर्शन किया, जिससे कुल प्रशिक्षण समय में 43% की कटौती हुई (तुलनीय त्वरित EC2.3 उदाहरणों पर 4 घंटे बनाम 2 घंटे) . परिणामस्वरूप, ट्रेनियम-आधारित इंस्टेंस क्लस्टर का उपयोग करते समय, शुरुआत से BERT लार्ज को प्रशिक्षित करने के लिए कुल ऊर्जा खपत तुलनीय त्वरित EC29 इंस्टेंसेस के समान आकार के क्लस्टर की तुलना में लगभग 2% कम है। फिर, ये प्रदर्शन और ऊर्जा दक्षता लाभ भी महत्वपूर्ण लागत सुधारों के साथ आते हैं: बीईआरटी एमएल वर्कलोड के लिए प्रशिक्षित करने की लागत ट्रेनियम उदाहरणों पर लगभग 62% कम है (प्रति पूर्ण प्रशिक्षण रन यूएसडी 787 बनाम यूएसडी 2091)।

एमएल के लिए AWS उद्देश्य-निर्मित त्वरक के साथ शुरुआत करना

यद्यपि यहां किए गए सभी प्रयोग प्राकृतिक भाषा प्रसंस्करण (एनएलपी) डोमेन से मानक मॉडल का उपयोग करते हैं, एडब्ल्यूएस इनफेरेंटिया और एडब्ल्यूएस ट्रेनियम एलएलएम और सबसे चुनौतीपूर्ण सहित कई अन्य जटिल मॉडल आर्किटेक्चर के साथ उत्कृष्टता प्राप्त करते हैं। जनरेटिव ए.आई. आर्किटेक्चर जो उपयोगकर्ता बना रहे हैं (जैसे GPT-3)। ये त्वरक विशेष रूप से 10 बिलियन से अधिक मापदंडों वाले मॉडल या स्थिर प्रसार जैसे कंप्यूटर विज़न मॉडल के साथ अच्छा प्रदर्शन करते हैं (देखें) मॉडल आर्किटेक्चर फ़िट दिशानिर्देश अधिक जानकारी के लिए)। दरअसल, हमारे कई ग्राहक पहले से ही विभिन्न प्रकार के लिए इनफेरेंटिया और ट्रेनियम का उपयोग कर रहे हैं एमएल उपयोग के मामले.

AWS Inferentia- और AWS ट्रेनियम-आधारित उदाहरणों पर अपने एंड-टू-एंड डीप लर्निंग वर्कलोड को चलाने के लिए, आप इसका उपयोग कर सकते हैं AWS न्यूरॉन. न्यूरॉन एक एंड-टू-एंड सॉफ्टवेयर डेवलपमेंट किट (एसडीके) है जिसमें एक गहन शिक्षण कंपाइलर, रनटाइम और टूल शामिल हैं जो मूल रूप से टेन्सरफ्लो और पायटोरच जैसे सबसे लोकप्रिय एमएल फ्रेमवर्क में एकीकृत हैं। आप अपने मौजूदा TensorFlow या PyTorch डीप लर्निंग ML वर्कलोड को इनफेरेंटिया और ट्रेनियम में आसानी से पोर्ट करने के लिए न्यूरॉन SDK का उपयोग कर सकते हैं और समान प्रसिद्ध ML फ्रेमवर्क का उपयोग करके नए मॉडल का निर्माण शुरू कर सकते हैं। आसान सेटअप के लिए, हमारे में से किसी एक का उपयोग करें गहन शिक्षण के लिए अमेज़ॅन मशीन इमेजेज (एएमआई)।, जो कई आवश्यक पैकेजों और निर्भरताओं के साथ आता है। और भी सरल: आप अमेज़ॅन सेजमेकर स्टूडियो का उपयोग कर सकते हैं, जो मूल रूप से इनफेरेंटिया और ट्रेनियम पर टेन्सरफ्लो और पायटोरच का समर्थन करता है (देखें) aws-नमूने GitHub रेपो एक उदाहरण के लिए)।

एक अंतिम नोट: जबकि इनफेरेंटिया और ट्रेनियम को गहन शिक्षण कार्यभार के लिए बनाया गया है, कई कम जटिल एमएल एल्गोरिदम सीपीयू-आधारित उदाहरणों पर अच्छा प्रदर्शन कर सकते हैं (उदाहरण के लिए, XGBoost और लाइटGBM और भी कुछ सी.एन.एन). इन मामलों में, की ओर पलायन एडब्ल्यूएस ग्रेविटॉन3 आपके एमएल कार्यभार के पर्यावरणीय प्रभाव को महत्वपूर्ण रूप से कम कर सकता है। AWS ग्रेविटॉन-आधारित इंस्टेंसेस तुलनीय त्वरित EC60 इंस्टेंसेस की तुलना में समान प्रदर्शन के लिए 2% कम ऊर्जा का उपयोग करते हैं।

निष्कर्ष

एक आम ग़लतफ़हमी है कि एमएल कार्यभार को टिकाऊ और ऊर्जा-कुशल तरीके से चलाने का मतलब प्रदर्शन या लागत पर त्याग करना है। मशीन लर्निंग के लिए एडब्ल्यूएस उद्देश्य-निर्मित त्वरक के साथ, एमएल इंजीनियरों को वह समझौता नहीं करना पड़ता है। इसके बजाय, वे अपने गहन शिक्षण कार्यभार को अत्यधिक विशिष्ट उद्देश्य-निर्मित गहन शिक्षण हार्डवेयर, जैसे कि AWS इनफेरेंटिया और AWS ट्रेनियम पर चला सकते हैं, जो तुलनात्मक रूप से त्वरित EC2 उदाहरण प्रकारों से बेहतर प्रदर्शन करते हैं, कम लागत, उच्च प्रदर्शन और बेहतर ऊर्जा दक्षता प्रदान करते हैं - तक 90%—सब एक ही समय में। इनफेरेंटिया और ट्रेनियम पर अपना एमएल वर्कलोड चलाना शुरू करने के लिए, देखें AWS न्यूरॉन दस्तावेज़ीकरण या इनमें से किसी एक को स्पिन करें नमूना नोटबुक. आप AWS re:Invent 2022 टॉक को भी देख सकते हैं स्थिरता और AWS सिलिकॉन (SUS206), जो इस पोस्ट में चर्चा किए गए कई विषयों को शामिल करता है।


लेखक के बारे में

AWS प्रयोजन-निर्मित त्वरक के साथ अपने मशीन लर्निंग वर्कलोड की ऊर्जा खपत को 90% तक कम करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.कार्स्टन श्रोएर AWS में सॉल्यूशन आर्किटेक्ट हैं। वह अपने आईटी बुनियादी ढांचे की स्थिरता को बढ़ाने और डेटा-संचालित समाधान बनाने के लिए डेटा और प्रौद्योगिकी का लाभ उठाने में ग्राहकों का समर्थन करता है जो उनके संबंधित क्षेत्रों में टिकाऊ संचालन को सक्षम बनाता है। एप्लाइड मशीन लर्निंग और ऑपरेशंस मैनेजमेंट में पीएचडी की पढ़ाई के बाद कार्स्टन AWS में शामिल हुए। वह वास्तव में सामाजिक चुनौतियों के लिए प्रौद्योगिकी-सक्षम समाधानों के बारे में भावुक हैं और इन समाधानों को रेखांकित करने वाले तरीकों और अनुप्रयोग आर्किटेक्चर में गहराई से उतरना पसंद करते हैं।

AWS प्रयोजन-निर्मित त्वरक के साथ अपने मशीन लर्निंग वर्कलोड की ऊर्जा खपत को 90% तक कम करें | अमेज़ॅन वेब सेवाएँ प्लेटोब्लॉकचेन डेटा इंटेलिजेंस। लंबवत खोज. ऐ.कामरान खान AWS अन्नपूर्णा लैब्स में एक वरिष्ठ तकनीकी उत्पाद प्रबंधक हैं। वह अमेज़ॅन की अन्नपूर्णा लैब्स से निकलने वाले एडब्ल्यूएस उद्देश्य-निर्मित सिलिकॉन नवाचारों के रोडमैप को आकार देने के लिए एआई/एमएल ग्राहकों के साथ मिलकर काम करता है। उनका विशेष ध्यान AWS ट्रेनियम और AWS इनफेरेंटिया सहित त्वरित डीप-लर्निंग चिप्स पर है। कामरान के पास सेमीकंडक्टर उद्योग में 18 साल का अनुभव है। कामरान के पास डेवलपर्स को उनके एमएल लक्ष्य हासिल करने में मदद करने का एक दशक से अधिक का अनुभव है।

समय टिकट:

से अधिक AWS मशीन लर्निंग

अमेज़ॅन सैजमेकर खर्च का विश्लेषण करें और उपयोग के आधार पर लागत अनुकूलन अवसरों का निर्धारण करें, भाग 3: प्रसंस्करण और डेटा रैंगलर नौकरियां | अमेज़न वेब सेवाएँ

स्रोत नोड: 1843425
समय टिकट: 30 मई 2023