दशकों से, अमेज़ॅन ने मशीन लर्निंग (एमएल) में अग्रणी और नवप्रवर्तन किया है, जो अपने ग्राहकों के लिए आनंददायक अनुभव लेकर आया है। शुरुआती दिनों से, अमेज़ॅन ने पुस्तक अनुशंसाओं, खोज और धोखाधड़ी का पता लगाने जैसे विभिन्न उपयोग के मामलों के लिए एमएल का उपयोग किया है। उद्योग के बाकी हिस्सों की तरह, त्वरित हार्डवेयर की प्रगति ने अमेज़ॅन टीमों को तंत्रिका नेटवर्क और गहन शिक्षण (डीएल) का उपयोग करके मॉडल आर्किटेक्चर को आगे बढ़ाने की अनुमति दी है।
अमेज़ॅन सर्च के भीतर एम5 प्रोग्राम अमेज़ॅन के लिए खोज सीखने की रणनीति का मालिक है और बहुभाषी, बहु-स्थानीय, बहु-इकाई, मल्टीटास्क और मल्टी-मोडल जैसे टेक्स्ट, छवि और वीडियो में बड़े पैमाने पर मॉडल बनाता है। एम5 कार्यक्रम लागत अनुकूलन पर सख्त नियंत्रण बनाए रखते हुए अमेज़ॅन में सैकड़ों एमएल टीमों को सार्वभौमिक एम्बेडिंग और बड़े पैमाने पर फाउंडेशन मॉडल की सेवा दे रहा है। इसे प्राप्त करने के लिए, M5 टीम लागत कम करने के लिए नियमित रूप से नई तकनीकों का मूल्यांकन करती है।
कई एमएल संगठनों की तरह, त्वरक का उपयोग बड़े पैमाने पर डीएल प्रशिक्षण और अनुमान में तेजी लाने के लिए किया जाता है। जब AWS ने पहली रिलीज़ के साथ उद्देश्य-निर्मित त्वरक लॉन्च किया एडब्ल्यूएस इन्फेंटेंटिया 2020 में, M5 टीम ने तेजी से शुरुआत की उत्पादन कार्यभार को अधिक कुशलतापूर्वक तैनात करने के लिए उनका उपयोग करें, लागत दोनों बचती है और विलंबता कम होती है। पिछले साल AWS ने इसे लॉन्च किया था एडब्ल्यूएस ट्रेनियम त्वरक, जो अगली पीढ़ी के डीएल मॉडल के विकास और निर्माण के लिए प्रति लागत प्रदर्शन को अनुकूलित करते हैं। इस पोस्ट में, हम चर्चा करते हैं कि कैसे M5 अपने मॉडलों को प्रशिक्षित करने की लागत को 30% तक कम करने में सक्षम था, और इस दौरान सीखी गई कुछ सर्वोत्तम प्रथाओं को साझा करते हैं।
ट्रेनियम उदाहरण
उद्देश्य-निर्मित त्वरक में प्रगति के साथ, अमेज़ॅन एडब्ल्यूएस इनफेरेंटिया और ट्रेनियम के रूप में आकर्षक त्वरक भी प्रदान करता है। जैसा कि उनके नाम से पता चलता है, इन चिप्स को क्रमशः अनुमान और प्रशिक्षण कार्यभार की आवश्यकताओं से अधिक करने के लिए अनुकूलित किया गया है। आकार में अरबों मापदंडों तक पहुंचने वाले फाउंडेशन मॉडल के बड़े पैमाने पर प्रशिक्षण के लिए, ट्रेनियम Trn1 और Trn1n उदाहरण अपनी विशेषताओं के कारण आदर्श विकल्प हैं। Trn1 इंस्टेंसेस अत्याधुनिक द्वारा संचालित हैं न्यूरॉनकोर-v2, और त्वरक गणना और मेमोरी की प्रचुर मात्रा है। Trn1n उदाहरणों को अधिक मात्रा में नेटवर्किंग बैंडविड्थ (1,600 जीबी) के लिए भी चुना जा सकता है, इसलिए लागत अनुकूलन को ध्यान में रखते हुए प्रदर्शन प्रशिक्षण के लिए आदर्श रूप से उपयुक्त हैं।
त्वरक का उपयोग करने के लिए, आपको उनका समर्थन करने के लिए एक सॉफ़्टवेयर परत की आवश्यकता होती है। Trn और Inf चिप्स के साथ, एडब्ल्यूएस न्यूरॉन एसडीके PyTorch XLA की मदद से Amazon उद्देश्य-निर्मित एक्सेलेरेटर को अनलॉक करता है। PyTorch XLA, PyTorch के उत्सुक मोड को आलसी मोड ग्राफ-आधारित कार्यान्वयन में परिवर्तित करता है। फिर इन ग्राफ़ों का उपयोग किया जाता है और त्वरक के साथ उपयोग करने के लिए इन्हें संकलित किया जाता है। PyTorch न्यूरॉन (न्यूरॉन SDK का हिस्सा) PyTorch उपयोगकर्ताओं को कोड की कुछ पंक्तियों के साथ ट्रेनियम न्यूरॉनकोर्स पर अपने मॉडल को प्रशिक्षित करने में सक्षम बनाता है।
मॉडल और कार्यभार
एम5 टीम अमेज़ॅन में विभिन्न टीमों को खुशी प्रदान करने में सहायता करने के लिए बुनियादी मॉडल और सार्वभौमिक प्रतिनिधित्व को प्रशिक्षित और तैनात करती है Amazon.com ग्राहक. ऐसा ही एक मॉडल एक टेक्स्ट एनकोडर मॉडल है, जिसके बाद मल्टी-लेयर परसेप्ट्रॉन (एमएलपी) होता है, जिसमें तंत्रिका नेटवर्क आर्किटेक्चर द्वारा सैकड़ों लाखों प्रशिक्षित मापदंडों के साथ परिभाषित स्पष्ट या अंतर्निहित फीचर इंटरैक्शन होते हैं। इस मॉडल को अरबों टोकन पर प्रशिक्षित किया गया है, और इसका उपयोग ऑफ़लाइन बैच अनुमान सेटिंग में लाखों एम्बेडिंग उत्पन्न करने के लिए किया जाता है। ये एम्बेडिंग ग्राहक-सामना वाली टियर-1 अमेज़ॅन सेवा के इनपुट हैं।
उत्पादन पाइपलाइन के लिए बुनियादी ढांचे का उपयोग करता है AWS बैच साथ में उचित शेयर कतारबद्ध रणनीतियाँमॉडल प्रशिक्षण के लिए गणना के रूप में EFA-सक्षम मल्टी-नोड trn1.32xlarge क्लस्टर का उपयोग करना। कार्यात्मक रूप से, उत्पादन पाइपलाइन वृद्धिशील मॉडल प्रशिक्षण, प्रशिक्षित मॉडल का मूल्यांकन, और प्रशिक्षित मॉडल पर ऑफ़लाइन बैच अनुमान, सभी अंतर्निहित डीएल लाइब्रेरी के रूप में PyTorch का उपयोग करती है।
लक्ष्यों
अपने ग्राहकों को प्रसन्न करना सबसे महत्वपूर्ण सिद्धांत है। पाइपलाइन की ग्राहक-सामना वाली प्रकृति को देखते हुए, यह महत्वपूर्ण है कि सभी सेवा-स्तरीय समझौते (एसएलए) बिना किसी रुकावट के पूरे किए जाएं। हमने अपनी मौजूदा जीपीयू उत्पादन पाइपलाइन को अनुकूलित करने और इसे ट्रेनियम में परिवर्तित करने के लिए दो महत्वपूर्ण स्वीकृति मानदंडों की पहचान की है:
- मॉडल की गुणवत्ता - हमारे मॉडलों की गुणवत्ता सीधे ग्राहक अनुभव को प्रभावित करती है। हमें आवश्यकता है कि GPU और ट्रेनियम के बीच मॉडल गुणवत्ता में 0.1% से कम अंतर होना चाहिए।
- प्रशिक्षण थ्रूपुट - हम अपने ग्राहकों को सबसे ताज़ा अनुभव प्रदान करने के लिए समय-समय पर अपने मॉडलों को प्रशिक्षित करते हैं। हमें आवश्यकता है कि हमारे उत्पादन एसएलए को पूरा करने के लिए मॉडल अभिसरण को पूर्वनिर्धारित समयावधि (जैसे 1 सप्ताह) के भीतर हासिल किया जाना चाहिए।
निम्नलिखित अनुभागों में, हम इस मानदंड से पीछे काम करने की अपनी यात्रा और अमेज़ॅन-स्केल उत्पादन वर्कलोड का समर्थन करने के लिए अपनी सीख साझा करते हैं।
प्रशिक्षण लिपि
मॉडल प्रशिक्षण शुरू करने से पहले, हमें इसे XLA अनुरूप बनाने के लिए प्रशिक्षण स्क्रिप्ट में बदलाव करने की आवश्यकता है। मॉडल के आकार को देखते हुए, हम मॉडल को प्रशिक्षित करने के लिए वितरित डेटा समानांतर (डीडीपी) का उपयोग करते हैं। डीडीपी हमें बिना किसी कोड परिवर्तन के मॉडल प्रशिक्षण चलाने के लिए उपयोग की जाने वाली मशीनों की संख्या को बढ़ाकर मॉडल प्रशिक्षण के थ्रूपुट को बढ़ाने की अनुमति देता है। हमने इसमें दिए गए निर्देशों का पालन किया न्यूरॉन पायटोरच एमएलपी प्रशिक्षण ट्यूटोरियल हमारी प्रशिक्षण स्क्रिप्ट में XLA-विशिष्ट निर्माण जोड़ने के लिए। इन कोड परिवर्तनों को लागू करना सरल है। इस अभ्यास से कुछ महत्वपूर्ण तकनीकी सीख निम्नलिखित हैं जिन्होंने हमारे मॉडल थ्रूपुट में काफी सुधार किया है:
- xm.mark_step() का प्लेसमेंट -
xm.mark_step()
आलस्य से एकत्र किए गए गणना ग्राफ़ को संकलित और चलाता है। लागूmark_step
बहुत अधिक बार इसका उपयोग करने से बड़ी संख्या में छोटे ग्राफ़ बन जाएंगे, जबकि इसे बहुत कम बार लागू करने से कम, लेकिन बड़े ग्राफ़ बन जाएंगे। आपके आवेदन के आधार पर, आपके मॉडल प्रशिक्षण का थ्रूपुट और कार्यान्वयन आपके प्लेसमेंट के आधार पर अलग-अलग होगाxm.mark_step()
. हमारा कार्यान्वयन एक स्थान रखता हैxm.mark_step()
एक आगे और पीछे के पास के बाद, और एक ऑप्टिमाइज़र चरण के बाद। - XLA मल्टीप्रोसेसिंग डिवाइस लोडर के साथ डेटा लोडर रैपिंग - यह एक महत्वपूर्ण कदम है जिसे आसानी से छोड़ा जा सकता है। मल्टीप्रोसेसिंग डिवाइस लोडर
torch_xla.distributed.parallel_loader.MpDeviceLoader
थ्रूपुट में सुधार के लिए डिवाइस रन के साथ डेटा लोडिंग को प्रीलोड और ओवरलैप करने के विकल्पों के साथ प्रत्येक XLA डिवाइस पर प्रशिक्षण डेटा लोड करता है। डिवाइस लोडर भी इनवॉइस करता हैxm.mark_step()
और इसलिए होस्ट से डिवाइस पर डेटा लोड करने के लिए ग्राफ़ बनाने में सक्षम है।
ट्रेनियम के लिए संकलन
परंपरागत रूप से, जीपीयू के साथ मॉडल विकास चक्र में मॉडल या प्रशिक्षण स्क्रिप्ट में बदलाव करना और इसे सीधे जीपीयू डिवाइस पर चलाना शामिल है। एक्सएलए का उपयोग करने वाले ट्रेनियम जैसे त्वरक को त्वरक पर मॉडल प्रशिक्षण चलाने से पहले एक अतिरिक्त कदम की आवश्यकता होती है। XLA गणना ग्राफ़ संकलित होने के बाद ही चलाए जा सकते हैं। आम तौर पर, इस संकलन को करने के दो तरीके हैं: अहेड ऑफ टाइम (एओटी), जहां आप पहले सभी ग्राफ़ को ट्रेस और संकलित करते हैं और फिर उन्हें चलाते हैं, या जस्ट इन टाइम (जेआईटी), जहां ग्राफ़ को ट्रेस किया जाता है, संकलित किया जाता है और जैसे वे चलते हैं वैसे ही चलाया जाता है। सामना करना पड़ता है. न्यूरॉन एसडीके इन दोनों को बॉक्स से बाहर प्रदान करता है। आमतौर पर, AOT संकलन पहले किया जाता है। इस संकलन के बाद ग्राफ़ चलाए जाते हैं। यदि नए ग्राफ़ सामने आते हैं, तो न्यूरॉन रनटाइम उन्हें चलाने से पहले एक JIT संकलन को आमंत्रित करता है। एओटी संकलन करने के लिए, न्यूरॉन एसडीके प्रदान करता है न्यूरॉन_समानांतर_संकलन, एक संकलन उपयोगिता जो प्रशिक्षण स्क्रिप्ट के ट्रायल रन से ग्राफ़ निकालती है और समानांतर एओटी संकलन करती है।
एओटी संकलन का एक महत्वपूर्ण पहलू यह सुनिश्चित करना है कि प्रशिक्षण के दौरान कोई नया गणना ग्राफ़ न बनाया जाए। नए गणना ग्राफ़ (और इसलिए पुनर्संकलन) का एक स्रोत मॉडल प्रशिक्षण के दौरान प्रशिक्षण बैचों के गतिशील आकार हैं। हमने पाया कि स्थिर आकृतियों और निश्चित आकार के बैचों का उपयोग करने से प्रशिक्षण समय संकलन समाप्त हो जाता है और मॉडल सटीकता पर कोई प्रभाव डाले बिना प्रशिक्षण थ्रूपुट में काफी सुधार होता है। प्रशिक्षण पर ऐसी बाधाओं को लागू करके, हमने देखा कि एओटी संकलन के दौरान सभी ग्राफ़ों का पता लगाने के लिए मॉडल प्रशिक्षण के केवल 4-5 चरण, मॉडल सत्यापन का एक चरण और मॉडल को एक बार चेकपॉइंट करना आवश्यक है। यह ध्यान रखना महत्वपूर्ण है कि न्यूरॉन एसडीके लगातार विकसित हो रहा है, और भविष्य में गतिशील आकृतियों का भी समर्थन करेगा।
इसके अलावा, संकलित ग्राफ़ में संग्रहीत हैं न्यूरॉन पर्सिस्टेंट कैश डिस्क पर या किसी में अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) बाल्टी। यह उत्पादन कार्यभार के लिए विशेष रूप से उपयोगी है जहां मॉडल आर्किटेक्चर और प्रशिक्षण कॉन्फ़िगरेशन नहीं बदलता है। इसलिए, संकलन का ओवरहेड केवल एक बार ही खर्च किया जाता है। कैश का उपयोग करना पर्यावरण ध्वज सेट करने जितना ही सरल है:
न्यूरॉन कंपाइलर भी तीन प्रदान करता है कंपाइलर-स्तरीय अनुकूलन विकल्प (O1, O2, O3) संकलन समय और मॉडल रन थ्रूपुट को संतुलित करने के लिए। O1 गणना ग्राफ़ पर मुख्य अनुकूलन सक्षम करता है और संकलन समय को कम करता है, O3 उच्च संकलन समय की कीमत पर बेहतर मॉडल रन थ्रूपुट प्रदान करता है, और O2 (डिफ़ॉल्ट विकल्प) दोनों के बीच एक संतुलन है। हमारे उपयोग के मामले में, हमने O1 अनुकूलन का उपयोग किया और मॉडल सटीकता मेट्रिक्स में कोई बदलाव किए बिना संकलन समय में 86% की कमी देखी, जबकि डिफ़ॉल्ट अनुकूलन (O5) की तुलना में थ्रूपुट में लगभग 7-2% की कमी देखी गई। उपयोग के मामले के आधार पर, आप अनुकूलन के विभिन्न स्तर चुन सकते हैं।
संक्षेप में कहें तो, हमने संकलन के लिए निम्नलिखित झंडों का उपयोग किया:
चेकप्वाइंट अनुकूलता
जब संकलन सफलतापूर्वक पूरा हो जाता है, तो हम ट्रेनियम पर अपने मॉडलों को प्रशिक्षित करने के लिए आगे बढ़ सकते हैं। जैसा कि पहले उल्लेख किया गया है, हम अपने मॉडलों को क्रमिक रूप से प्रशिक्षित करते हैं, जिसका अर्थ है कि हम पहले से प्रशिक्षित मॉडल चेकपॉइंट को लोड करते हैं और नए डेटा के साथ प्रशिक्षण जारी रखते हैं। PyTorch और PyTorch XLA चेकपॉइंट इंटरऑपरेबिलिटी के माध्यम से त्वरक के बीच निर्बाध संक्रमण की अनुमति देते हैं। जीपीयू और ट्रेनियम के बीच चलने की लचीलेपन से हमें पिछले जीपीयू मॉडल को सहजता से लोड करने और ट्रेनियम मशीनों पर प्रशिक्षित करने में सक्षम बनाया गया। यह सुनिश्चित करने के लिए महत्वपूर्ण था कि हम अपने मॉडल को बिना किसी उत्पादन डाउनटाइम या मॉडल सटीकता में हानि के सबसे अच्छे पहले प्रशिक्षित मॉडल के साथ प्रारंभ कर सकें।
क्योंकि GPU मॉडल को मानक PyTorch मॉडल सेविंग उपयोगिताओं का उपयोग करके सहेजा गया था, हम ट्रेनियम उपकरणों पर GPU मॉडल को लोड करने के लिए PyTorch चेकपॉइंट लोडिंग उपयोगिता का उपयोग करने में सक्षम थे।
उदाहरण के लिए, GPU/CPU पर, आप मॉडल को निम्नलिखित कोड से सहेज सकते हैं:
फिर आप मॉडल को वापस ट्रेनियम पर लोड करें:
इसी प्रकार, आप निम्नलिखित कोड के साथ मॉडल को ट्रेनियम पर सहेज सकते हैं:
और मॉडल को GPU/CPU पर वापस लोड करें:
वास्तव में, क्योंकि हम मॉडल प्रशिक्षण के लिए डीडीपी का उपयोग करते हैं, मॉडल लोडिंग पिछले चेकपॉइंट को प्रशिक्षित करने के लिए उपयोग की जाने वाली मशीनों की संख्या से अज्ञेयवादी है। यह हमें बिना किसी कोड परिवर्तन या मॉडल प्रशिक्षण पर प्रतिकूल प्रभाव के Trn1 बेड़े को क्षैतिज रूप से स्केल करने की अनुमति देता है। इन PyTorch-आधारित चौकियों का सीधे उपयोग किया जा सकता है या AWS Inferentia2 या अन्य त्वरक पर अनुमान उपयोग के मामलों के लिए टॉर्च-स्क्रिप्टेड भी किया जा सकता है।
परिचालन स्थिरता
इस बात पर पर्याप्त जोर नहीं दिया जा सकता है कि उत्पादन में कार्यभार चलाने के लिए कई एसएलए को पूरा करने की आवश्यकता होती है। हमारे उपयोग के मामले में, मॉडल गुणवत्ता और प्रशिक्षण थ्रूपुट एसएलए के अलावा, यह जरूरी है कि उत्पादन पाइपलाइन परिचालन रूप से स्थिर हो, जिसका अर्थ है मॉडल प्रशिक्षण, मूल्यांकन और अनुमान के दौरान न्यूनतम डाउनटाइम और व्यवधान।
मौजूदा जीपीयू आधारित पाइपलाइन की तरह, हमने पाइपलाइन को परिचालन रूप से स्थिर बनाने के लिए कई तंत्र जोड़े हैं। मॉडल प्रशिक्षण शुरू करने से पहले, हम मशीनों के स्वास्थ्य का आकलन करने के लिए कई विवेक परीक्षण चलाते हैं। इन परीक्षणों में आम तौर पर त्वरक उपकरणों के स्वास्थ्य को सत्यापित करने के लिए सरल टेंसर ऑपरेशन शामिल होते हैं। हमने देखा है कि वितरित प्रशिक्षण के लिए, उदाहरणों के बीच सामूहिक संचार को सत्यापित करने के लिए परीक्षण चलाना भी महत्वपूर्ण है। हमने प्रयोग किया एनसीसीओएम परीक्षण सूट इसे प्राप्त करने के लिए न्यूरॉन एसडीके से ऑल-गैदर, ऑल-रिड्यूस और रिड्यूस-स्कैटर जैसे कई ऑपरेशन चलाए जा रहे हैं।
हमारे द्वारा उल्लिखित सुझावों का पालन करने के बाद भी, हमने देखा है कि अंतर्निहित त्वरक के बावजूद, किसी भी पाइपलाइन में क्षणिक समस्याएं अपरिहार्य हैं। किसी भी प्रशिक्षण पाइपलाइन में लचीलापन बनाने के लिए, हम इन संभावित मुद्दों को हल करने के लिए पुनः प्रयास तंत्र बनाने की सलाह देते हैं। हम उपयोग करते हैं AWS बैच स्वचालित पुनर्प्रयास मॉडल प्रशिक्षण के दौरान क्षणिक विफलता का सामना करने वाली नौकरियों को पुनः प्रयास करने के लिए। यदि प्रशिक्षण के अंत में विफलता का सामना करना पड़ता है तो ये पुनरारंभ महंगा हो सकता है। इस समस्या का मुकाबला करने के लिए, हमने पहले से प्रशिक्षित मॉडल चेकपॉइंट को लोड करने और उस बिंदु से प्रशिक्षण जारी रखने के लिए अपनी प्रशिक्षण स्क्रिप्ट को अनुकूलित किया है। इस कार्यक्षमता के साथ, हम न्यूनतम ओवरहेड के साथ असफल प्रशिक्षण कार्यों को आक्रामक रूप से पुनः आरंभ करने में सक्षम हैं।
इन लचीलेपन तंत्रों के साथ, हम Trn98.5 पर अपने कार्यभार के लिए 1% सफलता दर प्राप्त करने में सक्षम थे, जो हमारी मौजूदा GPU पाइपलाइन सफलता दर के बराबर है।
परिणाम
अपने मॉडलों की सटीकता को सत्यापित करने के लिए, हमने एक ही जीपीयू चेकपॉइंट से दो मॉडल आरंभ किए, और एक को ट्रेनियम पर और दूसरे को तुलनीय जीपीयू पर प्रशिक्षित किया। दोनों मॉडलों को समान प्रशिक्षण हाइपरपैरामीटर के साथ प्रशिक्षित किया गया था। मेट्रिक्स गणना के लिए उपयोग किया जाने वाला डेटासेट एक होल्डआउट डेटासेट है, और हम प्रत्येक एन वैश्विक चरणों में इस डेटासेट पर मॉडल की सटीकता का मूल्यांकन करते हैं। एक्स-अक्ष वैश्विक कदम है, और वाई-अक्ष मॉडल सटीकता है। हमने निम्नलिखित ग्राफ़ में प्रत्येक बिंदु पर मॉडल सटीकता में 0.1% से कम अंतर देखा।
इसके अलावा, मॉडल प्रशिक्षण की लागत-प्रभावशीलता का मूल्यांकन करने के लिए, हम मॉडल अभिसरण तक पहुंचने के लिए दीवार घड़ी के समय की तुलना करना पसंद करते हैं। हमारा मानना है कि यह प्रति टोकन लागत, प्राप्त फ्लॉप्स/डॉलर और अन्य कारकों जैसे उपायों की तुलना में लागत बचत का अधिक व्यावहारिक दृष्टिकोण प्रदान करता है। Trn1.32xl और तुलनीय के प्रशिक्षण समय को ध्यान में रखते हुए अमेज़ॅन इलास्टिक कम्प्यूट क्लाउड (अमेज़ॅन ईसी2) उदाहरणों में, हमने देखा है कि ट्रेनियम मॉडल कन्वर्जेंस के लिए 30% तक सस्ती लागत प्रदान करता है।
निष्कर्ष
आपके डीएल कार्यभार के लिए विभिन्न त्वरक का मूल्यांकन करते समय विचार करने के लिए कई कारक हैं। इनमें से कुछ सबसे महत्वपूर्ण हैं मॉडल की गुणवत्ता, थ्रूपुट, लागत और उपलब्धता। यह सुनिश्चित करना सर्वोपरि है कि आपके द्वारा चुने गए त्वरक के आधार पर आपके मॉडल की गुणवत्ता और थ्रूपुट का त्याग नहीं किया जाता है।
अन्नपूर्णा न्यूरॉन टीम के साथ हमारी साझेदारी और सहयोग के लिए धन्यवाद, अमेज़ॅन सर्च एम5 टीम ट्रेनियम में जाकर लागत में 30% तक की बचत करने में सक्षम हुई है। टीम ट्रेनियम का उपयोग करने और बाजार में तुलनीय त्वरक के साथ मॉडल गुणवत्ता और थ्रूपुट समानता हासिल करने में सक्षम है। चेकपॉइंट इंटरऑपरेबिलिटी और XLA के समर्थन के साथ न्यूनतम कोड परिवर्तनों ने M5 को अपने कार्यभार के लिए कई त्वरक के बीच चयन करने की अनुमति दी है। इसने M5 टीम को ट्रेनियम की बड़ी गणना शक्ति का लाभ उठाने और Amazon.com के ग्राहकों को प्रसन्न करने के लिए त्वरक अज्ञेयवादी समाधान बनाने में सक्षम बनाया है। परिचालन के दृष्टिकोण से, ट्रेनियम अमेज़न पैमाने पर टियर-1 सेवाओं का समर्थन करने में सक्षम साबित हुआ है। एम5 टीम अमेज़ॅन के लिए सबसे कम लागत पर सर्वोत्तम मॉडल उपलब्ध कराने के लिए ट्रेनियम पर अधिक कार्यभार स्थानांतरित करना जारी रखती है।
संक्षेप में, M5 टीम त्वरक के बेड़े में ट्रेनियम को जोड़कर लागत प्रभावी, उत्पादन-ग्रेड एमएल प्रशिक्षण करने में सक्षम है। हम आपको एमएल वर्कलोड के लिए उद्देश्य-निर्मित अमेज़ॅन सिलिकॉन के लाभों को प्राप्त करने के लिए ट्रेनियम और एडब्ल्यूएस इनफेरेंटिया जैसे अन्य न्यूरॉन उपकरणों पर एक नज़र डालने के लिए प्रोत्साहित करते हैं। विभिन्न मॉडलों की विशेषता वाले कई ट्यूटोरियल में से किसी एक के साथ आसानी से शुरुआत करें लामा 2, ट्रेनियम पर उपलब्ध है.
लेखक के बारे में
अभिनंदन पटनायक अमेज़न सर्च में सीनियर सॉफ्टवेयर इंजीनियर हैं। वह स्केलेबल डिस्ट्रीब्यूटेड डीप लर्निंग ट्रेनिंग और रियल टाइम इंट्रेंस के लिए बिल्डिंग सिस्टम और टूलिंग पर ध्यान केंद्रित करता है।
जेम्स पार्क अमेज़न वेब सर्विसेज में सॉल्यूशन आर्किटेक्ट हैं। वह AWS पर प्रौद्योगिकी समाधानों को डिज़ाइन, निर्माण और तैनात करने के लिए Amazon.com के साथ काम करते हैं, और AI और मशीन लर्निंग में उनकी विशेष रुचि है। खाली समय में उन्हें नई संस्कृतियाँ, नए अनुभव तलाशना और नवीनतम प्रौद्योगिकी रुझानों के साथ अपडेट रहना अच्छा लगता है। आप उसे यहां पा सकते हैं लिंक्डइन.
जैरी मैनिल अमेज़न सर्च में एक सॉफ्टवेयर इंजीनियर हैं। वह वितरित प्रशिक्षण बुनियादी ढांचे की दक्षता, मजबूती और मापनीयता में सुधार पर काम करता है।
केन सु अमेज़न सर्च में एक सॉफ्टवेयर इंजीनियर हैं। वह प्रशिक्षण दक्षता और स्केलेबल वितरित प्रशिक्षण वर्कफ़्लो में सुधार पर काम करता है। काम के बाहर, उन्हें लंबी पैदल यात्रा और टेनिस पसंद है।
RJ अमेज़न में इंजीनियर हैं. वह प्रशिक्षण के लिए वितरित प्रणालियों के लिए सिस्टम का निर्माण और अनुकूलन करता है और एमएल अनुमान के लिए विलंबता को कम करने के लिए सिस्टम को अपनाने के अनुकूलन पर काम करता है। काम के बाहर, वह खाद्य व्यंजनों के निर्माण के लिए जेनरेटिव एआई का उपयोग करने की खोज कर रहे हैं।
- एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
- प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
- प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
- प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
- प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
- स्रोत: https://aws.amazon.com/blogs/machine-learning/how-amazon-search-m5-saved-30-for-llm-training-cost-by-using-aws-trainium/
- :हैस
- :है
- :नहीं
- :कहाँ
- $यूपी
- 1
- 100
- 2020
- 7
- 8
- 9
- 98
- a
- योग्य
- में तेजी लाने के
- त्वरित
- त्वरक
- त्वरक
- स्वीकृति
- शुद्धता
- पाना
- हासिल
- के पार
- अनुकूलन
- जोड़ना
- जोड़ा
- जोड़ने
- अतिरिक्त
- अपनाने
- प्रगति
- अग्रिमों
- लाभ
- विपरीत
- बाद
- समझौतों
- आगे
- AI
- सब
- अनुमति देना
- की अनुमति दी
- की अनुमति देता है
- साथ में
- भी
- वीरांगना
- अमेज़ॅन EC2
- अमेज़ॅन वेब सेवा
- Amazon.com
- राशि
- an
- और
- कोई
- अलग
- आवेदन
- लगभग
- स्थापत्य
- हैं
- AS
- पहलू
- आकलन
- सहायता
- At
- स्वचालित
- स्वतः
- उपलब्धता
- उपलब्ध
- एडब्ल्यूएस
- एडब्ल्यूएस इन्फेंटेंटिया
- वापस
- शेष
- बैंडविड्थ
- आधारित
- BE
- क्योंकि
- किया गया
- से पहले
- शुरू किया
- मानना
- लाभ
- BEST
- सर्वोत्तम प्रथाओं
- के बीच
- अरबों
- किताब
- के छात्रों
- मुक्केबाज़ी
- लाना
- निर्माण
- इमारत
- बनाता है
- लेकिन
- by
- कैश
- हिसाब
- कर सकते हैं
- नही सकता
- सक्षम
- मामला
- मामलों
- परिवर्तन
- परिवर्तन
- विशेषताएँ
- सस्ता
- चिप्स
- विकल्प
- चुनें
- करने के लिए चुना
- घड़ी
- समूह
- कोड
- सहयोग
- सामूहिक
- COM
- संचार
- तुलनीय
- तुलना
- तुलना
- सम्मोहक
- संकलित
- पूरा
- आज्ञाकारी
- गणना
- गणना करना
- विन्यास
- विचार करना
- पर विचार
- निरंतर
- की कमी
- constructs
- जारी रखने के
- जारी
- नियंत्रण
- कन्वर्जेंस
- मूल
- लागत
- लागत बचत
- प्रभावी लागत
- महंगा
- लागत
- काउंटर
- कोर्स
- बनाया
- मापदंड
- महत्वपूर्ण
- ग्राहक
- ग्राहक अनुभव
- ग्राहक
- चक्र
- तिथि
- तारीख
- दिन
- डीडीपी
- दशकों
- गहरा
- ध्यान लगा के पढ़ना या सीखना
- चूक
- परिभाषित
- हर्ष
- रमणीय
- निर्भर करता है
- तैनात
- तैनात
- डिज़ाइन
- खोज
- विकासशील
- विकास
- युक्ति
- डिवाइस
- अंतर
- विभिन्न
- सीधे
- खोज
- चर्चा करना
- अवरोधों
- वितरित
- वितरित प्रणाली
- वितरित प्रशिक्षण
- नहीं करता है
- स्र्कना
- दो
- दौरान
- गतिशील
- से प्रत्येक
- उत्सुक
- पूर्व
- जल्द से जल्द
- आसानी
- प्रभाव
- प्रभाव
- दक्षता
- कुशलता
- को हटा देता है
- पर बल दिया
- सक्षम
- सक्षम बनाता है
- प्रोत्साहित करना
- समाप्त
- लागू करने
- इंजीनियर
- पर्याप्त
- सुनिश्चित
- वातावरण
- विशेष रूप से
- मूल्यांकन करें
- का मूल्यांकन
- मूल्यांकन
- और भी
- प्रत्येक
- उद्विकासी
- उदाहरण
- से अधिक
- व्यायाम
- मौजूदा
- अनुभव
- अनुभव
- तलाश
- अर्क
- तथ्य
- कारकों
- विफल रहे
- विफलता
- Feature
- की विशेषता
- कुछ
- खोज
- प्रथम
- झंडे
- बेड़ा
- लचीलापन
- केंद्रित
- पीछा किया
- निम्नलिखित
- भोजन
- के लिए
- सबसे महत्वपूर्ण
- प्रपत्र
- आगे
- पाया
- बुनियाद
- मूलभूत
- धोखा
- धोखाधड़ी का पता लगाना
- ताज़ी
- से
- कार्यक्षमता
- कार्यात्मक
- आगे
- भविष्य
- आम तौर पर
- उत्पन्न
- पीढ़ी
- उत्पादक
- जनरेटिव एआई
- मिल
- दी
- वैश्विक
- GPU
- GPUs
- ग्राफ
- रेखांकन
- अधिक से अधिक
- बहुत
- हार्डवेयर
- है
- होने
- he
- स्वास्थ्य
- मदद
- उच्चतर
- उसे
- क्षैतिज
- मेजबान
- कैसे
- एचटीएमएल
- http
- HTTPS
- सैकड़ों
- लाखों में सैकड़ों
- आदर्श
- आदर्श
- पहचान
- if
- की छवि
- Impacts
- अनिवार्य
- लागू करने के
- कार्यान्वयन
- महत्वपूर्ण
- महत्वपूर्ण पहलू
- उन्नत
- सुधार
- में सुधार लाने
- in
- शामिल
- बढ़ना
- वृद्धिशील
- किए गए
- उद्योग
- अपरिहार्य
- इंफ्रास्ट्रक्चर
- निविष्टियां
- निर्देश
- बातचीत
- ब्याज
- इंटरोऑपरेबिलिटी
- का आह्वान
- निरपेक्ष
- मुद्दों
- IT
- आईटी इस
- JIT
- नौकरियां
- यात्रा
- जेपीजी
- केवल
- सिर्फ एक
- बड़ा
- बड़े पैमाने पर
- बड़े पैमाने पर
- बड़ा
- पिछली बार
- पिछले साल
- विलंब
- ताज़ा
- शुभारंभ
- परत
- नेतृत्व
- सीखा
- सीख रहा हूँ
- कम
- स्तर
- पुस्तकालय
- पसंद
- को यह पसंद है
- पंक्तियां
- लिंक्डइन
- एलएलएम
- भार
- लोडर
- लोड हो रहा है
- भार
- देखिए
- बंद
- सबसे कम
- मशीन
- यंत्र अधिगम
- मशीनें
- को बनाए रखने के
- बनाना
- निर्माण
- बहुत
- बाजार
- मास्टर
- अर्थ
- उपायों
- तंत्र
- मिलना
- याद
- उल्लेख किया
- घास का मैदान
- मेट्रिक्स
- लाखों
- मन
- कम से कम
- कम करता है
- चुक गया
- ML
- मोड
- आदर्श
- मॉडल
- अधिक
- अधिकांश
- चाल
- चाल
- चलती
- विभिन्न
- चाहिए
- नामों
- प्रकृति
- आवश्यकता
- की जरूरत है
- नेटवर्क
- शुद्ध कार्यशील
- नेटवर्क
- तंत्रिका
- तंत्रिका नेटवर्क
- तंत्रिका जाल
- नया
- अगला
- नहीं
- नोट
- संख्या
- अनेक
- of
- ऑफर
- ऑफ़लाइन
- on
- ONE
- केवल
- परिचालन
- संचालन
- इष्टतमीकरण
- ऑप्टिमाइज़ करें
- अनुकूलित
- अनुकूलन
- के अनुकूलन के
- विकल्प
- ऑप्शंस
- or
- आदेश
- संगठनों
- अन्य
- हमारी
- आउट
- बाहर
- के ऊपर
- मालिक
- समानांतर
- पैरामीटर
- आला दर्जे का
- समानता
- भाग
- विशेष
- पार्टनर
- पास
- पथ
- प्रति
- निष्पादन
- प्रदर्शन
- प्रदर्शन
- प्रदर्शन
- अवधि
- बीड़ा उठाया
- पाइपलाइन
- जगह
- प्लेसमेंट
- गंतव्य
- प्लेटो
- प्लेटो डेटा इंटेलिजेंस
- प्लेटोडाटा
- बिन्दु
- पद
- संभावित
- बिजली
- संचालित
- व्यावहारिक
- प्रथाओं
- पसंद करते हैं
- पिछला
- पहले से
- मुसीबत
- बढ़ना
- उत्पादन
- कार्यक्रम
- साबित
- प्रदान करना
- बशर्ते
- प्रदान करता है
- आगे बढ़ाने
- pytorch
- गुणवत्ता
- जल्दी से
- दरें
- पहुंच
- वास्तविक
- वास्तविक समय
- काटना
- की सिफारिश
- सिफारिशें
- को कम करने
- को कम करने
- कमी
- नियमित तौर पर
- और
- की आवश्यकता होती है
- अपेक्षित
- की आवश्यकता होती है
- संकल्प
- क्रमश
- बाकी
- मजबूती
- रन
- दौड़ना
- चलाता है
- क्रम
- वही
- सहेजें
- बचाया
- बचत
- बचत
- स्केलेबल
- स्केल
- स्केलिंग
- लिपि
- लिपियों
- एसडीके
- निर्बाध
- मूल
- Search
- वर्गों
- मांग
- वरिष्ठ
- सेवा
- सेवाएँ
- सेवारत
- की स्थापना
- आकार
- Share
- चाहिए
- महत्वपूर्ण
- सिलिकॉन
- समान
- सरल
- आकार
- छोटा
- So
- सॉफ्टवेयर
- सॉफ्टवेयर इंजीनियर
- समाधान ढूंढे
- कुछ
- स्रोत
- स्थिर
- मानक
- दृष्टिकोण
- शुरू
- शुरुआत में
- राज्य के-the-कला
- स्थिर
- रह
- कदम
- कदम
- भंडारण
- संग्रहित
- सरल
- स्ट्रेटेजी
- कठोर
- सफलता
- सफलतापूर्वक
- ऐसा
- संक्षेप में प्रस्तुत करना
- सारांश
- समर्थन
- सहायक
- सिस्टम
- लेना
- लिया
- टीम
- टीमों
- तकनीकी
- तकनीक
- टेक्नोलॉजी
- परीक्षण
- परीक्षण
- टेक्स्ट
- से
- कि
- RSI
- भविष्य
- लेकिन हाल ही
- उन
- फिर
- वहाँ।
- इसलिये
- इन
- वे
- इसका
- तीन
- यहाँ
- THROUGHPUT
- पहर
- बार
- सेवा मेरे
- टोकन
- टोकन
- भी
- मशाल
- की ओर
- निशान
- ट्रेसिंग
- रेलगाड़ी
- प्रशिक्षित
- प्रशिक्षण
- गाड़ियों
- ट्रांसफार्मर
- संक्रमण
- संक्रमण
- रुझान
- परीक्षण
- ट्यूटोरियल
- दो
- आम तौर पर
- आधारभूत
- सार्वभौम
- अनलॉक
- us
- उपयोग
- उदाहरण
- प्रयुक्त
- उपयोगकर्ताओं
- का उपयोग करता है
- का उपयोग
- उपयोगिताओं
- उपयोगिता
- सत्यापित करें
- सत्यापन
- विविधता
- विभिन्न
- सत्यापित
- वीडियो
- देखें
- दीवार
- था
- मार्ग..
- तरीके
- we
- वेब
- वेब सेवाओं
- सप्ताह
- कुंआ
- थे
- कब
- जहाँ तक
- कौन कौन से
- जब
- मर्जी
- साथ में
- अंदर
- बिना
- काम
- वर्कफ़्लो
- काम कर रहे
- कार्य
- XM
- वर्ष
- आप
- आपका
- जेफिरनेट