How Amazon Search M5 Saved 30% For LLM Training Cost By Using AWS Trainium

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

दशकों से, अमेज़ॅन ने मशीन लर्निंग (एमएल) में अग्रणी और नवप्रवर्तन किया है, जो अपने ग्राहकों के लिए आनंददायक अनुभव लेकर आया है। शुरुआती दिनों से, अमेज़ॅन ने पुस्तक अनुशंसाओं, खोज और धोखाधड़ी का पता लगाने जैसे विभिन्न उपयोग के मामलों के लिए एमएल का उपयोग किया है। उद्योग के बाकी हिस्सों की तरह, त्वरित हार्डवेयर की प्रगति ने अमेज़ॅन टीमों को तंत्रिका नेटवर्क और गहन शिक्षण (डीएल) का उपयोग करके मॉडल आर्किटेक्चर को आगे बढ़ाने की अनुमति दी है।

अमेज़ॅन सर्च के भीतर एम5 प्रोग्राम अमेज़ॅन के लिए खोज सीखने की रणनीति का मालिक है और बहुभाषी, बहु-स्थानीय, बहु-इकाई, मल्टीटास्क और मल्टी-मोडल जैसे टेक्स्ट, छवि और वीडियो में बड़े पैमाने पर मॉडल बनाता है। एम5 कार्यक्रम लागत अनुकूलन पर सख्त नियंत्रण बनाए रखते हुए अमेज़ॅन में सैकड़ों एमएल टीमों को सार्वभौमिक एम्बेडिंग और बड़े पैमाने पर फाउंडेशन मॉडल की सेवा दे रहा है। इसे प्राप्त करने के लिए, M5 टीम लागत कम करने के लिए नियमित रूप से नई तकनीकों का मूल्यांकन करती है।

कई एमएल संगठनों की तरह, त्वरक का उपयोग बड़े पैमाने पर डीएल प्रशिक्षण और अनुमान में तेजी लाने के लिए किया जाता है। जब AWS ने पहली रिलीज़ के साथ उद्देश्य-निर्मित त्वरक लॉन्च किया एडब्ल्यूएस इन्फेंटेंटिया 2020 में, M5 टीम ने तेजी से शुरुआत की उत्पादन कार्यभार को अधिक कुशलतापूर्वक तैनात करने के लिए उनका उपयोग करें, लागत दोनों बचती है और विलंबता कम होती है। पिछले साल AWS ने इसे लॉन्च किया था एडब्ल्यूएस ट्रेनियम त्वरक, जो अगली पीढ़ी के डीएल मॉडल के विकास और निर्माण के लिए प्रति लागत प्रदर्शन को अनुकूलित करते हैं। इस पोस्ट में, हम चर्चा करते हैं कि कैसे M5 अपने मॉडलों को प्रशिक्षित करने की लागत को 30% तक कम करने में सक्षम था, और इस दौरान सीखी गई कुछ सर्वोत्तम प्रथाओं को साझा करते हैं।

ट्रेनियम उदाहरण

उद्देश्य-निर्मित त्वरक में प्रगति के साथ, अमेज़ॅन एडब्ल्यूएस इनफेरेंटिया और ट्रेनियम के रूप में आकर्षक त्वरक भी प्रदान करता है। जैसा कि उनके नाम से पता चलता है, इन चिप्स को क्रमशः अनुमान और प्रशिक्षण कार्यभार की आवश्यकताओं से अधिक करने के लिए अनुकूलित किया गया है। आकार में अरबों मापदंडों तक पहुंचने वाले फाउंडेशन मॉडल के बड़े पैमाने पर प्रशिक्षण के लिए, ट्रेनियम Trn1 और Trn1n उदाहरण अपनी विशेषताओं के कारण आदर्श विकल्प हैं। Trn1 इंस्टेंसेस अत्याधुनिक द्वारा संचालित हैं न्यूरॉनकोर-v2, और त्वरक गणना और मेमोरी की प्रचुर मात्रा है। Trn1n उदाहरणों को अधिक मात्रा में नेटवर्किंग बैंडविड्थ (1,600 जीबी) के लिए भी चुना जा सकता है, इसलिए लागत अनुकूलन को ध्यान में रखते हुए प्रदर्शन प्रशिक्षण के लिए आदर्श रूप से उपयुक्त हैं।

त्वरक का उपयोग करने के लिए, आपको उनका समर्थन करने के लिए एक सॉफ़्टवेयर परत की आवश्यकता होती है। Trn और Inf चिप्स के साथ, एडब्ल्यूएस न्यूरॉन एसडीके PyTorch XLA की मदद से Amazon उद्देश्य-निर्मित एक्सेलेरेटर को अनलॉक करता है। PyTorch XLA, PyTorch के उत्सुक मोड को आलसी मोड ग्राफ-आधारित कार्यान्वयन में परिवर्तित करता है। फिर इन ग्राफ़ों का उपयोग किया जाता है और त्वरक के साथ उपयोग करने के लिए इन्हें संकलित किया जाता है। PyTorch न्यूरॉन (न्यूरॉन SDK का हिस्सा) PyTorch उपयोगकर्ताओं को कोड की कुछ पंक्तियों के साथ ट्रेनियम न्यूरॉनकोर्स पर अपने मॉडल को प्रशिक्षित करने में सक्षम बनाता है।

मॉडल और कार्यभार

एम5 टीम अमेज़ॅन में विभिन्न टीमों को खुशी प्रदान करने में सहायता करने के लिए बुनियादी मॉडल और सार्वभौमिक प्रतिनिधित्व को प्रशिक्षित और तैनात करती है Amazon.com ग्राहक. ऐसा ही एक मॉडल एक टेक्स्ट एनकोडर मॉडल है, जिसके बाद मल्टी-लेयर परसेप्ट्रॉन (एमएलपी) होता है, जिसमें तंत्रिका नेटवर्क आर्किटेक्चर द्वारा सैकड़ों लाखों प्रशिक्षित मापदंडों के साथ परिभाषित स्पष्ट या अंतर्निहित फीचर इंटरैक्शन होते हैं। इस मॉडल को अरबों टोकन पर प्रशिक्षित किया गया है, और इसका उपयोग ऑफ़लाइन बैच अनुमान सेटिंग में लाखों एम्बेडिंग उत्पन्न करने के लिए किया जाता है। ये एम्बेडिंग ग्राहक-सामना वाली टियर-1 अमेज़ॅन सेवा के इनपुट हैं।

उत्पादन पाइपलाइन के लिए बुनियादी ढांचे का उपयोग करता है AWS बैच साथ में उचित शेयर कतारबद्ध रणनीतियाँमॉडल प्रशिक्षण के लिए गणना के रूप में EFA-सक्षम मल्टी-नोड trn1.32xlarge क्लस्टर का उपयोग करना। कार्यात्मक रूप से, उत्पादन पाइपलाइन वृद्धिशील मॉडल प्रशिक्षण, प्रशिक्षित मॉडल का मूल्यांकन, और प्रशिक्षित मॉडल पर ऑफ़लाइन बैच अनुमान, सभी अंतर्निहित डीएल लाइब्रेरी के रूप में PyTorch का उपयोग करती है।

लक्ष्यों

अपने ग्राहकों को प्रसन्न करना सबसे महत्वपूर्ण सिद्धांत है। पाइपलाइन की ग्राहक-सामना वाली प्रकृति को देखते हुए, यह महत्वपूर्ण है कि सभी सेवा-स्तरीय समझौते (एसएलए) बिना किसी रुकावट के पूरे किए जाएं। हमने अपनी मौजूदा जीपीयू उत्पादन पाइपलाइन को अनुकूलित करने और इसे ट्रेनियम में परिवर्तित करने के लिए दो महत्वपूर्ण स्वीकृति मानदंडों की पहचान की है:

मॉडल की गुणवत्ता - हमारे मॉडलों की गुणवत्ता सीधे ग्राहक अनुभव को प्रभावित करती है। हमें आवश्यकता है कि GPU और ट्रेनियम के बीच मॉडल गुणवत्ता में 0.1% से कम अंतर होना चाहिए।
प्रशिक्षण थ्रूपुट - हम अपने ग्राहकों को सबसे ताज़ा अनुभव प्रदान करने के लिए समय-समय पर अपने मॉडलों को प्रशिक्षित करते हैं। हमें आवश्यकता है कि हमारे उत्पादन एसएलए को पूरा करने के लिए मॉडल अभिसरण को पूर्वनिर्धारित समयावधि (जैसे 1 सप्ताह) के भीतर हासिल किया जाना चाहिए।

निम्नलिखित अनुभागों में, हम इस मानदंड से पीछे काम करने की अपनी यात्रा और अमेज़ॅन-स्केल उत्पादन वर्कलोड का समर्थन करने के लिए अपनी सीख साझा करते हैं।

प्रशिक्षण लिपि

मॉडल प्रशिक्षण शुरू करने से पहले, हमें इसे XLA अनुरूप बनाने के लिए प्रशिक्षण स्क्रिप्ट में बदलाव करने की आवश्यकता है। मॉडल के आकार को देखते हुए, हम मॉडल को प्रशिक्षित करने के लिए वितरित डेटा समानांतर (डीडीपी) का उपयोग करते हैं। डीडीपी हमें बिना किसी कोड परिवर्तन के मॉडल प्रशिक्षण चलाने के लिए उपयोग की जाने वाली मशीनों की संख्या को बढ़ाकर मॉडल प्रशिक्षण के थ्रूपुट को बढ़ाने की अनुमति देता है। हमने इसमें दिए गए निर्देशों का पालन किया न्यूरॉन पायटोरच एमएलपी प्रशिक्षण ट्यूटोरियल हमारी प्रशिक्षण स्क्रिप्ट में XLA-विशिष्ट निर्माण जोड़ने के लिए। इन कोड परिवर्तनों को लागू करना सरल है। इस अभ्यास से कुछ महत्वपूर्ण तकनीकी सीख निम्नलिखित हैं जिन्होंने हमारे मॉडल थ्रूपुट में काफी सुधार किया है:

xm.mark_step() का प्लेसमेंट - xm.mark_step() आलस्य से एकत्र किए गए गणना ग्राफ़ को संकलित और चलाता है। लागू mark_step बहुत अधिक बार इसका उपयोग करने से बड़ी संख्या में छोटे ग्राफ़ बन जाएंगे, जबकि इसे बहुत कम बार लागू करने से कम, लेकिन बड़े ग्राफ़ बन जाएंगे। आपके आवेदन के आधार पर, आपके मॉडल प्रशिक्षण का थ्रूपुट और कार्यान्वयन आपके प्लेसमेंट के आधार पर अलग-अलग होगा xm.mark_step(). हमारा कार्यान्वयन एक स्थान रखता है xm.mark_step() एक आगे और पीछे के पास के बाद, और एक ऑप्टिमाइज़र चरण के बाद।
XLA मल्टीप्रोसेसिंग डिवाइस लोडर के साथ डेटा लोडर रैपिंग - यह एक महत्वपूर्ण कदम है जिसे आसानी से छोड़ा जा सकता है। मल्टीप्रोसेसिंग डिवाइस लोडर torch_xla.distributed.parallel_loader.MpDeviceLoader थ्रूपुट में सुधार के लिए डिवाइस रन के साथ डेटा लोडिंग को प्रीलोड और ओवरलैप करने के विकल्पों के साथ प्रत्येक XLA डिवाइस पर प्रशिक्षण डेटा लोड करता है। डिवाइस लोडर भी इनवॉइस करता है xm.mark_step() और इसलिए होस्ट से डिवाइस पर डेटा लोड करने के लिए ग्राफ़ बनाने में सक्षम है।

ट्रेनियम के लिए संकलन

परंपरागत रूप से, जीपीयू के साथ मॉडल विकास चक्र में मॉडल या प्रशिक्षण स्क्रिप्ट में बदलाव करना और इसे सीधे जीपीयू डिवाइस पर चलाना शामिल है। एक्सएलए का उपयोग करने वाले ट्रेनियम जैसे त्वरक को त्वरक पर मॉडल प्रशिक्षण चलाने से पहले एक अतिरिक्त कदम की आवश्यकता होती है। XLA गणना ग्राफ़ संकलित होने के बाद ही चलाए जा सकते हैं। आम तौर पर, इस संकलन को करने के दो तरीके हैं: अहेड ऑफ टाइम (एओटी), जहां आप पहले सभी ग्राफ़ को ट्रेस और संकलित करते हैं और फिर उन्हें चलाते हैं, या जस्ट इन टाइम (जेआईटी), जहां ग्राफ़ को ट्रेस किया जाता है, संकलित किया जाता है और जैसे वे चलते हैं वैसे ही चलाया जाता है। सामना करना पड़ता है. न्यूरॉन एसडीके इन दोनों को बॉक्स से बाहर प्रदान करता है। आमतौर पर, AOT संकलन पहले किया जाता है। इस संकलन के बाद ग्राफ़ चलाए जाते हैं। यदि नए ग्राफ़ सामने आते हैं, तो न्यूरॉन रनटाइम उन्हें चलाने से पहले एक JIT संकलन को आमंत्रित करता है। एओटी संकलन करने के लिए, न्यूरॉन एसडीके प्रदान करता है न्यूरॉन_समानांतर_संकलन, एक संकलन उपयोगिता जो प्रशिक्षण स्क्रिप्ट के ट्रायल रन से ग्राफ़ निकालती है और समानांतर एओटी संकलन करती है।

एओटी संकलन का एक महत्वपूर्ण पहलू यह सुनिश्चित करना है कि प्रशिक्षण के दौरान कोई नया गणना ग्राफ़ न बनाया जाए। नए गणना ग्राफ़ (और इसलिए पुनर्संकलन) का एक स्रोत मॉडल प्रशिक्षण के दौरान प्रशिक्षण बैचों के गतिशील आकार हैं। हमने पाया कि स्थिर आकृतियों और निश्चित आकार के बैचों का उपयोग करने से प्रशिक्षण समय संकलन समाप्त हो जाता है और मॉडल सटीकता पर कोई प्रभाव डाले बिना प्रशिक्षण थ्रूपुट में काफी सुधार होता है। प्रशिक्षण पर ऐसी बाधाओं को लागू करके, हमने देखा कि एओटी संकलन के दौरान सभी ग्राफ़ों का पता लगाने के लिए मॉडल प्रशिक्षण के केवल 4-5 चरण, मॉडल सत्यापन का एक चरण और मॉडल को एक बार चेकपॉइंट करना आवश्यक है। यह ध्यान रखना महत्वपूर्ण है कि न्यूरॉन एसडीके लगातार विकसित हो रहा है, और भविष्य में गतिशील आकृतियों का भी समर्थन करेगा।

इसके अलावा, संकलित ग्राफ़ में संग्रहीत हैं न्यूरॉन पर्सिस्टेंट कैश डिस्क पर या किसी में अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) बाल्टी। यह उत्पादन कार्यभार के लिए विशेष रूप से उपयोगी है जहां मॉडल आर्किटेक्चर और प्रशिक्षण कॉन्फ़िगरेशन नहीं बदलता है। इसलिए, संकलन का ओवरहेड केवल एक बार ही खर्च किया जाता है। कैश का उपयोग करना पर्यावरण ध्वज सेट करने जितना ही सरल है:

export NEURON_COMPILE_CACHE_URL="s3://BUCKET/KEY"

न्यूरॉन कंपाइलर भी तीन प्रदान करता है कंपाइलर-स्तरीय अनुकूलन विकल्प (O1, O2, O3) संकलन समय और मॉडल रन थ्रूपुट को संतुलित करने के लिए। O1 गणना ग्राफ़ पर मुख्य अनुकूलन सक्षम करता है और संकलन समय को कम करता है, O3 उच्च संकलन समय की कीमत पर बेहतर मॉडल रन थ्रूपुट प्रदान करता है, और O2 (डिफ़ॉल्ट विकल्प) दोनों के बीच एक संतुलन है। हमारे उपयोग के मामले में, हमने O1 अनुकूलन का उपयोग किया और मॉडल सटीकता मेट्रिक्स में कोई बदलाव किए बिना संकलन समय में 86% की कमी देखी, जबकि डिफ़ॉल्ट अनुकूलन (O5) की तुलना में थ्रूपुट में लगभग 7-2% की कमी देखी गई। उपयोग के मामले के आधार पर, आप अनुकूलन के विभिन्न स्तर चुन सकते हैं।

संक्षेप में कहें तो, हमने संकलन के लिए निम्नलिखित झंडों का उपयोग किया:

NEURON_CC_FLAGS="--target trn1 --auto-cast all --auto-cast-type bf16 --model-type transformer --optlevel O1"

चेकप्वाइंट अनुकूलता

जब संकलन सफलतापूर्वक पूरा हो जाता है, तो हम ट्रेनियम पर अपने मॉडलों को प्रशिक्षित करने के लिए आगे बढ़ सकते हैं। जैसा कि पहले उल्लेख किया गया है, हम अपने मॉडलों को क्रमिक रूप से प्रशिक्षित करते हैं, जिसका अर्थ है कि हम पहले से प्रशिक्षित मॉडल चेकपॉइंट को लोड करते हैं और नए डेटा के साथ प्रशिक्षण जारी रखते हैं। PyTorch और PyTorch XLA चेकपॉइंट इंटरऑपरेबिलिटी के माध्यम से त्वरक के बीच निर्बाध संक्रमण की अनुमति देते हैं। जीपीयू और ट्रेनियम के बीच चलने की लचीलेपन से हमें पिछले जीपीयू मॉडल को सहजता से लोड करने और ट्रेनियम मशीनों पर प्रशिक्षित करने में सक्षम बनाया गया। यह सुनिश्चित करने के लिए महत्वपूर्ण था कि हम अपने मॉडल को बिना किसी उत्पादन डाउनटाइम या मॉडल सटीकता में हानि के सबसे अच्छे पहले प्रशिक्षित मॉडल के साथ प्रारंभ कर सकें।

क्योंकि GPU मॉडल को मानक PyTorch मॉडल सेविंग उपयोगिताओं का उपयोग करके सहेजा गया था, हम ट्रेनियम उपकरणों पर GPU मॉडल को लोड करने के लिए PyTorch चेकपॉइंट लोडिंग उपयोगिता का उपयोग करने में सक्षम थे।

उदाहरण के लिए, GPU/CPU पर, आप मॉडल को निम्नलिखित कोड से सहेज सकते हैं:

torch.save(model.state_dict(), PATH)

फिर आप मॉडल को वापस ट्रेनियम पर लोड करें:

import torch_xla.core.xla_model as xm
xla_device = xm.xla_device()
model = MyModel(*args, **kwargs)
model.load_state_dict(torch.load(PATH))
model.to(xla_device)

इसी प्रकार, आप निम्नलिखित कोड के साथ मॉडल को ट्रेनियम पर सहेज सकते हैं:

import torch_xla.core.xla_model as xm
# automatically moves the data to CPU for the master device
xm.save(model.state_dict(), PATH)

और मॉडल को GPU/CPU पर वापस लोड करें:

model = MyModel(*args, **kwargs)
model.load_state_dict(torch.load(PATH))
model.to(device) # can be any device

वास्तव में, क्योंकि हम मॉडल प्रशिक्षण के लिए डीडीपी का उपयोग करते हैं, मॉडल लोडिंग पिछले चेकपॉइंट को प्रशिक्षित करने के लिए उपयोग की जाने वाली मशीनों की संख्या से अज्ञेयवादी है। यह हमें बिना किसी कोड परिवर्तन या मॉडल प्रशिक्षण पर प्रतिकूल प्रभाव के Trn1 बेड़े को क्षैतिज रूप से स्केल करने की अनुमति देता है। इन PyTorch-आधारित चौकियों का सीधे उपयोग किया जा सकता है या AWS Inferentia2 या अन्य त्वरक पर अनुमान उपयोग के मामलों के लिए टॉर्च-स्क्रिप्टेड भी किया जा सकता है।

परिचालन स्थिरता

इस बात पर पर्याप्त जोर नहीं दिया जा सकता है कि उत्पादन में कार्यभार चलाने के लिए कई एसएलए को पूरा करने की आवश्यकता होती है। हमारे उपयोग के मामले में, मॉडल गुणवत्ता और प्रशिक्षण थ्रूपुट एसएलए के अलावा, यह जरूरी है कि उत्पादन पाइपलाइन परिचालन रूप से स्थिर हो, जिसका अर्थ है मॉडल प्रशिक्षण, मूल्यांकन और अनुमान के दौरान न्यूनतम डाउनटाइम और व्यवधान।

मौजूदा जीपीयू आधारित पाइपलाइन की तरह, हमने पाइपलाइन को परिचालन रूप से स्थिर बनाने के लिए कई तंत्र जोड़े हैं। मॉडल प्रशिक्षण शुरू करने से पहले, हम मशीनों के स्वास्थ्य का आकलन करने के लिए कई विवेक परीक्षण चलाते हैं। इन परीक्षणों में आम तौर पर त्वरक उपकरणों के स्वास्थ्य को सत्यापित करने के लिए सरल टेंसर ऑपरेशन शामिल होते हैं। हमने देखा है कि वितरित प्रशिक्षण के लिए, उदाहरणों के बीच सामूहिक संचार को सत्यापित करने के लिए परीक्षण चलाना भी महत्वपूर्ण है। हमने प्रयोग किया एनसीसीओएम परीक्षण सूट इसे प्राप्त करने के लिए न्यूरॉन एसडीके से ऑल-गैदर, ऑल-रिड्यूस और रिड्यूस-स्कैटर जैसे कई ऑपरेशन चलाए जा रहे हैं।

हमारे द्वारा उल्लिखित सुझावों का पालन करने के बाद भी, हमने देखा है कि अंतर्निहित त्वरक के बावजूद, किसी भी पाइपलाइन में क्षणिक समस्याएं अपरिहार्य हैं। किसी भी प्रशिक्षण पाइपलाइन में लचीलापन बनाने के लिए, हम इन संभावित मुद्दों को हल करने के लिए पुनः प्रयास तंत्र बनाने की सलाह देते हैं। हम उपयोग करते हैं AWS बैच स्वचालित पुनर्प्रयास मॉडल प्रशिक्षण के दौरान क्षणिक विफलता का सामना करने वाली नौकरियों को पुनः प्रयास करने के लिए। यदि प्रशिक्षण के अंत में विफलता का सामना करना पड़ता है तो ये पुनरारंभ महंगा हो सकता है। इस समस्या का मुकाबला करने के लिए, हमने पहले से प्रशिक्षित मॉडल चेकपॉइंट को लोड करने और उस बिंदु से प्रशिक्षण जारी रखने के लिए अपनी प्रशिक्षण स्क्रिप्ट को अनुकूलित किया है। इस कार्यक्षमता के साथ, हम न्यूनतम ओवरहेड के साथ असफल प्रशिक्षण कार्यों को आक्रामक रूप से पुनः आरंभ करने में सक्षम हैं।

इन लचीलेपन तंत्रों के साथ, हम Trn98.5 पर अपने कार्यभार के लिए 1% सफलता दर प्राप्त करने में सक्षम थे, जो हमारी मौजूदा GPU पाइपलाइन सफलता दर के बराबर है।

परिणाम

अपने मॉडलों की सटीकता को सत्यापित करने के लिए, हमने एक ही जीपीयू चेकपॉइंट से दो मॉडल आरंभ किए, और एक को ट्रेनियम पर और दूसरे को तुलनीय जीपीयू पर प्रशिक्षित किया। दोनों मॉडलों को समान प्रशिक्षण हाइपरपैरामीटर के साथ प्रशिक्षित किया गया था। मेट्रिक्स गणना के लिए उपयोग किया जाने वाला डेटासेट एक होल्डआउट डेटासेट है, और हम प्रत्येक एन वैश्विक चरणों में इस डेटासेट पर मॉडल की सटीकता का मूल्यांकन करते हैं। एक्स-अक्ष वैश्विक कदम है, और वाई-अक्ष मॉडल सटीकता है। हमने निम्नलिखित ग्राफ़ में प्रत्येक बिंदु पर मॉडल सटीकता में 0.1% से कम अंतर देखा।

इसके अलावा, मॉडल प्रशिक्षण की लागत-प्रभावशीलता का मूल्यांकन करने के लिए, हम मॉडल अभिसरण तक पहुंचने के लिए दीवार घड़ी के समय की तुलना करना पसंद करते हैं। हमारा मानना है कि यह प्रति टोकन लागत, प्राप्त फ्लॉप्स/डॉलर और अन्य कारकों जैसे उपायों की तुलना में लागत बचत का अधिक व्यावहारिक दृष्टिकोण प्रदान करता है। Trn1.32xl और तुलनीय के प्रशिक्षण समय को ध्यान में रखते हुए अमेज़ॅन इलास्टिक कम्प्यूट क्लाउड (अमेज़ॅन ईसी2) उदाहरणों में, हमने देखा है कि ट्रेनियम मॉडल कन्वर्जेंस के लिए 30% तक सस्ती लागत प्रदान करता है।

निष्कर्ष

आपके डीएल कार्यभार के लिए विभिन्न त्वरक का मूल्यांकन करते समय विचार करने के लिए कई कारक हैं। इनमें से कुछ सबसे महत्वपूर्ण हैं मॉडल की गुणवत्ता, थ्रूपुट, लागत और उपलब्धता। यह सुनिश्चित करना सर्वोपरि है कि आपके द्वारा चुने गए त्वरक के आधार पर आपके मॉडल की गुणवत्ता और थ्रूपुट का त्याग नहीं किया जाता है।

अन्नपूर्णा न्यूरॉन टीम के साथ हमारी साझेदारी और सहयोग के लिए धन्यवाद, अमेज़ॅन सर्च एम5 टीम ट्रेनियम में जाकर लागत में 30% तक की बचत करने में सक्षम हुई है। टीम ट्रेनियम का उपयोग करने और बाजार में तुलनीय त्वरक के साथ मॉडल गुणवत्ता और थ्रूपुट समानता हासिल करने में सक्षम है। चेकपॉइंट इंटरऑपरेबिलिटी और XLA के समर्थन के साथ न्यूनतम कोड परिवर्तनों ने M5 को अपने कार्यभार के लिए कई त्वरक के बीच चयन करने की अनुमति दी है। इसने M5 टीम को ट्रेनियम की बड़ी गणना शक्ति का लाभ उठाने और Amazon.com के ग्राहकों को प्रसन्न करने के लिए त्वरक अज्ञेयवादी समाधान बनाने में सक्षम बनाया है। परिचालन के दृष्टिकोण से, ट्रेनियम अमेज़न पैमाने पर टियर-1 सेवाओं का समर्थन करने में सक्षम साबित हुआ है। एम5 टीम अमेज़ॅन के लिए सबसे कम लागत पर सर्वोत्तम मॉडल उपलब्ध कराने के लिए ट्रेनियम पर अधिक कार्यभार स्थानांतरित करना जारी रखती है।

संक्षेप में, M5 टीम त्वरक के बेड़े में ट्रेनियम को जोड़कर लागत प्रभावी, उत्पादन-ग्रेड एमएल प्रशिक्षण करने में सक्षम है। हम आपको एमएल वर्कलोड के लिए उद्देश्य-निर्मित अमेज़ॅन सिलिकॉन के लाभों को प्राप्त करने के लिए ट्रेनियम और एडब्ल्यूएस इनफेरेंटिया जैसे अन्य न्यूरॉन उपकरणों पर एक नज़र डालने के लिए प्रोत्साहित करते हैं। विभिन्न मॉडलों की विशेषता वाले कई ट्यूटोरियल में से किसी एक के साथ आसानी से शुरुआत करें लामा 2, ट्रेनियम पर उपलब्ध है.

लेखक के बारे में

अभिनंदन पटनायक अमेज़न सर्च में सीनियर सॉफ्टवेयर इंजीनियर हैं। वह स्केलेबल डिस्ट्रीब्यूटेड डीप लर्निंग ट्रेनिंग और रियल टाइम इंट्रेंस के लिए बिल्डिंग सिस्टम और टूलिंग पर ध्यान केंद्रित करता है।

जेम्स पार्क अमेज़न वेब सर्विसेज में सॉल्यूशन आर्किटेक्ट हैं। वह AWS पर प्रौद्योगिकी समाधानों को डिज़ाइन, निर्माण और तैनात करने के लिए Amazon.com के साथ काम करते हैं, और AI और मशीन लर्निंग में उनकी विशेष रुचि है। खाली समय में उन्हें नई संस्कृतियाँ, नए अनुभव तलाशना और नवीनतम प्रौद्योगिकी रुझानों के साथ अपडेट रहना अच्छा लगता है। आप उसे यहां पा सकते हैं लिंक्डइन.

जैरी मैनिल अमेज़न सर्च में एक सॉफ्टवेयर इंजीनियर हैं। वह वितरित प्रशिक्षण बुनियादी ढांचे की दक्षता, मजबूती और मापनीयता में सुधार पर काम करता है।

केन सु अमेज़न सर्च में एक सॉफ्टवेयर इंजीनियर हैं। वह प्रशिक्षण दक्षता और स्केलेबल वितरित प्रशिक्षण वर्कफ़्लो में सुधार पर काम करता है। काम के बाहर, उन्हें लंबी पैदल यात्रा और टेनिस पसंद है।

RJ अमेज़न में इंजीनियर हैं. वह प्रशिक्षण के लिए वितरित प्रणालियों के लिए सिस्टम का निर्माण और अनुकूलन करता है और एमएल अनुमान के लिए विलंबता को कम करने के लिए सिस्टम को अपनाने के अनुकूलन पर काम करता है। काम के बाहर, वह खाद्य व्यंजनों के निर्माण के लिए जेनरेटिव एआई का उपयोग करने की खोज कर रहे हैं।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
प्लेटोईएसजी. कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
प्लेटोहेल्थ। बायोटेक और क्लिनिकल परीक्षण इंटेलिजेंस। यहां पहुंचें।
स्रोत: https://aws.amazon.com/blogs/machine-learning/how-amazon-search-m5-saved-30-for-llm-training-cost-by-using-aws-trainium/

समय टिकट: नवम्बर 22/2023

समय टिकट: 9 मई 2024

प्लेटो द्वारा पुनर्प्रकाशित

अमेज़ॅन कॉम्प्रिहेंड ने कस्टम इकाई पहचान के लिए कम एनोटेशन सीमा की घोषणा की

कस्टम ऑपरेटरों के साथ AWS ट्रेनियम की कार्यक्षमता को कैसे बढ़ाया जाए

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा