कैसे अमेज़ॅन सर्च एडब्ल्यूएस पर एनवीआईडीआईए ट्राइटन के साथ कम-विलंबता, उच्च-थ्रूपुट टी 5 अनुमान प्राप्त करता है

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

Amazon Search का विजन ग्राहकों को सहजता से खोज करने में सक्षम बनाना है। हमारा वर्तनी सुधार आपको इच्छित शब्दों की सटीक वर्तनी नहीं पता होने पर भी आपको जो चाहिए वह ढूंढने में मदद करता है। अतीत में, हमने वर्तनी सुधार के लिए मैनुअल फीचर इंजीनियरिंग के साथ क्लासिकल मशीन लर्निंग (एमएल) एल्गोरिदम का उपयोग किया था। वर्तनी सुधार प्रदर्शन में अगली पीढ़ीगत छलांग लगाने के लिए, हम अनुक्रम-से-अनुक्रम मॉडल सहित कई गहन-सीखने के तरीकों को अपना रहे हैं। डीप लर्निंग (डीएल) मॉडल प्रशिक्षण और अनुमान दोनों में गणना-गहन हैं, और इन लागतों ने ऐतिहासिक रूप से अमेज़ॅन के पैमाने पर उत्पादन सेटिंग में डीएल मॉडल को अव्यवहारिक बना दिया है। इस पोस्ट में, हम एक अनुमान अनुकूलन प्रयोग के परिणाम प्रस्तुत करते हैं जहां हम उन बाधाओं को दूर करते हैं और लोकप्रिय हगिंग फेस T534 ट्रांसफार्मर के लिए 5% अनुमान गति प्राप्त करते हैं।

चुनौती

टेक्स्ट-टू-टेक्स्ट ट्रांसफर ट्रांसफॉर्मर (T5, एक एकीकृत पाठ से पाठ ट्रांसफार्मर के साथ स्थानांतरण सीखने की सीमा की खोज करना, Refel et al) अत्याधुनिक प्राकृतिक भाषा संसाधन (NLP) मॉडल आर्किटेक्चर है। T5 वर्तनी सुधार के लिए एक आशाजनक वास्तुकला है, जिसे हमने अपने प्रयोगों में अच्छा प्रदर्शन करते हुए पाया। ओपन-सोर्स डीप लर्निंग फ्रेमवर्क और चल रहे अकादमिक और उद्यम अनुसंधान के लिए धन्यवाद, T5 मॉडल अनुसंधान, विकास और प्रशिक्षण के लिए आसान हैं।

हालाँकि, T5 के साथ उत्पादन-ग्रेड, कम-विलंबता अनुमान प्राप्त करना मुश्किल है। उदाहरण के लिए, PyTorch T5 के साथ एक एकल अनुमान, Amazon Elastic Compute Cloud (EC45) p100xबड़े उदाहरण से लैस चार NVIDIA V2 Tensor Core GPU में से एक पर 3.8 मिलीसेकंड लेता है। (रिपोर्ट की गई सभी अनुमान संख्याएं 9 टोकन के इनपुट और 11 टोकन के आउटपुट के लिए हैं। T5 आर्किटेक्चर की विलंबता इनपुट और आउटपुट लंबाई दोनों के प्रति संवेदनशील है।)

कम-विलंबता, बड़े पैमाने पर लागत-कुशल T5 अनुमान एक ज्ञात कठिनाई है जिसे Amazon Search से परे कई AWS ग्राहकों द्वारा रिपोर्ट किया गया है, जो इस पोस्ट में योगदान करने के लिए हमारी प्रेरणा को बढ़ाता है। एक ऑफ़लाइन, वैज्ञानिक उपलब्धि से ग्राहक-सामना करने वाली उत्पादन सेवा तक जाने के लिए, Amazon Search को निम्नलिखित चुनौतियों का सामना करना पड़ता है:

विलंब - 5-मिलीसेकंड से कम P50 विलंबता में T99 अनुमान कैसे प्राप्त करें
प्रवाह - बड़े पैमाने पर समवर्ती अनुमान अनुरोधों को कैसे संभालें
कीमत का सामर्थ्य - लागतों को नियंत्रण में कैसे रखें

इस पोस्ट के बाकी हिस्सों में, हम बताते हैं कि कैसे NVIDIA इंट्रेंस ऑप्टिमाइज़ेशन स्टैक—अर्थात् the NVIDIA TensorRT संकलक और खुला स्रोत NVIDIA ट्राइटन अनुमान सर्वर-उन चुनौतियों का समाधान करता है। पढ़ना NVIDIA की प्रेस विज्ञप्ति अपडेट के बारे में जानने के लिए।

NVIDIA TensorRT: अनुमान अनुकूलन के साथ लागत और विलंबता को कम करना

डीप लर्निंग फ्रेमवर्क विज्ञान पर तेजी से पुनरावृति करने के लिए सुविधाजनक हैं, और वैज्ञानिक मॉडलिंग, डेटा लोडिंग और प्रशिक्षण अनुकूलन के लिए कई कार्यात्मकताओं के साथ आते हैं। हालांकि, उनमें से अधिकांश उपकरण अनुमान के लिए उप-इष्टतम हैं, जिन्हें केवल मैट्रिक्स गुणन और सक्रियण कार्यों के लिए ऑपरेटरों के न्यूनतम सेट की आवश्यकता होती है। इसलिए, गहन शिक्षण विकास ढांचे में अनुमान चलाने के बजाय एक विशेष, भविष्यवाणी-केवल एप्लिकेशन का उपयोग करके महत्वपूर्ण लाभ प्राप्त किया जा सकता है।

NVIDIA TensorRT उच्च-प्रदर्शन गहन शिक्षण अनुमान के लिए एक एसडीके है। TensorRT NVIDIA GPU पर उपलब्ध निम्न-स्तरीय अनुकूलित कर्नेल और एक अनुमान-केवल मॉडल ग्राफ़ का उपयोग करके एक अनुकूलित रनटाइम दोनों प्रदान करता है, जो एक अनुकूलित क्रम में अनुमान गणना को पुनर्व्यवस्थित करता है।

अगले भाग में, हम TensorRT के पीछे होने वाले विवरणों के बारे में बात करेंगे और यह कैसे प्रदर्शन को गति देता है।

कम परिशुद्धता शुद्धता बनाए रखते हुए मॉडल को परिमाणित करके FP16 या INT8 के साथ थ्रूपुट को अधिकतम करता है।
परत और टेंसर फ्यूजन कर्नेल लॉन्च विलंबता से बचने के लिए कर्नेल में नोड्स को फ्यूज करके GPU मेमोरी और बैंडविड्थ के उपयोग को अनुकूलित करता है।
कर्नेल ऑटो-ट्यूनिंग लक्ष्य GPU प्लेटफ़ॉर्म और डेटा कर्नेल आकृतियों के आधार पर सर्वोत्तम डेटा परतों और एल्गोरिदम का चयन करता है।
डायनेमिक टेंसर मेमोरी इंटरमीडिएट परिणामों की अनावश्यक मेमोरी खपत को मुक्त करके मेमोरी पदचिह्न को कम करता है और टेंसर के लिए कुशलता से स्मृति का पुन: उपयोग करता है।
मल्टी-स्ट्रीम निष्पादन समर्पित CUDA स्ट्रीम के साथ समानांतर में कई इनपुट स्ट्रीम को संसाधित करने के लिए एक स्केलेबल डिज़ाइन का उपयोग करता है।
टाइम फ्यूजन गतिशील रूप से उत्पन्न कर्नेल के साथ समय के साथ आवर्तक तंत्रिका नेटवर्क का अनुकूलन करता है।

T5 अपने आर्किटेक्चर के लिए बिल्डिंग ब्लॉक्स के रूप में ट्रांसफॉर्मर लेयर्स का उपयोग करता है। NVIDIA TensorRT 8.2 की नवीनतम रिलीज़ वास्तविक समय के अनुमान के लिए T5 और GPT-2 मॉडल के लिए नए अनुकूलन पेश करती है। निम्न तालिका में, हम Amazon EC5G2dn इंस्टेंस पर चलने वाले कुछ सार्वजनिक T4 मॉडल पर TensorRT के साथ स्पीडअप देख सकते हैं, जो NVIDIA T4 GPU और EC2 G5 इंस्टेंस द्वारा संचालित है, जो NVIDIA A10G GPU द्वारा संचालित है।

आदर्श	उदाहरण	बेसलाइन पाइटोरच विलंबता (एमएस)			TensorRT 8.2 विलंबता (एमएस)						स्पीडअप बनाम एचएफ बेसलाइन
		FP32			FP32			FP16			FP32	FP16
		एनकोडर	विकोडक	शुरू से अंत तक	एनकोडर	विकोडक	शुरू से अंत तक	एनकोडर	विकोडक	शुरू से अंत तक	शुरू से अंत तक	शुरू से अंत तक
t5-छोटा	g4dn.xबड़ा	5.98	9.74	30.71	1.28	2.25	7.54	0.93	1.59	5.91	407.40% तक	519.34% तक
	g5.xबड़ा	4.63	7.56	24.22	0.61	1.05	3.99	0.47	0.80	3.19	606.66% तक	760.01% तक
t5-आधार	g4dn.xबड़ा	11.61	19.05	78.44	3.18	5.45	19.59	3.15	2.96	13.76	400.48% तक	569.97% तक
	g5.xबड़ा	8.59	14.23	59.98	1.55	2.47	11.32	1.54	1.65	8.46	530.05% तक	709.20% तक

संलग्न प्रदर्शन के अनुकूलन और प्रतिकृति के बारे में अधिक जानकारी के लिए, देखें NVIDIA TensorRT के साथ रीयल-टाइम इंफ़ेक्शन के लिए T5 और GPT-2 को ऑप्टिमाइज़ करना.

यह ध्यान रखना महत्वपूर्ण है कि संकलन मॉडल सटीकता को बरकरार रखता है, क्योंकि यह अनुमान के माहौल और गणना शेड्यूलिंग पर काम करता है, जिससे मॉडल विज्ञान को अपरिवर्तित छोड़ दिया जाता है - वजन हटाने के संपीड़न जैसे आसवन या छंटाई के विपरीत। NVIDIA TensorRT आगे के लाभ के लिए संकलन को परिमाणीकरण के साथ संयोजित करने की अनुमति देता है। हाल के NVIDIA हार्डवेयर पर परिमाणीकरण के दोहरे लाभ हैं: यह स्मृति उपयोग को कम करता है, और NVIDIA Tensor Cores, DL-विशिष्ट कोशिकाओं के उपयोग को सक्षम बनाता है जो मिश्रित परिशुद्धता में फ़्यूज़्ड मैट्रिक्स-मल्टी-ऐड चलाते हैं।

हगिंग फेस T5 मॉडल के साथ अमेज़ॅन सर्च प्रयोग के मामले में, मॉडल अनुमान के लिए PyTorch को TensorRT से बदलने से गति में 534% की वृद्धि होती है।

NVIDIA ट्राइटन: कम विलंबता, उच्च-थ्रूपुट अनुमान सेवा

आधुनिक मॉडल सर्विंग समाधान ऑफ़लाइन प्रशिक्षित मॉडल को ग्राहक-सामना करने वाले एमएल-संचालित उत्पादों में बदल सकते हैं। इस तरह के पैमाने पर उचित लागत बनाए रखने के लिए, ओवरहेड कम (HTTP हैंडलिंग, प्रीप्रोसेसिंग और पोस्टप्रोसेसिंग, सीपीयू-जीपीयू संचार) की सेवा करना और जीपीयू की समानांतर प्रसंस्करण क्षमता का पूरी तरह से लाभ उठाना महत्वपूर्ण है।

NVIDIA ट्राइटन मॉडल रनटाइम (NVIDIA TensorRT, ONNX, PyTorch, XGBoost सहित अन्य) के व्यापक समर्थन का प्रस्ताव देने वाला एक अनुमान सेवा सॉफ्टवेयर है और GPU, CPU और सहित बुनियादी ढांचे के बैकएंड हैं। एडब्ल्यूएस इन्फरेंटिया।

एमएल चिकित्सक कई कारणों से ट्राइटन से प्यार करते हैं। इसकी गतिशील बैचिंग क्षमता उपयोगकर्ता द्वारा परिभाषित देरी के दौरान और अधिकतम उपयोगकर्ता-परिभाषित बैच आकार के भीतर अनुमान अनुरोधों को जमा करने की अनुमति देती है, ताकि सीपीयू-जीपीयू संचार ओवरहेड को परिशोधित करते हुए जीपीयू अनुमान को बैच किया जा सके। ध्यान दें कि डायनामिक बैचिंग सर्वर-साइड और बहुत कम समय सीमा के भीतर होती है, ताकि अनुरोध करने वाले क्लाइंट के पास अभी भी एक सिंक्रोनस, निकट-वास्तविक-समय आमंत्रण अनुभव हो। ट्राइटन उपयोगकर्ता इसकी समवर्ती मॉडल निष्पादन क्षमता का भी आनंद लेते हैं। जीपीयू शक्तिशाली मल्टीटास्कर हैं जो समानांतर में गणना-गहन कार्यभार निष्पादित करने में उत्कृष्टता प्राप्त करते हैं। ट्राइटन कई मॉडल इंस्टेंस को एक साथ चलाने के लिए CUDA स्ट्रीम का उपयोग करके GPU उपयोग और थ्रूपुट को अधिकतम करता है। ये मॉडल उदाहरण अलग-अलग उपयोग के मामलों के लिए अलग-अलग ढांचे से अलग मॉडल हो सकते हैं, या एक ही मॉडल की सीधी प्रति हो सकते हैं। जब आपके पास पर्याप्त निष्क्रिय GPU मेमोरी हो तो यह प्रत्यक्ष थ्रूपुट सुधार में अनुवाद करता है। इसके अलावा, चूंकि ट्राइटन एक विशिष्ट डीएल विकास ढांचे से बंधा नहीं है, यह वैज्ञानिकों को अपनी पसंद के उपकरण में खुद को पूरी तरह से व्यक्त करने की अनुमति देता है।

एडब्ल्यूएस पर ट्राइटन के साथ, अमेज़ॅन सर्च बेहतर सेवा की उम्मीद करता है Amazon.com ग्राहकों और कम लागत पर विलंबता आवश्यकताओं को पूरा करते हैं। TensorRT रनटाइम और ट्राइटन सर्वर के बीच कड़ा एकीकरण विकास के अनुभव को सुविधाजनक बनाता है। बार उच्च या विश्वसनीयता और सुरक्षा बनाए रखते हुए, एडब्ल्यूएस क्लाउड इंफ्रास्ट्रक्चर का उपयोग थ्रूपुट आवश्यकताओं के आधार पर मिनटों में ऊपर या नीचे स्केल करने की अनुमति देता है।

कैसे AWS प्रवेश की बाधा को कम करता है

जबकि अमेज़ॅन सर्च ने अमेज़ॅन ईसी 2 इंफ्रास्ट्रक्चर पर यह प्रयोग किया, अन्य एडब्ल्यूएस सेवाएं अत्याधुनिक गहन शिक्षण समाधानों के विकास, प्रशिक्षण और होस्टिंग की सुविधा के लिए मौजूद हैं।

उदाहरण के लिए, AWS और NVIDIA ने ट्राइटन इंफरेंस सर्वर के प्रबंधित कार्यान्वयन को जारी करने के लिए सहयोग किया है अमेज़न SageMaker ; अधिक जानकारी के लिए देखें Amazon SageMaker में NVIDIA ट्राइटन इंफरेंस सर्वर के साथ तेज और स्केलेबल AI को तैनात करें. एडब्ल्यूएस ने अमेज़ॅन सेजमेकर और हगिंग फेस ट्रांसफॉर्मर्स के बीच एक प्रबंधित, अनुकूलित एकीकरण विकसित करने के लिए हगिंग फेस के साथ भी सहयोग किया, ओपन-सोर्स फ्रेमवर्क जिससे अमेज़ॅन सर्च टी 5 मॉडल व्युत्पन्न हुआ है; पर और अधिक पढ़ें https://aws.amazon.com/machine-learning/hugging-face/.

हम एडब्ल्यूएस पर एनवीआईडीआईए टेंसरआरटी और ट्राइटन पर विचार करने के लिए लेटेंसी-सेंसिटिव सीपीयू और जीपीयू डीप लर्निंग सर्विंग एप्लिकेशन वाले ग्राहकों को प्रोत्साहित करते हैं। हमें बताएं कि आपने क्या बनाया है!

Amazon Search के लिए डीप लर्निंग और डीप लर्निंग-बेस्ड सॉल्यूशंस बनाने के लिए उत्सुक हैं? हमारी जाँच करें करियर पृष्ठ।

लेखक के बारे में

RJ सर्च M5 टीम में एक इंजीनियर है, जो प्रशिक्षण और अनुमान के लिए बड़े पैमाने पर डीप लर्निंग सिस्टम बनाने के प्रयासों का नेतृत्व कर रहा है। काम के बाहर वह भोजन के विभिन्न व्यंजनों की खोज करता है और रैकेट खेल खेलता है।

हेमंत पुगलिया खोज M5 में अनुप्रयुक्त वैज्ञानिक हैं। वह दुनिया भर में अमेज़न खरीदारी पर ग्राहकों के अनुभव को बेहतर बनाने के लिए नवीनतम प्राकृतिक भाषा प्रसंस्करण और गहन शिक्षण अनुसंधान को लागू करने पर काम करता है। उनकी शोध रुचियों में प्राकृतिक भाषा प्रसंस्करण और बड़े पैमाने पर मशीन लर्निंग सिस्टम शामिल हैं। काम के अलावा, उन्हें लंबी पैदल यात्रा, खाना बनाना और पढ़ना पसंद है।

एंडी सुन एक सॉफ्टवेयर इंजीनियर और खोज वर्तनी सुधार के लिए तकनीकी लीड है। उनके शोध के हितों में गहन शिक्षण अनुमान विलंबता का अनुकूलन, और तेजी से प्रयोग प्लेटफार्मों का निर्माण शामिल है। काम के अलावा, उन्हें फिल्म निर्माण और कलाबाजी का शौक है।

ले काई अमेज़न सर्च में सॉफ्टवेयर इंजीनियर हैं। वह ग्राहकों को उनके खरीदारी अनुभव में मदद करने के लिए खोज वर्तनी सुधार प्रदर्शन को बेहतर बनाने पर काम करता है। वह डीप लर्निंग मॉडल के लिए उच्च-प्रदर्शन ऑनलाइन अनुमान और वितरित प्रशिक्षण अनुकूलन पर ध्यान केंद्रित कर रहा है। काम के अलावा, उन्हें स्कीइंग, हाइकिंग और साइकिल चलाना पसंद है।

एंथोनी कोस वर्तमान में Search M5 Palo Alto, CA में एक सॉफ्टवेयर इंजीनियर के रूप में कार्यरत हैं। वह मॉडल परिनियोजन और अनुमान अनुकूलन के लिए उपकरणों और उत्पादों के निर्माण पर काम करता है। काम के अलावा, उन्हें खाना बनाना और रैकेट के खेल खेलना पसंद है।

ओलिवियर क्रूचांट फ्रांस में स्थित एडब्ल्यूएस में एक मशीन लर्निंग स्पेशलिस्ट सॉल्यूशंस आर्किटेक्ट है। ओलिवियर एडब्ल्यूएस ग्राहकों की मदद करता है - छोटे स्टार्टअप से लेकर बड़े उद्यमों तक - प्रोडक्शन-ग्रेड मशीन लर्निंग एप्लिकेशन को विकसित और तैनात करता है। अपने खाली समय में, उन्हें शोध पत्र पढ़ने और दोस्तों और परिवार के साथ जंगल की खोज करने में आनंद आता है।

अनीश मोहन NVIDIA में एक मशीन लर्निंग आर्किटेक्ट है और अधिक से अधिक सिएटल क्षेत्र में अपने ग्राहकों के साथ ML और DL जुड़ाव के लिए तकनीकी नेतृत्व है।

जियाहोंग लिउ NVIDIA में क्लाउड सेवा प्रदाता टीम पर एक समाधान वास्तुकार है। वह मशीन लर्निंग और एआई समाधानों को अपनाने में ग्राहकों की सहायता करता है जो उनके प्रशिक्षण और अनुमान चुनौतियों का समाधान करने के लिए एनवीआईडीआईए त्वरित कंप्यूटिंग का लाभ उठाते हैं। अपने ख़ाली समय में, वह ओरिगेमी, DIY प्रोजेक्ट्स और बास्केटबॉल खेलने का आनंद लेते हैं।

एलिउथ ट्रियाना NVIDIA में डेवलपर रिलेशंस मैनेजर हैं। वह अमेज़ॅन और एडब्ल्यूएस उत्पाद नेताओं, डेवलपर्स और वैज्ञानिकों को एनवीआईडीआईए प्रौद्योगिकीविदों और उत्पाद नेताओं के साथ जोड़ता है ताकि अमेज़ॅन एमएल / डीएल वर्कलोड, ईसी 2 उत्पादों और एडब्ल्यूएस एआई सेवाओं को तेज किया जा सके। इसके अलावा, Eliuth एक भावुक पर्वत बाइकर, स्कीयर और पोकर खिलाड़ी है।

समय टिकट: मार्च २०,२०२१

समय टिकट: मार्च 9, 2023

AWS पर NVIDIA ट्राइटन के साथ Amazon Search कैसे कम-विलंबता, उच्च-थ्रूपुट T5 अनुमान प्राप्त करता है

प्लेटो द्वारा पुनर्प्रकाशित

चुनौती

NVIDIA TensorRT: अनुमान अनुकूलन के साथ लागत और विलंबता को कम करना

NVIDIA ट्राइटन: कम विलंबता, उच्च-थ्रूपुट अनुमान सेवा

कैसे AWS प्रवेश की बाधा को कम करता है

लेखक के बारे में

से अधिक AWS मशीन लर्निंग

अमेज़ॅन टेक्सट्रैक्ट आईडीपी सीडीके कंस्ट्रक्ट्स के साथ एंड-टू-एंड दस्तावेज़ प्रसंस्करण पाइपलाइन बनाएं

Amazon SageMaker विषम समूहों का उपयोग करके अपने मॉडल प्रशिक्षण के मूल्य प्रदर्शन में सुधार करें

अमेज़ॅन सेजमेकर स्वचालित मॉडल ट्यूनिंग अब हाइपरबैंड के साथ तीन गुना तेज हाइपरपैरामीटर ट्यूनिंग प्रदान करता है

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा