AWS प्लेटोब्लॉकचैन डेटा इंटेलिजेंस पर NVIDIA ट्राइटन के साथ Amazon Search कैसे कम-विलंबता, उच्च-थ्रूपुट T5 अनुमान प्राप्त करता है। लंबवत खोज। ऐ.

AWS पर NVIDIA ट्राइटन के साथ Amazon Search कैसे कम-विलंबता, उच्च-थ्रूपुट T5 अनुमान प्राप्त करता है

Amazon Search का विजन ग्राहकों को सहजता से खोज करने में सक्षम बनाना है। हमारा वर्तनी सुधार आपको इच्छित शब्दों की सटीक वर्तनी नहीं पता होने पर भी आपको जो चाहिए वह ढूंढने में मदद करता है। अतीत में, हमने वर्तनी सुधार के लिए मैनुअल फीचर इंजीनियरिंग के साथ क्लासिकल मशीन लर्निंग (एमएल) एल्गोरिदम का उपयोग किया था। वर्तनी सुधार प्रदर्शन में अगली पीढ़ीगत छलांग लगाने के लिए, हम अनुक्रम-से-अनुक्रम मॉडल सहित कई गहन-सीखने के तरीकों को अपना रहे हैं। डीप लर्निंग (डीएल) मॉडल प्रशिक्षण और अनुमान दोनों में गणना-गहन हैं, और इन लागतों ने ऐतिहासिक रूप से अमेज़ॅन के पैमाने पर उत्पादन सेटिंग में डीएल मॉडल को अव्यवहारिक बना दिया है। इस पोस्ट में, हम एक अनुमान अनुकूलन प्रयोग के परिणाम प्रस्तुत करते हैं जहां हम उन बाधाओं को दूर करते हैं और लोकप्रिय हगिंग फेस T534 ट्रांसफार्मर के लिए 5% अनुमान गति प्राप्त करते हैं।

चुनौती

टेक्स्ट-टू-टेक्स्ट ट्रांसफर ट्रांसफॉर्मर (T5, एक एकीकृत पाठ से पाठ ट्रांसफार्मर के साथ स्थानांतरण सीखने की सीमा की खोज करना, Refel et al) अत्याधुनिक प्राकृतिक भाषा संसाधन (NLP) मॉडल आर्किटेक्चर है। T5 वर्तनी सुधार के लिए एक आशाजनक वास्तुकला है, जिसे हमने अपने प्रयोगों में अच्छा प्रदर्शन करते हुए पाया। ओपन-सोर्स डीप लर्निंग फ्रेमवर्क और चल रहे अकादमिक और उद्यम अनुसंधान के लिए धन्यवाद, T5 मॉडल अनुसंधान, विकास और प्रशिक्षण के लिए आसान हैं।

हालाँकि, T5 के साथ उत्पादन-ग्रेड, कम-विलंबता अनुमान प्राप्त करना मुश्किल है। उदाहरण के लिए, PyTorch T5 के साथ एक एकल अनुमान, Amazon Elastic Compute Cloud (EC45) p100xबड़े उदाहरण से लैस चार NVIDIA V2 Tensor Core GPU में से एक पर 3.8 मिलीसेकंड लेता है। (रिपोर्ट की गई सभी अनुमान संख्याएं 9 टोकन के इनपुट और 11 टोकन के आउटपुट के लिए हैं। T5 आर्किटेक्चर की विलंबता इनपुट और आउटपुट लंबाई दोनों के प्रति संवेदनशील है।)

कम-विलंबता, बड़े पैमाने पर लागत-कुशल T5 अनुमान एक ज्ञात कठिनाई है जिसे Amazon Search से परे कई AWS ग्राहकों द्वारा रिपोर्ट किया गया है, जो इस पोस्ट में योगदान करने के लिए हमारी प्रेरणा को बढ़ाता है। एक ऑफ़लाइन, वैज्ञानिक उपलब्धि से ग्राहक-सामना करने वाली उत्पादन सेवा तक जाने के लिए, Amazon Search को निम्नलिखित चुनौतियों का सामना करना पड़ता है:

  • विलंब - 5-मिलीसेकंड से कम P50 विलंबता में T99 अनुमान कैसे प्राप्त करें
  • प्रवाह - बड़े पैमाने पर समवर्ती अनुमान अनुरोधों को कैसे संभालें
  • कीमत का सामर्थ्य - लागतों को नियंत्रण में कैसे रखें

इस पोस्ट के बाकी हिस्सों में, हम बताते हैं कि कैसे NVIDIA इंट्रेंस ऑप्टिमाइज़ेशन स्टैक—अर्थात् the NVIDIA TensorRT संकलक और खुला स्रोत NVIDIA ट्राइटन अनुमान सर्वर-उन चुनौतियों का समाधान करता है। पढ़ना NVIDIA की प्रेस विज्ञप्ति अपडेट के बारे में जानने के लिए।

NVIDIA TensorRT: अनुमान अनुकूलन के साथ लागत और विलंबता को कम करना

डीप लर्निंग फ्रेमवर्क विज्ञान पर तेजी से पुनरावृति करने के लिए सुविधाजनक हैं, और वैज्ञानिक मॉडलिंग, डेटा लोडिंग और प्रशिक्षण अनुकूलन के लिए कई कार्यात्मकताओं के साथ आते हैं। हालांकि, उनमें से अधिकांश उपकरण अनुमान के लिए उप-इष्टतम हैं, जिन्हें केवल मैट्रिक्स गुणन और सक्रियण कार्यों के लिए ऑपरेटरों के न्यूनतम सेट की आवश्यकता होती है। इसलिए, गहन शिक्षण विकास ढांचे में अनुमान चलाने के बजाय एक विशेष, भविष्यवाणी-केवल एप्लिकेशन का उपयोग करके महत्वपूर्ण लाभ प्राप्त किया जा सकता है।

NVIDIA TensorRT उच्च-प्रदर्शन गहन शिक्षण अनुमान के लिए एक एसडीके है। TensorRT NVIDIA GPU पर उपलब्ध निम्न-स्तरीय अनुकूलित कर्नेल और एक अनुमान-केवल मॉडल ग्राफ़ का उपयोग करके एक अनुकूलित रनटाइम दोनों प्रदान करता है, जो एक अनुकूलित क्रम में अनुमान गणना को पुनर्व्यवस्थित करता है।

अगले भाग में, हम TensorRT के पीछे होने वाले विवरणों के बारे में बात करेंगे और यह कैसे प्रदर्शन को गति देता है।

AWS प्लेटोब्लॉकचैन डेटा इंटेलिजेंस पर NVIDIA ट्राइटन के साथ Amazon Search कैसे कम-विलंबता, उच्च-थ्रूपुट T5 अनुमान प्राप्त करता है। लंबवत खोज। ऐ.

  1. कम परिशुद्धता शुद्धता बनाए रखते हुए मॉडल को परिमाणित करके FP16 या INT8 के साथ थ्रूपुट को अधिकतम करता है।
  2. परत और टेंसर फ्यूजन कर्नेल लॉन्च विलंबता से बचने के लिए कर्नेल में नोड्स को फ्यूज करके GPU मेमोरी और बैंडविड्थ के उपयोग को अनुकूलित करता है।
  3. कर्नेल ऑटो-ट्यूनिंग लक्ष्य GPU प्लेटफ़ॉर्म और डेटा कर्नेल आकृतियों के आधार पर सर्वोत्तम डेटा परतों और एल्गोरिदम का चयन करता है।
  4. डायनेमिक टेंसर मेमोरी इंटरमीडिएट परिणामों की अनावश्यक मेमोरी खपत को मुक्त करके मेमोरी पदचिह्न को कम करता है और टेंसर के लिए कुशलता से स्मृति का पुन: उपयोग करता है।
  5. मल्टी-स्ट्रीम निष्पादन समर्पित CUDA स्ट्रीम के साथ समानांतर में कई इनपुट स्ट्रीम को संसाधित करने के लिए एक स्केलेबल डिज़ाइन का उपयोग करता है।
  6. टाइम फ्यूजन गतिशील रूप से उत्पन्न कर्नेल के साथ समय के साथ आवर्तक तंत्रिका नेटवर्क का अनुकूलन करता है।

T5 अपने आर्किटेक्चर के लिए बिल्डिंग ब्लॉक्स के रूप में ट्रांसफॉर्मर लेयर्स का उपयोग करता है। NVIDIA TensorRT 8.2 की नवीनतम रिलीज़ वास्तविक समय के अनुमान के लिए T5 और GPT-2 मॉडल के लिए नए अनुकूलन पेश करती है। निम्न तालिका में, हम Amazon EC5G2dn इंस्टेंस पर चलने वाले कुछ सार्वजनिक T4 मॉडल पर TensorRT के साथ स्पीडअप देख सकते हैं, जो NVIDIA T4 GPU और EC2 G5 इंस्टेंस द्वारा संचालित है, जो NVIDIA A10G GPU द्वारा संचालित है।

 

आदर्श उदाहरण बेसलाइन पाइटोरच विलंबता (एमएस) TensorRT 8.2 विलंबता (एमएस) स्पीडअप बनाम एचएफ बेसलाइन
FP32 FP32 FP16 FP32 FP16
एनकोडर विकोडक शुरू से अंत तक एनकोडर विकोडक शुरू से अंत तक एनकोडर विकोडक शुरू से अंत तक शुरू से अंत तक शुरू से अंत तक
t5-छोटा g4dn.xबड़ा 5.98 9.74 30.71 1.28 2.25 7.54 0.93 1.59 5.91 407.40% तक 519.34% तक
g5.xबड़ा 4.63 7.56 24.22 0.61 1.05 3.99 0.47 0.80 3.19 606.66% तक 760.01% तक
t5-आधार g4dn.xबड़ा 11.61 19.05 78.44 3.18 5.45 19.59 3.15 2.96 13.76 400.48% तक 569.97% तक
g5.xबड़ा 8.59 14.23 59.98 1.55 2.47 11.32 1.54 1.65 8.46 530.05% तक 709.20% तक

संलग्न प्रदर्शन के अनुकूलन और प्रतिकृति के बारे में अधिक जानकारी के लिए, देखें NVIDIA TensorRT के साथ रीयल-टाइम इंफ़ेक्शन के लिए T5 और GPT-2 को ऑप्टिमाइज़ करना.

यह ध्यान रखना महत्वपूर्ण है कि संकलन मॉडल सटीकता को बरकरार रखता है, क्योंकि यह अनुमान के माहौल और गणना शेड्यूलिंग पर काम करता है, जिससे मॉडल विज्ञान को अपरिवर्तित छोड़ दिया जाता है - वजन हटाने के संपीड़न जैसे आसवन या छंटाई के विपरीत। NVIDIA TensorRT आगे के लाभ के लिए संकलन को परिमाणीकरण के साथ संयोजित करने की अनुमति देता है। हाल के NVIDIA हार्डवेयर पर परिमाणीकरण के दोहरे लाभ हैं: यह स्मृति उपयोग को कम करता है, और NVIDIA Tensor Cores, DL-विशिष्ट कोशिकाओं के उपयोग को सक्षम बनाता है जो मिश्रित परिशुद्धता में फ़्यूज़्ड मैट्रिक्स-मल्टी-ऐड चलाते हैं।

हगिंग फेस T5 मॉडल के साथ अमेज़ॅन सर्च प्रयोग के मामले में, मॉडल अनुमान के लिए PyTorch को TensorRT से बदलने से गति में 534% की वृद्धि होती है।

NVIDIA ट्राइटन: कम विलंबता, उच्च-थ्रूपुट अनुमान सेवा

आधुनिक मॉडल सर्विंग समाधान ऑफ़लाइन प्रशिक्षित मॉडल को ग्राहक-सामना करने वाले एमएल-संचालित उत्पादों में बदल सकते हैं। इस तरह के पैमाने पर उचित लागत बनाए रखने के लिए, ओवरहेड कम (HTTP हैंडलिंग, प्रीप्रोसेसिंग और पोस्टप्रोसेसिंग, सीपीयू-जीपीयू संचार) की सेवा करना और जीपीयू की समानांतर प्रसंस्करण क्षमता का पूरी तरह से लाभ उठाना महत्वपूर्ण है।

NVIDIA ट्राइटन मॉडल रनटाइम (NVIDIA TensorRT, ONNX, PyTorch, XGBoost सहित अन्य) के व्यापक समर्थन का प्रस्ताव देने वाला एक अनुमान सेवा सॉफ्टवेयर है और GPU, CPU और सहित बुनियादी ढांचे के बैकएंड हैं। एडब्ल्यूएस इन्फरेंटिया।

एमएल चिकित्सक कई कारणों से ट्राइटन से प्यार करते हैं। इसकी गतिशील बैचिंग क्षमता उपयोगकर्ता द्वारा परिभाषित देरी के दौरान और अधिकतम उपयोगकर्ता-परिभाषित बैच आकार के भीतर अनुमान अनुरोधों को जमा करने की अनुमति देती है, ताकि सीपीयू-जीपीयू संचार ओवरहेड को परिशोधित करते हुए जीपीयू अनुमान को बैच किया जा सके। ध्यान दें कि डायनामिक बैचिंग सर्वर-साइड और बहुत कम समय सीमा के भीतर होती है, ताकि अनुरोध करने वाले क्लाइंट के पास अभी भी एक सिंक्रोनस, निकट-वास्तविक-समय आमंत्रण अनुभव हो। ट्राइटन उपयोगकर्ता इसकी समवर्ती मॉडल निष्पादन क्षमता का भी आनंद लेते हैं। जीपीयू शक्तिशाली मल्टीटास्कर हैं जो समानांतर में गणना-गहन कार्यभार निष्पादित करने में उत्कृष्टता प्राप्त करते हैं। ट्राइटन कई मॉडल इंस्टेंस को एक साथ चलाने के लिए CUDA स्ट्रीम का उपयोग करके GPU उपयोग और थ्रूपुट को अधिकतम करता है। ये मॉडल उदाहरण अलग-अलग उपयोग के मामलों के लिए अलग-अलग ढांचे से अलग मॉडल हो सकते हैं, या एक ही मॉडल की सीधी प्रति हो सकते हैं। जब आपके पास पर्याप्त निष्क्रिय GPU मेमोरी हो तो यह प्रत्यक्ष थ्रूपुट सुधार में अनुवाद करता है। इसके अलावा, चूंकि ट्राइटन एक विशिष्ट डीएल विकास ढांचे से बंधा नहीं है, यह वैज्ञानिकों को अपनी पसंद के उपकरण में खुद को पूरी तरह से व्यक्त करने की अनुमति देता है।

एडब्ल्यूएस पर ट्राइटन के साथ, अमेज़ॅन सर्च बेहतर सेवा की उम्मीद करता है Amazon.com ग्राहकों और कम लागत पर विलंबता आवश्यकताओं को पूरा करते हैं। TensorRT रनटाइम और ट्राइटन सर्वर के बीच कड़ा एकीकरण विकास के अनुभव को सुविधाजनक बनाता है। बार उच्च या विश्वसनीयता और सुरक्षा बनाए रखते हुए, एडब्ल्यूएस क्लाउड इंफ्रास्ट्रक्चर का उपयोग थ्रूपुट आवश्यकताओं के आधार पर मिनटों में ऊपर या नीचे स्केल करने की अनुमति देता है।

कैसे AWS प्रवेश की बाधा को कम करता है

जबकि अमेज़ॅन सर्च ने अमेज़ॅन ईसी 2 इंफ्रास्ट्रक्चर पर यह प्रयोग किया, अन्य एडब्ल्यूएस सेवाएं अत्याधुनिक गहन शिक्षण समाधानों के विकास, प्रशिक्षण और होस्टिंग की सुविधा के लिए मौजूद हैं।

उदाहरण के लिए, AWS और NVIDIA ने ट्राइटन इंफरेंस सर्वर के प्रबंधित कार्यान्वयन को जारी करने के लिए सहयोग किया है अमेज़न SageMaker ; अधिक जानकारी के लिए देखें Amazon SageMaker में NVIDIA ट्राइटन इंफरेंस सर्वर के साथ तेज और स्केलेबल AI को तैनात करें. एडब्ल्यूएस ने अमेज़ॅन सेजमेकर और हगिंग फेस ट्रांसफॉर्मर्स के बीच एक प्रबंधित, अनुकूलित एकीकरण विकसित करने के लिए हगिंग फेस के साथ भी सहयोग किया, ओपन-सोर्स फ्रेमवर्क जिससे अमेज़ॅन सर्च टी 5 मॉडल व्युत्पन्न हुआ है; पर और अधिक पढ़ें https://aws.amazon.com/machine-learning/hugging-face/.

हम एडब्ल्यूएस पर एनवीआईडीआईए टेंसरआरटी ​​और ट्राइटन पर विचार करने के लिए लेटेंसी-सेंसिटिव सीपीयू और जीपीयू डीप लर्निंग सर्विंग एप्लिकेशन वाले ग्राहकों को प्रोत्साहित करते हैं। हमें बताएं कि आपने क्या बनाया है!

Amazon Search के लिए डीप लर्निंग और डीप लर्निंग-बेस्ड सॉल्यूशंस बनाने के लिए उत्सुक हैं? हमारी जाँच करें करियर पृष्ठ।


लेखक के बारे में

AWS प्लेटोब्लॉकचैन डेटा इंटेलिजेंस पर NVIDIA ट्राइटन के साथ Amazon Search कैसे कम-विलंबता, उच्च-थ्रूपुट T5 अनुमान प्राप्त करता है। लंबवत खोज। ऐ.RJ सर्च M5 टीम में एक इंजीनियर है, जो प्रशिक्षण और अनुमान के लिए बड़े पैमाने पर डीप लर्निंग सिस्टम बनाने के प्रयासों का नेतृत्व कर रहा है। काम के बाहर वह भोजन के विभिन्न व्यंजनों की खोज करता है और रैकेट खेल खेलता है।

AWS प्लेटोब्लॉकचैन डेटा इंटेलिजेंस पर NVIDIA ट्राइटन के साथ Amazon Search कैसे कम-विलंबता, उच्च-थ्रूपुट T5 अनुमान प्राप्त करता है। लंबवत खोज। ऐ.हेमंत पुगलिया खोज M5 में अनुप्रयुक्त वैज्ञानिक हैं। वह दुनिया भर में अमेज़न खरीदारी पर ग्राहकों के अनुभव को बेहतर बनाने के लिए नवीनतम प्राकृतिक भाषा प्रसंस्करण और गहन शिक्षण अनुसंधान को लागू करने पर काम करता है। उनकी शोध रुचियों में प्राकृतिक भाषा प्रसंस्करण और बड़े पैमाने पर मशीन लर्निंग सिस्टम शामिल हैं। काम के अलावा, उन्हें लंबी पैदल यात्रा, खाना बनाना और पढ़ना पसंद है।

AWS प्लेटोब्लॉकचैन डेटा इंटेलिजेंस पर NVIDIA ट्राइटन के साथ Amazon Search कैसे कम-विलंबता, उच्च-थ्रूपुट T5 अनुमान प्राप्त करता है। लंबवत खोज। ऐ.एंडी सुन एक सॉफ्टवेयर इंजीनियर और खोज वर्तनी सुधार के लिए तकनीकी लीड है। उनके शोध के हितों में गहन शिक्षण अनुमान विलंबता का अनुकूलन, और तेजी से प्रयोग प्लेटफार्मों का निर्माण शामिल है। काम के अलावा, उन्हें फिल्म निर्माण और कलाबाजी का शौक है।

AWS प्लेटोब्लॉकचैन डेटा इंटेलिजेंस पर NVIDIA ट्राइटन के साथ Amazon Search कैसे कम-विलंबता, उच्च-थ्रूपुट T5 अनुमान प्राप्त करता है। लंबवत खोज। ऐ.ले काई अमेज़न सर्च में सॉफ्टवेयर इंजीनियर हैं। वह ग्राहकों को उनके खरीदारी अनुभव में मदद करने के लिए खोज वर्तनी सुधार प्रदर्शन को बेहतर बनाने पर काम करता है। वह डीप लर्निंग मॉडल के लिए उच्च-प्रदर्शन ऑनलाइन अनुमान और वितरित प्रशिक्षण अनुकूलन पर ध्यान केंद्रित कर रहा है। काम के अलावा, उन्हें स्कीइंग, हाइकिंग और साइकिल चलाना पसंद है।

AWS प्लेटोब्लॉकचैन डेटा इंटेलिजेंस पर NVIDIA ट्राइटन के साथ Amazon Search कैसे कम-विलंबता, उच्च-थ्रूपुट T5 अनुमान प्राप्त करता है। लंबवत खोज। ऐ.एंथोनी कोस वर्तमान में Search M5 Palo Alto, CA में एक सॉफ्टवेयर इंजीनियर के रूप में कार्यरत हैं। वह मॉडल परिनियोजन और अनुमान अनुकूलन के लिए उपकरणों और उत्पादों के निर्माण पर काम करता है। काम के अलावा, उन्हें खाना बनाना और रैकेट के खेल खेलना पसंद है।

AWS प्लेटोब्लॉकचैन डेटा इंटेलिजेंस पर NVIDIA ट्राइटन के साथ Amazon Search कैसे कम-विलंबता, उच्च-थ्रूपुट T5 अनुमान प्राप्त करता है। लंबवत खोज। ऐ.ओलिवियर क्रूचांट फ्रांस में स्थित एडब्ल्यूएस में एक मशीन लर्निंग स्पेशलिस्ट सॉल्यूशंस आर्किटेक्ट है। ओलिवियर एडब्ल्यूएस ग्राहकों की मदद करता है - छोटे स्टार्टअप से लेकर बड़े उद्यमों तक - प्रोडक्शन-ग्रेड मशीन लर्निंग एप्लिकेशन को विकसित और तैनात करता है। अपने खाली समय में, उन्हें शोध पत्र पढ़ने और दोस्तों और परिवार के साथ जंगल की खोज करने में आनंद आता है।

AWS प्लेटोब्लॉकचैन डेटा इंटेलिजेंस पर NVIDIA ट्राइटन के साथ Amazon Search कैसे कम-विलंबता, उच्च-थ्रूपुट T5 अनुमान प्राप्त करता है। लंबवत खोज। ऐ.अनीश मोहन NVIDIA में एक मशीन लर्निंग आर्किटेक्ट है और अधिक से अधिक सिएटल क्षेत्र में अपने ग्राहकों के साथ ML और DL जुड़ाव के लिए तकनीकी नेतृत्व है।

AWS प्लेटोब्लॉकचैन डेटा इंटेलिजेंस पर NVIDIA ट्राइटन के साथ Amazon Search कैसे कम-विलंबता, उच्च-थ्रूपुट T5 अनुमान प्राप्त करता है। लंबवत खोज। ऐ.जियाहोंग लिउ NVIDIA में क्लाउड सेवा प्रदाता टीम पर एक समाधान वास्तुकार है। वह मशीन लर्निंग और एआई समाधानों को अपनाने में ग्राहकों की सहायता करता है जो उनके प्रशिक्षण और अनुमान चुनौतियों का समाधान करने के लिए एनवीआईडीआईए त्वरित कंप्यूटिंग का लाभ उठाते हैं। अपने ख़ाली समय में, वह ओरिगेमी, DIY प्रोजेक्ट्स और बास्केटबॉल खेलने का आनंद लेते हैं।

AWS प्लेटोब्लॉकचैन डेटा इंटेलिजेंस पर NVIDIA ट्राइटन के साथ Amazon Search कैसे कम-विलंबता, उच्च-थ्रूपुट T5 अनुमान प्राप्त करता है। लंबवत खोज। ऐ.एलिउथ ट्रियाना NVIDIA में डेवलपर रिलेशंस मैनेजर हैं। वह अमेज़ॅन और एडब्ल्यूएस उत्पाद नेताओं, डेवलपर्स और वैज्ञानिकों को एनवीआईडीआईए प्रौद्योगिकीविदों और उत्पाद नेताओं के साथ जोड़ता है ताकि अमेज़ॅन एमएल / डीएल वर्कलोड, ईसी 2 उत्पादों और एडब्ल्यूएस एआई सेवाओं को तेज किया जा सके। इसके अलावा, Eliuth एक भावुक पर्वत बाइकर, स्कीयर और पोकर खिलाड़ी है।

समय टिकट:

से अधिक AWS मशीन लर्निंग

पहचान दस्तावेजों पर ऑप्टिकल कैरेक्टर रिकग्निशन करने के लिए एमएलओप्स के लिए अमेज़ॅन सेजमेकर प्रोजेक्ट्स के साथ ऑनबोर्ड पैडलओसीआर

स्रोत नोड: 1587681
समय टिकट: जुलाई 8, 2022