अपनी होस्टिंग लागत को कम करने के लिए जीपीयू पर अमेज़ॅन सेजमेकर मल्टी-मॉडल एंडपॉइंट के साथ हजारों मॉडल एन्सेम्बल तैनात करें

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

उद्योगों और उपयोग के मामलों में कृत्रिम बुद्धिमत्ता (एआई) अपनाने में तेजी आ रही है। गहन शिक्षण (डीएल), बड़े भाषा मॉडल (एलएलएम), और जेनरेटिव एआई में हालिया वैज्ञानिक सफलताएं ग्राहकों को लगभग मानव-जैसे प्रदर्शन के साथ उन्नत अत्याधुनिक समाधानों का उपयोग करने की अनुमति दे रही हैं। इन जटिल मॉडलों को अक्सर हार्डवेयर त्वरण की आवश्यकता होती है क्योंकि यह न केवल तेज़ प्रशिक्षण को सक्षम बनाता है बल्कि वास्तविक समय के अनुप्रयोगों में गहरे तंत्रिका नेटवर्क का उपयोग करते समय तेज़ अनुमान भी सक्षम बनाता है। जीपीयू की बड़ी संख्या में समानांतर प्रोसेसिंग कोर उन्हें इन डीएल कार्यों के लिए उपयुक्त बनाती है।

हालाँकि, मॉडल आमंत्रण के अलावा, उन डीएल एप्लिकेशन में अक्सर एक अनुमान पाइपलाइन में प्रीप्रोसेसिंग या पोस्टप्रोसेसिंग शामिल होती है। उदाहरण के लिए, ऑब्जेक्ट डिटेक्शन उपयोग के मामले के लिए इनपुट छवियों को कंप्यूटर विज़न मॉडल में पेश करने से पहले आकार बदलने या क्रॉप करने की आवश्यकता हो सकती है, या एलएलएम में उपयोग किए जाने से पहले टेक्स्ट इनपुट के टोकनाइजेशन की आवश्यकता हो सकती है। एनवीडिया ट्राइटन एक ओपन-सोर्स अनुमान सर्वर है जो उपयोगकर्ताओं को डायरेक्टेड एसाइक्लिक ग्राफ (डीएजी) के रूप में मॉडलों के समूह के रूप में ऐसी अनुमान पाइपलाइनों को परिभाषित करने में सक्षम बनाता है। इसे सीपीयू और जीपीयू दोनों पर बड़े पैमाने पर मॉडल चलाने के लिए डिज़ाइन किया गया है। अमेज़न SageMaker ट्राइटन को निर्बाध रूप से तैनात करने का समर्थन करता है, जिससे आप ट्राइटन की सुविधाओं का उपयोग करने के साथ-साथ लाभ भी उठा सकते हैं सेजमेकर क्षमताएं: एमएलओपीएस टूल एकीकरण, होस्ट किए गए मॉडलों की स्वचालित स्केलिंग और बहुत कुछ के साथ एक प्रबंधित, सुरक्षित वातावरण।

AWS ने, ग्राहकों को उच्चतम बचत प्राप्त करने में मदद करने के अपने समर्पण में, न केवल निरंतर नवाचार किया है मूल्य निर्धारण विकल्प और लागत-अनुकूलन सक्रिय सेवाएँ, बल्कि लागत बचत सुविधाओं को लॉन्च करने में भी बहु-मॉडल समापन बिंदु (एमएमई)। एमएमई आपके सभी मॉडलों को होस्ट करने के लिए संसाधनों के एक ही बेड़े और एक साझा सर्विंग कंटेनर का उपयोग करके बड़ी संख्या में मॉडल तैनात करने के लिए एक लागत प्रभावी समाधान है। एकाधिक एकल-मॉडल समापन बिंदुओं का उपयोग करने के बजाय, आप केवल एकल अनुमान परिवेश के लिए भुगतान करते हुए कई मॉडलों को तैनात करके अपनी होस्टिंग लागत को कम कर सकते हैं। इसके अतिरिक्त, एमएमई परिनियोजन ओवरहेड को कम करते हैं क्योंकि सेजमेकर मेमोरी में मॉडल लोड करने और उन्हें आपके एंडपॉइंट पर ट्रैफ़िक पैटर्न के आधार पर स्केल करने का प्रबंधन करता है।

इस पोस्ट में, हम दिखाते हैं कि SageMaker MME के साथ GPU इंस्टेंस पर कई गहन शिक्षण मॉडल कैसे चलाएं। इस उदाहरण का अनुसरण करने के लिए, आप सार्वजनिक रूप से कोड पा सकते हैं SageMaker उदाहरण रिपॉजिटरी.

जीपीयू के साथ सेजमेकर एमएमई कैसे काम करते हैं

एमएमई के साथ, एक एकल कंटेनर कई मॉडल होस्ट करता है। सेजमेकर एमएमई पर होस्ट किए गए मॉडलों को कंटेनर की मेमोरी में लोड और अनलोड करके उनके जीवनचक्र को नियंत्रित करता है। सभी मॉडलों को एंडपॉइंट इंस्टेंस पर डाउनलोड करने के बजाय, सेजमेकर गतिशील रूप से मॉडलों को लोड और कैश करता है जैसे ही वे लागू होते हैं।

जब किसी विशेष मॉडल के लिए आमंत्रण अनुरोध किया जाता है, तो सेजमेकर निम्नलिखित कार्य करता है:

यह पहले अनुरोध को अंतिम बिंदु उदाहरण पर रूट करता है।
यदि मॉडल लोड नहीं किया गया है, तो यह मॉडल आर्टिफैक्ट डाउनलोड करता है अमेज़न सरल भंडारण सेवा (अमेज़ॅन S3) उस उदाहरण के लिए अमेज़ॅन इलास्टिक ब्लॉक स्टोरेज वॉल्यूम (अमेज़ॅन ईबीएस)।
यह मॉडल को GPU-त्वरित कंप्यूट इंस्टेंस पर कंटेनर की मेमोरी में लोड करता है। यदि मॉडल पहले से ही कंटेनर की मेमोरी में लोड किया गया है, तो आमंत्रण तेज़ है क्योंकि किसी और चरण की आवश्यकता नहीं है।

जब एक अतिरिक्त मॉडल को लोड करने की आवश्यकता होती है, और इंस्टेंस की मेमोरी का उपयोग अधिक होता है, तो यह सुनिश्चित करने के लिए कि पर्याप्त मेमोरी है, सेजमेकर उस इंस्टेंस के कंटेनर से अप्रयुक्त मॉडल को अनलोड करेगा। ये अनलोड किए गए मॉडल इंस्टेंस के ईबीएस वॉल्यूम पर बने रहेंगे ताकि उन्हें बाद में कंटेनर की मेमोरी में लोड किया जा सके, जिससे उन्हें एस 3 बकेट से फिर से डाउनलोड करने की आवश्यकता दूर हो जाएगी। हालाँकि, यदि इंस्टेंस का स्टोरेज वॉल्यूम अपनी क्षमता तक पहुँच जाता है, तो सेजमेकर अप्रयुक्त मॉडल को स्टोरेज वॉल्यूम से हटा देगा। ऐसे मामलों में जहां एमएमई को कई आमंत्रण अनुरोध प्राप्त होते हैं, और अतिरिक्त उदाहरण (या एक ऑटो-स्केलिंग नीति) मौजूद हैं, सेजमेकर उच्च ट्रैफ़िक को समायोजित करने के लिए अनुमान क्लस्टर में अन्य उदाहरणों के लिए कुछ अनुरोधों को रूट करता है।

यह न केवल लागत बचत तंत्र प्रदान करता है, बल्कि आपको नए मॉडलों को गतिशील रूप से तैनात करने और पुराने मॉडलों को हटाने में भी सक्षम बनाता है। एक नया मॉडल जोड़ने के लिए, आप इसे S3 बकेट पर अपलोड करें, MME को इसका उपयोग करने और इसे लागू करने के लिए कॉन्फ़िगर किया गया है। किसी मॉडल को हटाने के लिए, अनुरोध भेजना बंद करें और इसे S3 बकेट से हटा दें। एमएमई से मॉडल जोड़ने या उन्हें हटाने के लिए एंडपॉइंट को अपडेट करने की आवश्यकता नहीं है!

ट्राइटन पहनावा

ट्राइटन मॉडल पहनावा एक पाइपलाइन का प्रतिनिधित्व करता है जिसमें एक मॉडल, प्रीप्रोसेसिंग और पोस्टप्रोसेसिंग लॉजिक और उनके बीच इनपुट और आउटपुट टेंसर का कनेक्शन होता है। किसी समूह के लिए एक एकल अनुमान अनुरोध, समूह अनुसूचक का उपयोग करके चरणों की एक श्रृंखला के रूप में संपूर्ण पाइपलाइन को चलाने को ट्रिगर करता है। शेड्यूलर प्रत्येक चरण में आउटपुट टेंसर एकत्र करता है और उन्हें विनिर्देश के अनुसार अन्य चरणों के लिए इनपुट टेंसर के रूप में प्रदान करता है। स्पष्ट करने के लिए: पहनावा मॉडल को बाहरी दृष्टिकोण से अभी भी एकल मॉडल के रूप में देखा जाता है।

ट्राइटन सर्वर स्थापत्य एक भी शामिल है मॉडल भंडार: मॉडलों का एक फ़ाइल सिस्टम-आधारित भंडार जिसे ट्राइटन अनुमान लगाने के लिए उपलब्ध कराएगा। ट्राइटन एक या अधिक स्थानीय रूप से सुलभ फ़ाइल पथों से या अमेज़ॅन एस 3 जैसे दूरस्थ स्थानों से मॉडल तक पहुंच सकता है।

मॉडल रिपॉजिटरी में प्रत्येक मॉडल में एक मॉडल कॉन्फ़िगरेशन शामिल होना चाहिए जो मॉडल के बारे में आवश्यक और वैकल्पिक जानकारी प्रदान करता है। आमतौर पर, यह कॉन्फ़िगरेशन a में प्रदान किया जाता है config.pbtxt फ़ाइल के रूप में निर्दिष्ट ModelConfig Protobuf. एक न्यूनतम मॉडल कॉन्फ़िगरेशन को प्लेटफ़ॉर्म या बैकएंड (जैसे PyTorch या TensorFlow) निर्दिष्ट करना होगा max_batch_size संपत्ति, और मॉडल के इनपुट और आउटपुट टेंसर।

सेजमेकर पर ट्राइटन

सेजमेकर कस्टम कोड के साथ ट्राइटन सर्वर का उपयोग करके मॉडल परिनियोजन को सक्षम बनाता है। यह कार्यक्षमता सेजमेकर प्रबंधित के माध्यम से उपलब्ध है ट्राइटन अनुमान सर्वर कंटेनर. ये कंटेनर सामान्य मशीन लीनिंग (एमएल) फ्रेमवर्क (जैसे टेन्सरफ्लो, ओएनएनएक्स, और पायटोरच, साथ ही कस्टम मॉडल प्रारूप) और उपयोगी पर्यावरण चर का समर्थन करते हैं जो आपको सेजमेकर पर प्रदर्शन को अनुकूलित करने देते हैं। सेजमेकर डीप लर्निंग कंटेनर्स (डीएलसी) छवियों का उपयोग करने की अनुशंसा की जाती है क्योंकि उन्हें सुरक्षा पैच के साथ बनाए रखा जाता है और नियमित रूप से अपडेट किया जाता है।

समाधान वॉकथ्रू

इस पोस्ट के लिए, हम ट्राइटन और एक सेजमेकर एंडपॉइंट का उपयोग करके एक जीपीयू इंस्टेंस पर दो अलग-अलग प्रकार के एन्सेम्बल तैनात करते हैं।

पहले समूह में दो मॉडल शामिल हैं: छवि प्रीप्रोसेसिंग के लिए एक DALI मॉडल और वास्तविक अनुमान के लिए एक TensorFlow Inception v3 मॉडल। पाइपलाइन समूह एन्कोडेड छवियों को एक इनपुट के रूप में लेता है, जिसे डिकोड करना होगा, 299×299 रिज़ॉल्यूशन में आकार बदलना होगा और सामान्यीकृत करना होगा। इस प्रीप्रोसेसिंग को DALI मॉडल द्वारा नियंत्रित किया जाएगा। DALI एक खुला स्रोत है डिकोडिंग और डेटा संवर्द्धन जैसे सामान्य छवि और भाषण प्रीप्रोसेसिंग कार्यों के लिए लाइब्रेरी। इंसेप्शन v3 एक छवि पहचान मॉडल है जिसमें सममित और असममित संकल्प, और औसत और अधिकतम पूलिंग पूरी तरह से जुड़ी परतें शामिल हैं (और इसलिए जीपीयू उपयोग के लिए बिल्कुल सही है)।

दूसरा पहनावा कच्चे प्राकृतिक भाषा के वाक्यों को एम्बेडिंग में बदल देता है और इसमें तीन मॉडल होते हैं। सबसे पहले, एक प्रीप्रोसेसिंग मॉडल इनपुट टेक्स्ट टोकनाइजेशन (पायथन में लागू) पर लागू किया जाता है। फिर हम पूर्व-प्रशिक्षित का उपयोग करते हैं BERT (अनकेस्ड) मॉडल से हगिंग फेस मॉडल हब टोकन एम्बेडिंग निकालने के लिए। BERT एक अंग्रेजी भाषा मॉडल है जिसे मास्क्ड लैंग्वेज मॉडलिंग (MLM) उद्देश्य का उपयोग करके प्रशिक्षित किया गया था। अंत में, हम एक पोस्टप्रोसेसिंग मॉडल लागू करते हैं जहां पिछले चरण से कच्चे टोकन एम्बेडिंग को वाक्य एम्बेडिंग में जोड़ा जाता है।

इन संयोजनों का उपयोग करने के लिए ट्राइटन को कॉन्फ़िगर करने के बाद, हम दिखाते हैं कि सेजमेकर एमएमई को कैसे कॉन्फ़िगर और चलाया जाए।

अंत में, हम प्रत्येक सामूहिक मंगलाचरण का एक उदाहरण प्रदान करते हैं, जैसा कि निम्नलिखित चित्र में देखा जा सकता है:

सेट 1 - लक्ष्य समूह के रूप में DALI-इंसेप्शन को निर्दिष्ट करते हुए, एक छवि के साथ समापन बिंदु का आह्वान करें
सेट 2 - इस बार टेक्स्ट इनपुट के साथ और प्रीप्रोसेस-बीईआरटी-पोस्टप्रोसेस संयोजन का अनुरोध करते हुए, उसी समापन बिंदु को लागू करें

2 समूहों के साथ एमएमई

पर्यावरण स्थापित करें

सबसे पहले, हम आवश्यक वातावरण स्थापित करते हैं। इसमें AWS लाइब्रेरीज़ को अपडेट करना शामिल है (जैसे बोटो3 और सेजमेकर एसडीके) और ट्राइटन का उपयोग करके हमारे एन्सेम्बल को पैकेज करने और अनुमान चलाने के लिए आवश्यक निर्भरताएँ स्थापित करना। हम सेजमेकर एसडीके डिफ़ॉल्ट निष्पादन भूमिका का भी उपयोग करते हैं। हम इस भूमिका का उपयोग सेजमेकर को अमेज़ॅन एस3 (जहां हमारे मॉडल कलाकृतियां संग्रहीत हैं) और तक पहुंचने में सक्षम बनाने के लिए करते हैं कंटेनर रजिस्ट्री (जहां NVIDIA ट्राइटन छवि का उपयोग किया जाएगा)। निम्नलिखित कोड देखें:

import boto3, json, sagemaker, time
from sagemaker import get_execution_role
import nvidia.dali as dali
import nvidia.dali.types as types # SageMaker varaibles
sm_client = boto3.client(service_name="sagemaker")
runtime_sm_client = boto3.client("sagemaker-runtime")
sagemaker_session = sagemaker.Session(boto_session=boto3.Session())
role = get_execution_role() # Other Variables
instance_type = "ml.g4dn.4xlarge"
sm_model_name = "triton-tf-dali-ensemble-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())
endpoint_config_name = "triton-tf-dali-ensemble-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())
endpoint_name = "triton-tf-dali-ensemble-" + time.strftime("%Y-%m-%d-%H-%M-%S", time.gmtime())

पहनावा तैयार करें

इस अगले चरण में, हम दो समूह तैयार करते हैं: DALI प्रीप्रोसेसिंग के साथ TensorFlow (TF) इंसेप्शन और Python प्रीप्रोसेसिंग और पोस्टप्रोसेसिंग के साथ BERT।

इसमें पूर्व-प्रशिक्षित मॉडलों को डाउनलोड करना, ट्राइटन कॉन्फ़िगरेशन फ़ाइलें प्रदान करना और तैनाती से पहले अमेज़ॅन एस 3 में संग्रहीत कलाकृतियों की पैकेजिंग करना शामिल है।

TF और DALI पहनावा तैयार करें

सबसे पहले, हम अपने मॉडलों और कॉन्फ़िगरेशन को संग्रहीत करने के लिए निर्देशिका तैयार करते हैं: टीएफ इंसेप्शन के लिए (inception_graphdef), DALI प्रीप्रोसेसिंग के लिए (dali), और समूह के लिए (ensemble_dali_inception). क्योंकि ट्राइटन मॉडल संस्करण का समर्थन करता है, हम मॉडल संस्करण को निर्देशिका पथ में भी जोड़ते हैं (1 के रूप में दर्शाया गया है क्योंकि हमारे पास केवल एक संस्करण है)। ट्राइटन संस्करण नीति के बारे में अधिक जानने के लिए, देखें संस्करण नीति. इसके बाद, हम इंसेप्शन v3 मॉडल डाउनलोड करते हैं, इसे निकालते हैं और कॉपी करते हैं inception_graphdef मॉडल निर्देशिका. निम्नलिखित कोड देखें:

अब, हम ट्राइटन को अपनी एसेम्बल पाइपलाइन का उपयोग करने के लिए कॉन्फ़िगर करते हैं। में एक config.pbtxt फ़ाइल में, हम इनपुट और आउटपुट टेंसर आकार और प्रकार निर्दिष्ट करते हैं, और ट्राइटन शेड्यूलर को जो कदम उठाने की आवश्यकता होती है (DALI प्रीप्रोसेसिंग और छवि वर्गीकरण के लिए इंसेप्शन मॉडल):

%%writefile model_repository/ensemble_dali_inception/config.pbtxt
name: "ensemble_dali_inception"
platform: "ensemble"
max_batch_size: 256
input [ { name: "INPUT" data_type: TYPE_UINT8 dims: [ -1 ] }
]
output [ { name: "OUTPUT" data_type: TYPE_FP32 dims: [ 1001 ] }
]
ensemble_scheduling { step [ { model_name: "dali" model_version: -1 input_map { key: "DALI_INPUT_0" value: "INPUT" } output_map { key: "DALI_OUTPUT_0" value: "preprocessed_image" } }, { model_name: "inception_graphdef" model_version: -1 input_map { key: "input" value: "preprocessed_image" } output_map { key: "InceptionV3/Predictions/Softmax" value: "OUTPUT" } } ]
}

अगला, हम प्रत्येक मॉडल को कॉन्फ़िगर करते हैं। सबसे पहले, DALI बैकएंड के लिए मॉडल कॉन्फ़िगरेशन:

%%writefile model_repository/dali/config.pbtxt
name: "dali"
backend: "dali"
max_batch_size: 256
input [ { name: "DALI_INPUT_0" data_type: TYPE_UINT8 dims: [ -1 ] }
]
output [ { name: "DALI_OUTPUT_0" data_type: TYPE_FP32 dims: [ 299, 299, 3 ] }
]
parameters: [ { key: "num_threads" value: { string_value: "12" } }
]

अगला, TensorFlow Inception v3 के लिए मॉडल कॉन्फ़िगरेशन जिसे हमने पहले डाउनलोड किया था:

%%writefile model_repository/inception_graphdef/config.pbtxt
name: "inception_graphdef"
platform: "tensorflow_graphdef"
max_batch_size: 256
input [ { name: "input" data_type: TYPE_FP32 format: FORMAT_NHWC dims: [ 299, 299, 3 ] }
]
output [ { name: "InceptionV3/Predictions/Softmax" data_type: TYPE_FP32 dims: [ 1001 ] label_filename: "inception_labels.txt" }
]
instance_group [ { kind: KIND_GPU }
]

क्योंकि यह एक वर्गीकरण मॉडल है, हमें इंसेप्शन मॉडल लेबल को भी कॉपी करने की आवश्यकता है inception_graphdef मॉडल रिपॉजिटरी में निर्देशिका। इन लेबलों में 1,000 वर्ग लेबल शामिल हैं IMAGEnet डाटासेट।

!aws s3 cp s3://sagemaker-sample-files/datasets/labels/inception_labels.txt model_repository/inception_graphdef/inception_labels.txt

इसके बाद, हम DALI पाइपलाइन को कॉन्फ़िगर और क्रमबद्ध करते हैं जो फ़ाइल के लिए हमारी प्रीप्रोसेसिंग को संभालेगी। प्रीप्रोसेसिंग में छवि को पढ़ना (सीपीयू का उपयोग करके), डिकोडिंग (जीपीयू का उपयोग करके त्वरित करना), और छवि का आकार बदलना और सामान्य करना शामिल है।

@dali.pipeline_def(batch_size=3, num_threads=1, device_id=0)
def pipe(): """Create a pipeline which reads images and masks, decodes the images and returns them.""" images = dali.fn.external_source(device="cpu", name="DALI_INPUT_0") images = dali.fn.decoders.image(images, device="mixed", output_type=types.RGB) images = dali.fn.resize(images, resize_x=299, resize_y=299) #resize image to the default 299x299 size images = dali.fn.crop_mirror_normalize( images, dtype=types.FLOAT, output_layout="HWC", crop=(299, 299), #crop image to the default 299x299 size mean=[0.485 * 255, 0.456 * 255, 0.406 * 255], #crop a central region of the image std=[0.229 * 255, 0.224 * 255, 0.225 * 255], #crop a central region of the image ) return images pipe().serialize(filename="model_repository/dali/1/model.dali")

अंत में, हम कलाकृतियों को एक साथ पैकेज करते हैं और उन्हें अमेज़ॅन S3 पर एक ही ऑब्जेक्ट के रूप में अपलोड करते हैं:

!tar -cvzf model_tf_dali.tar.gz -C model_repository .
model_uri = sagemaker_session.upload_data( path="model_tf_dali.tar.gz", key_prefix="triton-mme-gpu-ensemble"
)
print("S3 model uri: {}".format(model_uri))

TensorRT और Python पहनावा तैयार करें

इस उदाहरण के लिए, हम पूर्व-प्रशिक्षित मॉडल का उपयोग करते हैं ट्रांसफार्मर पुस्तकालय.

आप सभी मॉडल (प्रीप्रोसेस और पोस्टप्रोसेस सहित) पा सकते हैं config.pbtxt फ़ाइलें) फ़ोल्डर में ensemble_hf. हमारी फ़ाइल सिस्टम संरचना में चार निर्देशिकाएँ (व्यक्तिगत मॉडल चरणों के लिए तीन और संयोजन के लिए एक) और साथ ही उनके संबंधित संस्करण शामिल होंगे:


ensemble_hf
├── bert-trt
|   |── model.pt
|   |──config.pbtxt
├── ensemble
│   └── 1
|   └── config.pbtxt
├── postprocess
│   └── 1
|       └── model.py
|   └── config.pbtxt
├── preprocess
│   └── 1
|       └── model.py
|   └── config.pbtxt

में कार्यस्थान फ़ोल्डर, हम दो स्क्रिप्ट प्रदान करते हैं: पहला मॉडल को ONNX प्रारूप में परिवर्तित करने के लिए (onnx_exporter.py) और TensorRT संकलन स्क्रिप्ट (generate_model_trt.sh).

ट्राइटन मूल रूप से TensorRT रनटाइम का समर्थन करता है, जो आपको TensorRT इंजन को आसानी से तैनात करने में सक्षम बनाता है, जिससे चयनित GPU आर्किटेक्चर के लिए अनुकूलन होता है।

यह सुनिश्चित करने के लिए कि हम TensorRT संस्करण और निर्भरता का उपयोग करते हैं जो हमारे ट्राइटन कंटेनर में संगत हैं, हम NVIDIA के PyTorch कंटेनर छवि के संबंधित संस्करण का उपयोग करके मॉडल संकलित करते हैं:

model_id = "sentence-transformers/all-MiniLM-L6-v2"
! docker run --gpus=all --rm -it -v `pwd`/workspace:/workspace nvcr.io/nvidia/pytorch:22.10-py3 /bin/bash generate_model_trt.sh $model_id

फिर हम मॉडल कलाकृतियों को उस निर्देशिका में कॉपी करते हैं जिसे हमने पहले बनाया था और पथ में एक संस्करण जोड़ते हैं:

! mkdir -p ensemble_hf/bert-trt/1 && mv workspace/model.plan ensemble_hf/bert-trt/1/model.plan && rm -rf workspace/model.onnx workspace/core*

हम कॉनडा वातावरण तैयार करने के लिए कॉनडा पैक का उपयोग करते हैं जिसे ट्राइटन पायथन बैकएंड प्रीप्रोसेसिंग और पोस्टप्रोसेसिंग में उपयोग करेगा:

!bash conda_dependencies.sh
!cp processing_env.tar.gz ensemble_hf/postprocess/ && cp processing_env.tar.gz ensemble_hf/preprocess/
!rm processing_env.tar.gz

अंत में, हम मॉडल कलाकृतियों को Amazon S3 पर अपलोड करते हैं:

!tar -C ensemble_hf/ -czf model_trt_python.tar.gz .
model_uri = sagemaker_session.upload_data( path="model_trt_python.tar.gz", key_prefix="triton-mme-gpu-ensemble"
) print("S3 model uri: {}".format(model_uri))

सेजमेकर एमएमई जीपीयू इंस्टेंस पर एन्सेम्बल चलाएँ

अब जबकि हमारी सामूहिक कलाकृतियाँ अमेज़न S3 में संग्रहीत हैं, हम SageMaker MME को कॉन्फ़िगर और लॉन्च कर सकते हैं।

हम कंटेनर छवि यूआरआई को पुनः प्राप्त करके प्रारंभ करते हैं ट्राइटन डीएलसी छवि जो मेल खाता है हमारे क्षेत्र में से एक कंटेनर रजिस्ट्री (और TensorRT मॉडल संकलन के लिए उपयोग की जाती है):

account_id_map = { "us-east-1": "785573368785", "us-east-2": "007439368137", "us-west-1": "710691900526", "us-west-2": "301217895009", "eu-west-1": "802834080501", "eu-west-2": "205493899709", "eu-west-3": "254080097072", "eu-north-1": "601324751636", "eu-south-1": "966458181534", "eu-central-1": "746233611703", "ap-east-1": "110948597952", "ap-south-1": "763008648453", "ap-northeast-1": "941853720454", "ap-northeast-2": "151534178276", "ap-southeast-1": "324986816169", "ap-southeast-2": "355873309152", "cn-northwest-1": "474822919863", "cn-north-1": "472730292857", "sa-east-1": "756306329178", "ca-central-1": "464438896020", "me-south-1": "836785723513", "af-south-1": "774647643957",
}
region = boto3.Session().region_name
if region not in account_id_map.keys(): raise ("UNSUPPORTED REGION")
base = "amazonaws.com.cn" if region.startswith("cn-") else "amazonaws.com"
triton_image_uri = "{account_id}.dkr.ecr.{region}.{base}/sagemaker-tritonserver:23.03-py3".format( account_id=account_id_map[region], region=region, base=base
)

इसके बाद, हम सेजमेकर में मॉडल बनाते हैं। में create_model अनुरोध, हम उपयोग करने के लिए कंटेनर और मॉडल कलाकृतियों के स्थान का वर्णन करते हैं, और हम इसका उपयोग करके निर्दिष्ट करते हैं Mode पैरामीटर कि यह एक मल्टी-मॉडल है।

container = { "Image": triton_image_uri, "ModelDataUrl": models_s3_location, "Mode": "MultiModel",
} create_model_response = sm_client.create_model( ModelName=sm_model_name, ExecutionRoleArn=role, PrimaryContainer=container
)

अपने समूह को होस्ट करने के लिए, हम इसके साथ एक समापन बिंदु कॉन्फ़िगरेशन बनाते हैं create_endpoint_config एपीआई कॉल करें, और फिर इसके साथ एक एंडपॉइंट बनाएं create_endpoint एपीआई. सेजमेकर तब होस्टिंग वातावरण में मॉडल के लिए आपके द्वारा परिभाषित सभी कंटेनरों को तैनात करता है।

create_endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "InstanceType": instance_type, "InitialVariantWeight": 1, "InitialInstanceCount": 1, "ModelName": sm_model_name, "VariantName": "AllTraffic", } ],
) create_endpoint_response = sm_client.create_endpoint( EndpointName=endpoint_name, EndpointConfigName=endpoint_config_name
)

हालाँकि इस उदाहरण में हम अपने मॉडल को होस्ट करने के लिए एक एकल उदाहरण सेट कर रहे हैं, सेजमेकर एमएमई एक ऑटो स्केलिंग नीति सेट करने का पूरी तरह से समर्थन करते हैं। इस सुविधा पर अधिक जानकारी के लिए देखें Amazon SageMaker मल्टी-मॉडल एंडपॉइंट के साथ GPU पर कई डीप लर्निंग मॉडल चलाएं.

अनुरोध पेलोड बनाएं और प्रत्येक मॉडल के लिए एमएमई को लागू करें

हमारे वास्तविक समय एमएमई तैनात होने के बाद, हमारे द्वारा उपयोग किए गए प्रत्येक मॉडल समूह के साथ हमारे समापन बिंदु को लागू करने का समय आ गया है।

सबसे पहले, हम DALI-इंसेप्शन समूह के लिए एक पेलोड बनाते हैं। हम उपयोग करते हैं shiba_inu_dog.jpg पालतू जानवरों की छवियों के सेजमेकर सार्वजनिक डेटासेट से छवि। हम DALI बैकएंड में उपयोग करने के लिए छवि को बाइट्स की एन्कोडेड सरणी के रूप में लोड करते हैं (अधिक जानने के लिए, देखें) छवि डिकोडर उदाहरण).

sample_img_fname = "shiba_inu_dog.jpg" import numpy as np s3_client = boto3.client("s3")
s3_client.download_file( "sagemaker-sample-files", "datasets/image/pets/shiba_inu_dog.jpg", sample_img_fname
) def load_image(img_path): """ Loads image as an encoded array of bytes. This is a typical approach you want to use in DALI backend """ with open(img_path, "rb") as f: img = f.read() return np.array(list(img)).astype(np.uint8) rv = load_image(sample_img_fname)
print(f"Shape of image {rv.shape}") rv2 = np.expand_dims(rv, 0)
print(f"Shape of expanded image array {rv2.shape}") payload = { "inputs": [ { "name": "INPUT", "shape": rv2.shape, "datatype": "UINT8", "data": rv2.tolist(), } ]
}

हमारी एन्कोडेड छवि और पेलोड तैयार होने के साथ, हम समापन बिंदु का आह्वान करते हैं।

ध्यान दें कि हम अपना लक्ष्य समूह निर्दिष्ट करते हैं model_tf_dali.tar.gz विरूपण साक्ष्य। टारगेटमॉडल पैरामीटर वह है जो एमएमई को सिंगल-मॉडल एंडपॉइंट से अलग करता है और हमें अनुरोध को सही मॉडल पर निर्देशित करने में सक्षम बनाता है।

response = runtime_sm_client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/octet-stream", Body=json.dumps(payload), TargetModel="model_tf_dali.tar.gz"
)

प्रतिक्रिया में आह्वान के बारे में मेटाडेटा (जैसे मॉडल का नाम और संस्करण) और आउटपुट ऑब्जेक्ट के डेटा भाग में वास्तविक अनुमान प्रतिक्रिया शामिल है। इस उदाहरण में, हमें 1,001 मानों की एक सरणी मिलती है, जहां प्रत्येक मान उस वर्ग की संभावना है जिससे छवि संबंधित है (1,000 वर्ग और 1 अतिरिक्त मान दूसरों).
इसके बाद, हम अपने एमएमई को फिर से लागू करते हैं, लेकिन इस बार दूसरे समूह को लक्षित करते हैं। यहां डेटा केवल दो सरल पाठ वाक्य हैं:

text_inputs = ["Sentence 1", "Sentence 2"]

ट्राइटन के साथ संचार को सरल बनाने के लिए, ट्राइटन परियोजना कई सुविधाएं प्रदान करती है ग्राहक पुस्तकालय. हम अपने अनुरोध में पेलोड तैयार करने के लिए उस लाइब्रेरी का उपयोग करते हैं:

import tritonclient.http as http_client text_inputs = ["Sentence 1", "Sentence 2"]
inputs = []
inputs.append(http_client.InferInput("INPUT0", [len(text_inputs), 1], "BYTES"))
batch_request = [[text_inputs[i]] for i in range(len(text_inputs))]
input0_real = np.array(batch_request, dtype=np.object_)
inputs[0].set_data_from_numpy(input0_real, binary_data=True)
outputs = []
outputs.append(http_client.InferRequestedOutput("finaloutput"))
request_body, header_length = http_client.InferenceServerClient.generate_request_body( inputs, outputs=outputs
)

अब हम समापन बिंदु लागू करने के लिए तैयार हैं - इस बार, लक्ष्य मॉडल है model_trt_python.tar.gz साथ में:

response = runtime_sm_client.invoke_endpoint( EndpointName=endpoint_name, ContentType="application/vnd.sagemaker-triton.binary+json;json-header-size={}".format( header_length ), Body=request_body, TargetModel="model_trt_python.tar.gz"
)

प्रतिक्रिया वाक्य एम्बेडिंग है जिसका उपयोग विभिन्न प्राकृतिक भाषा प्रसंस्करण (एनएलपी) अनुप्रयोगों में किया जा सकता है।

क्लीन अप

अंत में, हम एंडपॉइंट, एंडपॉइंट कॉन्फ़िगरेशन और मॉडल को साफ़ करते हैं और हटाते हैं:

sm_client.delete_endpoint(EndpointName=endpoint_name)
sm_client.delete_endpoint_config(EndpointConfigName=endpoint_config_name)
sm_client.delete_model(ModelName=sm_model_name)

निष्कर्ष

इस पोस्ट में, हमने दिखाया कि जीपीयू-त्वरित उदाहरण पर ट्राइटन एन्सेम्बल के साथ सेजमेकर एमएमई को कैसे कॉन्फ़िगर, तैनात और लागू किया जाए। हमने एक ही वास्तविक समय अनुमान वातावरण पर दो समूहों की मेजबानी की, जिससे हमारी लागत 50% कम हो गई (g4dn.4xlarge उदाहरण के लिए, जो वार्षिक बचत में $13,000 से अधिक का प्रतिनिधित्व करता है)। हालाँकि इस उदाहरण में केवल दो पाइपलाइनों का उपयोग किया गया है, सेजमेकर एमएमई हजारों मॉडल संयोजनों का समर्थन कर सकता है, जिससे यह एक असाधारण लागत बचत तंत्र बन जाता है। इसके अलावा, आप उत्पादन में मॉडल परिनियोजन के प्रबंधन के परिचालन ओवरहेड को कम करने के लिए मॉडल को लोड (और अनलोड) करने के लिए सेजमेकर एमएमई की गतिशील क्षमता का उपयोग कर सकते हैं।

लेखक के बारे में

सौरभ त्रिकंडे Amazon SageMaker Inference के वरिष्ठ उत्पाद प्रबंधक हैं। उन्हें ग्राहकों के साथ काम करने का शौक है और वह मशीन लर्निंग को लोकतांत्रिक बनाने के लक्ष्य से प्रेरित हैं। वह जटिल एमएल अनुप्रयोगों, बहु-किरायेदार एमएल मॉडल, लागत अनुकूलन, और गहन शिक्षण मॉडल की तैनाती को और अधिक सुलभ बनाने से संबंधित मुख्य चुनौतियों पर ध्यान केंद्रित करता है। अपने खाली समय में, सौरभ को हाइकिंग, नवीन तकनीकों के बारे में सीखने, टेकक्रंच का अनुसरण करने और अपने परिवार के साथ समय बिताने का आनंद मिलता है।

निखिल कुलकर्णी AWS मशीन लर्निंग के साथ एक सॉफ्टवेयर डेवलपर है, जो मशीन लर्निंग वर्कलोड को क्लाउड पर अधिक प्रदर्शन करने वाला बनाने पर ध्यान केंद्रित करता है, और प्रशिक्षण और अनुमान के लिए AWS डीप लर्निंग कंटेनर्स का सह-निर्माता है। उन्हें वितरित डीप लर्निंग सिस्टम का शौक है। काम के अलावा, उन्हें किताबें पढ़ना, गिटार बजाना और पिज़्ज़ा बनाना पसंद है।

उरी रोसेनबर्ग यूरोप, मध्य पूर्व और अफ्रीका के लिए एआई और एमएल विशेषज्ञ तकनीकी प्रबंधक हैं। इज़राइल में स्थित, उरी बड़े पैमाने पर एमएल वर्कलोड को डिजाइन, निर्माण और संचालित करने के लिए उद्यम ग्राहकों को सशक्त बनाने के लिए काम करता है। अपने खाली समय में, वह साइकिल चलाना, बैकपैकिंग और बैकप्रॉपैगेटिंग का आनंद लेते हैं।

एलीउथ ट्रायना इज़ाज़ा NVIDIA-AWS टीम में डेवलपर रिलेशंस मैनेजर हैं। वह अमेज़ॅन और एडब्ल्यूएस उत्पाद नेताओं, डेवलपर्स और वैज्ञानिकों को एनवीआईडीआईए प्रौद्योगिकीविदों और उत्पाद नेताओं के साथ जोड़ता है ताकि अमेज़ॅन एमएल / डीएल वर्कलोड, ईसी 2 उत्पादों और एडब्ल्यूएस एआई सेवाओं को तेज किया जा सके। इसके अलावा, Eliuth एक भावुक पर्वत बाइकर, स्कीयर और पोकर खिलाड़ी है।

एसईओ संचालित सामग्री और पीआर वितरण। आज ही प्रवर्धित हो जाओ।
प्लेटोडेटा.नेटवर्क वर्टिकल जेनरेटिव एआई। स्वयं को शक्तिवान बनाएं। यहां पहुंचें।
प्लेटोआईस्ट्रीम। Web3 इंटेलिजेंस। ज्ञान प्रवर्धित। यहां पहुंचें।
प्लेटोईएसजी. ऑटोमोटिव/ईवीएस, कार्बन, क्लीनटेक, ऊर्जा, पर्यावरण, सौर, कचरा प्रबंधन। यहां पहुंचें।
BlockOffsets. पर्यावरणीय ऑफसेट स्वामित्व का आधुनिकीकरण। यहां पहुंचें।
स्रोत: https://aws.amazon.com/blogs/machine-learning/deploy-thousands-of-model-ensembles-with-amazon-sagemaker-multi-model-endpoints-on-gpu-to-minimize-your-hosting-costs/

समय टिकट: अगस्त 8, 2023

समय टिकट: दिसम्बर 12, 2022

प्लेटो द्वारा पुनर्प्रकाशित

अमेज़ॅन कॉम्प्रिहेंड ने कस्टम इकाई पहचान के लिए कम एनोटेशन सीमा की घोषणा की

भाषण को टेक्स्ट-टू-टेक्स्ट एनालिटिक्स में स्वचालित करके गुणात्मक शोध को बदलना

Amazon Kendra के लिए विशेष रुप से प्रदर्शित परिणामों का उपयोग करके खोज सामग्री का प्रचार करें

प्रदर्शन को अधिकतम करें और AWS ट्रेनियम और Amazon SageMaker के साथ अपनी गहन शिक्षण प्रशिक्षण लागत को कम करें

अमेज़ॅन लुकआउट फॉर विज़न के लिए छवि वृद्धि पाइपलाइन

हमारे बारे में

ऊर्ध्वाधर खोज और ऐ

मंच

जुड़े रहें

लेखा