अमेज़ॅन सेजमेकर का उपयोग करके वास्तविक समय प्रतिक्रिया स्ट्रीमिंग के साथ लामा 2 मॉडल का अनुमान लगाएं

प्लेटो द्वारा पुनर्प्रकाशित

अनुयायियों: 0

जेनेरिक एआई अनुप्रयोगों को तेजी से अपनाने के साथ, उच्च थ्रूपुट के साथ कथित विलंबता को कम करने के लिए इन अनुप्रयोगों को समय पर प्रतिक्रिया देने की आवश्यकता है। फाउंडेशन मॉडल (एफएम) को अक्सर लाखों से लेकर अरबों और उससे अधिक के पैमाने के मापदंडों वाले डेटा के विशाल संग्रह पर पूर्व-प्रशिक्षित किया जाता है। बड़े भाषा मॉडल (एलएलएम) एक प्रकार के एफएम हैं जो उपयोगकर्ता के अनुमान की प्रतिक्रिया के रूप में पाठ उत्पन्न करते हैं। अनुमान मापदंडों के अलग-अलग विन्यास के साथ इन मॉडलों का अनुमान लगाने से असंगत विलंबता हो सकती है। असंगतता उस मॉडल से अपेक्षित प्रतिक्रिया टोकन की अलग-अलग संख्या या मॉडल को तैनात किए गए त्वरक के प्रकार के कारण हो सकती है।

किसी भी मामले में, पूर्ण प्रतिक्रिया की प्रतीक्षा करने के बजाय, आप अपने अनुमानों के लिए प्रतिक्रिया स्ट्रीमिंग का दृष्टिकोण अपना सकते हैं, जो उत्पन्न होते ही जानकारी का बड़ा हिस्सा वापस भेज देता है। यह आपको विलंबित पूर्ण प्रतिक्रिया के बजाय वास्तविक समय में स्ट्रीम की गई आंशिक प्रतिक्रियाओं को देखने की अनुमति देकर एक इंटरैक्टिव अनुभव बनाता है।

इसकी आधिकारिक घोषणा के साथ अमेज़ॅन सेजमेकर रीयल-टाइम अनुमान अब प्रतिक्रिया स्ट्रीमिंग का समर्थन करता है, अब आप उपयोग करते समय लगातार अनुमान प्रतिक्रियाओं को क्लाइंट पर स्ट्रीम कर सकते हैं अमेज़न SageMaker प्रतिक्रिया स्ट्रीमिंग के साथ वास्तविक समय का अनुमान। यह समाधान आपको चैटबॉट्स, वर्चुअल असिस्टेंट और म्यूजिक जेनरेटर जैसे विभिन्न जेनरेटिव एआई अनुप्रयोगों के लिए इंटरैक्टिव अनुभव बनाने में मदद करेगा। यह पोस्ट आपको दिखाती है कि टाइम टू फर्स्ट बाइट (टीटीएफबी) के रूप में तेजी से प्रतिक्रिया समय कैसे प्राप्त करें और लामा 2 मॉडल का अनुमान लगाते समय समग्र विलंबता को कैसे कम करें।

समाधान को लागू करने के लिए, हम सेजमेकर का उपयोग करते हैं, जो पूरी तरह से प्रबंधित बुनियादी ढांचे, टूल और वर्कफ़्लो के साथ किसी भी उपयोग के मामले के लिए डेटा तैयार करने और मशीन लर्निंग (एमएल) मॉडल बनाने, प्रशिक्षित करने और तैनात करने के लिए एक पूरी तरह से प्रबंधित सेवा है। सेजमेकर द्वारा प्रदान किए जाने वाले विभिन्न परिनियोजन विकल्पों के बारे में अधिक जानकारी के लिए, देखें अमेज़ॅन सेजमेकर मॉडल होस्टिंग अक्सर पूछे जाने वाले प्रश्न. आइए समझें कि हम प्रतिक्रिया स्ट्रीमिंग के साथ वास्तविक समय अनुमान का उपयोग करके विलंबता के मुद्दों को कैसे संबोधित कर सकते हैं।

समाधान अवलोकन

क्योंकि हम एलएलएम के साथ वास्तविक समय अनुमान से जुड़ी उपर्युक्त विलंबता को संबोधित करना चाहते हैं, आइए पहले समझें कि हम लामा 2 के लिए वास्तविक समय अनुमान के लिए प्रतिक्रिया स्ट्रीमिंग समर्थन का उपयोग कैसे कर सकते हैं। हालांकि, कोई भी एलएलएम वास्तविक के साथ प्रतिक्रिया स्ट्रीमिंग समर्थन का लाभ उठा सकता है -समय अनुमान.

लामा 2 7 अरब से लेकर 70 अरब मापदंडों के पैमाने पर पूर्व-प्रशिक्षित और ठीक-ठीक जेनरेटिव टेक्स्ट मॉडल का एक संग्रह है। लामा 2 मॉडल केवल डिकोडर आर्किटेक्चर वाले ऑटोरेग्रेसिव मॉडल हैं। जब संकेत और अनुमान पैरामीटर प्रदान किए जाते हैं, तो लामा 2 मॉडल पाठ प्रतिक्रियाएं उत्पन्न करने में सक्षम होते हैं। इन मॉडलों का उपयोग अनुवाद, सारांशीकरण, प्रश्न उत्तर और चैट के लिए किया जा सकता है।

इस पोस्ट के लिए, हम लामा 2 चैट मॉडल को तैनात करते हैं meta-llama/Llama-2-13b-chat-hf प्रतिक्रिया स्ट्रीमिंग के साथ वास्तविक समय अनुमान लगाने के लिए सेजमेकर पर।

जब सेजमेकर एंडपॉइंट पर मॉडल तैनात करने की बात आती है, तो आप विशेष का उपयोग करके मॉडल को कंटेनरीकृत कर सकते हैं एडब्ल्यूएस डीप लर्निंग कंटेनर (डीएलसी) छवियाँ लोकप्रिय ओपन सोर्स लाइब्रेरीज़ के लिए उपलब्ध हैं। लामा 2 मॉडल टेक्स्ट जनरेशन मॉडल हैं; आप इनमें से किसी एक का उपयोग कर सकते हैं सेजमेकर पर हगिंग फेस एलएलएम अनुमान कंटेनर हगिंग फेस द्वारा संचालित पाठ निर्माण अनुमान (टीजीआई) या एडब्ल्यूएस डीएलसी के लिए बड़े मॉडल का अनुमान (एलएमआई)।

इस पोस्ट में, हम G2 इंस्टेंसेस द्वारा संचालित वास्तविक समय अनुमान के लिए सेजमेकर होस्टिंग पर डीएलसी का उपयोग करके लामा 13 5बी चैट मॉडल को तैनात करते हैं। G5 इंस्टेंसेस ग्राफ़िक्स-सघन अनुप्रयोगों और एमएल अनुमान के लिए उच्च-प्रदर्शन वाले GPU-आधारित इंस्टेंस हैं। आप इंस्टेंस कॉन्फ़िगरेशन के अनुसार उचित परिवर्तनों के साथ समर्थित इंस्टेंस प्रकार p4d, p3, g5 और g4dn का भी उपयोग कर सकते हैं।

.. पूर्वापेक्षाएँ

इस समाधान को लागू करने के लिए, आपके पास निम्नलिखित होना चाहिए:

एक एडब्ल्यूएस खाते के साथ AWS पहचान और अभिगम प्रबंधन समाधान के हिस्से के रूप में बनाए गए संसाधनों को प्रबंधित करने की अनुमति के साथ (IAM) भूमिका।
यदि आप पहली बार इसके साथ काम कर रहे हैं अमेज़ॅन सैजमेकर स्टूडियो, आपको सबसे पहले एक बनाना होगा सेजमेकर डोमेन.
एक हगिंग फेस अकाउंट. साइन अप करें यदि आपके पास पहले से खाता नहीं है तो अपने ईमेल से।
- हगिंग फेस पर उपलब्ध मॉडलों की निर्बाध पहुंच के लिए, विशेष रूप से लामा जैसे गेटेड मॉडल, फाइन-ट्यूनिंग और अनुमान उद्देश्यों के लिए, आपके पास रीड एक्सेस टोकन प्राप्त करने के लिए एक हगिंग फेस खाता होना चाहिए। अपने हगिंग फेस खाते के लिए साइन अप करने के बाद, लॉगिन मुआयना करने के लिए https://huggingface.co/settings/tokens रीड एक्सेस टोकन बनाने के लिए।
लामा 2 तक पहुंच, उसी ईमेल आईडी का उपयोग करके जिसका उपयोग आपने हगिंग फेस के लिए साइन अप करने के लिए किया था।
- हगिंग फेस के माध्यम से उपलब्ध लामा 2 मॉडल गेटेड मॉडल हैं। लामा मॉडल का उपयोग मेटा लाइसेंस द्वारा नियंत्रित होता है। मॉडल वज़न और टोकनाइज़र डाउनलोड करने के लिए, लामा तक पहुंच का अनुरोध करें और उनका लाइसेंस स्वीकार करें.
- आपको पहुंच प्रदान किए जाने के बाद (आमतौर पर कुछ दिनों में), आपको एक ईमेल पुष्टिकरण प्राप्त होगा। इस उदाहरण के लिए, हम मॉडल का उपयोग करते हैं Llama-2-13b-chat-hf, लेकिन आपको अन्य वेरिएंट तक भी पहुंचने में सक्षम होना चाहिए।

दृष्टिकोण 1: चेहरे को गले लगाना टीजीआई

इस अनुभाग में, हम आपको दिखाते हैं कि इसे कैसे तैनात किया जाए meta-llama/Llama-2-13b-chat-hf हगिंग फेस टीजीआई का उपयोग करके प्रतिक्रिया स्ट्रीमिंग के साथ सेजमेकर रीयल-टाइम एंडपॉइंट पर मॉडल। निम्न तालिका इस परिनियोजन के लिए विशिष्टताओं को रेखांकित करती है।

विशिष्टता	वैल्यू
कंटेनर	आलिंगन चेहरा टीजीआई
मॉडल का नाम	मेटा-लामा/लामा-2-13बी-चैट-एचएफ
एमएल उदाहरण	एमएल.g5.12xबड़ा
अनुमान	प्रतिक्रिया स्ट्रीमिंग के साथ वास्तविक समय

मॉडल तैनात करें

सबसे पहले, आप तैनात किए जाने वाले एलएलएम के लिए आधार छवि पुनः प्राप्त करें। फिर आप आधार छवि पर मॉडल बनाते हैं। अंत में, आप वास्तविक समय अनुमान के लिए सेजमेकर होस्टिंग के लिए मॉडल को एमएल इंस्टेंस पर तैनात करते हैं।

आइए देखें कि प्रोग्रामेटिक रूप से परिनियोजन कैसे प्राप्त किया जाए। संक्षिप्तता के लिए, इस अनुभाग में केवल उस कोड पर चर्चा की गई है जो परिनियोजन चरणों में मदद करता है। परिनियोजन के लिए पूर्ण स्रोत कोड नोटबुक में उपलब्ध है llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.

पूर्व-निर्मित के माध्यम से टीजीआई द्वारा संचालित नवीनतम हगिंग फेस एलएलएम डीएलसी प्राप्त करें सेजमेकर डीएलसी. आप इस छवि का उपयोग तैनात करने के लिए करते हैं meta-llama/Llama-2-13b-chat-hf सेजमेकर पर मॉडल। निम्नलिखित कोड देखें:

from sagemaker.huggingface import get_huggingface_llm_image_uri # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri( "huggingface", version="1.0.3"
)

निम्नानुसार परिभाषित कॉन्फ़िगरेशन मापदंडों के साथ मॉडल के लिए पर्यावरण को परिभाषित करें:

instance_type = "ml.g5.12xlarge"
number_of_gpu = 4
config = { 'HF_MODEL_ID': "meta-llama/Llama-2-13b-chat-hf", # model_id from hf.co/models 'SM_NUM_GPUS': json.dumps(number_of_gpu), # Number of GPU used per replica 'MAX_INPUT_LENGTH': json.dumps(2048), # Max length of input text 'MAX_TOTAL_TOKENS': json.dumps(4096), # Max length of the generation (including input text) 'MAX_BATCH_TOTAL_TOKENS': json.dumps(8192), # Limits the number of tokens that can be processed in parallel during the generation 'HUGGING_FACE_HUB_TOKEN': "<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>"
}

बदलें <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> कॉन्फ़िगरेशन पैरामीटर के लिए HUGGING_FACE_HUB_TOKEN आपके हगिंग फेस प्रोफ़ाइल से प्राप्त टोकन के मूल्य के साथ, जैसा कि इस पोस्ट के पूर्वावश्यकता अनुभाग में बताया गया है। कॉन्फ़िगरेशन में, आप किसी मॉडल की प्रति प्रतिकृति में उपयोग किए जाने वाले GPU की संख्या को 4 के रूप में परिभाषित करते हैं SM_NUM_GPUS. फिर आप तैनात कर सकते हैं meta-llama/Llama-2-13b-chat-hf ml.g5.12xlarge इंस्टेंस पर मॉडल जो 4 GPU के साथ आता है।

अब आप इसका उदाहरण बना सकते हैं HuggingFaceModel उपर्युक्त पर्यावरण विन्यास के साथ:

llm_model = HuggingFaceModel( role=role, image_uri=llm_image, env=config
)

अंत में, विभिन्न पैरामीटर मानों के साथ मॉडल पर उपलब्ध तैनाती विधि के लिए तर्क प्रदान करके मॉडल को तैनात करें endpoint_name, initial_instance_count, तथा instance_type:

llm = llm_model.deploy( endpoint_name=endpoint_name, initial_instance_count=1, instance_type=instance_type, container_startup_health_check_timeout=health_check_timeout,
)

अनुमान लगाना

हगिंग फेस टीजीआई डीएलसी मॉडल में किसी भी अनुकूलन या कोड परिवर्तन के बिना प्रतिक्रियाओं को स्ट्रीम करने की क्षमता के साथ आता है। आप उपयोग कर सकते हैं invoke_endpoint_with_response_stream यदि आप Boto3 या का उपयोग कर रहे हैं InvokeEndpointWithResponseStream सेजमेकर पायथन एसडीके के साथ प्रोग्रामिंग करते समय।

RSI InvokeEndpointWithResponseStream सेजमेकर का एपीआई डेवलपर्स को सेजमेकर मॉडल से प्रतिक्रियाओं को वापस स्ट्रीम करने की अनुमति देता है, जो कथित विलंबता को कम करके ग्राहकों की संतुष्टि में सुधार करने में मदद कर सकता है। यह जेनरेटिव एआई मॉडल के साथ निर्मित अनुप्रयोगों के लिए विशेष रूप से महत्वपूर्ण है, जहां संपूर्ण प्रतिक्रिया की प्रतीक्षा करने की तुलना में तत्काल प्रसंस्करण अधिक महत्वपूर्ण है।

इस उदाहरण के लिए, हम मॉडल का अनुमान लगाने के लिए Boto3 का उपयोग करते हैं और SageMaker API का उपयोग करते हैं invoke_endpoint_with_response_stream के रूप में इस प्रकार है:

def get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload): response_stream = sagemaker_runtime.invoke_endpoint_with_response_stream( EndpointName=endpoint_name, Body=json.dumps(payload), ContentType="application/json", CustomAttributes='accept_eula=false' ) return response_stream

तर्क CustomAttributes मान पर सेट है accept_eula=false. RSI accept_eula पैरामीटर को सेट करना होगा true लामा 2 मॉडल से सफलतापूर्वक प्रतिक्रिया प्राप्त करने के लिए। प्रयोग के सफल मंगलाचरण के बाद invoke_endpoint_with_response_stream, विधि बाइट्स की एक प्रतिक्रिया स्ट्रीम लौटा देगी।

निम्न आरेख इस वर्कफ़्लो को दिखाता है।

एचएफ टीजीआई स्ट्रीमिंग आर्किटेक्चरल आरेख

आपको एक पुनरावर्तक की आवश्यकता है जो बाइट्स की धारा पर लूप करता है और उन्हें पढ़ने योग्य पाठ में पार्स करता है। LineIterator कार्यान्वयन यहां पाया जा सकता है llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. अब आप मॉडल का अनुमान लगाते समय उन्हें पेलोड के रूप में उपयोग करने के लिए प्रॉम्प्ट और निर्देश तैयार करने के लिए तैयार हैं।

एक संकेत और निर्देश तैयार करें

इस चरण में, आप अपने एलएलएम के लिए संकेत और निर्देश तैयार करते हैं। लामा 2 को संकेत देने के लिए, आपके पास निम्नलिखित संकेत टेम्पलेट होना चाहिए:

<s>[INST] <<SYS>>
{{ system_prompt }}
<</SYS>> {{ user_message }} [/INST]

आप विधि में प्रोग्रामेटिक रूप से परिभाषित प्रॉम्प्ट टेम्पलेट बनाते हैं build_llama2_prompt, जो उपरोक्त प्रॉम्प्ट टेम्पलेट के साथ संरेखित होता है। फिर आप उपयोग के मामले के अनुसार निर्देशों को परिभाषित करें। इस मामले में, हम मॉडल को मार्केटिंग अभियान के लिए एक ईमेल जेनरेट करने का निर्देश दे रहे हैं जैसा कि इसमें बताया गया है get_instructions तरीका। इन विधियों के लिए कोड में है llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb स्मरण पुस्तक। निष्पादित किए जाने वाले कार्य के साथ संयुक्त अनुदेश तैयार करें जैसा कि इसमें बताया गया है user_ask_1 के रूप में इस प्रकार है:

user_ask_1 = f'''
AnyCompany recently announced new service launch named AnyCloud Internet Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: EARLYB1RD to get 20% for 1st 3 months. '''
instructions = get_instructions(user_ask_1)
prompt = build_llama2_prompt(instructions)

हम build_llama2_prompt द्वारा उत्पन्न प्रॉम्प्ट टेम्पलेट के अनुसार प्रॉम्प्ट बनाने के निर्देश पास करते हैं।

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "repetition_penalty": 1.03, "stop": ["</s>"], "return_full_text": False }
payload = { "inputs": prompt, "parameters": inference_params, "stream": True ## <-- to have response stream.
}

हम कुंजी के साथ संकेत के साथ-साथ अनुमान पैरामीटर भी जोड़ते हैं stream मान के साथ True अंतिम पेलोड बनाने के लिए। पेलोड को भेजें get_realtime_response_stream, जिसका उपयोग प्रतिक्रिया स्ट्रीमिंग के साथ एक समापन बिंदु को लागू करने के लिए किया जाएगा:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

एलएलएम से उत्पन्न पाठ को आउटपुट पर स्ट्रीम किया जाएगा जैसा कि निम्नलिखित एनीमेशन में दिखाया गया है।

लामा 2 13बी चैट रिस्पांस स्ट्रीमिंग - एचएफ टीजीआई

दृष्टिकोण 2: डीजेएल सर्विंग के साथ एलएमआई

इस अनुभाग में, हम प्रदर्शित करते हैं कि इसे कैसे तैनात किया जाए meta-llama/Llama-2-13b-chat-hf डीजेएल सर्विंग के साथ एलएमआई का उपयोग करके प्रतिक्रिया स्ट्रीमिंग के साथ सेजमेकर रीयल-टाइम एंडपॉइंट पर मॉडल। निम्न तालिका इस परिनियोजन के लिए विशिष्टताओं को रेखांकित करती है।

विशिष्टता	वैल्यू
कंटेनर	डीजेएल सर्विंग के साथ एलएमआई कंटेनर छवि
मॉडल का नाम	मेटा-लामा/लामा-2-13बी-चैट-एचएफ
एमएल उदाहरण	एमएल.g5.12xबड़ा
अनुमान	प्रतिक्रिया स्ट्रीमिंग के साथ वास्तविक समय

आप सबसे पहले मॉडल डाउनलोड करें और उसे स्टोर करें अमेज़न सरल भंडारण सेवा (अमेज़ॅन एस3)। फिर आप मॉडल के S3 उपसर्ग को दर्शाते हुए S3 URI निर्दिष्ट करते हैं serving.properties फ़ाइल। इसके बाद, आप तैनात किए जाने वाले एलएलएम के लिए आधार छवि पुनः प्राप्त करते हैं। फिर आप आधार छवि पर मॉडल बनाते हैं। अंत में, आप वास्तविक समय अनुमान के लिए सेजमेकर होस्टिंग के लिए मॉडल को एमएल इंस्टेंस पर तैनात करते हैं।

आइए देखें कि उपरोक्त परिनियोजन चरणों को प्रोग्रामेटिक रूप से कैसे प्राप्त किया जाए। संक्षिप्तता के लिए, केवल वह कोड जो परिनियोजन चरणों में सहायता करता है, इस अनुभाग में विस्तृत है। इस परिनियोजन के लिए पूर्ण स्रोत कोड नोटबुक में उपलब्ध है llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.

हगिंग फेस से मॉडल स्नैपशॉट डाउनलोड करें और अमेज़ॅन S3 पर मॉडल कलाकृतियाँ अपलोड करें

उपरोक्त शर्तों के साथ, सेजमेकर नोटबुक इंस्टेंस पर मॉडल डाउनलोड करें और फिर इसे आगे की तैनाती के लिए S3 बकेट पर अपलोड करें:

model_name = 'meta-llama/Llama-2-13b-chat-hf'
# Only download pytorch checkpoint files
allow_patterns = ["*.json", "*.txt", "*.model", "*.safetensors", "*.bin", "*.chk", "*.pth"] # Download the model snapshot
model_download_path = snapshot_download( repo_id=model_name, cache_dir=local_model_path, allow_patterns=allow_patterns, token='<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>'
)

ध्यान दें कि भले ही आप वैध एक्सेस टोकन प्रदान नहीं करते हैं, मॉडल डाउनलोड हो जाएगा। लेकिन जब आप ऐसा कोई मॉडल तैनात करते हैं, तो मॉडल प्रस्तुत करना सफल नहीं होगा। इसलिए, इसे बदलने की अनुशंसा की जाती है <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> तर्क के लिए token आपके हगिंग फेस प्रोफ़ाइल से प्राप्त टोकन के मूल्य के साथ जैसा कि पूर्वापेक्षाओं में बताया गया है। इस पोस्ट के लिए, हम लामा 2 के लिए आधिकारिक मॉडल का नाम निर्दिष्ट करते हैं जैसा कि मूल्य के साथ हगिंग फेस पर पहचाना गया है meta-llama/Llama-2-13b-chat-hf. असम्पीडित मॉडल को डाउनलोड किया जाएगा local_model_path उपर्युक्त कोड चलाने के परिणामस्वरूप।

फ़ाइलें Amazon S3 पर अपलोड करें और URI प्राप्त करें, जिसका बाद में उपयोग किया जाएगा serving.properties.

आप इसकी पैकेजिंग करेंगे meta-llama/Llama-2-13b-chat-hf निर्दिष्ट कॉन्फ़िगरेशन का उपयोग करके डीजेएल सर्विंग के साथ एलएमआई कंटेनर छवि पर मॉडल serving.properties. फिर आप सेजमेकर एमएल इंस्टेंस ml.g5.12xlarge पर कंटेनर छवि पर पैक किए गए मॉडल कलाकृतियों के साथ मॉडल को तैनात करते हैं। फिर आप रीयल-टाइम अनुमान के लिए सेजमेकर होस्टिंग के लिए इस एमएल इंस्टेंस का उपयोग करते हैं।

डीजेएल सर्विंग के लिए मॉडल कलाकृतियाँ तैयार करें

बनाकर अपना मॉडल आर्टिफैक्ट तैयार करें serving.properties विन्यास फाइल:

%%writefile chat_llama2_13b_hf/serving.properties
engine = MPI
option.entryPoint=djl_python.huggingface
option.tensor_parallel_degree=4
option.low_cpu_mem_usage=TRUE
option.rolling_batch=lmi-dist
option.max_rolling_batch_size=64
option.model_loading_timeout=900
option.model_id={{model_id}}
option.paged_attention=true

हम इस कॉन्फ़िगरेशन फ़ाइल में निम्नलिखित सेटिंग्स का उपयोग करते हैं:

इंजन - यह डीजेएल के उपयोग के लिए रनटाइम इंजन को निर्दिष्ट करता है। संभावित मूल्यों में शामिल हैं Python, DeepSpeed, FasterTransformer, तथा MPI. इस मामले में, हम इसे सेट करते हैं MPI. मॉडल समानांतरीकरण और अनुमान (एमपीआई) सभी उपलब्ध जीपीयू में मॉडल को विभाजित करने की सुविधा प्रदान करता है और इसलिए अनुमान को तेज करता है।
option.entryPoint - यह विकल्प निर्दिष्ट करता है कि आप डीजेएल सर्विंग द्वारा प्रस्तावित किस हैंडलर का उपयोग करना चाहेंगे। संभावित मान हैं djl_python.huggingface, djl_python.deepspeed, तथा djl_python.stable-diffusion। हम प्रयोग करते हैं djl_python.huggingface चेहरे को गले लगाने में तेजी लाने के लिए.
विकल्प.टेन्सर_समानांतर_डिग्री - यह विकल्प मॉडल पर निष्पादित टेंसर समानांतर विभाजनों की संख्या निर्दिष्ट करता है। आप उन GPU उपकरणों की संख्या निर्धारित कर सकते हैं जिन पर एक्सेलेरेट को मॉडल को विभाजित करने की आवश्यकता है। यह पैरामीटर प्रति मॉडल श्रमिकों की संख्या को भी नियंत्रित करता है जो डीजेएल सेवा चलने पर शुरू किए जाएंगे। उदाहरण के लिए, यदि हमारे पास 4 जीपीयू मशीन है और हम चार विभाजन बना रहे हैं, तो अनुरोधों को पूरा करने के लिए हमारे पास प्रति मॉडल एक कर्मचारी होगा।
option.low_cpu_mem_usage - यह मॉडल लोड करते समय सीपीयू मेमोरी उपयोग को कम करता है। हमारा सुझाव है कि आप इसे इस पर सेट करें TRUE.
विकल्प.रोलिंग_बैच - यह समर्थित रणनीतियों में से एक का उपयोग करके पुनरावृत्ति-स्तरीय बैचिंग को सक्षम बनाता है। मूल्यों में शामिल हैं auto, scheduler, तथा lmi-dist। हम प्रयोग करते हैं lmi-dist लामा 2 के लिए निरंतर बैचिंग चालू करने के लिए।
option.max_rolling_batch_size - यह निरंतर बैच में समवर्ती अनुरोधों की संख्या को सीमित करता है। मान डिफ़ॉल्ट रूप से 32 है.
option.model_id - आपको प्रतिस्थापित करना चाहिए {{model_id}} के अंदर होस्ट किए गए पूर्व-प्रशिक्षित मॉडल की मॉडल आईडी के साथ हगिंग फेस पर मॉडल भंडार या मॉडल कलाकृतियों के लिए S3 पथ।

अधिक कॉन्फ़िगरेशन विकल्प यहां पाए जा सकते हैं कॉन्फ़िगरेशन और सेटिंग्स.

क्योंकि डीजेएल सर्विंग को उम्मीद है कि मॉडल कलाकृतियों को .tar फ़ाइल में पैक और स्वरूपित किया जाएगा, .tar फ़ाइल को Amazon S3 पर संपीड़ित और अपलोड करने के लिए निम्नलिखित कोड स्निपेट चलाएँ:

s3_code_prefix = f"{s3_prefix}/code" # folder within bucket where code artifact will go
s3_code_artifact = sess.upload_data("model.tar.gz", bucket, s3_code_prefix)

डीजेएल सर्विंग के साथ नवीनतम एलएमआई कंटेनर छवि पुनर्प्राप्त करें

इसके बाद, आप मॉडल को तैनात करने के लिए एलएमआई के लिए सेजमेकर के पास उपलब्ध डीएलसी का उपयोग करते हैं। के लिए सेजमेकर छवि यूआरआई पुनः प्राप्त करें djl-deepspeed कंटेनर प्रोग्रामेटिक रूप से निम्नलिखित कोड का उपयोग कर रहा है:

from sagemaker import image_uris
inference_image_uri = image_uris.retrieve( framework="djl-deepspeed", region=region, version="0.25.0"
)

आप इसे तैनात करने के लिए उपरोक्त छवि का उपयोग कर सकते हैं meta-llama/Llama-2-13b-chat-hf सेजमेकर पर मॉडल। अब आप मॉडल बनाने के लिए आगे बढ़ सकते हैं।

मॉडल बनाएं

आप वह मॉडल बना सकते हैं जिसका कंटेनर का उपयोग करके बनाया गया है inference_image_uri और S3 URI पर स्थित मॉडल सर्विंग कोड द्वारा दर्शाया गया है s3_code_artifact:

from sagemaker.utils import name_from_base model_name = name_from_base(f"Llama-2-13b-chat-lmi-streaming") create_model_response = sm_client.create_model( ModelName=model_name, ExecutionRoleArn=role, PrimaryContainer={ "Image": inference_image_uri, "ModelDataUrl": s3_code_artifact, "Environment": {"MODEL_LOADING_TIMEOUT": "3600"}, },
)

अब आप एंडपॉइंट कॉन्फ़िगरेशन के लिए सभी विवरणों के साथ मॉडल कॉन्फ़िगरेशन बना सकते हैं।

मॉडल कॉन्फ़िगरेशन बनाएं

पहचाने गए मॉडल के लिए मॉडल कॉन्फ़िगरेशन बनाने के लिए निम्नलिखित कोड का उपयोग करें model_name:

endpoint_config_name = f"{model_name}-config" endpoint_name = name_from_base(model_name) endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "ml.g5.12xlarge", "InitialInstanceCount": 1, "ModelDataDownloadTimeoutInSeconds": 3600, "ContainerStartupHealthCheckTimeoutInSeconds": 3600, }, ],
)

मॉडल कॉन्फ़िगरेशन को इसके लिए परिभाषित किया गया है ProductionVariants प्राचल InstanceType एमएल उदाहरण के लिए ml.g5.12xlarge. आप भी प्रदान करें ModelName उसी नाम का उपयोग करें जिसका उपयोग आपने पिछले चरण में मॉडल बनाने के लिए किया था, जिससे मॉडल और एंडपॉइंट कॉन्फ़िगरेशन के बीच संबंध स्थापित हो सके।

अब जब आपने मॉडल और मॉडल कॉन्फ़िगरेशन को परिभाषित कर लिया है, तो आप सेजमेकर एंडपॉइंट बना सकते हैं।

सेजमेकर एंडपॉइंट बनाएं

निम्नलिखित कोड स्निपेट का उपयोग करके मॉडल को तैनात करने के लिए समापन बिंदु बनाएं:

create_endpoint_response = sm_client.create_endpoint( EndpointName=f"{endpoint_name}", EndpointConfigName=endpoint_config_name
)

आप निम्नलिखित कोड स्निपेट का उपयोग करके परिनियोजन की प्रगति देख सकते हैं:

resp = sm_client.describe_endpoint(EndpointName=endpoint_name)
status = resp["EndpointStatus"]

परिनियोजन सफल होने के बाद, समापन बिंदु स्थिति होगी InService. अब जब समापन बिंदु तैयार है, तो आइए प्रतिक्रिया स्ट्रीमिंग के साथ अनुमान लगाएं।

प्रतिक्रिया स्ट्रीमिंग के साथ वास्तविक समय का अनुमान

जैसा कि हमने हगिंग फेस टीजीआई के लिए पिछले दृष्टिकोण में बताया था, आप उसी विधि का उपयोग कर सकते हैं get_realtime_response_stream सेजमेकर एंडपॉइंट से प्रतिक्रिया स्ट्रीमिंग शुरू करने के लिए। एलएमआई दृष्टिकोण का उपयोग करके अनुमान लगाने के लिए कोड है llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb स्मरण पुस्तक। LineIterator कार्यान्वयन स्थित है llama-2-lmi/utils/LineIterator.py। ध्यान दें कि LineIterator एलएमआई कंटेनर पर तैनात लामा 2 चैट मॉडल के लिए अलग है LineIterator हगिंग फेस टीजीआई अनुभाग में संदर्भित। LineIterator एलएमआई कंटेनर के साथ अनुमानित लामा 2 चैट मॉडल से बाइट स्ट्रीम पर लूप djl-deepspeed संस्करण 0.25.0. निम्नलिखित सहायक फ़ंक्शन के माध्यम से किए गए अनुमान अनुरोध से प्राप्त प्रतिक्रिया स्ट्रीम को पार्स करेगा invoke_endpoint_with_response_stream एपीआई:

from utils.LineIterator import LineIterator def print_response_stream(response_stream): event_stream = response_stream.get('Body') for line in LineIterator(event_stream): print(line, end='')

पूर्ववर्ती विधि द्वारा पढ़े गए डेटा की धारा को प्रिंट करती है LineIterator मानव-पठनीय प्रारूप में।

आइए जानें कि मॉडल का अनुमान लगाते समय उन्हें पेलोड के रूप में उपयोग करने के लिए प्रॉम्प्ट और निर्देश कैसे तैयार करें।

क्योंकि आप हगिंग फेस टीजीआई और एलएमआई दोनों में एक ही मॉडल का अनुमान लगा रहे हैं, संकेत और निर्देश तैयार करने की प्रक्रिया समान है। इसलिए, आप तरीकों का उपयोग कर सकते हैं get_instructions और build_llama2_prompt अनुमान लगाने के लिए.

RSI get_instructions विधि निर्देश लौटाती है। निष्पादित किए जाने वाले कार्य के साथ संयुक्त निर्देश बनाएं जैसा कि इसमें बताया गया है user_ask_2 के रूप में इस प्रकार है:

user_ask_2 = f'''
AnyCompany recently announced new service launch named AnyCloud Streaming Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: STREAM2DREAM to get 15% for 1st 6 months. ''' instructions = get_instructions(user_ask_2)
prompt = build_llama2_prompt(instructions)

प्रॉम्प्ट टेम्पलेट के अनुसार प्रॉम्प्ट बनाने के लिए निर्देश पास करें build_llama2_prompt:

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "return_full_text": False, } payload = { "inputs": prompt, "parameters": inference_params
}

अंतिम पेलोड बनाने के लिए हम अनुमान मापदंडों को संकेत के साथ जोड़ते हैं। फिर आप पेलोड को भेजें get_realtime_response_stream, जिसका उपयोग प्रतिक्रिया स्ट्रीमिंग के साथ समापन बिंदु को लागू करने के लिए किया जाता है:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

लामा 2 13बी चैट रिस्पांस स्ट्रीमिंग - एलएमआई

क्लीन अप

अनावश्यक शुल्कों से बचने के लिए, इसका उपयोग करें एडब्ल्यूएस प्रबंधन कंसोल पोस्ट में उल्लिखित दृष्टिकोणों को चलाने के दौरान बनाए गए समापन बिंदुओं और उससे जुड़े संसाधनों को हटाने के लिए। दोनों परिनियोजन दृष्टिकोणों के लिए, निम्नलिखित सफाई दिनचर्या निष्पादित करें:

import boto3
sm_client = boto3.client('sagemaker')
endpoint_name="<SageMaker_Real-time_Endpoint_Name>"
endpoint = sm_client.describe_endpoint(EndpointName=endpoint_name)
endpoint_config_name = endpoint['EndpointConfigName']
endpoint_config = sm_client.describe_endpoint_config(EndpointConfigName=endpoint_config_name)
model_name = endpoint_config['ProductionVariants'][0]['ModelName'] print(f"""
About to delete the following sagemaker resources:
Endpoint: {endpoint_name}
Endpoint Config: {endpoint_config_name}
Model: {model_name} """) # delete endpoint
sm_client.delete_endpoint(EndpointName=endpoint_name)
# delete endpoint config
sm_client.delete_endpoint_config(EndpointConfigName=endpoint_config_name)
# delete model
sm_client.delete_model(ModelName=model_name)

बदलें <SageMaker_Real-time_Endpoint_Name> परिवर्तनशील के लिए endpoint_name वास्तविक समापन बिंदु के साथ.

दूसरे दृष्टिकोण के लिए, हमने अमेज़ॅन S3 पर मॉडल और कोड कलाकृतियों को संग्रहीत किया। आप निम्नलिखित कोड का उपयोग करके S3 बाल्टी को साफ़ कर सकते हैं:

s3 = boto3.resource('s3')
s3_bucket = s3.Bucket(bucket)
s3_bucket.objects.filter(Prefix=s3_prefix).delete()

निष्कर्ष

इस पोस्ट में, हमने चर्चा की कि प्रतिक्रिया टोकन की अलग-अलग संख्या या अनुमान मापदंडों का एक अलग सेट एलएलएम से जुड़ी विलंबता को कैसे प्रभावित कर सकता है। हमने दिखाया कि प्रतिक्रिया स्ट्रीमिंग की सहायता से समस्या का समाधान कैसे किया जाए। फिर हमने एडब्ल्यूएस डीएलसी-एलएमआई और हगिंग फेस टीजीआई का उपयोग करके लामा 2 चैट मॉडल को तैनात करने और अनुमान लगाने के लिए दो दृष्टिकोणों की पहचान की।

अब आपको स्ट्रीमिंग प्रतिक्रिया के महत्व को समझना चाहिए और यह कैसे कथित विलंबता को कम कर सकता है। स्ट्रीमिंग प्रतिक्रिया से उपयोगकर्ता अनुभव में सुधार हो सकता है, अन्यथा आपको तब तक इंतजार करना पड़ेगा जब तक एलएलएम पूरी प्रतिक्रिया तैयार नहीं कर लेता। इसके अतिरिक्त, प्रतिक्रिया स्ट्रीमिंग के साथ लामा 2 चैट मॉडल को तैनात करने से उपयोगकर्ता अनुभव में सुधार होता है और आपके ग्राहक खुश होते हैं।

आप आधिकारिक एडब्ल्यूएस-नमूने देख सकते हैं अमेज़ॅन-सेजमेकर-llama2-प्रतिक्रिया-स्ट्रीमिंग-रेसिपी इसमें अन्य लामा 2 मॉडल वेरिएंट के लिए तैनाती शामिल है।

संदर्भ

लेखक के बारे में

पवन कुमार राव नवुले अमेज़न वेब सर्विसेज में सॉल्यूशन आर्किटेक्ट हैं। वह भारत में आईएसवी के साथ काम करते हैं ताकि उन्हें एडब्ल्यूएस पर नवाचार करने में मदद मिल सके। वह "गेटिंग स्टार्टेड विद वी प्रोग्रामिंग" पुस्तक के प्रकाशित लेखक हैं। उन्होंने भारतीय प्रौद्योगिकी संस्थान (आईआईटी), हैदराबाद से डेटा साइंस में कार्यकारी एम.टेक की पढ़ाई की। उन्होंने इंडियन स्कूल ऑफ बिजनेस मैनेजमेंट एंड एडमिनिस्ट्रेशन से आईटी विशेषज्ञता में एक्जीक्यूटिव एमबीए भी किया और वाग्देवी इंस्टीट्यूट ऑफ टेक्नोलॉजी एंड साइंस से इलेक्ट्रॉनिक्स एंड कम्युनिकेशन इंजीनियरिंग में बी.टेक किया। पवन एक AWS सर्टिफाइड सॉल्यूशंस आर्किटेक्ट प्रोफेशनल हैं और उनके पास AWS सर्टिफाइड मशीन लर्निंग स्पेशलिटी, Microsoft सर्टिफाइड प्रोफेशनल (MCP) और Microsoft सर्टिफाइड टेक्नोलॉजी स्पेशलिस्ट (MCTS) जैसे अन्य प्रमाणपत्र हैं। वह एक ओपन-सोर्स उत्साही भी हैं। अपने खाली समय में, वह सिया और रिहाना की महान जादुई आवाज़ें सुनना पसंद करते हैं।

सुधांशु नफरत AWS के साथ प्रमुख AI/ML विशेषज्ञ हैं और ग्राहकों को उनकी MLOps और जेनरेटिव AI यात्रा पर सलाह देने के लिए उनके साथ काम करते हैं। अमेज़ॅन से पहले अपनी पिछली भूमिका में, उन्होंने ग्राउंड-अप ओपन सोर्स-आधारित एआई और गेमिफ़िकेशन प्लेटफ़ॉर्म बनाने के लिए टीमों की अवधारणा, निर्माण और नेतृत्व किया और 100 से अधिक ग्राहकों के साथ इसका सफलतापूर्वक व्यावसायीकरण किया। सुधांशु ने कुछ पेटेंट अपने नाम किए हैं, दो किताबें और कई पेपर और ब्लॉग लिखे हैं, और विभिन्न तकनीकी मंचों पर अपने दृष्टिकोण प्रस्तुत किए हैं। वह एक विचारशील नेता और वक्ता रहे हैं, और लगभग 25 वर्षों से उद्योग में हैं। उन्होंने दुनिया भर में फॉर्च्यून 1000 ग्राहकों के साथ काम किया है और हाल ही में भारत में डिजिटल देशी ग्राहकों के साथ काम किया है।