Inference Llama 2 Models With Real-time Response Streaming Using Amazon SageMaker

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

جنریٹیو AI ایپلی کیشنز کو تیزی سے اپنانے کے ساتھ، ان ایپلی کیشنز کو وقت پر جواب دینے کی ضرورت ہے تاکہ زیادہ تھرو پٹ کے ساتھ سمجھی جانے والی تاخیر کو کم کیا جا سکے۔ فاؤنڈیشن ماڈلز (FMs) اکثر اعداد و شمار کے وسیع کارپورا پر پہلے سے تربیت یافتہ ہوتے ہیں جن کے پیرامیٹرز لاکھوں سے اربوں اور اس سے زیادہ کے پیمانے پر ہوتے ہیں۔ بڑے لینگویج ماڈلز (LLMs) FM کی ایک قسم ہیں جو صارف کے تاثرات کے جواب کے طور پر متن تیار کرتی ہے۔ انفرنس پیرامیٹرز کی مختلف کنفیگریشنز کے ساتھ ان ماڈلز کا اندازہ لگانا متضاد تاخیر کا باعث بن سکتا ہے۔ عدم مطابقت اس وجہ سے ہو سکتی ہے کہ جوابی ٹوکنز کی مختلف تعداد جس کی آپ ماڈل سے توقع کر رہے ہیں یا جس قسم کے ایکسلریٹر پر ماڈل لگایا گیا ہے۔

دونوں صورتوں میں، مکمل جواب کا انتظار کرنے کے بجائے، آپ اپنے تخمینے کے لیے رسپانس اسٹریمنگ کا طریقہ اپنا سکتے ہیں، جو معلومات کے ٹکڑوں کو تیار ہوتے ہی واپس بھیج دیتا ہے۔ یہ آپ کو تاخیر سے مکمل جواب کے بجائے حقیقی وقت میں جزوی ردعمل دیکھنے کی اجازت دے کر ایک انٹرایکٹو تجربہ تخلیق کرتا ہے۔

سرکاری اعلان کے ساتھ کہ ایمیزون سیج میکر ریئل ٹائم انفرنس اب رسپانس اسٹریمنگ کو سپورٹ کرتا ہے۔، اب آپ استعمال کرتے وقت کلائنٹ کو واپس آنے والے تخمینے کے جوابات کو مسلسل سٹریم کر سکتے ہیں۔ ایمیزون سیج میکر رسپانس اسٹریمنگ کے ساتھ اصل وقت کا اندازہ۔ یہ حل آپ کو مختلف جنریٹیو AI ایپلی کیشنز جیسے چیٹ بوٹس، ورچوئل اسسٹنٹس، اور میوزک جنریٹرز کے لیے انٹرایکٹو تجربات بنانے میں مدد کرے گا۔ یہ پوسٹ آپ کو دکھاتی ہے کہ کس طرح ٹائم ٹو فرسٹ بائٹ (TTFB) کی شکل میں تیزی سے ردعمل کے اوقات کو محسوس کیا جائے اور Llama 2 ماڈلز کا اندازہ لگاتے ہوئے مجموعی طور پر سمجھی جانے والی تاخیر کو کم کیا جائے۔

حل کو لاگو کرنے کے لیے، ہم SageMaker استعمال کرتے ہیں، جو کہ مکمل طور پر منظم انفراسٹرکچر، ٹولز اور ورک فلو کے ساتھ ڈیٹا تیار کرنے اور مشین لرننگ (ML) ماڈلز کو کسی بھی استعمال کے معاملے کے لیے تیار کرنے، تربیت دینے اور ان کی تعیناتی کے لیے مکمل طور پر منظم سروس ہے۔ تعیناتی کے مختلف اختیارات کے بارے میں مزید معلومات کے لیے SageMaker فراہم کرتا ہے، ملاحظہ کریں۔ ایمیزون سیج میکر ماڈل ہوسٹنگ کے عمومی سوالنامہ. آئیے سمجھتے ہیں کہ ہم جوابی سلسلہ بندی کے ساتھ ریئل ٹائم انفرنس کا استعمال کرتے ہوئے تاخیر کے مسائل کو کیسے حل کر سکتے ہیں۔

حل جائزہ

چونکہ ہم LLMs کے ساتھ ریئل ٹائم انفرنس سے منسلک مذکورہ بالا تاخیر کو دور کرنا چاہتے ہیں، آئیے پہلے یہ سمجھیں کہ ہم Llama 2 کے لیے ریئل ٹائم انفرنسنگ کے لیے رسپانس اسٹریمنگ سپورٹ کا استعمال کیسے کر سکتے ہیں۔ تاہم، کوئی بھی LLM ریسپانس اسٹریمنگ سپورٹ کا فائدہ اٹھا سکتا ہے۔ - وقت کا اندازہ لگانا۔

Llama 2 7 بلین سے 70 بلین پیرامیٹرز کے پیمانے پر پہلے سے تربیت یافتہ اور ٹھیک ٹیونڈ جنریٹو ٹیکسٹ ماڈلز کا مجموعہ ہے۔ لاما 2 ماڈل خودکار ماڈلز ہیں جن میں صرف ڈیکوڈر آرکیٹیکچر ہے۔ فوری طور پر اور انفرنس پیرامیٹرز کے ساتھ فراہم کیے جانے پر، Llama 2 ماڈل ٹیکسٹ ردعمل پیدا کرنے کے قابل ہوتے ہیں۔ ان ماڈلز کو ترجمہ، خلاصہ، سوال جواب، اور بات چیت کے لیے استعمال کیا جا سکتا ہے۔

اس پوسٹ کے لیے، ہم Llama 2 Chat ماڈل تعینات کرتے ہیں۔ meta-llama/Llama-2-13b-chat-hf رسپانس اسٹریمنگ کے ساتھ ریئل ٹائم انفرنسنگ کے لیے سیج میکر پر۔

جب سیج میکر اینڈ پوائنٹس پر ماڈلز کی تعیناتی کی بات آتی ہے، تو آپ خصوصی استعمال کرتے ہوئے ماڈلز کو کنٹینرائز کر سکتے ہیں۔ AWS ڈیپ لرننگ کنٹینر (DLC) تصاویر مقبول اوپن سورس لائبریریوں کے لیے دستیاب ہیں۔ لاما 2 ماڈل ٹیکسٹ جنریشن ماڈل ہیں۔ آپ یا تو استعمال کر سکتے ہیں سیج میکر پر LLM انفرنس کنٹینرز کو گلے لگانا Hugging Face کے ذریعے تقویت یافتہ ٹیکسٹ جنریشن انفرنس (TGI) یا AWS DLCs کے لیے بڑے ماڈل کا اندازہ (LMI)۔

اس پوسٹ میں، ہم SageMaker ہوسٹنگ پر DLCs کا استعمال کرتے ہوئے Llama 2 13B چیٹ ماڈل کو G5 مثالوں سے چلنے والے ریئل ٹائم انفرنس کے لیے تعینات کرتے ہیں۔ G5 مثالیں گرافکس-انٹینسیو ایپلی کیشنز اور ML تخمینہ کے لیے اعلی کارکردگی والے GPU پر مبنی مثالیں ہیں۔ آپ مثال کی ترتیب کے مطابق مناسب تبدیلیوں کے ساتھ معاون مثال کی اقسام p4d، p3، g5، اور g4dn بھی استعمال کر سکتے ہیں۔

شرائط

اس حل کو نافذ کرنے کے لیے، آپ کے پاس درج ذیل ہونا چاہیے:

AWS اکاؤنٹ ایک کے ساتھ AWS شناخت اور رسائی کا انتظام حل کے حصے کے طور پر بنائے گئے وسائل کو منظم کرنے کی اجازت کے ساتھ (IAM) کا کردار۔
اگر یہ آپ کے ساتھ پہلی بار کام کر رہا ہے۔ ایمیزون سیج میکر اسٹوڈیو، آپ کو پہلے ایک بنانے کی ضرورت ہے۔ سیج میکر ڈومین.
گلے ملنے والا چہرہ اکاؤنٹ۔ سائن اپ کریں اگر آپ کے پاس پہلے سے اکاؤنٹ نہیں ہے تو اپنے ای میل کے ساتھ۔
- ہگنگ فیس پر دستیاب ماڈلز، خاص طور پر گیٹڈ ماڈلز جیسے لاما، فائن ٹیوننگ اور انفرنسنگ مقاصد کے لیے، آپ کے پاس ہگنگ فیس اکاؤنٹ ہونا چاہیے تاکہ پڑھنے تک رسائی کا ٹوکن حاصل کیا جا سکے۔ اپنے Hugging Face اکاؤنٹ کے لیے سائن اپ کرنے کے بعد، میں لاگ ان کریں دورہ کرنے کی https://huggingface.co/settings/tokens پڑھنے تک رسائی کا ٹوکن بنانے کے لیے۔
Llama 2 تک رسائی، اسی ای میل ID کا استعمال کرتے ہوئے جسے آپ Hugging Face کے لیے سائن اپ کرتے تھے۔
- ہگنگ فیس کے ذریعے دستیاب لاما 2 ماڈل گیٹڈ ماڈل ہیں۔ لاما ماڈل کا استعمال میٹا لائسنس کے ذریعے کنٹرول کیا جاتا ہے۔ ماڈل وزن اور ٹوکنائزر ڈاؤن لوڈ کرنے کے لیے، لاما تک رسائی کی درخواست کریں۔ اور ان کا لائسنس قبول کریں۔
- آپ کو رسائی دینے کے بعد (عام طور پر چند دنوں میں)، آپ کو ایک ای میل تصدیق موصول ہوگی۔ اس مثال کے لیے ہم ماڈل استعمال کرتے ہیں۔ Llama-2-13b-chat-hf، لیکن آپ کو دیگر مختلف حالتوں تک بھی رسائی حاصل کرنے کے قابل ہونا چاہئے۔

طریقہ 1: TGI کو گلے لگانا

اس سیکشن میں، ہم آپ کو دکھاتے ہیں کہ کس طرح تعینات کیا جائے۔ meta-llama/Llama-2-13b-chat-hf Hugging Face TGI کا استعمال کرتے ہوئے رسپانس اسٹریمنگ کے ساتھ SageMaker ریئل ٹائم اینڈ پوائنٹ کا ماڈل۔ مندرجہ ذیل جدول اس تعیناتی کے لیے وضاحتیں بیان کرتا ہے۔

تفصیلات	قدر
کنٹینر	گلے ملتے ہوئے چہرہ TGI
ماڈل کا نام	meta-llama/Llama-2-13b-chat-hf
ایم ایل مثال	ml.g5.12xlarge
ارادہ	رسپانس اسٹریمنگ کے ساتھ ریئل ٹائم

ماڈل تعینات کریں۔

سب سے پہلے، آپ ایل ایل ایم کی تعیناتی کے لیے بنیادی تصویر کو بازیافت کرتے ہیں۔ اس کے بعد آپ بیس امیج پر ماڈل بناتے ہیں۔ آخر میں، آپ ریئل ٹائم انفرنس کے لیے SageMaker ہوسٹنگ کے لیے ML مثال کے لیے ماڈل کو تعینات کرتے ہیں۔

آئیے دیکھتے ہیں کہ پروگرامی طور پر تعیناتی کیسے حاصل کی جائے۔ اختصار کے لیے، اس سیکشن میں صرف اس کوڈ پر بات کی گئی ہے جو تعیناتی کے مراحل میں مدد کرتا ہے۔ تعیناتی کے لیے مکمل سورس کوڈ نوٹ بک میں دستیاب ہے۔ llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.

تازہ ترین Hugging Face LLM DLC کو بازیافت کریں جو TGI کے ذریعے پہلے سے بنایا گیا ہے۔ سیج میکر ڈی ایل سی. آپ اس تصویر کو تعینات کرنے کے لیے استعمال کرتے ہیں۔ meta-llama/Llama-2-13b-chat-hf SageMaker پر ماڈل۔ درج ذیل کوڈ دیکھیں:

from sagemaker.huggingface import get_huggingface_llm_image_uri # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri( "huggingface", version="1.0.3"
)

ماڈل کے لیے ماحول کی وضاحت کنفیگریشن پیرامیٹرز کے ساتھ کریں جس کی وضاحت درج ذیل ہے:

instance_type = "ml.g5.12xlarge"
number_of_gpu = 4
config = { 'HF_MODEL_ID': "meta-llama/Llama-2-13b-chat-hf", # model_id from hf.co/models 'SM_NUM_GPUS': json.dumps(number_of_gpu), # Number of GPU used per replica 'MAX_INPUT_LENGTH': json.dumps(2048), # Max length of input text 'MAX_TOTAL_TOKENS': json.dumps(4096), # Max length of the generation (including input text) 'MAX_BATCH_TOTAL_TOKENS': json.dumps(8192), # Limits the number of tokens that can be processed in parallel during the generation 'HUGGING_FACE_HUB_TOKEN': "<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>"
}

بدل <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> تشکیل پیرامیٹر کے لیے HUGGING_FACE_HUB_TOKEN آپ کے گلے لگنے والے چہرے کے پروفائل سے حاصل کردہ ٹوکن کی قیمت کے ساتھ جیسا کہ اس پوسٹ کے ضروری سیکشن میں تفصیل سے بتایا گیا ہے۔ کنفیگریشن میں، آپ ایک ماڈل کی نقل میں استعمال ہونے والے GPUs کی تعداد 4 کے طور پر بیان کرتے ہیں SM_NUM_GPUS. پھر آپ کو تعینات کر سکتے ہیں meta-llama/Llama-2-13b-chat-hf ایک ml.g5.12x بڑی مثال پر ماڈل جو 4 GPUs کے ساتھ آتا ہے۔

اب آپ مثال بنا سکتے ہیں۔ HuggingFaceModel مذکورہ ماحول کی ترتیب کے ساتھ:

llm_model = HuggingFaceModel( role=role, image_uri=llm_image, env=config
)

آخر میں، مختلف پیرامیٹر اقدار کے ساتھ ماڈل پر دستیاب تعیناتی طریقہ کار کو دلائل فراہم کر کے ماڈل کو تعینات کریں جیسے endpoint_name, initial_instance_count، اور instance_type:

llm = llm_model.deploy( endpoint_name=endpoint_name, initial_instance_count=1, instance_type=instance_type, container_startup_health_check_timeout=health_check_timeout,
)

اندازہ لگانا

Hugging Face TGI DLC ماڈل میں کسی تخصیص یا کوڈ میں تبدیلی کے بغیر ردعمل کو سٹریم کرنے کی صلاحیت کے ساتھ آتا ہے۔ آپ استعمال کر سکتے ہیں invoke_endpoint_with_response_stream اگر آپ Boto3 یا استعمال کر رہے ہیں۔ InvokeEndpointWithResponseStream SageMaker Python SDK کے ساتھ پروگرامنگ کرتے وقت۔

۔ InvokeEndpointWithResponseStream SageMaker کا API ڈویلپرز کو SageMaker ماڈلز سے جوابات واپس سٹریم کرنے کی اجازت دیتا ہے، جو سمجھی جانے والی تاخیر کو کم کر کے صارفین کی اطمینان کو بہتر بنانے میں مدد کر سکتا ہے۔ یہ خاص طور پر جنریٹیو AI ماڈلز کے ساتھ بنی ایپلی کیشنز کے لیے اہم ہے، جہاں فوری پروسیسنگ پورے جواب کا انتظار کرنے سے زیادہ اہم ہے۔

اس مثال کے لیے، ہم ماڈل کا اندازہ لگانے کے لیے Boto3 کا استعمال کرتے ہیں اور SageMaker API استعمال کرتے ہیں۔ invoke_endpoint_with_response_stream مندرجہ ذیل ہے:

def get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload): response_stream = sagemaker_runtime.invoke_endpoint_with_response_stream( EndpointName=endpoint_name, Body=json.dumps(payload), ContentType="application/json", CustomAttributes='accept_eula=false' ) return response_stream

دلیل CustomAttributes قدر پر سیٹ ہے۔ accept_eula=false. ۔ accept_eula پیرامیٹر پر سیٹ ہونا ضروری ہے۔ true لاما 2 ماڈلز سے کامیابی کے ساتھ جواب حاصل کرنے کے لیے۔ کا استعمال کرتے ہوئے کامیاب درخواست کے بعد invoke_endpoint_with_response_stream، طریقہ بائٹس کا جوابی سلسلہ واپس کرے گا۔

درج ذیل خاکہ اس ورک فلو کو واضح کرتا ہے۔

HF TGI اسٹریمنگ آرکیٹیکچرل ڈایاگرام

آپ کو ایک تکرار کرنے والے کی ضرورت ہے جو بائٹس کے سلسلے کو ختم کرے اور انہیں پڑھنے کے قابل متن میں پارس کرے۔ دی LineIterator پر عمل درآمد پایا جا سکتا ہے۔ llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. اب آپ ماڈل کا اندازہ لگاتے ہوئے انہیں بطور پے لوڈ استعمال کرنے کے لیے پرامپٹ اور ہدایات تیار کرنے کے لیے تیار ہیں۔

ایک اشارہ اور ہدایات تیار کریں۔

اس مرحلے میں، آپ اپنے LLM کے لیے پرامپٹ اور ہدایات تیار کرتے ہیں۔ Llama 2 کو پرامپٹ کرنے کے لیے، آپ کے پاس درج ذیل پرامپٹ ٹیمپلیٹ ہونا چاہیے:

<s>[INST] <<SYS>>
{{ system_prompt }}
<</SYS>> {{ user_message }} [/INST]

آپ پرامپٹ ٹیمپلیٹ بناتے ہیں جو طریقہ کار میں پروگرام کے مطابق بیان کیا گیا ہے۔ build_llama2_prompt، جو مذکورہ بالا پرامپٹ ٹیمپلیٹ کے ساتھ ہم آہنگ ہے۔ اس کے بعد آپ استعمال کے معاملے کے مطابق ہدایات کی وضاحت کرتے ہیں۔ اس معاملے میں، ہم ماڈل کو ہدایت دے رہے ہیں کہ وہ مارکیٹنگ مہم کے لیے ایک ای میل تیار کرے جیسا کہ get_instructions طریقہ ان طریقوں کا کوڈ میں ہے۔ llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb کاپی. اس کام کے ساتھ مل کر ہدایات بنائیں جیسا کہ تفصیل میں کیا گیا ہے۔ user_ask_1 مندرجہ ذیل ہے:

user_ask_1 = f'''
AnyCompany recently announced new service launch named AnyCloud Internet Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: EARLYB1RD to get 20% for 1st 3 months. '''
instructions = get_instructions(user_ask_1)
prompt = build_llama2_prompt(instructions)

ہم build_llama2_prompt کے ذریعہ تیار کردہ پرامپٹ ٹیمپلیٹ کے مطابق پرامپٹ بنانے کے لیے ہدایات پاس کرتے ہیں۔

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "repetition_penalty": 1.03, "stop": ["</s>"], "return_full_text": False }
payload = { "inputs": prompt, "parameters": inference_params, "stream": True ## <-- to have response stream.
}

ہم انفرنس پیرامیٹرز کو کلید کے ساتھ پرامپٹ کے ساتھ جمع کرتے ہیں۔ stream قیمت کے ساتھ True حتمی پے لوڈ بنانے کے لیے۔ پے لوڈ کو بھیجیں۔ get_realtime_response_stream، جو رسپانس اسٹریمنگ کے ساتھ ایک اختتامی نقطہ کی درخواست کرنے کے لیے استعمال کیا جائے گا:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

LLM سے تیار کردہ متن کو آؤٹ پٹ میں سٹریم کیا جائے گا جیسا کہ درج ذیل اینیمیشن میں دکھایا گیا ہے۔

Llama 2 13B چیٹ رسپانس سٹریمنگ - HF TGI

نقطہ نظر 2: DJL سرونگ کے ساتھ LMI

اس سیکشن میں، ہم یہ ظاہر کرتے ہیں کہ کس طرح تعینات کیا جائے۔ meta-llama/Llama-2-13b-chat-hf DJL سرونگ کے ساتھ LMI کا استعمال کرتے ہوئے رسپانس اسٹریمنگ کے ساتھ SageMaker ریئل ٹائم اینڈ پوائنٹ کا ماڈل۔ مندرجہ ذیل جدول اس تعیناتی کے لیے وضاحتیں بیان کرتا ہے۔

تفصیلات	قدر
کنٹینر	DJL سرونگ کے ساتھ LMI کنٹینر کی تصویر
ماڈل کا نام	meta-llama/Llama-2-13b-chat-hf
ایم ایل مثال	ml.g5.12xlarge
ارادہ	رسپانس اسٹریمنگ کے ساتھ ریئل ٹائم

آپ پہلے ماڈل ڈاؤن لوڈ کریں اور اسے اسٹور کریں۔ ایمیزون سادہ اسٹوریج سروس (ایمیزون S3)۔ اس کے بعد آپ S3 URI کی وضاحت کرتے ہیں جس میں ماڈل کے S3 سابقہ کی نشاندہی ہوتی ہے۔ serving.properties فائل اس کے بعد، آپ ایل ایل ایم کی تعیناتی کے لیے بیس امیج کو بازیافت کرتے ہیں۔ اس کے بعد آپ بیس امیج پر ماڈل بناتے ہیں۔ آخر میں، آپ ریئل ٹائم انفرنس کے لیے SageMaker ہوسٹنگ کے لیے ML مثال کے لیے ماڈل کو تعینات کرتے ہیں۔

آئیے دیکھتے ہیں کہ پروگرام کے لحاظ سے مذکورہ بالا تعیناتی کے مراحل کو کیسے حاصل کیا جائے۔ اختصار کے لیے، صرف وہی کوڈ جو تعیناتی کے مراحل میں مدد کرتا ہے اس سیکشن میں تفصیلی ہے۔ اس تعیناتی کا مکمل سورس کوڈ نوٹ بک میں دستیاب ہے۔ llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.

Hugging Face سے ماڈل کا سنیپ شاٹ ڈاؤن لوڈ کریں اور Amazon S3 پر ماڈل کے نمونے اپ لوڈ کریں۔

مذکورہ بالا شرائط کے ساتھ، SageMaker نوٹ بک مثال پر ماڈل ڈاؤن لوڈ کریں اور پھر مزید تعیناتی کے لیے اسے S3 بالٹی پر اپ لوڈ کریں:

model_name = 'meta-llama/Llama-2-13b-chat-hf'
# Only download pytorch checkpoint files
allow_patterns = ["*.json", "*.txt", "*.model", "*.safetensors", "*.bin", "*.chk", "*.pth"] # Download the model snapshot
model_download_path = snapshot_download( repo_id=model_name, cache_dir=local_model_path, allow_patterns=allow_patterns, token='<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>'
)

نوٹ کریں کہ اگرچہ آپ ایک درست رسائی ٹوکن فراہم نہیں کرتے ہیں، ماڈل ڈاؤن لوڈ ہو جائے گا۔ لیکن جب آپ ایسا ماڈل لگاتے ہیں، تو پیش کرنے والا ماڈل کامیاب نہیں ہوگا۔ لہذا، اسے تبدیل کرنے کی سفارش کی جاتی ہے <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> دلیل کے لیے token آپ کے ہگنگ فیس پروفائل سے حاصل کردہ ٹوکن کی قدر کے ساتھ جیسا کہ شرائط میں تفصیل سے بتایا گیا ہے۔ اس پوسٹ کے لیے، ہم Llama 2 کے لیے آفیشل ماڈل کا نام بتاتے ہیں جیسا کہ Hugging Face پر قدر کے ساتھ شناخت کیا گیا ہے۔ meta-llama/Llama-2-13b-chat-hf. غیر کمپریسڈ ماڈل کو ڈاؤن لوڈ کیا جائے گا۔ local_model_path مذکورہ کوڈ کو چلانے کے نتیجے میں۔

فائلوں کو Amazon S3 پر اپ لوڈ کریں اور URI حاصل کریں، جسے بعد میں استعمال کیا جائے گا۔ serving.properties.

آپ پیکنگ کریں گے۔ meta-llama/Llama-2-13b-chat-hf ایل ایم آئی کنٹینر امیج پر ڈی جے ایل سرونگ کے ذریعے مخصوص کنفیگریشن کا استعمال کرتے ہوئے ماڈل serving.properties. اس کے بعد آپ SageMaker ML مثال کے طور پر ml.g5.12xlarge پر کنٹینر امیج پر پیک کیے گئے ماڈل کے نمونے کے ساتھ ماڈل کو تعینات کرتے ہیں۔ اس کے بعد آپ اس ایم ایل مثال کو سیج میکر ہوسٹنگ کے لیے ریئل ٹائم انفرنسنگ کے لیے استعمال کرتے ہیں۔

DJL سرونگ کے لیے ماڈل نمونے تیار کریں۔

ایک بنا کر اپنے ماڈل کے نمونے تیار کریں۔ serving.properties ترتیب فائل:

%%writefile chat_llama2_13b_hf/serving.properties
engine = MPI
option.entryPoint=djl_python.huggingface
option.tensor_parallel_degree=4
option.low_cpu_mem_usage=TRUE
option.rolling_batch=lmi-dist
option.max_rolling_batch_size=64
option.model_loading_timeout=900
option.model_id={{model_id}}
option.paged_attention=true

ہم اس کنفیگریشن فائل میں درج ذیل سیٹنگز استعمال کرتے ہیں۔

انجن - یہ DJL کے استعمال کے لیے رن ٹائم انجن کی وضاحت کرتا ہے۔ ممکنہ اقدار میں شامل ہیں۔ Python, DeepSpeed, FasterTransformer، اور MPI. اس صورت میں، ہم نے اسے مقرر کیا MPI. ماڈل متوازی اور اندازہ (MPI) تمام دستیاب GPUs میں ماڈل کو تقسیم کرنے میں سہولت فراہم کرتا ہے اور اس وجہ سے اندازہ کو تیز کرتا ہے۔
option.entryPoint - یہ آپشن بتاتا ہے کہ DJL سرونگ کے ذریعہ پیش کردہ کون سا ہینڈلر آپ استعمال کرنا چاہیں گے۔ ممکنہ قدریں ہیں۔ djl_python.huggingface, djl_python.deepspeed، اور djl_python.stable-diffusion. ہم استعمال کرتے ہیں djl_python.huggingface گلے لگانے کے لیے چہرے کو تیز کریں۔
option.tensor_parallel_degree - یہ آپشن ماڈل پر کیے گئے ٹینسر کے متوازی پارٹیشنز کی تعداد بتاتا ہے۔ آپ GPU آلات کی تعداد پر سیٹ کر سکتے ہیں جن پر ایکسلریٹ کو ماڈل کو تقسیم کرنے کی ضرورت ہے۔ یہ پیرامیٹر فی ماڈل کارکنوں کی تعداد کو بھی کنٹرول کرتا ہے جو DJL سرونگ کے چلنے پر شروع کیے جائیں گے۔ مثال کے طور پر، اگر ہمارے پاس 4 GPU مشین ہے اور ہم چار پارٹیشنز بنا رہے ہیں، تو ہمارے پاس درخواستوں کو پورا کرنے کے لیے فی ماڈل ایک کارکن ہوگا۔
option.low_cpu_mem_usage - یہ ماڈل لوڈ کرتے وقت CPU میموری کے استعمال کو کم کرتا ہے۔ ہم تجویز کرتے ہیں کہ آپ اسے اس پر سیٹ کریں۔ TRUE.
option.rolling_batch - یہ معاون حکمت عملیوں میں سے ایک کا استعمال کرتے ہوئے تکرار کی سطح کی بیچنگ کو قابل بناتا ہے۔ اقدار شامل ہیں۔ auto, scheduler، اور lmi-dist. ہم استعمال کرتے ہیں lmi-dist لاما 2 کے لیے مسلسل بیچنگ کو آن کرنے کے لیے۔
option.max_rolling_batch_size - یہ مسلسل بیچ میں ہم آہنگی کی درخواستوں کی تعداد کو محدود کرتا ہے۔ ویلیو ڈیفالٹ 32 ہے۔
option.model_id - آپ کو تبدیل کرنا چاہئے۔ {{model_id}} پہلے سے تربیت یافتہ ماڈل کی ماڈل ID کے ساتھ گلے لگانے والے چہرے پر ماڈل ذخیرہ یا ماڈل نمونے کا S3 راستہ۔

مزید ترتیب کے اختیارات میں پایا جا سکتا ہے کنفیگریشنز اور سیٹنگز.

چونکہ DJL Serving توقع کرتا ہے کہ ماڈل کے نمونے پیک کیے جائیں گے اور .tar فائل میں فارمیٹ کیے جائیں گے، اس لیے درج ذیل کوڈ کا ٹکڑا چلائیں تاکہ .tar فائل کو کمپریس کریں اور Amazon S3 پر اپ لوڈ کریں:

s3_code_prefix = f"{s3_prefix}/code" # folder within bucket where code artifact will go
s3_code_artifact = sess.upload_data("model.tar.gz", bucket, s3_code_prefix)

DJL سرونگ کے ساتھ تازہ ترین LMI کنٹینر کی تصویر بازیافت کریں۔

اگلا، آپ ماڈل کو تعینات کرنے کے لیے LMI کے لیے SageMaker کے ساتھ دستیاب DLCs کا استعمال کرتے ہیں۔ کے لیے SageMaker امیج URI بازیافت کریں۔ djl-deepspeed کنٹینر پروگرام کے مطابق درج ذیل کوڈ کا استعمال کرتے ہوئے:

from sagemaker import image_uris
inference_image_uri = image_uris.retrieve( framework="djl-deepspeed", region=region, version="0.25.0"
)

آپ مذکورہ بالا تصویر کو تعینات کرنے کے لیے استعمال کر سکتے ہیں۔ meta-llama/Llama-2-13b-chat-hf SageMaker پر ماڈل۔ اب آپ ماڈل بنانے کے لیے آگے بڑھ سکتے ہیں۔

ماڈل بنائیں

آپ وہ ماڈل بنا سکتے ہیں جس کا کنٹینر استعمال کرکے بنایا گیا ہو۔ inference_image_uri اور S3 URI پر واقع ماڈل سرونگ کوڈ جس کی طرف اشارہ کیا گیا ہے۔ s3_code_artifact:

from sagemaker.utils import name_from_base model_name = name_from_base(f"Llama-2-13b-chat-lmi-streaming") create_model_response = sm_client.create_model( ModelName=model_name, ExecutionRoleArn=role, PrimaryContainer={ "Image": inference_image_uri, "ModelDataUrl": s3_code_artifact, "Environment": {"MODEL_LOADING_TIMEOUT": "3600"}, },
)

اب آپ اینڈ پوائنٹ کنفیگریشن کے لیے تمام تفصیلات کے ساتھ ماڈل کنفیگریشن بنا سکتے ہیں۔

ماڈل کی تشکیل بنائیں

مندرجہ ذیل کوڈ کا استعمال کرتے ہوئے ماڈل کی تشکیل کے لیے جس کی شناخت کی گئی ہے۔ model_name:

endpoint_config_name = f"{model_name}-config" endpoint_name = name_from_base(model_name) endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "ml.g5.12xlarge", "InitialInstanceCount": 1, "ModelDataDownloadTimeoutInSeconds": 3600, "ContainerStartupHealthCheckTimeoutInSeconds": 3600, }, ],
)

ماڈل کی تشکیل کی وضاحت کی گئی ہے۔ ProductionVariants پیرامیٹر InstanceType ML مثال کے لیے ml.g5.12xlarge۔ آپ بھی فراہم کرتے ہیں۔ ModelName اسی نام کا استعمال کرتے ہوئے جو آپ نے پہلے مرحلے میں ماڈل بنانے کے لیے استعمال کیا تھا، اس طرح ماڈل اور اینڈ پوائنٹ کنفیگریشن کے درمیان تعلق قائم ہوتا ہے۔

اب جب کہ آپ نے ماڈل اور ماڈل کی تشکیل کی وضاحت کر دی ہے، آپ SageMaker اینڈ پوائنٹ بنا سکتے ہیں۔

سیج میکر اینڈ پوائنٹ بنائیں

مندرجہ ذیل کوڈ کا ٹکڑا استعمال کرتے ہوئے ماڈل کو تعینات کرنے کے لیے اینڈ پوائنٹ بنائیں:

create_endpoint_response = sm_client.create_endpoint( EndpointName=f"{endpoint_name}", EndpointConfigName=endpoint_config_name
)

آپ درج ذیل کوڈ کا ٹکڑا استعمال کرکے تعیناتی کی پیشرفت دیکھ سکتے ہیں:

resp = sm_client.describe_endpoint(EndpointName=endpoint_name)
status = resp["EndpointStatus"]

تعیناتی کامیاب ہونے کے بعد، اختتامی نقطہ کی حیثیت ہو جائے گی۔ InService. اب جب کہ اختتامی نقطہ تیار ہے، آئیے رسپانس اسٹریمنگ کے ساتھ اندازہ لگائیں۔

رسپانس اسٹریمنگ کے ساتھ اصل وقت کا اندازہ

جیسا کہ ہم نے Huging Face TGI کے لیے پہلے نقطہ نظر کا احاطہ کیا تھا، آپ وہی طریقہ استعمال کر سکتے ہیں۔ get_realtime_response_stream سیج میکر اینڈ پوائنٹ سے رسپانس اسٹریمنگ کو طلب کرنے کے لیے۔ LMI اپروچ کا استعمال کرتے ہوئے اندازہ لگانے کا کوڈ میں ہے۔ llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb کاپی. دی LineIterator نفاذ میں واقع ہے llama-2-lmi/utils/LineIterator.py. نوٹ کریں کہ LineIterator LMI کنٹینر پر تعینات Llama 2 Chat ماڈل کے لیے مختلف ہے۔ LineIterator ہگنگ فیس ٹی جی آئی سیکشن میں حوالہ دیا گیا ہے۔ دی LineIterator LMI کنٹینر کے ساتھ لاما 2 چیٹ ماڈلز سے بائٹ سٹریم پر لوپس djl-deepspeed ورژن 0.25.0 مندرجہ ذیل مددگار فنکشن کے ذریعے کی گئی انفرنس کی درخواست سے موصول ہونے والے رسپانس اسٹریم کو پارس کرے گا۔ invoke_endpoint_with_response_stream APIs:

from utils.LineIterator import LineIterator def print_response_stream(response_stream): event_stream = response_stream.get('Body') for line in LineIterator(event_stream): print(line, end='')

پچھلا طریقہ اس کے ذریعہ پڑھے گئے ڈیٹا کے سلسلے کو پرنٹ کرتا ہے۔ LineIterator انسانی پڑھنے کے قابل فارمیٹ میں۔

آئیے دریافت کرتے ہیں کہ ماڈل کا اندازہ لگاتے ہوئے انہیں پے لوڈ کے طور پر استعمال کرنے کے لیے پرامپٹ اور ہدایات کو کیسے تیار کیا جائے۔

چونکہ آپ Hugging Face TGI اور LMI دونوں میں ایک ہی ماڈل کا اندازہ لگا رہے ہیں، اس لیے پرامپٹ اور ہدایات کی تیاری کا عمل ایک جیسا ہے۔ لہذا، آپ طریقوں کو استعمال کر سکتے ہیں get_instructions اور build_llama2_prompt اندازہ لگانے کے لیے

۔ get_instructions طریقہ ہدایات واپس کرتا ہے۔ جس کام کو انجام دیا جائے اس کے ساتھ مل کر ہدایات بنائیں جیسا کہ تفصیل میں ہے۔ user_ask_2 مندرجہ ذیل ہے:

user_ask_2 = f'''
AnyCompany recently announced new service launch named AnyCloud Streaming Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: STREAM2DREAM to get 15% for 1st 6 months. ''' instructions = get_instructions(user_ask_2)
prompt = build_llama2_prompt(instructions)

کے ذریعہ تیار کردہ پرامپٹ ٹیمپلیٹ کے مطابق پرامپٹ بنانے کے لیے ہدایات پاس کریں۔ build_llama2_prompt:

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "return_full_text": False, } payload = { "inputs": prompt, "parameters": inference_params
}

ہم حتمی پے لوڈ بنانے کے پرامپٹ کے ساتھ انفرنس پیرامیٹرز کو جمع کرتے ہیں۔ پھر آپ پے لوڈ بھیجیں۔ get_realtime_response_stream, جس کا استعمال رسپانس اسٹریمنگ کے ساتھ اختتامی نقطہ کی درخواست کرنے کے لیے کیا جاتا ہے:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

LLM سے تیار کردہ متن کو آؤٹ پٹ میں سٹریم کیا جائے گا جیسا کہ درج ذیل اینیمیشن میں دکھایا گیا ہے۔

Llama 2 13B چیٹ رسپانس سٹریمنگ - LMI

صاف کرو

غیر ضروری چارجز سے بچنے کے لیے، استعمال کریں۔ AWS مینجمنٹ کنسول اختتامی نقطوں اور اس سے وابستہ وسائل کو حذف کرنے کے لیے جو پوسٹ میں مذکور طریقوں کو چلاتے ہوئے بنائے گئے تھے۔ تعیناتی کے دونوں طریقوں کے لیے، درج ذیل کلین اپ روٹین کو انجام دیں:

import boto3
sm_client = boto3.client('sagemaker')
endpoint_name="<SageMaker_Real-time_Endpoint_Name>"
endpoint = sm_client.describe_endpoint(EndpointName=endpoint_name)
endpoint_config_name = endpoint['EndpointConfigName']
endpoint_config = sm_client.describe_endpoint_config(EndpointConfigName=endpoint_config_name)
model_name = endpoint_config['ProductionVariants'][0]['ModelName'] print(f"""
About to delete the following sagemaker resources:
Endpoint: {endpoint_name}
Endpoint Config: {endpoint_config_name}
Model: {model_name} """) # delete endpoint
sm_client.delete_endpoint(EndpointName=endpoint_name)
# delete endpoint config
sm_client.delete_endpoint_config(EndpointConfigName=endpoint_config_name)
# delete model
sm_client.delete_model(ModelName=model_name)

بدل <SageMaker_Real-time_Endpoint_Name> متغیر کے لیے endpoint_name اصل اختتامی نقطہ کے ساتھ۔

دوسرے نقطہ نظر کے لیے، ہم نے ایمیزون S3 پر ماڈل اور کوڈ کے نمونے محفوظ کیے ہیں۔ آپ درج ذیل کوڈ کا استعمال کرتے ہوئے S3 بالٹی کو صاف کر سکتے ہیں:

s3 = boto3.resource('s3')
s3_bucket = s3.Bucket(bucket)
s3_bucket.objects.filter(Prefix=s3_prefix).delete()

نتیجہ

اس پوسٹ میں، ہم نے اس بات پر تبادلہ خیال کیا کہ کس طرح مختلف جوابی ٹوکنز یا انفرنس پیرامیٹرز کا ایک مختلف سیٹ LLMs سے وابستہ تاخیر کو متاثر کر سکتا ہے۔ ہم نے دکھایا کہ رسپانس اسٹریمنگ کی مدد سے مسئلہ کو کیسے حل کیا جائے۔ اس کے بعد ہم نے AWS DLCs—LMI اور Hugging Face TGI کا استعمال کرتے ہوئے Llama 2 Chat ماڈلز کو تعینات کرنے اور ان کا اندازہ لگانے کے لیے دو طریقوں کی نشاندہی کی۔

آپ کو اب اسٹریمنگ رسپانس کی اہمیت کو سمجھنا چاہیے اور یہ سمجھی جانے والی تاخیر کو کیسے کم کر سکتا ہے۔ سٹریمنگ رسپانس صارف کے تجربے کو بہتر بنا سکتا ہے، جو بصورت دیگر آپ کو انتظار کرنے پر مجبور کر دے گا جب تک کہ LLM مکمل جواب نہیں بنا لیتا۔ مزید برآں، لاما 2 چیٹ ماڈلز کو رسپانس اسٹریمنگ کے ساتھ تعینات کرنا صارف کے تجربے کو بہتر بناتا ہے اور آپ کے صارفین کو خوش کرتا ہے۔

آپ سرکاری aws-نمونے کا حوالہ دے سکتے ہیں۔ amazon-sagemaker-llama2-response-streaming-recipes جو دیگر Llama 2 ماڈل کی مختلف حالتوں کے لیے تعیناتی کا احاطہ کرتا ہے۔

حوالہ جات

مصنفین کے بارے میں

پون کمار راؤ نوولے ایمیزون ویب سروسز میں ایک حل آرکیٹیکٹ ہے۔ وہ ہندوستان میں ISVs کے ساتھ کام کرتا ہے تاکہ انہیں AWS پر اختراع کرنے میں مدد ملے۔ وہ کتاب "وی پروگرامنگ کے ساتھ شروعات کرنا" کے شائع شدہ مصنف ہیں۔ انہوں نے انڈین انسٹی ٹیوٹ آف ٹیکنالوجی (IIT)، حیدرآباد سے ڈیٹا سائنس میں ایگزیکٹو M.Tech کی ڈگری حاصل کی۔ انہوں نے انڈین اسکول آف بزنس مینجمنٹ اینڈ ایڈمنسٹریشن سے آئی ٹی اسپیشلائزیشن میں ایگزیکٹو ایم بی اے بھی کیا، اور واگ دیوی انسٹی ٹیوٹ آف ٹیکنالوجی اینڈ سائنس سے الیکٹرانکس اور کمیونیکیشن انجینئرنگ میں بی ٹیک کیا۔ پاون ایک AWS سرٹیفائیڈ سولیوشنز آرکیٹیکٹ پروفیشنل ہے اور اس کے پاس دیگر سرٹیفیکیشنز ہیں جیسے AWS سرٹیفائیڈ مشین لرننگ اسپیشلٹی، مائیکروسافٹ سرٹیفائیڈ پروفیشنل (MCP)، اور Microsoft سرٹیفائیڈ ٹیکنالوجی اسپیشلسٹ (MCTS)۔ وہ اوپن سورس کے شوقین بھی ہیں۔ اپنے فارغ وقت میں، وہ سیا اور ریحانہ کی زبردست جادوئی آوازیں سننا پسند کرتا ہے۔

سدھانشو نفرت AWS کے ساتھ پرنسپل AI/ML ماہر ہیں اور کلائنٹس کے ساتھ کام کرتے ہیں تاکہ انہیں ان کے MLOps اور تخلیقی AI سفر پر مشورہ دیں۔ ایمیزون سے پہلے اپنے سابقہ کردار میں، اس نے ٹیموں کو اوپن سورس پر مبنی AI اور گیمیفیکیشن پلیٹ فارم بنانے کے لیے تصور کیا، بنایا اور ان کی قیادت کی، اور اسے 100 سے زیادہ کلائنٹس کے ساتھ کامیابی سے تجارتی بنایا۔ سدھانشو نے اپنے چند پیٹنٹ کے کریڈٹ پر دو کتابیں اور کئی مقالے اور بلاگ لکھے ہیں، اور مختلف تکنیکی فورمز میں اپنا نقطہ نظر پیش کیا ہے۔ وہ ایک سوچنے والے رہنما اور اسپیکر رہے ہیں، اور تقریباً 25 سال سے انڈسٹری میں ہیں۔ اس نے دنیا بھر میں فارچیون 1000 کلائنٹس کے ساتھ اور حال ہی میں ہندوستان میں ڈیجیٹل مقامی کلائنٹس کے ساتھ کام کیا ہے۔

SEO سے چلنے والا مواد اور PR کی تقسیم۔ آج ہی بڑھا دیں۔
پلیٹو ڈیٹا ڈاٹ نیٹ ورک ورٹیکل جنریٹو اے آئی۔ اپنے آپ کو بااختیار بنائیں۔ یہاں تک رسائی حاصل کریں۔
پلیٹوآئ اسٹریم۔ ویب 3 انٹیلی جنس۔ علم میں اضافہ۔ یہاں تک رسائی حاصل کریں۔
پلیٹو ای ایس جی۔ کاربن، کلین ٹیک، توانائی ، ماحولیات، شمسی، ویسٹ مینجمنٹ یہاں تک رسائی حاصل کریں۔
پلیٹو ہیلتھ۔ بائیوٹیک اینڈ کلینیکل ٹرائلز انٹیلی جنس۔ یہاں تک رسائی حاصل کریں۔
ماخذ: https://aws.amazon.com/blogs/machine-learning/inference-llama-2-models-with-real-time-response-streaming-using-amazon-sagemaker/

ٹائم اسٹیمپ: جنوری۳۱، ۲۰۱۹

ٹائم اسٹیمپ: 3 فرمائے، 2023

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

Amazon Lookout for Metrics کا استعمال کرتے ہوئے آسانی سے اپنی اطلاعات کو حسب ضرورت بنائیں

یونیورسٹی آف سان فرانسسکو ڈیٹا سائنس کانفرنس 2023 ڈیٹاتھون AWS اور Amazon SageMaker Studio Lab کے اشتراک سے ایمیزون ویب سروسز

نالج ایمبیڈنگ کے لیے ڈیپ گراف لائبریری کے ساتھ Trumid میں جدید مشین لرننگ سسٹم تیار کرنا

Amazon Recognition Custom Labels کے ساتھ زراعت کی پیداوار کی پیمائش کرنے کے لیے کمپیوٹر وژن کا استعمال کریں۔

فیس آف امکان، NHL Edge IQ کا حصہ: ٹیلیویژن گیمز کے دوران حقیقی وقت میں آمنے سامنے جیتنے والوں کی پیش گوئی

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ