โมเดล Inference Llama 2 พร้อมการสตรีมการตอบสนองแบบเรียลไทม์โดยใช้ Amazon SageMaker อเมซอนเว็บเซอร์วิส

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

ด้วยการนำแอปพลิเคชัน generative AI มาใช้อย่างรวดเร็ว แอปพลิเคชันเหล่านี้จึงจำเป็นต้องตอบสนองได้ทันเวลา เพื่อลดเวลาแฝงในการรับรู้ด้วยปริมาณงานที่สูงขึ้น แบบจำลองพื้นฐาน (FM) มักได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับคลังข้อมูลจำนวนมหาศาล โดยมีพารามิเตอร์ตั้งแต่ขนาดล้านถึงพันล้านและมากกว่านั้น โมเดลภาษาขนาดใหญ่ (LLM) เป็น FM ประเภทหนึ่งที่สร้างข้อความเพื่อตอบสนองต่อการอนุมานของผู้ใช้ การอนุมานโมเดลเหล่านี้ด้วยการกำหนดค่าพารามิเตอร์การอนุมานที่แตกต่างกันอาจทำให้เกิดเวลาแฝงที่ไม่สอดคล้องกัน ความไม่สอดคล้องกันอาจเป็นเพราะจำนวนโทเค็นการตอบกลับที่แตกต่างกันซึ่งคุณคาดหวังจากโมเดลหรือประเภทของตัวเร่งความเร็วที่โมเดลใช้งานอยู่

ไม่ว่าในกรณีใด แทนที่จะรอการตอบกลับแบบเต็ม คุณสามารถนำแนวทางการสตรีมการตอบสนองมาใช้สำหรับการอนุมานของคุณได้ ซึ่งจะส่งข้อมูลจำนวนมากกลับไปทันทีที่ข้อมูลถูกสร้างขึ้น สิ่งนี้จะสร้างประสบการณ์เชิงโต้ตอบโดยช่วยให้คุณเห็นการตอบกลับบางส่วนที่สตรีมแบบเรียลไทม์ แทนที่จะตอบสนองแบบล่าช้าทั้งหมด

โดยมีประกาศอย่างเป็นทางการว่า การอนุมานแบบเรียลไทม์ของ Amazon SageMaker รองรับการสตรีมการตอบสนองแล้วตอนนี้คุณสามารถสตรีมการตอบกลับการอนุมานกลับไปยังไคลเอนต์ได้อย่างต่อเนื่องเมื่อใช้งาน อเมซอน SageMaker การอนุมานแบบเรียลไทม์พร้อมการสตรีมการตอบสนอง โซลูชันนี้จะช่วยคุณสร้างประสบการณ์เชิงโต้ตอบสำหรับแอปพลิเคชัน AI เจนเนอเรชั่นต่างๆ เช่น แชทบอท ผู้ช่วยเสมือน และเครื่องกำเนิดเพลง โพสต์นี้แสดงให้คุณเห็นถึงวิธีทราบเวลาตอบสนองที่เร็วขึ้นในรูปแบบของ Time to First Byte (TTFB) และลดเวลาแฝงในการรับรู้โดยรวมในขณะที่อนุมานโมเดล Llama 2

เพื่อนำโซลูชันไปใช้ เราใช้ SageMaker ซึ่งเป็นบริการที่มีการจัดการเต็มรูปแบบเพื่อเตรียมข้อมูลและสร้าง ฝึกอบรม และปรับใช้โมเดลการเรียนรู้ของเครื่อง (ML) สำหรับกรณีการใช้งานใดๆ ที่มีโครงสร้างพื้นฐาน เครื่องมือ และเวิร์กโฟลว์ที่มีการจัดการเต็มรูปแบบ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับตัวเลือกการปรับใช้ต่างๆ ที่ SageMaker มีให้ โปรดดูที่ คำถามที่พบบ่อยเกี่ยวกับการโฮสต์โมเดล Amazon SageMaker. เรามาทำความเข้าใจกันว่าเราจะแก้ไขปัญหาเวลาแฝงโดยใช้การอนุมานแบบเรียลไทม์ด้วยการสตรีมการตอบสนองได้อย่างไร

ภาพรวมโซลูชัน

เนื่องจากเราต้องการจัดการกับเวลาแฝงที่กล่าวมาข้างต้นที่เกี่ยวข้องกับการอนุมานแบบเรียลไทม์ด้วย LLM ก่อนอื่นเรามาทำความเข้าใจว่าเราจะใช้การสนับสนุนการสตรีมการตอบสนองสำหรับการอนุมานแบบเรียลไทม์สำหรับ Llama 2 ได้อย่างไร อย่างไรก็ตาม LLM ใดๆ ก็สามารถใช้ประโยชน์จากการสนับสนุนการสตรีมการตอบสนองแบบเรียลไทม์ได้ - การอนุมานเวลา

Llama 2 คือคอลเลกชันของโมเดลข้อความที่สร้างไว้ล่วงหน้าและปรับแต่งอย่างละเอียด โดยมีขนาดตั้งแต่ 7 พันล้านถึง 70 พันล้านพารามิเตอร์ โมเดล Llama 2 เป็นโมเดลแบบ autoregressive ที่มีสถาปัตยกรรมแบบถอดรหัสเท่านั้น เมื่อได้รับพารามิเตอร์พร้อมต์และการอนุมาน โมเดล Llama 2 จะสามารถสร้างการตอบกลับด้วยข้อความได้ โมเดลเหล่านี้ใช้สำหรับการแปล การสรุป การตอบคำถาม และการสนทนา

สำหรับโพสต์นี้ เราปรับใช้โมเดล Llama 2 Chat meta-llama/Llama-2-13b-chat-hf บน SageMaker สำหรับการอนุมานแบบเรียลไทม์พร้อมการสตรีมการตอบสนอง

เมื่อพูดถึงการปรับใช้โมเดลบนตำแหน่งข้อมูล SageMaker คุณสามารถจัดคอนเทนเนอร์โมเดลโดยใช้เฉพาะทางได้ คอนเทนเนอร์การเรียนรู้เชิงลึกของ AWS รูปภาพ (DLC) พร้อมใช้งานสำหรับไลบรารีโอเพ่นซอร์สยอดนิยม โมเดล Llama 2 เป็นโมเดลการสร้างข้อความ คุณสามารถใช้อย่างใดอย่างหนึ่ง คอนเทนเนอร์การอนุมาน Hugging Face LLM บน SageMaker ขับเคลื่อนโดย กอดใบหน้า การอนุมานการสร้างข้อความ (TGI) หรือ AWS DLC สำหรับ การอนุมานแบบจำลองขนาดใหญ่ (แอลเอ็มไอ)

ในโพสต์นี้ เราปรับใช้โมเดล Chat Llama 2 13B โดยใช้ DLC บน SageMaker Hosting สำหรับการอนุมานแบบเรียลไทม์ที่ขับเคลื่อนโดยอินสแตนซ์ G5 อินสแตนซ์ G5 เป็นอินสแตนซ์ที่ใช้ GPU ประสิทธิภาพสูงสำหรับแอปพลิเคชันที่เน้นกราฟิกและการอนุมาน ML คุณยังสามารถใช้ประเภทอินสแตนซ์ที่รองรับ p4d, p3, g5 และ g4dn โดยมีการเปลี่ยนแปลงที่เหมาะสมตามการกำหนดค่าอินสแตนซ์

เบื้องต้น

หากต้องการใช้โซลูชันนี้ คุณควรมีสิ่งต่อไปนี้:

บัญชี AWS ที่มี AWS Identity และการจัดการการเข้าถึง บทบาท (IAM) ที่มีสิทธิ์ในการจัดการทรัพยากรที่สร้างขึ้นโดยเป็นส่วนหนึ่งของโซลูชัน
หากนี่เป็นครั้งแรกที่คุณร่วมงานด้วย สตูดิโอ Amazon SageMakerคุณต้องสร้างไฟล์ โดเมน SageMaker.
บัญชีกอดใบหน้า ลงชื่อ ด้วยอีเมลของคุณหากคุณยังไม่มีบัญชี
- เพื่อให้เข้าถึงโมเดลต่างๆ ที่มีอยู่ใน Hugging Face ได้อย่างราบรื่น โดยเฉพาะโมเดลที่มีรั้วรอบขอบชิด เช่น Llama เพื่อวัตถุประสงค์ในการปรับแต่งและการอนุมานอย่างละเอียด คุณควรมีบัญชี Hugging Face เพื่อรับโทเค็นการเข้าถึงเพื่อการอ่าน หลังจากที่คุณสมัครใช้งานบัญชี Hugging Face แล้ว เข้าสู่ระบบ ไปเยี่ยมชม https://huggingface.co/settings/tokens เพื่อสร้างโทเค็นการเข้าถึงเพื่อการอ่าน
เข้าถึง Llama 2 โดยใช้รหัสอีเมลเดียวกับที่คุณใช้สมัคร Hugging Face
- รุ่น Llama 2 ที่มีจำหน่ายผ่าน Hugging Face เป็นรุ่นที่มีรั้วรอบขอบชิด การใช้โมเดล Llama อยู่ภายใต้ใบอนุญาต Meta หากต้องการดาวน์โหลดน้ำหนักโมเดลและโทเค็นไนเซอร์ ขอเข้าถึงลามะ และยอมรับใบอนุญาตของพวกเขา
- หลังจากที่คุณได้รับสิทธิ์ในการเข้าถึง (โดยทั่วไปภายในสองสามวัน) คุณจะได้รับการยืนยันทางอีเมล สำหรับตัวอย่างนี้ เราใช้โมเดล Llama-2-13b-chat-hfแต่คุณควรจะสามารถเข้าถึงรูปแบบอื่นๆ ได้เช่นกัน

วิธีที่ 1: การกอดหน้า TGI

ในส่วนนี้ เราจะแสดงวิธีการปรับใช้ meta-llama/Llama-2-13b-chat-hf สร้างโมเดลไปยังตำแหน่งข้อมูลแบบเรียลไทม์ของ SageMaker พร้อมการสตรีมการตอบสนองโดยใช้ Hugging Face TGI ตารางต่อไปนี้สรุปข้อกำหนดสำหรับการปรับใช้นี้

สเปค	ความคุ้มค่า
ภาชนะ	กอดหน้า TGI
ชื่อรุ่น	meta-llama/Llama-2-13b-chat-hf
อินสแตนซ์ ML	มล.g5.12xlarge
การอนุมาน	เรียลไทม์พร้อมการสตรีมการตอบสนอง

ปรับใช้โมเดล

ขั้นแรก คุณดึงข้อมูลอิมเมจพื้นฐานสำหรับ LLM ที่จะปรับใช้ จากนั้นคุณสร้างโมเดลบนอิมเมจพื้นฐาน สุดท้าย คุณปรับใช้โมเดลกับอินสแตนซ์ ML สำหรับ SageMaker Hosting สำหรับการอนุมานแบบเรียลไทม์

มาดูวิธีการปรับใช้โดยทางโปรแกรมกัน เพื่อความกระชับ จะมีการกล่าวถึงเฉพาะโค้ดที่ช่วยในขั้นตอนการปรับใช้ในส่วนนี้ ซอร์สโค้ดแบบเต็มสำหรับการปรับใช้มีอยู่ในโน้ตบุ๊ก llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.

รับ Hugging Face LLM DLC ล่าสุดที่ขับเคลื่อนโดย TGI ผ่านการสร้างไว้ล่วงหน้า DLC ของ SageMaker. คุณใช้รูปภาพนี้เพื่อปรับใช้ meta-llama/Llama-2-13b-chat-hf โมเดลบน SageMaker ดูรหัสต่อไปนี้:

from sagemaker.huggingface import get_huggingface_llm_image_uri # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri( "huggingface", version="1.0.3"
)

กำหนดสภาพแวดล้อมสำหรับโมเดลด้วยพารามิเตอร์การกำหนดค่าที่กำหนดไว้ดังต่อไปนี้:

instance_type = "ml.g5.12xlarge"
number_of_gpu = 4
config = { 'HF_MODEL_ID': "meta-llama/Llama-2-13b-chat-hf", # model_id from hf.co/models 'SM_NUM_GPUS': json.dumps(number_of_gpu), # Number of GPU used per replica 'MAX_INPUT_LENGTH': json.dumps(2048), # Max length of input text 'MAX_TOTAL_TOKENS': json.dumps(4096), # Max length of the generation (including input text) 'MAX_BATCH_TOTAL_TOKENS': json.dumps(8192), # Limits the number of tokens that can be processed in parallel during the generation 'HUGGING_FACE_HUB_TOKEN': "<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>"
}

แทนที่ <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> สำหรับพารามิเตอร์การกำหนดค่า HUGGING_FACE_HUB_TOKEN ด้วยมูลค่าของโทเค็นที่ได้รับจากโปรไฟล์ Hugging Face ของคุณตามรายละเอียดในส่วนข้อกำหนดเบื้องต้นของโพสต์นี้ ในการกำหนดค่า คุณกำหนดจำนวน GPU ที่ใช้ต่อการจำลองของโมเดลเป็น 4 สำหรับ SM_NUM_GPUS. จากนั้นคุณสามารถปรับใช้ meta-llama/Llama-2-13b-chat-hf โมเดลบนอินสแตนซ์ ml.g5.12xlarge ที่มาพร้อมกับ GPU 4 ตัว

ตอนนี้คุณสามารถสร้างอินสแตนซ์ของ HuggingFaceModel ด้วยการกำหนดค่าสภาพแวดล้อมดังกล่าวข้างต้น:

llm_model = HuggingFaceModel( role=role, image_uri=llm_image, env=config
)

สุดท้าย ปรับใช้โมเดลโดยระบุอาร์กิวเมนต์ให้กับวิธีการปรับใช้ที่มีอยู่ในโมเดลพร้อมค่าพารามิเตอร์ต่างๆ เช่น endpoint_name, initial_instance_countและ instance_type:

llm = llm_model.deploy( endpoint_name=endpoint_name, initial_instance_count=1, instance_type=instance_type, container_startup_health_check_timeout=health_check_timeout,
)

ทำการอนุมาน

Hugging Face TGI DLC มาพร้อมกับความสามารถในการสตรีมการตอบสนองโดยไม่ต้องปรับแต่งหรือเปลี่ยนแปลงโค้ดใด ๆ กับโมเดล คุณสามารถใช้ได้ involve_endpoint_with_response_stream หากคุณใช้ Boto3 หรือ เรียกใช้EndpointWithResponseStream เมื่อเขียนโปรแกรมด้วย SageMaker Python SDK

พื้นที่ InvokeEndpointWithResponseStream API ของ SageMaker ช่วยให้นักพัฒนาสามารถสตรีมการตอบกลับจากโมเดล SageMaker ซึ่งสามารถช่วยปรับปรุงความพึงพอใจของลูกค้าโดยการลดเวลาแฝงในการรับรู้ นี่เป็นสิ่งสำคัญอย่างยิ่งสำหรับแอปพลิเคชันที่สร้างด้วยโมเดล AI เจนเนอเรชั่น ซึ่งการประมวลผลในทันทีมีความสำคัญมากกว่าการรอการตอบสนองทั้งหมด

สำหรับตัวอย่างนี้ เราใช้ Boto3 เพื่ออนุมานโมเดลและใช้ SageMaker API invoke_endpoint_with_response_stream ดังต่อไปนี้:

def get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload): response_stream = sagemaker_runtime.invoke_endpoint_with_response_stream( EndpointName=endpoint_name, Body=json.dumps(payload), ContentType="application/json", CustomAttributes='accept_eula=false' ) return response_stream

อาร์กิวเมนต์ CustomAttributes ถูกตั้งค่าเป็นค่า accept_eula=false. พื้นที่ accept_eula ต้องตั้งค่าพารามิเตอร์เป็น true เพื่อรับการตอบรับจากรุ่น Llama 2 ได้สำเร็จ หลังจากใช้งานสำเร็จแล้ว invoke_endpoint_with_response_streamเมธอดจะส่งคืนสตรีมการตอบสนองเป็นไบต์

ไดอะแกรมต่อไปนี้แสดงเวิร์กโฟลว์นี้

แผนภาพสถาปัตยกรรมสตรีมมิ่ง HF TGI

คุณต้องมีตัววนซ้ำที่วนซ้ำกระแสไบต์และแยกวิเคราะห์ให้เป็นข้อความที่อ่านได้ ที่ LineIterator สามารถดูการนำไปปฏิบัติได้ที่ llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. ตอนนี้คุณพร้อมที่จะเตรียมพรอมต์และคำแนะนำเพื่อใช้เป็นเพย์โหลดในขณะที่อนุมานโมเดล

เตรียมคำแนะนำและคำแนะนำ

ในขั้นตอนนี้ คุณจะต้องเตรียมคำแนะนำและคำแนะนำสำหรับ LLM ของคุณ หากต้องการแจ้ง Llama 2 คุณควรมีเทมเพลตพร้อมท์ต่อไปนี้:

<s>[INST] <<SYS>>
{{ system_prompt }}
<</SYS>> {{ user_message }} [/INST]

คุณสร้างเทมเพลตพร้อมต์ที่กำหนดโดยทางโปรแกรมในวิธีการ build_llama2_promptซึ่งสอดคล้องกับเทมเพลตพร้อมท์ที่กล่าวมาข้างต้น จากนั้นคุณกำหนดคำแนะนำตามกรณีการใช้งาน ในกรณีนี้ เรากำลังสั่งให้โมเดลสร้างอีเมลสำหรับแคมเปญการตลาดตามที่ครอบคลุมใน get_instructions วิธี. รหัสสำหรับวิธีการเหล่านี้อยู่ในไฟล์ llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb สมุดบันทึก. สร้างคำสั่งรวมกับงานที่ต้องดำเนินการตามรายละเอียดใน user_ask_1 ดังต่อไปนี้:

user_ask_1 = f'''
AnyCompany recently announced new service launch named AnyCloud Internet Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: EARLYB1RD to get 20% for 1st 3 months. '''
instructions = get_instructions(user_ask_1)
prompt = build_llama2_prompt(instructions)

เราส่งคำแนะนำเพื่อสร้างพรอมต์ตามเทมเพลตพรอมต์ที่สร้างโดย build_llama2_prompt

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "repetition_penalty": 1.03, "stop": ["</s>"], "return_full_text": False }
payload = { "inputs": prompt, "parameters": inference_params, "stream": True ## <-- to have response stream.
}

เรารวมพารามิเตอร์การอนุมานพร้อมกับพร้อมท์พร้อมคีย์ stream ด้วยค่า True เพื่อสร้างเพย์โหลดสุดท้าย ส่ง payload มาที่. get_realtime_response_streamซึ่งจะใช้ในการเรียกใช้ตำแหน่งข้อมูลด้วยการสตรีมการตอบสนอง:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

ข้อความที่สร้างขึ้นจาก LLM จะถูกสตรีมไปยังเอาต์พุตตามที่แสดงในภาพเคลื่อนไหวต่อไปนี้

Llama 2 13B สตรีมมิ่งตอบกลับแชท - HF TGI

แนวทางที่ 2: LMI พร้อม DJL Serving

ในส่วนนี้ เราจะสาธิตวิธีการปรับใช้ meta-llama/Llama-2-13b-chat-hf สร้างโมเดลไปยังตำแหน่งข้อมูลแบบเรียลไทม์ของ SageMaker พร้อมการสตรีมการตอบสนองโดยใช้ LMI พร้อม DJL Serving ตารางต่อไปนี้สรุปข้อกำหนดสำหรับการปรับใช้นี้

สเปค	ความคุ้มค่า
ภาชนะ	อิมเมจคอนเทนเนอร์ LMI พร้อม DJL Serving
ชื่อรุ่น	meta-llama/Llama-2-13b-chat-hf
อินสแตนซ์ ML	มล.g5.12xlarge
การอนุมาน	เรียลไทม์พร้อมการสตรีมการตอบสนอง

ขั้นแรกให้คุณดาวน์โหลดโมเดลและเก็บไว้ในนั้น บริการจัดเก็บข้อมูลอย่างง่ายของ Amazon (อเมซอน S3). จากนั้นคุณระบุ S3 URI ที่ระบุคำนำหน้า S3 ของโมเดลใน serving.properties ไฟล์. ถัดไป คุณจะดึงข้อมูลอิมเมจพื้นฐานสำหรับ LLM ที่จะปรับใช้ จากนั้นคุณสร้างโมเดลบนอิมเมจพื้นฐาน สุดท้าย คุณปรับใช้โมเดลกับอินสแตนซ์ ML สำหรับ SageMaker Hosting สำหรับการอนุมานแบบเรียลไทม์

มาดูวิธีบรรลุขั้นตอนการปรับใช้ที่กล่าวมาข้างต้นโดยทางโปรแกรมกัน เพื่อความกระชับ เฉพาะโค้ดที่ช่วยในขั้นตอนการปรับใช้เท่านั้นที่มีรายละเอียดในส่วนนี้ ซอร์สโค้ดแบบเต็มสำหรับการปรับใช้นี้มีอยู่ในโน้ตบุ๊ก llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.

ดาวน์โหลดสแน็ปช็อตโมเดลจาก Hugging Face และอัปโหลดอาร์ติแฟกต์ของโมเดลบน Amazon S3

ด้วยข้อกำหนดเบื้องต้นข้างต้น ให้ดาวน์โหลดโมเดลบนอินสแตนซ์โน้ตบุ๊ก SageMaker จากนั้นอัปโหลดไปยังบัคเก็ต S3 เพื่อการใช้งานเพิ่มเติม:

model_name = 'meta-llama/Llama-2-13b-chat-hf'
# Only download pytorch checkpoint files
allow_patterns = ["*.json", "*.txt", "*.model", "*.safetensors", "*.bin", "*.chk", "*.pth"] # Download the model snapshot
model_download_path = snapshot_download( repo_id=model_name, cache_dir=local_model_path, allow_patterns=allow_patterns, token='<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>'
)

โปรดทราบว่าแม้ว่าคุณจะไม่ได้ระบุโทเค็นการเข้าถึงที่ถูกต้อง แต่โมเดลก็จะดาวน์โหลด แต่เมื่อคุณปรับใช้โมเดลดังกล่าว การให้บริการโมเดลจะไม่สำเร็จ ดังนั้นจึงแนะนำให้เปลี่ยน <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> สำหรับการโต้แย้ง token ด้วยมูลค่าของโทเค็นที่ได้รับจากโปรไฟล์ Hugging Face ของคุณตามรายละเอียดในข้อกำหนดเบื้องต้น สำหรับโพสต์นี้ เราจะระบุชื่อโมเดลอย่างเป็นทางการสำหรับ Llama 2 ตามที่ระบุไว้ใน Hugging Face พร้อมค่า meta-llama/Llama-2-13b-chat-hf. โมเดลที่ไม่มีการบีบอัดจะถูกดาวน์โหลดไปที่ local_model_path อันเป็นผลมาจากการรันโค้ดข้างต้น

อัปโหลดไฟล์ไปยัง Amazon S3 และรับ URI ซึ่งจะนำไปใช้ในภายหลัง serving.properties.

คุณจะได้ทำการบรรจุภัณฑ์ meta-llama/Llama-2-13b-chat-hf สร้างโมเดลบนอิมเมจคอนเทนเนอร์ LMI พร้อม DJL Serving โดยใช้การกำหนดค่าที่ระบุผ่าน serving.properties. จากนั้น คุณปรับใช้โมเดลพร้อมกับสิ่งประดิษฐ์ของโมเดลที่แพ็กเกจบนอิมเมจคอนเทนเนอร์บนอินสแตนซ์ SageMaker ML ml.g5.12xlarge จากนั้นคุณใช้อินสแตนซ์ ML นี้สำหรับ SageMaker Hosting เพื่อการอนุมานแบบเรียลไทม์

เตรียมสิ่งประดิษฐ์แบบจำลองสำหรับการให้บริการ DJL

เตรียมสิ่งประดิษฐ์แบบจำลองของคุณโดยการสร้าง serving.properties ไฟล์การกำหนดค่า:

%%writefile chat_llama2_13b_hf/serving.properties
engine = MPI
option.entryPoint=djl_python.huggingface
option.tensor_parallel_degree=4
option.low_cpu_mem_usage=TRUE
option.rolling_batch=lmi-dist
option.max_rolling_batch_size=64
option.model_loading_timeout=900
option.model_id={{model_id}}
option.paged_attention=true

เราใช้การตั้งค่าต่อไปนี้ในไฟล์กำหนดค่านี้:

เครื่องยนต์ – นี่เป็นการระบุเอ็นจิ้นรันไทม์สำหรับ DJL ที่จะใช้ ค่าที่เป็นไปได้ได้แก่ Python, DeepSpeed, FasterTransformerและ MPI. ในกรณีนี้เราตั้งค่าเป็น MPI. Model Parallelization and Inference (MPI) อำนวยความสะดวกในการแบ่งพาร์ติชันโมเดลกับ GPU ที่มีอยู่ทั้งหมด และดังนั้นจึงเร่งการอนุมาน
option.จุดเข้า – ตัวเลือกนี้ระบุว่าตัวจัดการใดที่นำเสนอโดย DJL Serving ที่คุณต้องการใช้ ค่าที่เป็นไปได้คือ djl_python.huggingface, djl_python.deepspeedและ djl_python.stable-diffusion. เราใช้ djl_python.huggingface เพื่อการกอดใบหน้าแบบเร่งรัด
option.tensor_parallel_degree – ตัวเลือกนี้ระบุจำนวนพาร์ติชันแบบขนานของเทนเซอร์ที่ทำงานบนแบบจำลอง คุณสามารถตั้งค่าจำนวนอุปกรณ์ GPU ที่ Accelerate จำเป็นต้องใช้ในการแบ่งพาร์ติชันโมเดลได้ พารามิเตอร์นี้ยังควบคุมจำนวนคนทำงานต่อโมเดลที่จะเริ่มทำงานเมื่อการให้บริการ DJL ทำงาน ตัวอย่างเช่น หากเรามีเครื่อง GPU 4 เครื่องและเรากำลังสร้างพาร์ติชันสี่พาร์ติชัน เราจะมีผู้ปฏิบัติงานหนึ่งคนต่อโมเดลเพื่อรองรับคำขอ
option.low_cpu_mem_usage – ซึ่งจะช่วยลดการใช้หน่วยความจำ CPU เมื่อโหลดโมเดล เราขอแนะนำให้คุณตั้งค่านี้เป็น TRUE.
option.rolling_batch – ช่วยให้สามารถจัดชุดระดับการวนซ้ำโดยใช้หนึ่งในกลยุทธ์ที่รองรับ ค่าต่างๆ ได้แก่ auto, schedulerและ lmi-dist. เราใช้ lmi-dist สำหรับการเปิดการแบทช์ต่อเนื่องสำหรับ Llama 2
option.max_rolling_batch_size – นี่เป็นการจำกัดจำนวนคำขอที่เกิดขึ้นพร้อมกันในชุดต่อเนื่อง ค่าดีฟอลต์คือ 32
ตัวเลือก model_id – คุณควรเปลี่ยน {{model_id}} ด้วยรหัสโมเดลของโมเดลที่ได้รับการฝึกอบรมล่วงหน้าซึ่งโฮสต์อยู่ภายใน พื้นที่เก็บข้อมูลโมเดลบน Hugging Face หรือเส้นทาง S3 ไปยังอาร์ติแฟกต์ของโมเดล

สามารถดูตัวเลือกการกำหนดค่าเพิ่มเติมได้ใน การกำหนดค่าและการตั้งค่า.

เนื่องจาก DJL Serving คาดว่าอาร์ติแฟกต์ของโมเดลจะได้รับการแพ็กเกจและจัดรูปแบบในไฟล์ .tar ให้รันโค้ดต่อไปนี้เพื่อบีบอัดและอัปโหลดไฟล์ .tar ไปยัง Amazon S3:

s3_code_prefix = f"{s3_prefix}/code" # folder within bucket where code artifact will go
s3_code_artifact = sess.upload_data("model.tar.gz", bucket, s3_code_prefix)

รับอิมเมจคอนเทนเนอร์ LMI ล่าสุดด้วย DJL Serving

ถัดไป ให้คุณใช้ DLC ที่มาพร้อมกับ SageMaker สำหรับ LMI เพื่อปรับใช้โมเดล เรียกข้อมูล URI อิมเมจของ SageMaker สำหรับ djl-deepspeed คอนเทนเนอร์โดยทางโปรแกรมโดยใช้รหัสต่อไปนี้:

from sagemaker import image_uris
inference_image_uri = image_uris.retrieve( framework="djl-deepspeed", region=region, version="0.25.0"
)

คุณสามารถใช้อิมเมจดังกล่าวเพื่อปรับใช้ meta-llama/Llama-2-13b-chat-hf โมเดลบน SageMaker ตอนนี้คุณสามารถดำเนินการสร้างโมเดลต่อไปได้

สร้างแบบจำลอง

คุณสามารถสร้างแบบจำลองที่มีการสร้างคอนเทนเนอร์โดยใช้ inference_image_uri และโค้ดการให้บริการโมเดลอยู่ที่ S3 URI ที่ระบุโดย s3_code_artifact:

from sagemaker.utils import name_from_base model_name = name_from_base(f"Llama-2-13b-chat-lmi-streaming") create_model_response = sm_client.create_model( ModelName=model_name, ExecutionRoleArn=role, PrimaryContainer={ "Image": inference_image_uri, "ModelDataUrl": s3_code_artifact, "Environment": {"MODEL_LOADING_TIMEOUT": "3600"}, },
)

ตอนนี้คุณสามารถสร้างการกำหนดค่าโมเดลพร้อมรายละเอียดทั้งหมดสำหรับการกำหนดค่าอุปกรณ์ปลายทางได้

สร้างการกำหนดค่าโมเดล

ใช้โค้ดต่อไปนี้เพื่อสร้างการกำหนดค่าโมเดลสำหรับโมเดลที่ระบุ model_name:

endpoint_config_name = f"{model_name}-config" endpoint_name = name_from_base(model_name) endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "ml.g5.12xlarge", "InitialInstanceCount": 1, "ModelDataDownloadTimeoutInSeconds": 3600, "ContainerStartupHealthCheckTimeoutInSeconds": 3600, }, ],
)

การกำหนดค่าโมเดลถูกกำหนดไว้สำหรับ ProductionVariants พารามิเตอร์ InstanceType สำหรับอินสแตนซ์ ML ml.g5.12xlarge คุณยังจัดให้มี ModelName โดยใช้ชื่อเดียวกันกับที่คุณใช้สร้างโมเดลในขั้นตอนก่อนหน้า ดังนั้นจึงสร้างความสัมพันธ์ระหว่างโมเดลและการกำหนดค่าจุดสิ้นสุด

เมื่อคุณได้กำหนดโมเดลและการกำหนดค่าโมเดลแล้ว คุณสามารถสร้างจุดสิ้นสุด SageMaker ได้

สร้างปลายทาง SageMaker

สร้างจุดสิ้นสุดเพื่อปรับใช้โมเดลโดยใช้ข้อมูลโค้ดต่อไปนี้:

create_endpoint_response = sm_client.create_endpoint( EndpointName=f"{endpoint_name}", EndpointConfigName=endpoint_config_name
)

คุณสามารถดูความคืบหน้าของการปรับใช้ได้โดยใช้ข้อมูลโค้ดต่อไปนี้:

resp = sm_client.describe_endpoint(EndpointName=endpoint_name)
status = resp["EndpointStatus"]

หลังจากการปรับใช้สำเร็จ สถานะปลายทางจะเป็น InService. ตอนนี้ตำแหน่งข้อมูลพร้อมแล้ว เรามาทำการอนุมานด้วยการสตรีมการตอบสนองกันดีกว่า

การอนุมานแบบเรียลไทม์พร้อมการสตรีมการตอบสนอง

ตามที่เราได้กล่าวถึงในแนวทางก่อนหน้านี้สำหรับ Hugging Face TGI คุณสามารถใช้วิธีเดียวกันได้ get_realtime_response_stream เพื่อเรียกใช้การสตรีมการตอบสนองจากตำแหน่งข้อมูล SageMaker รหัสสำหรับการอนุมานโดยใช้แนวทาง LMI อยู่ในไฟล์ llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb สมุดบันทึก. ที่ LineIterator การนำไปปฏิบัติอยู่ที่ llama-2-lmi/utils/LineIterator.py. โปรดทราบว่าไฟล์ LineIterator สำหรับโมเดล Llama 2 Chat ที่ใช้งานบนคอนเทนเนอร์ LMI จะแตกต่างไปจาก LineIterator อ้างอิงในส่วน Hugging Face TGI ที่ LineIterator วนซ้ำสตรีมไบต์จากโมเดล Llama 2 Chat ที่อนุมานด้วยคอนเทนเนอร์ LMI ด้วย djl-deepspeed เวอร์ชัน 0.25.0. ฟังก์ชันตัวช่วยต่อไปนี้จะแยกวิเคราะห์สตรีมการตอบสนองที่ได้รับจากคำขอการอนุมานที่ทำผ่าน invoke_endpoint_with_response_stream ไฟ:

from utils.LineIterator import LineIterator def print_response_stream(response_stream): event_stream = response_stream.get('Body') for line in LineIterator(event_stream): print(line, end='')

วิธีการก่อนหน้านี้จะพิมพ์กระแสข้อมูลที่อ่านโดย LineIterator ในรูปแบบที่มนุษย์อ่านได้

มาดูวิธีเตรียมพรอมต์และคำแนะนำเพื่อใช้เป็นเพย์โหลดขณะอนุมานโมเดลกัน

เนื่องจากคุณกำลังอนุมานโมเดลเดียวกันทั้งใน Hugging Face TGI และ LMI กระบวนการเตรียมพร้อมท์และคำแนะนำจึงเหมือนกัน ดังนั้นคุณสามารถใช้วิธีการต่างๆ get_instructions และ build_llama2_prompt เพื่อการอนุมาน

พื้นที่ get_instructions method ส่งคืนคำสั่ง สร้างคำแนะนำรวมกับงานที่ต้องดำเนินการตามรายละเอียดใน user_ask_2 ดังต่อไปนี้:

user_ask_2 = f'''
AnyCompany recently announced new service launch named AnyCloud Streaming Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: STREAM2DREAM to get 15% for 1st 6 months. ''' instructions = get_instructions(user_ask_2)
prompt = build_llama2_prompt(instructions)

ส่งคำแนะนำเพื่อสร้างพรอมต์ตามเทมเพลตพรอมต์ที่สร้างโดย build_llama2_prompt:

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "return_full_text": False, } payload = { "inputs": prompt, "parameters": inference_params
}

เรารวมพารามิเตอร์การอนุมานพร้อมกับข้อความแจ้งเพื่อสร้างเพย์โหลดสุดท้าย จากนั้นคุณส่ง payload ไปที่ get_realtime_response_stream, ซึ่งใช้เพื่อเรียกใช้จุดสิ้นสุดด้วยการสตรีมการตอบสนอง:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

Llama 2 13B สตรีมมิ่งตอบกลับแชท - LMI

ทำความสะอาด

เพื่อหลีกเลี่ยงไม่ให้มีค่าใช้จ่ายที่ไม่จำเป็น ให้ใช้ คอนโซลการจัดการ AWS เพื่อลบจุดสิ้นสุดและทรัพยากรที่เกี่ยวข้องซึ่งสร้างขึ้นขณะเรียกใช้แนวทางที่กล่าวถึงในโพสต์ สำหรับวิธีการปรับใช้ทั้งสอง ดำเนินการรูทีนการล้างข้อมูลต่อไปนี้:

import boto3
sm_client = boto3.client('sagemaker')
endpoint_name="<SageMaker_Real-time_Endpoint_Name>"
endpoint = sm_client.describe_endpoint(EndpointName=endpoint_name)
endpoint_config_name = endpoint['EndpointConfigName']
endpoint_config = sm_client.describe_endpoint_config(EndpointConfigName=endpoint_config_name)
model_name = endpoint_config['ProductionVariants'][0]['ModelName'] print(f"""
About to delete the following sagemaker resources:
Endpoint: {endpoint_name}
Endpoint Config: {endpoint_config_name}
Model: {model_name} """) # delete endpoint
sm_client.delete_endpoint(EndpointName=endpoint_name)
# delete endpoint config
sm_client.delete_endpoint_config(EndpointConfigName=endpoint_config_name)
# delete model
sm_client.delete_model(ModelName=model_name)

แทนที่ <SageMaker_Real-time_Endpoint_Name> สำหรับตัวแปร endpoint_name กับจุดสิ้นสุดที่แท้จริง

สำหรับแนวทางที่สอง เราได้จัดเก็บโมเดลและอาร์ติแฟกต์โค้ดไว้ใน Amazon S3 คุณสามารถล้างบัคเก็ต S3 ได้โดยใช้โค้ดต่อไปนี้:

s3 = boto3.resource('s3')
s3_bucket = s3.Bucket(bucket)
s3_bucket.objects.filter(Prefix=s3_prefix).delete()

สรุป

ในโพสต์นี้ เราได้พูดคุยกันว่าจำนวนโทเค็นการตอบสนองที่แตกต่างกันหรือชุดพารามิเตอร์การอนุมานที่แตกต่างกันสามารถส่งผลต่อเวลาแฝงที่เกี่ยวข้องกับ LLM ได้อย่างไร เราได้แสดงวิธีแก้ไขปัญหาด้วยความช่วยเหลือของการสตรีมการตอบสนอง จากนั้น เราได้ระบุสองแนวทางในการปรับใช้และการอนุมานโมเดล Llama 2 Chat โดยใช้ AWS DLC ได้แก่ LMI และ Hugging Face TGI

ตอนนี้คุณควรเข้าใจถึงความสำคัญของการตอบสนองแบบสตรีมมิ่งและวิธีที่จะลดเวลาในการตอบสนองในการรับรู้ได้ การตอบสนองแบบสตรีมสามารถปรับปรุงประสบการณ์ผู้ใช้ ซึ่งอาจทำให้คุณต้องรอจนกว่า LLM จะสร้างการตอบสนองทั้งหมด นอกจากนี้ การปรับใช้โมเดล Llama 2 Chat พร้อมการสตรีมการตอบสนองจะปรับปรุงประสบการณ์ผู้ใช้และทำให้ลูกค้าของคุณมีความสุข

คุณสามารถดูตัวอย่าง aws อย่างเป็นทางการได้ amazon-sagemaker-llama2-การตอบกลับ-สตรีมมิ่ง-สูตรอาหาร ซึ่งครอบคลุมถึงการใช้งานสำหรับรุ่น Llama 2 รุ่นอื่นๆ

อ้างอิง

เกี่ยวกับผู้เขียน

ปาวัน กุมาร เรา นาวูเล เป็นสถาปนิกโซลูชันที่ Amazon Web Services เขาทำงานร่วมกับ ISV ในอินเดียเพื่อช่วยพวกเขาสร้างสรรค์สิ่งใหม่ๆ บน AWS เขาเป็นนักเขียนที่ได้รับการตีพิมพ์สำหรับหนังสือ "Getting Started with V Programming" เขาสำเร็จการศึกษา M.Tech ผู้บริหารสาขาวิทยาศาสตร์ข้อมูลจาก Indian Institute of Technology (IIT) เมืองไฮเดอราบัด นอกจากนี้ เขายังสำเร็จการศึกษาระดับปริญญาโทบริหารธุรกิจสาขาไอทีจาก Indian School of Business Management and Administration และสำเร็จการศึกษาวิทยาศาสตรบัณฑิต สาขาวิศวกรรมอิเล็กทรอนิกส์และการสื่อสารจาก Vaagdevi Institute of Technology and Science Pavan เป็น AWS Certified Solutions Architect Professional และได้รับการรับรองอื่นๆ เช่น AWS Certified Machine Learning Specialty, Microsoft Certified Professional (MCP) และ Microsoft Certified Technology Specialist (MCTS) เขายังเป็นผู้ที่ชื่นชอบโอเพ่นซอร์สอีกด้วย ในเวลาว่าง เขาชอบฟังเสียงวิเศษของ Sia และ Rihanna

ซูดานชูเกลียด เป็นผู้เชี่ยวชาญด้าน AI/ML หลักของ AWS และทำงานร่วมกับลูกค้าเพื่อให้คำแนะนำเกี่ยวกับ MLOps และการเดินทางของ AI เชิงสร้างสรรค์ ในบทบาทก่อนหน้าของเขาต่อหน้า Amazon เขาได้วางแนวความคิด สร้าง และนำทีมเพื่อสร้างแพลตฟอร์ม AI และเกมมิฟิเคชั่นแบบโอเพ่นซอร์สแบบพื้นฐาน และประสบความสำเร็จในเชิงพาณิชย์กับลูกค้ามากกว่า 100 ราย Sudhanshu ได้รับเครดิตจากสิทธิบัตรสองสามฉบับของเขา ได้เขียนหนังสือสองเล่ม เอกสารและบล็อกหลายฉบับ และได้นำเสนอมุมมองของเขาในฟอรัมทางเทคนิคต่างๆ เขาเป็นผู้นำทางความคิดและผู้พูด และอยู่ในอุตสาหกรรมนี้มาเกือบ 25 ปี เขาทำงานร่วมกับลูกค้าที่ติดอันดับ Fortune 1000 ทั่วโลก และล่าสุดกับลูกค้าดิจิทัลในอินเดีย