Mô hình suy luận Llama 2 với tính năng truyền phát phản hồi theo thời gian thực bằng Amazon SageMaker

Được xuất bản lại bởi Plato

Người theo dõi: 0

Với việc áp dụng nhanh chóng các ứng dụng AI tổng hợp, các ứng dụng này cần phải phản hồi kịp thời để giảm độ trễ nhận thấy với thông lượng cao hơn. Các mô hình nền tảng (FM) thường được đào tạo trước trên khối dữ liệu khổng lồ với các tham số có quy mô từ hàng triệu đến hàng tỷ và hơn thế nữa. Mô hình ngôn ngữ lớn (LLM) là một loại FM tạo ra văn bản dưới dạng phản hồi suy luận của người dùng. Việc suy luận các mô hình này với các cấu hình tham số suy luận khác nhau có thể dẫn đến độ trễ không nhất quán. Sự không nhất quán có thể là do số lượng mã thông báo phản hồi khác nhau mà bạn mong đợi từ mô hình hoặc loại trình tăng tốc mà mô hình được triển khai trên đó.

Trong cả hai trường hợp, thay vì chờ phản hồi đầy đủ, bạn có thể áp dụng phương pháp truyền phát phản hồi cho các suy luận của mình, cách này sẽ gửi lại các khối thông tin ngay khi chúng được tạo. Điều này tạo ra trải nghiệm tương tác bằng cách cho phép bạn xem phản hồi một phần được phát trực tiếp trong thời gian thực thay vì phản hồi đầy đủ bị trì hoãn.

Với thông báo chính thức rằng Suy luận thời gian thực của Amazon SageMaker hiện hỗ trợ truyền phát phản hồi, giờ đây bạn có thể liên tục truyền các phản hồi suy luận trở lại máy khách khi sử dụng Amazon SageMaker suy luận thời gian thực với truyền phát phản hồi. Giải pháp này sẽ giúp bạn xây dựng trải nghiệm tương tác cho nhiều ứng dụng AI tổng hợp khác nhau như chatbot, trợ lý ảo và máy tạo nhạc. Bài đăng này chỉ cho bạn cách nhận ra thời gian phản hồi nhanh hơn dưới dạng Thời gian đến byte đầu tiên (TTFB) và giảm độ trễ nhận thấy tổng thể trong khi suy luận các mô hình Llama 2.

Để triển khai giải pháp, chúng tôi sử dụng SageMaker, một dịch vụ được quản lý toàn phần để chuẩn bị dữ liệu, xây dựng, đào tạo và triển khai các mô hình máy học (ML) cho mọi trường hợp sử dụng với cơ sở hạ tầng, công cụ và quy trình làm việc được quản lý hoàn toàn. Để biết thêm thông tin về các tùy chọn triển khai khác nhau mà SageMaker cung cấp, hãy tham khảo Câu hỏi thường gặp về lưu trữ mô hình Amazon SageMaker. Hãy hiểu cách chúng ta có thể giải quyết các vấn đề về độ trễ bằng cách sử dụng suy luận thời gian thực với tính năng truyền phát phản hồi.

Tổng quan về giải pháp

Vì chúng tôi muốn giải quyết các độ trễ nói trên liên quan đến suy luận thời gian thực bằng LLM, trước tiên hãy hiểu cách chúng tôi có thể sử dụng hỗ trợ truyền phát phản hồi để suy luận theo thời gian thực cho Llama 2. Tuy nhiên, bất kỳ LLM nào cũng có thể tận dụng hỗ trợ truyền phát phản hồi với thực tế. -suy luận thời gian

Llama 2 là tập hợp các mô hình văn bản tổng hợp được đào tạo trước và tinh chỉnh có quy mô từ 7 tỷ đến 70 tỷ tham số. Mô hình Llama 2 là mô hình tự hồi quy với kiến trúc chỉ bộ giải mã. Khi được cung cấp các tham số nhắc nhở và suy luận, các mô hình Llama 2 có khả năng tạo phản hồi bằng văn bản. Những mô hình này có thể được sử dụng để dịch, tóm tắt, trả lời câu hỏi và trò chuyện.

Đối với bài đăng này, chúng tôi triển khai mô hình Trò chuyện Llama 2 meta-llama/Llama-2-13b-chat-hf trên SageMaker để suy luận theo thời gian thực với tính năng truyền phát phản hồi.

Khi nói đến việc triển khai các mô hình trên điểm cuối SageMaker, bạn có thể chứa các mô hình bằng cách sử dụng các mô hình chuyên dụng Vùng chứa học tập sâu AWS (DLC) có sẵn cho các thư viện nguồn mở phổ biến. Mô hình Llama 2 là mô hình tạo văn bản; bạn có thể sử dụng hoặc Ôm mặt bộ chứa suy luận LLM trên SageMaker được hỗ trợ bởi Ôm Mặt Suy luận tạo văn bản (TGI) hoặc AWS DLC dành cho Suy luận mô hình lớn (LMI).

Trong bài đăng này, chúng tôi triển khai mô hình Trò chuyện Llama 2 13B bằng cách sử dụng các DLC trên SageMaker Hosting để suy luận theo thời gian thực được hỗ trợ bởi các phiên bản G5. Phiên bản G5 là phiên bản dựa trên GPU hiệu suất cao dành cho các ứng dụng chuyên sâu về đồ họa và suy luận ML. Bạn cũng có thể sử dụng các loại phiên bản được hỗ trợ p4d, p3, g5 và g4dn với những thay đổi phù hợp theo cấu hình phiên bản.

Điều kiện tiên quyết

Để thực hiện giải pháp này, bạn cần có những điều sau:

Một tài khoản AWS với một Quản lý truy cập và nhận dạng AWS (IAM) có quyền quản lý tài nguyên được tạo như một phần của giải pháp.
Nếu đây là lần đầu tiên bạn làm việc với Xưởng sản xuất Amazon SageMaker, trước tiên bạn cần tạo một Miền SageMaker.
Tài khoản ôm mặt. Đăng ký bằng email của bạn nếu bạn chưa có tài khoản.
- Để truy cập liền mạch các mô hình có sẵn trên Hugging Face, đặc biệt là các mô hình có kiểm soát như Llama, nhằm mục đích tinh chỉnh và suy luận, bạn nên có tài khoản Hugging Face để nhận mã thông báo truy cập đọc. Sau khi bạn đăng ký tài khoản Ôm Mặt, đăng nhập đến thăm https://huggingface.co/settings/tokens để tạo mã thông báo truy cập đọc.
Truy cập vào Llama 2 bằng chính ID email mà bạn đã sử dụng để đăng ký Ôm Mặt.
- Các mẫu Llama 2 có sẵn qua Ôm Mặt là các mẫu có cổng. Việc sử dụng mô hình Llama được quản lý bởi giấy phép Meta. Để tải xuống trọng lượng mô hình và mã thông báo, yêu cầu quyền truy cập vào Llama và chấp nhận giấy phép của họ.
- Sau khi được cấp quyền truy cập (thường trong vài ngày), bạn sẽ nhận được email xác nhận. Đối với ví dụ này, chúng tôi sử dụng mô hình Llama-2-13b-chat-hf, nhưng bạn cũng có thể truy cập các biến thể khác.

Cách tiếp cận 1: Ôm mặt TGI

Trong phần này chúng tôi sẽ hướng dẫn bạn cách triển khai meta-llama/Llama-2-13b-chat-hf lập mô hình cho điểm cuối thời gian thực của SageMaker với tính năng truyền phát phản hồi bằng cách sử dụng Hugging Face TGI. Bảng sau đây phác thảo các thông số kỹ thuật cho việc triển khai này.

Đặc điểm kỹ thuật	Giá trị
Container	Ôm Mặt TGI
Tên Model	meta-llama/Llama-2-13b-chat-hf
Phiên bản ML	ml.g5.12xlarge
Sự suy luận	Thời gian thực với tính năng truyền phát phản hồi

Triển khai mô hình

Đầu tiên, bạn truy xuất hình ảnh cơ sở để LLM được triển khai. Sau đó, bạn xây dựng mô hình trên hình ảnh cơ sở. Cuối cùng, bạn triển khai mô hình lên phiên bản ML cho SageMaker Hosting để suy luận theo thời gian thực.

Hãy cùng quan sát cách đạt được việc triển khai theo chương trình. Để ngắn gọn, chỉ có mã hỗ trợ các bước triển khai mới được thảo luận trong phần này. Mã nguồn đầy đủ để triển khai có sẵn trong sổ ghi chép llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.

Truy xuất DLC ôm mặt LLM mới nhất được cung cấp bởi TGI thông qua bản dựng sẵn DLC của SageMaker. Bạn sử dụng hình ảnh này để triển khai meta-llama/Llama-2-13b-chat-hf mô hình trên SageMaker. Xem đoạn mã sau:

from sagemaker.huggingface import get_huggingface_llm_image_uri # retrieve the llm image uri
llm_image = get_huggingface_llm_image_uri( "huggingface", version="1.0.3"
)

Xác định môi trường cho mô hình với các thông số cấu hình được xác định như sau:

instance_type = "ml.g5.12xlarge"
number_of_gpu = 4
config = { 'HF_MODEL_ID': "meta-llama/Llama-2-13b-chat-hf", # model_id from hf.co/models 'SM_NUM_GPUS': json.dumps(number_of_gpu), # Number of GPU used per replica 'MAX_INPUT_LENGTH': json.dumps(2048), # Max length of input text 'MAX_TOTAL_TOKENS': json.dumps(4096), # Max length of the generation (including input text) 'MAX_BATCH_TOTAL_TOKENS': json.dumps(8192), # Limits the number of tokens that can be processed in parallel during the generation 'HUGGING_FACE_HUB_TOKEN': "<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>"
}

Thay thế <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> cho tham số cấu hình HUGGING_FACE_HUB_TOKEN với giá trị của mã thông báo nhận được từ hồ sơ Khuôn mặt ôm của bạn như được nêu chi tiết trong phần điều kiện tiên quyết của bài đăng này. Trong cấu hình, bạn xác định số lượng GPU được sử dụng trên mỗi bản sao của mô hình là 4 cho SM_NUM_GPUS. Sau đó, bạn có thể triển khai meta-llama/Llama-2-13b-chat-hf mô hình trên phiên bản ml.g5.12xlarge đi kèm với 4 GPU.

Bây giờ bạn có thể xây dựng phiên bản của HuggingFaceModel với cấu hình môi trường nói trên:

llm_model = HuggingFaceModel( role=role, image_uri=llm_image, env=config
)

Cuối cùng, triển khai mô hình bằng cách cung cấp các đối số cho phương thức triển khai có sẵn trên mô hình với nhiều giá trị tham số khác nhau như endpoint_name, initial_instance_countvà instance_type:

llm = llm_model.deploy( endpoint_name=endpoint_name, initial_instance_count=1, instance_type=instance_type, container_startup_health_check_timeout=health_check_timeout,
)

thực hiện suy luận

DLC ôm mặt TGI đi kèm với khả năng truyền phát phản hồi mà không cần bất kỳ tùy chỉnh hoặc thay đổi mã nào đối với mô hình. Bạn có thể dùng gọi_endpoint_with_response_stream nếu bạn đang sử dụng Boto3 hoặc GọiEndpointWithResponseStream khi lập trình với SageMaker Python SDK.

Sản phẩm InvokeEndpointWithResponseStream API của SageMaker cho phép các nhà phát triển truyền phản hồi ngược lại từ các mô hình SageMaker, điều này có thể giúp cải thiện sự hài lòng của khách hàng bằng cách giảm độ trễ nhận thấy. Điều này đặc biệt quan trọng đối với các ứng dụng được xây dựng bằng mô hình AI tổng hợp, trong đó việc xử lý ngay lập tức quan trọng hơn việc chờ đợi toàn bộ phản hồi.

Trong ví dụ này, chúng tôi sử dụng Boto3 để suy luận mô hình và sử dụng API SageMaker invoke_endpoint_with_response_stream như sau:

def get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload): response_stream = sagemaker_runtime.invoke_endpoint_with_response_stream( EndpointName=endpoint_name, Body=json.dumps(payload), ContentType="application/json", CustomAttributes='accept_eula=false' ) return response_stream

Đối số CustomAttributes được đặt thành giá trị accept_eula=false. Sản phẩm accept_eula tham số phải được đặt thành true để nhận được phản hồi thành công từ các mô hình Llama 2. Sau khi gọi thành công bằng cách sử dụng invoke_endpoint_with_response_stream, phương thức sẽ trả về luồng phản hồi gồm byte.

Sơ đồ sau minh họa quy trình làm việc này.

Sơ đồ kiến trúc truyền phát HF TGI

Bạn cần một trình vòng lặp lặp qua luồng byte và phân tích chúng thành văn bản có thể đọc được. Các LineIterator việc thực hiện có thể được tìm thấy tại llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Bây giờ bạn đã sẵn sàng chuẩn bị lời nhắc và hướng dẫn để sử dụng chúng làm trọng tải trong khi suy luận mô hình.

Chuẩn bị lời nhắc và hướng dẫn

Trong bước này, bạn chuẩn bị lời nhắc và hướng dẫn cho LLM của mình. Để nhắc Llama 2, bạn cần có mẫu lời nhắc sau:

<s>[INST] <<SYS>>
{{ system_prompt }}
<</SYS>> {{ user_message }} [/INST]

Bạn xây dựng mẫu lời nhắc được xác định theo chương trình trong phương thức build_llama2_prompt, phù hợp với mẫu lời nhắc nói trên. Sau đó, bạn xác định các hướng dẫn theo trường hợp sử dụng. Trong trường hợp này, chúng tôi đang hướng dẫn mô hình tạo email cho chiến dịch tiếp thị như được đề cập trong phần get_instructions phương pháp. Mã cho các phương thức này nằm trong llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb sổ tay. Xây dựng hướng dẫn kết hợp với nhiệm vụ cần thực hiện chi tiết ở phần user_ask_1 như sau:

user_ask_1 = f'''
AnyCompany recently announced new service launch named AnyCloud Internet Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: EARLYB1RD to get 20% for 1st 3 months. '''
instructions = get_instructions(user_ask_1)
prompt = build_llama2_prompt(instructions)

Chúng tôi chuyển hướng dẫn để tạo lời nhắc theo mẫu lời nhắc do build_llama2_prompt tạo.

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "repetition_penalty": 1.03, "stop": ["</s>"], "return_full_text": False }
payload = { "inputs": prompt, "parameters": inference_params, "stream": True ## <-- to have response stream.
}

Chúng tôi câu lạc bộ các tham số suy luận cùng với lời nhắc bằng phím stream với giá trị True để tạo thành tải trọng cuối cùng. Gửi tải trọng đến get_realtime_response_stream, sẽ được sử dụng để gọi điểm cuối với luồng phản hồi:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

Văn bản được tạo từ LLM sẽ được truyền đến đầu ra như trong hình động sau.

Truyền phát phản hồi trò chuyện Llama 2 13B - HF TGI

Cách tiếp cận 2: LMI với phục vụ DJL

Trong phần này, chúng tôi trình bày cách triển khai meta-llama/Llama-2-13b-chat-hf lập mô hình cho điểm cuối thời gian thực của SageMaker với tính năng truyền phát phản hồi bằng LMI với Cung cấp DJL. Bảng sau đây phác thảo các thông số kỹ thuật cho việc triển khai này.

Đặc điểm kỹ thuật	Giá trị
Container	Hình ảnh vùng chứa LMI có Phục vụ DJL
Tên Model	meta-llama/Llama-2-13b-chat-hf
Phiên bản ML	ml.g5.12xlarge
Sự suy luận	Thời gian thực với tính năng truyền phát phản hồi

Trước tiên, bạn tải xuống mô hình và lưu trữ nó trong Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3). Sau đó, bạn chỉ định URI S3 cho biết tiền tố S3 của mô hình trong serving.properties tài liệu. Tiếp theo, bạn truy xuất hình ảnh cơ sở để LLM được triển khai. Sau đó, bạn xây dựng mô hình trên hình ảnh cơ sở. Cuối cùng, bạn triển khai mô hình lên phiên bản ML cho SageMaker Hosting để suy luận theo thời gian thực.

Hãy cùng quan sát cách đạt được các bước triển khai nói trên theo chương trình. Để ngắn gọn, chỉ có mã hỗ trợ các bước triển khai mới được trình bày chi tiết trong phần này. Mã nguồn đầy đủ cho việc triển khai này có sẵn trong sổ tay llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.

Tải xuống ảnh chụp nhanh mô hình từ Ôm mặt và tải các tạo phẩm mô hình lên Amazon S3

Với các điều kiện tiên quyết nêu trên, hãy tải xuống mô hình trên phiên bản sổ ghi chép SageMaker rồi tải mô hình đó lên vùng lưu trữ S3 để triển khai thêm:

model_name = 'meta-llama/Llama-2-13b-chat-hf'
# Only download pytorch checkpoint files
allow_patterns = ["*.json", "*.txt", "*.model", "*.safetensors", "*.bin", "*.chk", "*.pth"] # Download the model snapshot
model_download_path = snapshot_download( repo_id=model_name, cache_dir=local_model_path, allow_patterns=allow_patterns, token='<YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>'
)

Lưu ý rằng ngay cả khi bạn không cung cấp mã thông báo truy cập hợp lệ thì mô hình vẫn sẽ tải xuống. Nhưng khi bạn triển khai một mô hình như vậy, việc phục vụ mô hình sẽ không thành công. Vì vậy, nên thay thế <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN> cho lập luận token với giá trị của mã thông báo thu được từ hồ sơ Khuôn mặt ôm của bạn như được nêu chi tiết trong các điều kiện tiên quyết. Đối với bài đăng này, chúng tôi chỉ định tên mẫu chính thức cho Llama 2 như được xác định trên Ôm mặt với giá trị meta-llama/Llama-2-13b-chat-hf. Mô hình không nén sẽ được tải xuống local_model_path là kết quả của việc chạy đoạn mã nói trên.

Tải các tệp lên Amazon S3 và lấy URI, sau này sẽ được sử dụng trong serving.properties.

Bạn sẽ đóng gói meta-llama/Llama-2-13b-chat-hf mô hình trên hình ảnh vùng chứa LMI với Phục vụ DJL bằng cách sử dụng cấu hình được chỉ định qua serving.properties. Sau đó, bạn triển khai mô hình cùng với các thành phần lạ của mô hình được đóng gói trên hình ảnh vùng chứa trên phiên bản SageMaker ML ml.g5.12xlarge. Sau đó, bạn sử dụng phiên bản ML này cho SageMaker Hosting để suy luận theo thời gian thực.

Chuẩn bị các tạo phẩm mô hình để phục vụ DJL

Chuẩn bị các tạo phẩm mô hình của bạn bằng cách tạo một serving.properties tập tin cấu hình:

%%writefile chat_llama2_13b_hf/serving.properties
engine = MPI
option.entryPoint=djl_python.huggingface
option.tensor_parallel_degree=4
option.low_cpu_mem_usage=TRUE
option.rolling_batch=lmi-dist
option.max_rolling_batch_size=64
option.model_loading_timeout=900
option.model_id={{model_id}}
option.paged_attention=true

Chúng tôi sử dụng các cài đặt sau trong tệp cấu hình này:

động cơ – Phần này chỉ định công cụ thời gian chạy để DJL sử dụng. Các giá trị có thể bao gồm Python, DeepSpeed, FasterTransformervà MPI. Trong trường hợp này, chúng tôi đặt nó thành MPI. Song song hóa và suy luận mô hình (MPI) tạo điều kiện phân vùng mô hình trên tất cả các GPU có sẵn và do đó tăng tốc độ suy luận.
tùy chọn.entryPoint – Tùy chọn này chỉ định trình xử lý nào được cung cấp bởi Dịch vụ DJL mà bạn muốn sử dụng. Các giá trị có thể là djl_python.huggingface, djl_python.deepspeedvà djl_python.stable-diffusion. Chúng tôi sử dụng djl_python.huggingface để ôm mặt tăng tốc.
tùy chọn.tensor_parallel_degree – Tùy chọn này chỉ định số lượng phân vùng song song tensor được thực hiện trên mô hình. Bạn có thể đặt số lượng thiết bị GPU mà Accelerate cần để phân vùng mô hình. Tham số này cũng kiểm soát số lượng công nhân trên mỗi mô hình sẽ được khởi động khi chạy phân phát DJL. Ví dụ: nếu chúng tôi có một máy 4 GPU và chúng tôi đang tạo bốn phân vùng thì chúng tôi sẽ có một nhân viên cho mỗi mô hình để phục vụ các yêu cầu.
tùy chọn.low_cpu_mem_usage – Điều này làm giảm mức sử dụng bộ nhớ CPU khi tải mô hình. Chúng tôi khuyên bạn nên đặt cài đặt này thành TRUE.
tùy chọn.rolling_batch – Điều này cho phép phân nhóm cấp độ lặp bằng cách sử dụng một trong các chiến lược được hỗ trợ. Giá trị bao gồm auto, schedulervà lmi-dist. Chúng tôi sử dụng lmi-dist để bật tính năng trộn liên tục cho Llama 2.
tùy chọn.max_rolling_batch_size – Điều này giới hạn số lượng yêu cầu đồng thời trong đợt liên tục. Giá trị mặc định là 32.
tùy chọn.model_id – Bạn nên thay thế {{model_id}} với ID mô hình của mô hình được đào tạo trước được lưu trữ bên trong kho lưu trữ mô hình trên Ôm Mặt hoặc đường dẫn S3 tới các tạo phẩm mô hình.

Nhiều tùy chọn cấu hình hơn có thể được tìm thấy trong Cấu hình và cài đặt.

Vì DJL Serve yêu cầu các thành phần lạ của mô hình được đóng gói và định dạng trong tệp .tar nên hãy chạy đoạn mã sau để nén và tải tệp .tar lên Amazon S3:

s3_code_prefix = f"{s3_prefix}/code" # folder within bucket where code artifact will go
s3_code_artifact = sess.upload_data("model.tar.gz", bucket, s3_code_prefix)

Truy xuất hình ảnh vùng chứa LMI mới nhất với DJL Serve

Tiếp theo, bạn sử dụng các DLC có sẵn với SageMaker dành cho LMI để triển khai mô hình. Truy xuất URI hình ảnh SageMaker cho djl-deepspeed container theo chương trình bằng cách sử dụng mã sau:

from sagemaker import image_uris
inference_image_uri = image_uris.retrieve( framework="djl-deepspeed", region=region, version="0.25.0"
)

Bạn có thể sử dụng hình ảnh nói trên để triển khai meta-llama/Llama-2-13b-chat-hf mô hình trên SageMaker. Bây giờ bạn có thể tiến hành tạo mô hình.

Tạo mô hình

Bạn có thể tạo mô hình có vùng chứa được xây dựng bằng cách sử dụng inference_image_uri và mã phân phát mô hình nằm ở URI S3 được chỉ định bởi s3_code_artifact:

from sagemaker.utils import name_from_base model_name = name_from_base(f"Llama-2-13b-chat-lmi-streaming") create_model_response = sm_client.create_model( ModelName=model_name, ExecutionRoleArn=role, PrimaryContainer={ "Image": inference_image_uri, "ModelDataUrl": s3_code_artifact, "Environment": {"MODEL_LOADING_TIMEOUT": "3600"}, },
)

Bây giờ bạn có thể tạo cấu hình mô hình với tất cả chi tiết cho cấu hình điểm cuối.

Tạo cấu hình mô hình

Sử dụng đoạn mã sau để tạo cấu hình mô hình cho mô hình được xác định bởi model_name:

endpoint_config_name = f"{model_name}-config" endpoint_name = name_from_base(model_name) endpoint_config_response = sm_client.create_endpoint_config( EndpointConfigName=endpoint_config_name, ProductionVariants=[ { "VariantName": "variant1", "ModelName": model_name, "InstanceType": "ml.g5.12xlarge", "InitialInstanceCount": 1, "ModelDataDownloadTimeoutInSeconds": 3600, "ContainerStartupHealthCheckTimeoutInSeconds": 3600, }, ],
)

Cấu hình mô hình được xác định cho ProductionVariants tham số InstanceType đối với phiên bản ML ml.g5.12xlarge. Bạn cũng cung cấp ModelName sử dụng cùng tên mà bạn đã sử dụng để tạo mô hình ở bước trước, từ đó thiết lập mối quan hệ giữa mô hình và cấu hình điểm cuối.

Bây giờ bạn đã xác định mô hình và cấu hình mô hình, bạn có thể tạo điểm cuối SageMaker.

Tạo điểm cuối SageMaker

Tạo điểm cuối để triển khai mô hình bằng đoạn mã sau:

create_endpoint_response = sm_client.create_endpoint( EndpointName=f"{endpoint_name}", EndpointConfigName=endpoint_config_name
)

Bạn có thể xem tiến trình triển khai bằng đoạn mã sau:

resp = sm_client.describe_endpoint(EndpointName=endpoint_name)
status = resp["EndpointStatus"]

Sau khi triển khai thành công, trạng thái endpoint sẽ là InService. Bây giờ điểm cuối đã sẵn sàng, hãy thực hiện suy luận bằng luồng phản hồi.

Suy luận thời gian thực với truyền phát phản hồi

Như chúng tôi đã trình bày trong cách tiếp cận trước đó đối với Ôm mặt TGI, bạn có thể sử dụng phương pháp tương tự get_realtime_response_stream để gọi luồng phản hồi từ điểm cuối SageMaker. Mã để suy luận sử dụng phương pháp LMI nằm trong llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb sổ tay. Các LineIterator việc thực hiện nằm ở llama-2-lmi/utils/LineIterator.py. Lưu ý rằng LineIterator đối với mô hình Trò chuyện Llama 2 được triển khai trên vùng chứa LMI khác với mô hình LineIterator được tham chiếu trong phần Ôm mặt TGI. Các LineIterator lặp qua luồng byte từ các mô hình Trò chuyện Llama 2 được suy luận bằng bộ chứa LMI với djl-deepspeed phiên bản 0.25.0. Hàm trợ giúp sau đây sẽ phân tích luồng phản hồi nhận được từ yêu cầu suy luận được thực hiện thông qua invoke_endpoint_with_response_stream API:

from utils.LineIterator import LineIterator def print_response_stream(response_stream): event_stream = response_stream.get('Body') for line in LineIterator(event_stream): print(line, end='')

Phương thức trước in luồng dữ liệu được đọc bởi LineIterator ở định dạng con người có thể đọc được.

Hãy cùng khám phá cách chuẩn bị lời nhắc và hướng dẫn sử dụng chúng làm trọng tải trong khi suy luận mô hình.

Vì bạn đang suy luận cùng một mô hình trong cả Ôm mặt TGI và LMI nên quá trình chuẩn bị lời nhắc và hướng dẫn đều giống nhau. Vì vậy, bạn có thể sử dụng các phương pháp get_instructions và build_llama2_prompt cho việc suy luận.

Sản phẩm get_instructions phương thức trả về hướng dẫn. Xây dựng các hướng dẫn kết hợp với nhiệm vụ cần thực hiện chi tiết tại user_ask_2 như sau:

user_ask_2 = f'''
AnyCompany recently announced new service launch named AnyCloud Streaming Service.
Write a short email about the product launch with Call to action to Alice Smith, whose email is alice.smith@example.com
Mention the Coupon Code: STREAM2DREAM to get 15% for 1st 6 months. ''' instructions = get_instructions(user_ask_2)
prompt = build_llama2_prompt(instructions)

Truyền hướng dẫn để xây dựng lời nhắc theo mẫu lời nhắc được tạo bởi build_llama2_prompt:

inference_params = { "do_sample": True, "top_p": 0.6, "temperature": 0.9, "top_k": 50, "max_new_tokens": 512, "return_full_text": False, } payload = { "inputs": prompt, "parameters": inference_params
}

Chúng tôi kết hợp các tham số suy luận cùng với lời nhắc để tạo thành tải trọng cuối cùng. Sau đó, bạn gửi tải trọng đến get_realtime_response_stream, được sử dụng để gọi điểm cuối với luồng phản hồi:

resp = get_realtime_response_stream(sagemaker_runtime, endpoint_name, payload)
print_response_stream(resp)

Văn bản được tạo từ LLM sẽ được truyền đến đầu ra như trong hình động sau.

Truyền phát phản hồi trò chuyện Llama 2 13B - LMI

Làm sạch

Để tránh phát sinh những chi phí không cần thiết, hãy sử dụng Bảng điều khiển quản lý AWS để xóa các điểm cuối và các tài nguyên liên quan đã được tạo trong khi chạy các phương pháp được đề cập trong bài viết. Đối với cả hai phương pháp triển khai, hãy thực hiện quy trình dọn dẹp sau:

import boto3
sm_client = boto3.client('sagemaker')
endpoint_name="<SageMaker_Real-time_Endpoint_Name>"
endpoint = sm_client.describe_endpoint(EndpointName=endpoint_name)
endpoint_config_name = endpoint['EndpointConfigName']
endpoint_config = sm_client.describe_endpoint_config(EndpointConfigName=endpoint_config_name)
model_name = endpoint_config['ProductionVariants'][0]['ModelName'] print(f"""
About to delete the following sagemaker resources:
Endpoint: {endpoint_name}
Endpoint Config: {endpoint_config_name}
Model: {model_name} """) # delete endpoint
sm_client.delete_endpoint(EndpointName=endpoint_name)
# delete endpoint config
sm_client.delete_endpoint_config(EndpointConfigName=endpoint_config_name)
# delete model
sm_client.delete_model(ModelName=model_name)

Thay thế <SageMaker_Real-time_Endpoint_Name> cho biến endpoint_name với điểm cuối thực tế.

Đối với phương pháp thứ hai, chúng tôi đã lưu trữ mô hình và thành phần mã trên Amazon S3. Bạn có thể dọn sạch nhóm S3 bằng mã sau:

s3 = boto3.resource('s3')
s3_bucket = s3.Bucket(bucket)
s3_bucket.objects.filter(Prefix=s3_prefix).delete()

Kết luận

Trong bài đăng này, chúng tôi đã thảo luận về cách số lượng mã thông báo phản hồi khác nhau hoặc một tập hợp tham số suy luận khác nhau có thể ảnh hưởng đến độ trễ liên quan đến LLM. Chúng tôi đã chỉ ra cách giải quyết vấn đề với sự trợ giúp của tính năng truyền phát phản hồi. Sau đó, chúng tôi đã xác định hai phương pháp triển khai và suy luận các mô hình Trò chuyện Llama 2 bằng cách sử dụng AWS DLC—LMI và Hugging Face TGI.

Bây giờ bạn đã hiểu tầm quan trọng của phản hồi phát trực tuyến và cách nó có thể giảm độ trễ nhận thấy. Phản hồi trực tuyến có thể cải thiện trải nghiệm người dùng, nếu không sẽ khiến bạn phải đợi cho đến khi LLM xây dựng toàn bộ phản hồi. Ngoài ra, việc triển khai các mô hình Trò chuyện Llama 2 với tính năng truyền phát phản hồi sẽ cải thiện trải nghiệm người dùng và khiến khách hàng của bạn hài lòng.

Bạn có thể tham khảo các mẫu aws chính thức amazon-sagemaker-llama2-phản hồi-truyền phát-công thức nấu ăn bao gồm việc triển khai các biến thể mô hình Llama 2 khác.

dự án

Về các tác giả

Navule Pavan Kumar Rao là Kiến trúc sư giải pháp tại Amazon Web Services. Anh làm việc với các ISV ở Ấn Độ để giúp họ đổi mới trên AWS. Anh ấy là tác giả đã xuất bản cuốn sách “Bắt đầu với lập trình V”. Anh theo đuổi bằng Thạc sĩ Điều hành về Khoa học Dữ liệu của Viện Công nghệ Ấn Độ (IIT), Hyderabad. Anh cũng theo đuổi bằng MBA điều hành về chuyên ngành CNTT của Trường Quản trị và Quản trị Kinh doanh Ấn Độ, đồng thời có bằng B.Tech về Kỹ thuật Điện tử và Truyền thông của Viện Khoa học và Công nghệ Vaagdevi. Pavan là Chuyên gia kiến trúc sư giải pháp được chứng nhận AWS và có các chứng chỉ khác như Chuyên ngành học máy được chứng nhận AWS, Chuyên gia được chứng nhận của Microsoft (MCP) và Chuyên gia công nghệ được chứng nhận của Microsoft (MCTS). Anh ấy cũng là một người đam mê nguồn mở. Khi rảnh rỗi, anh ấy thích nghe giọng hát tuyệt vời đầy ma thuật của Sia và Rihanna.

Sudhanshu Ghét là chuyên gia AI/ML chính của AWS và làm việc với khách hàng để tư vấn cho họ về MLOps và hành trình AI tổng quát của họ. Trong vai trò trước đây của mình trước Amazon, ông đã lên ý tưởng, sáng tạo và lãnh đạo các nhóm xây dựng nền tảng trò chơi và AI dựa trên nguồn mở cơ bản, đồng thời thương mại hóa thành công nền tảng này với hơn 100 khách hàng. Sudhanshu được ghi nhận về một số bằng sáng chế, đã viết hai cuốn sách, một số bài báo và blog, đồng thời trình bày quan điểm của mình trên nhiều diễn đàn kỹ thuật khác nhau. Ông là nhà lãnh đạo tư tưởng và diễn giả và đã làm việc trong ngành này gần 25 năm. Anh ấy đã làm việc với các khách hàng thuộc Fortune 1000 trên toàn cầu và gần đây nhất là với các khách hàng kỹ thuật số bản địa ở Ấn Độ.