Với việc áp dụng nhanh chóng các ứng dụng AI tổng hợp, các ứng dụng này cần phải phản hồi kịp thời để giảm độ trễ nhận thấy với thông lượng cao hơn. Các mô hình nền tảng (FM) thường được đào tạo trước trên khối dữ liệu khổng lồ với các tham số có quy mô từ hàng triệu đến hàng tỷ và hơn thế nữa. Mô hình ngôn ngữ lớn (LLM) là một loại FM tạo ra văn bản dưới dạng phản hồi suy luận của người dùng. Việc suy luận các mô hình này với các cấu hình tham số suy luận khác nhau có thể dẫn đến độ trễ không nhất quán. Sự không nhất quán có thể là do số lượng mã thông báo phản hồi khác nhau mà bạn mong đợi từ mô hình hoặc loại trình tăng tốc mà mô hình được triển khai trên đó.
Trong cả hai trường hợp, thay vì chờ phản hồi đầy đủ, bạn có thể áp dụng phương pháp truyền phát phản hồi cho các suy luận của mình, cách này sẽ gửi lại các khối thông tin ngay khi chúng được tạo. Điều này tạo ra trải nghiệm tương tác bằng cách cho phép bạn xem phản hồi một phần được phát trực tiếp trong thời gian thực thay vì phản hồi đầy đủ bị trì hoãn.
Với thông báo chính thức rằng Suy luận thời gian thực của Amazon SageMaker hiện hỗ trợ truyền phát phản hồi, giờ đây bạn có thể liên tục truyền các phản hồi suy luận trở lại máy khách khi sử dụng Amazon SageMaker suy luận thời gian thực với truyền phát phản hồi. Giải pháp này sẽ giúp bạn xây dựng trải nghiệm tương tác cho nhiều ứng dụng AI tổng hợp khác nhau như chatbot, trợ lý ảo và máy tạo nhạc. Bài đăng này chỉ cho bạn cách nhận ra thời gian phản hồi nhanh hơn dưới dạng Thời gian đến byte đầu tiên (TTFB) và giảm độ trễ nhận thấy tổng thể trong khi suy luận các mô hình Llama 2.
Để triển khai giải pháp, chúng tôi sử dụng SageMaker, một dịch vụ được quản lý toàn phần để chuẩn bị dữ liệu, xây dựng, đào tạo và triển khai các mô hình máy học (ML) cho mọi trường hợp sử dụng với cơ sở hạ tầng, công cụ và quy trình làm việc được quản lý hoàn toàn. Để biết thêm thông tin về các tùy chọn triển khai khác nhau mà SageMaker cung cấp, hãy tham khảo Câu hỏi thường gặp về lưu trữ mô hình Amazon SageMaker. Hãy hiểu cách chúng ta có thể giải quyết các vấn đề về độ trễ bằng cách sử dụng suy luận thời gian thực với tính năng truyền phát phản hồi.
Tổng quan về giải pháp
Vì chúng tôi muốn giải quyết các độ trễ nói trên liên quan đến suy luận thời gian thực bằng LLM, trước tiên hãy hiểu cách chúng tôi có thể sử dụng hỗ trợ truyền phát phản hồi để suy luận theo thời gian thực cho Llama 2. Tuy nhiên, bất kỳ LLM nào cũng có thể tận dụng hỗ trợ truyền phát phản hồi với thực tế. -suy luận thời gian
Llama 2 là tập hợp các mô hình văn bản tổng hợp được đào tạo trước và tinh chỉnh có quy mô từ 7 tỷ đến 70 tỷ tham số. Mô hình Llama 2 là mô hình tự hồi quy với kiến trúc chỉ bộ giải mã. Khi được cung cấp các tham số nhắc nhở và suy luận, các mô hình Llama 2 có khả năng tạo phản hồi bằng văn bản. Những mô hình này có thể được sử dụng để dịch, tóm tắt, trả lời câu hỏi và trò chuyện.
Đối với bài đăng này, chúng tôi triển khai mô hình Trò chuyện Llama 2 meta-llama/Llama-2-13b-chat-hf
trên SageMaker để suy luận theo thời gian thực với tính năng truyền phát phản hồi.
Khi nói đến việc triển khai các mô hình trên điểm cuối SageMaker, bạn có thể chứa các mô hình bằng cách sử dụng các mô hình chuyên dụng Vùng chứa học tập sâu AWS (DLC) có sẵn cho các thư viện nguồn mở phổ biến. Mô hình Llama 2 là mô hình tạo văn bản; bạn có thể sử dụng hoặc Ôm mặt bộ chứa suy luận LLM trên SageMaker được hỗ trợ bởi Ôm Mặt Suy luận tạo văn bản (TGI) hoặc AWS DLC dành cho Suy luận mô hình lớn (LMI).
Trong bài đăng này, chúng tôi triển khai mô hình Trò chuyện Llama 2 13B bằng cách sử dụng các DLC trên SageMaker Hosting để suy luận theo thời gian thực được hỗ trợ bởi các phiên bản G5. Phiên bản G5 là phiên bản dựa trên GPU hiệu suất cao dành cho các ứng dụng chuyên sâu về đồ họa và suy luận ML. Bạn cũng có thể sử dụng các loại phiên bản được hỗ trợ p4d, p3, g5 và g4dn với những thay đổi phù hợp theo cấu hình phiên bản.
Điều kiện tiên quyết
Để thực hiện giải pháp này, bạn cần có những điều sau:
- Một tài khoản AWS với một Quản lý truy cập và nhận dạng AWS (IAM) có quyền quản lý tài nguyên được tạo như một phần của giải pháp.
- Nếu đây là lần đầu tiên bạn làm việc với Xưởng sản xuất Amazon SageMaker, trước tiên bạn cần tạo một Miền SageMaker.
- Tài khoản ôm mặt. Đăng ký bằng email của bạn nếu bạn chưa có tài khoản.
- Để truy cập liền mạch các mô hình có sẵn trên Hugging Face, đặc biệt là các mô hình có kiểm soát như Llama, nhằm mục đích tinh chỉnh và suy luận, bạn nên có tài khoản Hugging Face để nhận mã thông báo truy cập đọc. Sau khi bạn đăng ký tài khoản Ôm Mặt, đăng nhập đến thăm https://huggingface.co/settings/tokens để tạo mã thông báo truy cập đọc.
- Truy cập vào Llama 2 bằng chính ID email mà bạn đã sử dụng để đăng ký Ôm Mặt.
- Các mẫu Llama 2 có sẵn qua Ôm Mặt là các mẫu có cổng. Việc sử dụng mô hình Llama được quản lý bởi giấy phép Meta. Để tải xuống trọng lượng mô hình và mã thông báo, yêu cầu quyền truy cập vào Llama và chấp nhận giấy phép của họ.
- Sau khi được cấp quyền truy cập (thường trong vài ngày), bạn sẽ nhận được email xác nhận. Đối với ví dụ này, chúng tôi sử dụng mô hình
Llama-2-13b-chat-hf
, nhưng bạn cũng có thể truy cập các biến thể khác.
Cách tiếp cận 1: Ôm mặt TGI
Trong phần này chúng tôi sẽ hướng dẫn bạn cách triển khai meta-llama/Llama-2-13b-chat-hf
lập mô hình cho điểm cuối thời gian thực của SageMaker với tính năng truyền phát phản hồi bằng cách sử dụng Hugging Face TGI. Bảng sau đây phác thảo các thông số kỹ thuật cho việc triển khai này.
Đặc điểm kỹ thuật | Giá trị |
Container | Ôm Mặt TGI |
Tên Model | meta-llama/Llama-2-13b-chat-hf |
Phiên bản ML | ml.g5.12xlarge |
Sự suy luận | Thời gian thực với tính năng truyền phát phản hồi |
Triển khai mô hình
Đầu tiên, bạn truy xuất hình ảnh cơ sở để LLM được triển khai. Sau đó, bạn xây dựng mô hình trên hình ảnh cơ sở. Cuối cùng, bạn triển khai mô hình lên phiên bản ML cho SageMaker Hosting để suy luận theo thời gian thực.
Hãy cùng quan sát cách đạt được việc triển khai theo chương trình. Để ngắn gọn, chỉ có mã hỗ trợ các bước triển khai mới được thảo luận trong phần này. Mã nguồn đầy đủ để triển khai có sẵn trong sổ ghi chép llama-2-hf-tgi/llama-2-13b-chat-hf/1-deploy-llama-2-13b-chat-hf-tgi-sagemaker.ipynb.
Truy xuất DLC ôm mặt LLM mới nhất được cung cấp bởi TGI thông qua bản dựng sẵn DLC của SageMaker. Bạn sử dụng hình ảnh này để triển khai meta-llama/Llama-2-13b-chat-hf
mô hình trên SageMaker. Xem đoạn mã sau:
Xác định môi trường cho mô hình với các thông số cấu hình được xác định như sau:
Thay thế <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
cho tham số cấu hình HUGGING_FACE_HUB_TOKEN
với giá trị của mã thông báo nhận được từ hồ sơ Khuôn mặt ôm của bạn như được nêu chi tiết trong phần điều kiện tiên quyết của bài đăng này. Trong cấu hình, bạn xác định số lượng GPU được sử dụng trên mỗi bản sao của mô hình là 4 cho SM_NUM_GPUS
. Sau đó, bạn có thể triển khai meta-llama/Llama-2-13b-chat-hf
mô hình trên phiên bản ml.g5.12xlarge đi kèm với 4 GPU.
Bây giờ bạn có thể xây dựng phiên bản của HuggingFaceModel
với cấu hình môi trường nói trên:
Cuối cùng, triển khai mô hình bằng cách cung cấp các đối số cho phương thức triển khai có sẵn trên mô hình với nhiều giá trị tham số khác nhau như endpoint_name
, initial_instance_count
và instance_type
:
thực hiện suy luận
DLC ôm mặt TGI đi kèm với khả năng truyền phát phản hồi mà không cần bất kỳ tùy chỉnh hoặc thay đổi mã nào đối với mô hình. Bạn có thể dùng gọi_endpoint_with_response_stream nếu bạn đang sử dụng Boto3 hoặc GọiEndpointWithResponseStream khi lập trình với SageMaker Python SDK.
Sản phẩm InvokeEndpointWithResponseStream
API của SageMaker cho phép các nhà phát triển truyền phản hồi ngược lại từ các mô hình SageMaker, điều này có thể giúp cải thiện sự hài lòng của khách hàng bằng cách giảm độ trễ nhận thấy. Điều này đặc biệt quan trọng đối với các ứng dụng được xây dựng bằng mô hình AI tổng hợp, trong đó việc xử lý ngay lập tức quan trọng hơn việc chờ đợi toàn bộ phản hồi.
Trong ví dụ này, chúng tôi sử dụng Boto3 để suy luận mô hình và sử dụng API SageMaker invoke_endpoint_with_response_stream
như sau:
Đối số CustomAttributes
được đặt thành giá trị accept_eula=false
. Sản phẩm accept_eula
tham số phải được đặt thành true
để nhận được phản hồi thành công từ các mô hình Llama 2. Sau khi gọi thành công bằng cách sử dụng invoke_endpoint_with_response_stream
, phương thức sẽ trả về luồng phản hồi gồm byte.
Sơ đồ sau minh họa quy trình làm việc này.
Bạn cần một trình vòng lặp lặp qua luồng byte và phân tích chúng thành văn bản có thể đọc được. Các LineIterator
việc thực hiện có thể được tìm thấy tại llama-2-hf-tgi/llama-2-13b-chat-hf/utils/LineIterator.py. Bây giờ bạn đã sẵn sàng chuẩn bị lời nhắc và hướng dẫn để sử dụng chúng làm trọng tải trong khi suy luận mô hình.
Chuẩn bị lời nhắc và hướng dẫn
Trong bước này, bạn chuẩn bị lời nhắc và hướng dẫn cho LLM của mình. Để nhắc Llama 2, bạn cần có mẫu lời nhắc sau:
Bạn xây dựng mẫu lời nhắc được xác định theo chương trình trong phương thức build_llama2_prompt
, phù hợp với mẫu lời nhắc nói trên. Sau đó, bạn xác định các hướng dẫn theo trường hợp sử dụng. Trong trường hợp này, chúng tôi đang hướng dẫn mô hình tạo email cho chiến dịch tiếp thị như được đề cập trong phần get_instructions
phương pháp. Mã cho các phương thức này nằm trong llama-2-hf-tgi/llama-2-13b-chat-hf/2-sagemaker-realtime-inference-llama-2-13b-chat-hf-tgi-streaming-response.ipynb sổ tay. Xây dựng hướng dẫn kết hợp với nhiệm vụ cần thực hiện chi tiết ở phần user_ask_1
như sau:
Chúng tôi chuyển hướng dẫn để tạo lời nhắc theo mẫu lời nhắc do build_llama2_prompt tạo.
Chúng tôi câu lạc bộ các tham số suy luận cùng với lời nhắc bằng phím stream
với giá trị True
để tạo thành tải trọng cuối cùng. Gửi tải trọng đến get_realtime_response_stream
, sẽ được sử dụng để gọi điểm cuối với luồng phản hồi:
Văn bản được tạo từ LLM sẽ được truyền đến đầu ra như trong hình động sau.
Cách tiếp cận 2: LMI với phục vụ DJL
Trong phần này, chúng tôi trình bày cách triển khai meta-llama/Llama-2-13b-chat-hf
lập mô hình cho điểm cuối thời gian thực của SageMaker với tính năng truyền phát phản hồi bằng LMI với Cung cấp DJL. Bảng sau đây phác thảo các thông số kỹ thuật cho việc triển khai này.
Đặc điểm kỹ thuật | Giá trị |
Container | Hình ảnh vùng chứa LMI có Phục vụ DJL |
Tên Model | meta-llama/Llama-2-13b-chat-hf |
Phiên bản ML | ml.g5.12xlarge |
Sự suy luận | Thời gian thực với tính năng truyền phát phản hồi |
Trước tiên, bạn tải xuống mô hình và lưu trữ nó trong Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3). Sau đó, bạn chỉ định URI S3 cho biết tiền tố S3 của mô hình trong serving.properties
tài liệu. Tiếp theo, bạn truy xuất hình ảnh cơ sở để LLM được triển khai. Sau đó, bạn xây dựng mô hình trên hình ảnh cơ sở. Cuối cùng, bạn triển khai mô hình lên phiên bản ML cho SageMaker Hosting để suy luận theo thời gian thực.
Hãy cùng quan sát cách đạt được các bước triển khai nói trên theo chương trình. Để ngắn gọn, chỉ có mã hỗ trợ các bước triển khai mới được trình bày chi tiết trong phần này. Mã nguồn đầy đủ cho việc triển khai này có sẵn trong sổ tay llama-2-lmi/llama-2-13b-chat/1-deploy-llama-2-13b-chat-lmi-response-streaming.ipynb.
Tải xuống ảnh chụp nhanh mô hình từ Ôm mặt và tải các tạo phẩm mô hình lên Amazon S3
Với các điều kiện tiên quyết nêu trên, hãy tải xuống mô hình trên phiên bản sổ ghi chép SageMaker rồi tải mô hình đó lên vùng lưu trữ S3 để triển khai thêm:
Lưu ý rằng ngay cả khi bạn không cung cấp mã thông báo truy cập hợp lệ thì mô hình vẫn sẽ tải xuống. Nhưng khi bạn triển khai một mô hình như vậy, việc phục vụ mô hình sẽ không thành công. Vì vậy, nên thay thế <YOUR_HUGGING_FACE_READ_ACCESS_TOKEN>
cho lập luận token
với giá trị của mã thông báo thu được từ hồ sơ Khuôn mặt ôm của bạn như được nêu chi tiết trong các điều kiện tiên quyết. Đối với bài đăng này, chúng tôi chỉ định tên mẫu chính thức cho Llama 2 như được xác định trên Ôm mặt với giá trị meta-llama/Llama-2-13b-chat-hf
. Mô hình không nén sẽ được tải xuống local_model_path
là kết quả của việc chạy đoạn mã nói trên.
Tải các tệp lên Amazon S3 và lấy URI, sau này sẽ được sử dụng trong serving.properties
.
Bạn sẽ đóng gói meta-llama/Llama-2-13b-chat-hf
mô hình trên hình ảnh vùng chứa LMI với Phục vụ DJL bằng cách sử dụng cấu hình được chỉ định qua serving.properties
. Sau đó, bạn triển khai mô hình cùng với các thành phần lạ của mô hình được đóng gói trên hình ảnh vùng chứa trên phiên bản SageMaker ML ml.g5.12xlarge. Sau đó, bạn sử dụng phiên bản ML này cho SageMaker Hosting để suy luận theo thời gian thực.
Chuẩn bị các tạo phẩm mô hình để phục vụ DJL
Chuẩn bị các tạo phẩm mô hình của bạn bằng cách tạo một serving.properties
tập tin cấu hình:
Chúng tôi sử dụng các cài đặt sau trong tệp cấu hình này:
- động cơ – Phần này chỉ định công cụ thời gian chạy để DJL sử dụng. Các giá trị có thể bao gồm
Python
,DeepSpeed
,FasterTransformer
vàMPI
. Trong trường hợp này, chúng tôi đặt nó thànhMPI
. Song song hóa và suy luận mô hình (MPI) tạo điều kiện phân vùng mô hình trên tất cả các GPU có sẵn và do đó tăng tốc độ suy luận. - tùy chọn.entryPoint – Tùy chọn này chỉ định trình xử lý nào được cung cấp bởi Dịch vụ DJL mà bạn muốn sử dụng. Các giá trị có thể là
djl_python.huggingface
,djl_python.deepspeed
vàdjl_python.stable-diffusion
. Chúng tôi sử dụngdjl_python.huggingface
để ôm mặt tăng tốc. - tùy chọn.tensor_parallel_degree – Tùy chọn này chỉ định số lượng phân vùng song song tensor được thực hiện trên mô hình. Bạn có thể đặt số lượng thiết bị GPU mà Accelerate cần để phân vùng mô hình. Tham số này cũng kiểm soát số lượng công nhân trên mỗi mô hình sẽ được khởi động khi chạy phân phát DJL. Ví dụ: nếu chúng tôi có một máy 4 GPU và chúng tôi đang tạo bốn phân vùng thì chúng tôi sẽ có một nhân viên cho mỗi mô hình để phục vụ các yêu cầu.
- tùy chọn.low_cpu_mem_usage – Điều này làm giảm mức sử dụng bộ nhớ CPU khi tải mô hình. Chúng tôi khuyên bạn nên đặt cài đặt này thành
TRUE
. - tùy chọn.rolling_batch – Điều này cho phép phân nhóm cấp độ lặp bằng cách sử dụng một trong các chiến lược được hỗ trợ. Giá trị bao gồm
auto
,scheduler
vàlmi-dist
. Chúng tôi sử dụnglmi-dist
để bật tính năng trộn liên tục cho Llama 2. - tùy chọn.max_rolling_batch_size – Điều này giới hạn số lượng yêu cầu đồng thời trong đợt liên tục. Giá trị mặc định là 32.
- tùy chọn.model_id – Bạn nên thay thế
{{model_id}}
với ID mô hình của mô hình được đào tạo trước được lưu trữ bên trong kho lưu trữ mô hình trên Ôm Mặt hoặc đường dẫn S3 tới các tạo phẩm mô hình.
Nhiều tùy chọn cấu hình hơn có thể được tìm thấy trong Cấu hình và cài đặt.
Vì DJL Serve yêu cầu các thành phần lạ của mô hình được đóng gói và định dạng trong tệp .tar nên hãy chạy đoạn mã sau để nén và tải tệp .tar lên Amazon S3:
Truy xuất hình ảnh vùng chứa LMI mới nhất với DJL Serve
Tiếp theo, bạn sử dụng các DLC có sẵn với SageMaker dành cho LMI để triển khai mô hình. Truy xuất URI hình ảnh SageMaker cho djl-deepspeed
container theo chương trình bằng cách sử dụng mã sau:
Bạn có thể sử dụng hình ảnh nói trên để triển khai meta-llama/Llama-2-13b-chat-hf
mô hình trên SageMaker. Bây giờ bạn có thể tiến hành tạo mô hình.
Tạo mô hình
Bạn có thể tạo mô hình có vùng chứa được xây dựng bằng cách sử dụng inference_image_uri
và mã phân phát mô hình nằm ở URI S3 được chỉ định bởi s3_code_artifact:
Bây giờ bạn có thể tạo cấu hình mô hình với tất cả chi tiết cho cấu hình điểm cuối.
Tạo cấu hình mô hình
Sử dụng đoạn mã sau để tạo cấu hình mô hình cho mô hình được xác định bởi model_name
:
Cấu hình mô hình được xác định cho ProductionVariants
tham số InstanceType
đối với phiên bản ML ml.g5.12xlarge. Bạn cũng cung cấp ModelName
sử dụng cùng tên mà bạn đã sử dụng để tạo mô hình ở bước trước, từ đó thiết lập mối quan hệ giữa mô hình và cấu hình điểm cuối.
Bây giờ bạn đã xác định mô hình và cấu hình mô hình, bạn có thể tạo điểm cuối SageMaker.
Tạo điểm cuối SageMaker
Tạo điểm cuối để triển khai mô hình bằng đoạn mã sau:
Bạn có thể xem tiến trình triển khai bằng đoạn mã sau:
Sau khi triển khai thành công, trạng thái endpoint sẽ là InService
. Bây giờ điểm cuối đã sẵn sàng, hãy thực hiện suy luận bằng luồng phản hồi.
Suy luận thời gian thực với truyền phát phản hồi
Như chúng tôi đã trình bày trong cách tiếp cận trước đó đối với Ôm mặt TGI, bạn có thể sử dụng phương pháp tương tự get_realtime_response_stream
để gọi luồng phản hồi từ điểm cuối SageMaker. Mã để suy luận sử dụng phương pháp LMI nằm trong llama-2-lmi/llama-2-13b-chat/2-inference-llama-2-13b-chat-lmi-response-streaming.ipynb sổ tay. Các LineIterator
việc thực hiện nằm ở llama-2-lmi/utils/LineIterator.py. Lưu ý rằng LineIterator
đối với mô hình Trò chuyện Llama 2 được triển khai trên vùng chứa LMI khác với mô hình LineIterator
được tham chiếu trong phần Ôm mặt TGI. Các LineIterator
lặp qua luồng byte từ các mô hình Trò chuyện Llama 2 được suy luận bằng bộ chứa LMI với djl-deepspeed
phiên bản 0.25.0. Hàm trợ giúp sau đây sẽ phân tích luồng phản hồi nhận được từ yêu cầu suy luận được thực hiện thông qua invoke_endpoint_with_response_stream
API:
Phương thức trước in luồng dữ liệu được đọc bởi LineIterator
ở định dạng con người có thể đọc được.
Hãy cùng khám phá cách chuẩn bị lời nhắc và hướng dẫn sử dụng chúng làm trọng tải trong khi suy luận mô hình.
Vì bạn đang suy luận cùng một mô hình trong cả Ôm mặt TGI và LMI nên quá trình chuẩn bị lời nhắc và hướng dẫn đều giống nhau. Vì vậy, bạn có thể sử dụng các phương pháp get_instructions
và build_llama2_prompt
cho việc suy luận.
Sản phẩm get_instructions
phương thức trả về hướng dẫn. Xây dựng các hướng dẫn kết hợp với nhiệm vụ cần thực hiện chi tiết tại user_ask_2
như sau:
Truyền hướng dẫn để xây dựng lời nhắc theo mẫu lời nhắc được tạo bởi build_llama2_prompt:
Chúng tôi kết hợp các tham số suy luận cùng với lời nhắc để tạo thành tải trọng cuối cùng. Sau đó, bạn gửi tải trọng đến get_realtime_response_stream,
được sử dụng để gọi điểm cuối với luồng phản hồi:
Văn bản được tạo từ LLM sẽ được truyền đến đầu ra như trong hình động sau.
Làm sạch
Để tránh phát sinh những chi phí không cần thiết, hãy sử dụng Bảng điều khiển quản lý AWS để xóa các điểm cuối và các tài nguyên liên quan đã được tạo trong khi chạy các phương pháp được đề cập trong bài viết. Đối với cả hai phương pháp triển khai, hãy thực hiện quy trình dọn dẹp sau:
Thay thế <SageMaker_Real-time_Endpoint_Name>
cho biến endpoint_name
với điểm cuối thực tế.
Đối với phương pháp thứ hai, chúng tôi đã lưu trữ mô hình và thành phần mã trên Amazon S3. Bạn có thể dọn sạch nhóm S3 bằng mã sau:
Kết luận
Trong bài đăng này, chúng tôi đã thảo luận về cách số lượng mã thông báo phản hồi khác nhau hoặc một tập hợp tham số suy luận khác nhau có thể ảnh hưởng đến độ trễ liên quan đến LLM. Chúng tôi đã chỉ ra cách giải quyết vấn đề với sự trợ giúp của tính năng truyền phát phản hồi. Sau đó, chúng tôi đã xác định hai phương pháp triển khai và suy luận các mô hình Trò chuyện Llama 2 bằng cách sử dụng AWS DLC—LMI và Hugging Face TGI.
Bây giờ bạn đã hiểu tầm quan trọng của phản hồi phát trực tuyến và cách nó có thể giảm độ trễ nhận thấy. Phản hồi trực tuyến có thể cải thiện trải nghiệm người dùng, nếu không sẽ khiến bạn phải đợi cho đến khi LLM xây dựng toàn bộ phản hồi. Ngoài ra, việc triển khai các mô hình Trò chuyện Llama 2 với tính năng truyền phát phản hồi sẽ cải thiện trải nghiệm người dùng và khiến khách hàng của bạn hài lòng.
Bạn có thể tham khảo các mẫu aws chính thức amazon-sagemaker-llama2-phản hồi-truyền phát-công thức nấu ăn bao gồm việc triển khai các biến thể mô hình Llama 2 khác.
dự án
Về các tác giả
Navule Pavan Kumar Rao là Kiến trúc sư giải pháp tại Amazon Web Services. Anh làm việc với các ISV ở Ấn Độ để giúp họ đổi mới trên AWS. Anh ấy là tác giả đã xuất bản cuốn sách “Bắt đầu với lập trình V”. Anh theo đuổi bằng Thạc sĩ Điều hành về Khoa học Dữ liệu của Viện Công nghệ Ấn Độ (IIT), Hyderabad. Anh cũng theo đuổi bằng MBA điều hành về chuyên ngành CNTT của Trường Quản trị và Quản trị Kinh doanh Ấn Độ, đồng thời có bằng B.Tech về Kỹ thuật Điện tử và Truyền thông của Viện Khoa học và Công nghệ Vaagdevi. Pavan là Chuyên gia kiến trúc sư giải pháp được chứng nhận AWS và có các chứng chỉ khác như Chuyên ngành học máy được chứng nhận AWS, Chuyên gia được chứng nhận của Microsoft (MCP) và Chuyên gia công nghệ được chứng nhận của Microsoft (MCTS). Anh ấy cũng là một người đam mê nguồn mở. Khi rảnh rỗi, anh ấy thích nghe giọng hát tuyệt vời đầy ma thuật của Sia và Rihanna.
Sudhanshu Ghét là chuyên gia AI/ML chính của AWS và làm việc với khách hàng để tư vấn cho họ về MLOps và hành trình AI tổng quát của họ. Trong vai trò trước đây của mình trước Amazon, ông đã lên ý tưởng, sáng tạo và lãnh đạo các nhóm xây dựng nền tảng trò chơi và AI dựa trên nguồn mở cơ bản, đồng thời thương mại hóa thành công nền tảng này với hơn 100 khách hàng. Sudhanshu được ghi nhận về một số bằng sáng chế, đã viết hai cuốn sách, một số bài báo và blog, đồng thời trình bày quan điểm của mình trên nhiều diễn đàn kỹ thuật khác nhau. Ông là nhà lãnh đạo tư tưởng và diễn giả và đã làm việc trong ngành này gần 25 năm. Anh ấy đã làm việc với các khách hàng thuộc Fortune 1000 trên toàn cầu và gần đây nhất là với các khách hàng kỹ thuật số bản địa ở Ấn Độ.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/machine-learning/inference-llama-2-models-with-real-time-response-streaming-using-amazon-sagemaker/
- : có
- :là
- :Ở đâu
- $ LÊN
- 1
- 10
- 100
- 11
- 12
- 14
- 15%
- 150
- 16
- 19
- 1st
- 25
- 32
- 385
- 50
- 7
- 70
- 8
- 9
- a
- có khả năng
- Có khả năng
- Giới thiệu
- đẩy nhanh tiến độ
- tăng tốc
- gia tốc
- Chấp nhận
- truy cập
- Tài khoản
- Đạt được
- ngang qua
- Hoạt động
- thực tế
- Ngoài ra
- địa chỉ
- quản lý
- nhận nuôi
- Nhận con nuôi
- Lợi thế
- tư vấn cho
- ảnh hưởng đến
- Sau
- AI
- Mô hình AI
- AI / ML
- bắn
- Căn chỉnh
- Tất cả
- Cho phép
- cho phép
- dọc theo
- Đã
- Ngoài ra
- đàn bà gan dạ
- Amazon SageMaker
- Amazon Web Services
- an
- và
- hình ảnh động
- công bố
- Thông báo
- bất kì
- api
- các ứng dụng
- phương pháp tiếp cận
- cách tiếp cận
- thích hợp
- kiến trúc
- kiến trúc
- LÀ
- đối số
- đối số
- AS
- trợ lý
- liên kết
- At
- tác giả
- có sẵn
- tránh
- AWS
- trở lại
- cơ sở
- trạm trộn
- BE
- bởi vì
- được
- trước
- giữa
- Ngoài
- Tỷ
- tỷ
- BIN
- blog
- thân hình
- cuốn sách
- Sách
- cả hai
- xây dựng
- xây dựng
- xây dựng
- kinh doanh
- nhưng
- by
- cuộc gọi
- Chiến dịch
- CAN
- có khả năng
- trường hợp
- chứng chỉ
- CHỨNG NHẬN
- Những thay đổi
- tải
- trò chuyện trên mạng
- chatbot
- giống cá lăng
- khách hàng
- khách hàng
- câu lạc bộ
- mã
- bộ sưu tập
- COM
- kết hợp
- đến
- Giao tiếp
- đồng thời
- Cấu hình
- xác nhận
- Container
- Container
- liên tục
- liên tục
- điều khiển
- có thể
- Couple
- phiếu
- phủ
- Covers
- tạo
- tạo ra
- tạo ra
- Tạo
- tín dụng
- khách hàng
- Sự hài lòng của khách hàng
- khách hàng
- dữ liệu
- khoa học dữ liệu
- Ngày
- sâu
- học kĩ càng
- mặc định
- định nghĩa
- xác định
- Bị hoan
- chứng minh
- triển khai
- triển khai
- triển khai
- triển khai
- chi tiết
- chi tiết
- phát triển
- Thiết bị (Devices)
- khác nhau
- kỹ thuật số
- thảo luận
- dont
- tải về
- suốt trong
- Sớm hơn
- hay
- Thiết bị điện tử
- cho phép
- Điểm cuối
- Động cơ
- Kỹ Sư
- người đam mê
- Toàn bộ
- Môi trường
- đặc biệt
- thành lập
- Ngay cả
- ví dụ
- điều hành
- mong đợi
- kỳ vọng
- kinh nghiệm
- Kinh nghiệm
- khám phá
- Đối mặt
- tạo điều kiện
- sai
- nhanh hơn
- Tập tin
- Các tập tin
- cuối cùng
- Cuối cùng
- Tên
- lần đầu tiên
- tiếp theo
- sau
- Trong
- hình thức
- định dạng
- Vận may
- diễn đàn
- tìm thấy
- Nền tảng
- 4
- Miễn phí
- từ
- Full
- đầy đủ
- chức năng
- xa hơn
- gamification
- có cổng
- tạo ra
- tạo ra
- tạo ra
- thế hệ
- thế hệ
- Trí tuệ nhân tạo
- máy phát điện
- được
- gif
- toàn cầu
- Go
- cai quản
- GPU
- GPU
- cấp
- tuyệt vời
- vui mừng
- ghét
- Có
- he
- giúp đỡ
- giúp
- hiệu suất cao
- cao hơn
- của mình
- giữ
- tổ chức
- lưu trữ
- Độ đáng tin của
- Hướng dẫn
- Tuy nhiên
- HTML
- http
- HTTPS
- ÔmKhuôn Mặt
- người có thể đọc được
- ID
- xác định
- Bản sắc
- if
- minh họa
- hình ảnh
- hình ảnh
- lập tức
- thực hiện
- thực hiện
- nhập khẩu
- tầm quan trọng
- quan trọng
- nâng cao
- cải thiện
- in
- bao gồm
- Bao gồm
- Ấn Độ
- người Ấn Độ
- chỉ ra
- ngành công nghiệp
- thông tin
- Cơ sở hạ tầng
- đổi mới
- đầu vào
- đầu vào
- trong
- ví dụ
- thay vì
- Viện
- hướng dẫn
- tương tác
- Internet
- các vấn đề
- IT
- ITS
- cuộc hành trình
- json
- Key
- kumar
- Ngôn ngữ
- lớn
- Độ trễ
- vấn đề về độ trễ
- một lát sau
- mới nhất
- phóng
- dẫn
- lãnh đạo
- học tập
- Led
- Chiều dài
- thư viện
- Giấy phép
- Lượt thích
- giới hạn
- Dòng
- nghe
- Loài đà mã ở nam mỹ
- LLM
- tải
- nằm
- yêu
- máy
- học máy
- thực hiện
- làm cho
- LÀM CHO
- quản lý
- quản lý
- quản lý
- Marketing
- tối đa
- Có thể..
- MCP
- Bộ nhớ
- đề cập
- Siêu dữ liệu
- phương pháp
- phương pháp
- microsoft
- hàng triệu
- ML
- MLOps
- kiểu mẫu
- mô hình
- tháng
- chi tiết
- hầu hết
- Âm nhạc
- phải
- tên
- Được đặt theo tên
- tự nhiên
- gần
- Cần
- nhu cầu
- Mới
- tiếp theo
- ghi
- máy tính xách tay
- tại
- con số
- đối tượng
- tuân theo
- được
- thu được
- of
- cung cấp
- chính thức
- thường
- on
- ONE
- có thể
- mở
- mã nguồn mở
- Tùy chọn
- Các lựa chọn
- or
- Nền tảng khác
- nếu không thì
- đề cương
- đầu ra
- kết thúc
- tổng thể
- đóng gói
- bao bì
- giấy tờ
- Song song
- tham số
- thông số
- một phần
- vượt qua
- Bằng sáng chế
- con đường
- mỗi
- lĩnh hội
- Thực hiện
- thực hiện
- quyền
- Nền tảng
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- điểm
- Phổ biến
- có thể
- Bài đăng
- -
- trước
- Chuẩn bị
- chuẩn bị
- điều kiện tiên quyết
- trình bày
- trước
- Hiệu trưởng
- in
- Vấn đề
- tiến hành
- quá trình
- Xử lý
- xử lý
- Sản phẩm
- giới thiệu sản phẩm
- chuyên nghiệp
- Hồ sơ
- Lập trình
- Tiến độ
- tài sản
- cho
- cung cấp
- cung cấp
- cung cấp
- công bố
- mục đích
- Python
- ngọn đuốc
- câu hỏi
- khác nhau,
- nhanh
- hơn
- Đọc
- sẵn sàng
- thực
- thời gian thực
- nhận ra
- nhận
- nhận
- gần đây
- giới thiệu
- đề nghị
- giảm
- làm giảm
- giảm
- xem
- mối quan hệ
- thay thế
- trả lời
- kho
- yêu cầu
- yêu cầu
- Thông tin
- Trả lời
- phản ứng
- phản ứng
- kết quả
- trở lại
- Trả về
- Vai trò
- thường xuyên
- chạy
- chạy
- chạy
- thời gian chạy
- nhà làm hiền triết
- tương tự
- sự hài lòng
- Quy mô
- Trường học
- Khoa học
- sdk
- liền mạch
- Thứ hai
- Phần
- xem
- gửi
- gửi
- phục vụ
- dịch vụ
- DỊCH VỤ
- phục vụ
- định
- thiết lập
- một số
- ngắn
- nên
- hiển thị
- cho thấy
- thể hiện
- Chương trình
- đăng ký
- Đơn giản
- Ảnh chụp
- đoạn
- giải pháp
- Giải pháp
- sớm
- nguồn
- mã nguồn
- Loa
- chuyên gia
- chuyên nghành
- Đặc biệt
- thông số kỹ thuật
- quy định
- bắt đầu
- Trạng thái
- Bước
- Các bước
- Dừng
- là gắn
- hàng
- lưu trữ
- chiến lược
- dòng
- xem trực tiếp
- trực tuyến
- Dịch vụ truyền trực tuyến
- thành công
- thành công
- Thành công
- như vậy
- hỗ trợ
- Hỗ trợ
- Hỗ trợ
- bàn
- Hãy
- Nhiệm vụ
- đội
- công nghệ cao
- Kỹ thuật
- Công nghệ
- mẫu
- văn bản
- hơn
- việc này
- Sản phẩm
- cung cấp their dịch
- Them
- sau đó
- Đó
- bằng cách ấy
- vì thế
- Kia là
- họ
- điều này
- Tuy nhiên?
- nghĩ
- thông lượng
- thời gian
- thời gian
- đến
- mã thông báo
- Tokens
- công cụ
- Train
- Dịch
- đúng
- Quay
- hai
- kiểu
- loại
- thường
- hiểu
- không cần thiết
- cho đến khi
- Sử dụng
- sử dụng
- ca sử dụng
- đã sử dụng
- người sử dang
- Kinh nghiệm người dùng
- sử dụng
- hợp lệ
- giá trị
- Các giá trị
- biến
- khác nhau
- thay đổi
- Lớn
- phiên bản
- thông qua
- Xem
- ảo
- Truy cập
- VOICE
- chờ đợi
- Đợi
- muốn
- we
- web
- các dịch vụ web
- TỐT
- là
- khi nào
- cái nào
- trong khi
- toàn bộ
- có
- sẽ
- với
- ở trong
- không có
- làm việc
- công nhân
- công nhân
- quy trình làm việc
- Luồng công việc
- đang làm việc
- công trinh
- sẽ
- viết
- viết
- năm
- Bạn
- trên màn hình
- zephyrnet