Tối ưu hóa hiệu suất giá của suy luận LLM trên GPU NVIDIA bằng cách sử dụng tích hợp Amazon SageMaker với microservice NVIDIA NIM

Được xuất bản lại bởi Plato

Người theo dõi: 0

NVIDIA Anh ta m dịch vụ vi mô bây giờ tích hợp với Amazon SageMaker, cho phép bạn triển khai các mô hình ngôn ngữ lớn (LLM) hàng đầu trong ngành và tối ưu hóa hiệu suất cũng như chi phí của mô hình. Bạn có thể triển khai LLM tiên tiến trong vài phút thay vì vài ngày bằng cách sử dụng các công nghệ như NVIDIA TenorRT, NVIDIA TensorRT-LLMvà Máy chủ suy luận NVIDIA Triton trên các phiên bản tăng tốc NVIDIA do SageMaker lưu trữ.

NIM, một phần của Doanh nghiệp AI của NVIDIA nền tảng phần mềm được liệt kê trên thị trường AWS, là một tập hợp các vi dịch vụ suy luận mang lại sức mạnh của LLM tiên tiến cho các ứng dụng của bạn, cung cấp khả năng xử lý ngôn ngữ tự nhiên (NLP) và hiểu, cho dù bạn đang phát triển chatbot, tóm tắt tài liệu hay triển khai NLP- các ứng dụng được hỗ trợ. Bạn có thể sử dụng các bộ chứa NVIDIA dựng sẵn để lưu trữ các LLM phổ biến được tối ưu hóa cho các GPU NVIDIA cụ thể để triển khai nhanh chóng hoặc sử dụng các công cụ NIM để tạo các bộ chứa của riêng bạn.

Trong bài đăng này, chúng tôi cung cấp phần giới thiệu cấp cao về NIM và chỉ ra cách bạn có thể sử dụng nó với SageMaker.

Giới thiệu về NVIDIA NIM

NIM cung cấp các công cụ được tối ưu hóa và tạo sẵn cho nhiều mô hình suy luận phổ biến. Các dịch vụ vi mô này hỗ trợ nhiều loại LLM, chẳng hạn như Llama 2 (7B, 13B và 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona và Code Llama 70B, sử dụng ngay lập tức bằng cách sử dụng pre- đã xây dựng các công cụ NVIDIA TensorRT được thiết kế riêng cho các GPU NVIDIA cụ thể để có hiệu suất và mức sử dụng tối đa. Các mô hình này được quản lý bằng các siêu tham số tối ưu để mang lại hiệu suất lưu trữ mô hình nhằm triển khai các ứng dụng một cách dễ dàng.

Nếu mô hình của bạn không nằm trong bộ mô hình được quản lý của NVIDIA, NIM sẽ cung cấp các tiện ích thiết yếu như Model Repo Generator, tạo điều kiện thuận lợi cho việc tạo công cụ tăng tốc TensorRT-LLM và thư mục mô hình định dạng NIM thông qua tệp YAML đơn giản. Hơn nữa, phần phụ trợ cộng đồng tích hợp của vLLM cung cấp hỗ trợ cho các mô hình tiên tiến và các tính năng mới nổi có thể chưa được tích hợp liền mạch vào ngăn xếp được tối ưu hóa TensorRT-LLM.

Ngoài việc tạo LLM được tối ưu hóa để suy luận, NIM còn cung cấp các công nghệ lưu trữ tiên tiến như kỹ thuật lập lịch được tối ưu hóa như phân khối trong chuyến bay, có thể chia nhỏ quy trình tạo văn bản tổng thể cho LLM thành nhiều lần lặp trên mô hình. Với tính năng phân nhóm trong khi thực hiện, thay vì đợi toàn bộ lô kết thúc trước khi chuyển sang nhóm yêu cầu tiếp theo, thời gian chạy NIM sẽ ngay lập tức loại bỏ các chuỗi đã hoàn thành khỏi lô. Sau đó, thời gian chạy bắt đầu chạy các yêu cầu mới trong khi các yêu cầu khác vẫn đang được thực hiện, tận dụng tốt nhất các phiên bản điện toán và GPU của bạn.

Triển khai NIM trên SageMaker

NIM tích hợp với SageMaker, cho phép bạn lưu trữ LLM của mình với hiệu suất và tối ưu hóa chi phí đồng thời hưởng lợi từ các khả năng của SageMaker. Khi sử dụng NIM trên SageMaker, bạn có thể sử dụng các khả năng như mở rộng số lượng phiên bản để lưu trữ mô hình của mình, thực hiện triển khai xanh lam/xanh lục và đánh giá khối lượng công việc bằng thử nghiệm bóng—tất cả đều có khả năng quan sát và giám sát tốt nhất trong phân khúc với amazoncloudwatch.

Kết luận

Sử dụng NIM để triển khai LLM được tối ưu hóa có thể là một lựa chọn tuyệt vời cho cả hiệu suất và chi phí. Nó cũng giúp triển khai LLM dễ dàng. Trong tương lai, NIM cũng sẽ cho phép các phương pháp tùy chỉnh Tinh chỉnh tham số hiệu quả (PEFT) như LoRA và P-tuning. NIM cũng có kế hoạch hỗ trợ LLM bằng cách hỗ trợ các chương trình phụ trợ Triton Inference Server, TensorRT-LLM và vLLM.

Chúng tôi khuyến khích bạn tìm hiểu thêm về các dịch vụ vi mô của NVIDIA cũng như cách triển khai LLM của bạn bằng SageMaker và thử những lợi ích có sẵn cho bạn. NIM có sẵn dưới dạng dịch vụ trả phí như một phần của đăng ký phần mềm NVIDIA AI Enterprise có sẵn trên AWS Marketplace.

Trong thời gian tới, chúng tôi sẽ đăng hướng dẫn chuyên sâu về NIM trên SageMaker.

Giới thiệu về tác giả

Tối ưu hóa hiệu suất giá của suy luận LLM trên GPU NVIDIA bằng cách sử dụng tích hợp Amazon SageMaker với NVIDIA NIM Microservices | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái. Công viên James là Kiến trúc sư giải pháp tại Amazon Web Services. Anh làm việc với Amazon.com để thiết kế, xây dựng và triển khai các giải pháp công nghệ trên AWS, đồng thời có mối quan tâm đặc biệt đến trí tuệ nhân tạo và máy học. Trong thời gian rảnh rỗi, anh ấy thích tìm kiếm những nền văn hóa mới, trải nghiệm mới và cập nhật những xu hướng công nghệ mới nhất. Bạn có thể tìm thấy anh ấy trên LinkedIn.

Saurabh Trikande là Giám đốc sản phẩm cấp cao của Amazon SageMaker Inference. Anh ấy đam mê làm việc với khách hàng và được thúc đẩy bởi mục tiêu dân chủ hóa việc học máy. Ông tập trung vào những thách thức cốt lõi liên quan đến việc triển khai các ứng dụng ML phức tạp, mô hình ML nhiều người thuê, tối ưu hóa chi phí và làm cho việc triển khai các mô hình học sâu dễ tiếp cận hơn. Khi rảnh rỗi, Saurabh thích đi bộ đường dài, tìm hiểu về các công nghệ tiên tiến, theo dõi TechCrunch và dành thời gian cho gia đình.

Tối ưu hóa hiệu suất giá của suy luận LLM trên GPU NVIDIA bằng cách sử dụng tích hợp Amazon SageMaker với NVIDIA NIM Microservices | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái. Thanh Lan là Kỹ sư phát triển phần mềm trong AWS. Anh ấy đã làm việc trên một số sản phẩm đầy thử thách ở Amazon, bao gồm các giải pháp suy luận ML hiệu suất cao và hệ thống ghi nhật ký hiệu suất cao. Nhóm của Qing đã khởi chạy thành công mô hình Tỷ tham số đầu tiên trong Quảng cáo Amazon với độ trễ yêu cầu rất thấp. Qing có kiến thức chuyên sâu về tối ưu hóa cơ sở hạ tầng và tăng tốc Deep Learning.

Nikhil Kulkarni là nhà phát triển phần mềm với AWS Machine Learning, tập trung vào việc giúp khối lượng công việc machine learning đạt hiệu suất cao hơn trên đám mây và là người đồng sáng tạo AWS Deep Learning Container để đào tạo và suy luận. Anh ấy đam mê Hệ thống học sâu phân tán. Ngoài công việc, anh ấy thích đọc sách, chơi guitar và làm bánh pizza.

Tối ưu hóa hiệu suất giá của suy luận LLM trên GPU NVIDIA bằng cách sử dụng tích hợp Amazon SageMaker với NVIDIA NIM Microservices | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái. Harish Tummalacherla là Kỹ sư phần mềm thuộc nhóm Hiệu suất học tập sâu tại SageMaker. Anh làm việc về kỹ thuật hiệu suất nhằm phục vụ các mô hình ngôn ngữ lớn một cách hiệu quả trên SageMaker. Khi rảnh rỗi, anh thích chạy bộ, đạp xe và leo núi trượt tuyết.

Eliuth Triana Isaza là Giám đốc quan hệ nhà phát triển tại NVIDIA, trao quyền cho các chuyên gia kỹ thuật AWS, DevOps, Nhà khoa học và AI MLOps của Amazon để làm chủ hệ thống điện toán NVIDIA nhằm tăng tốc và tối ưu hóa các mô hình Generative AI Foundation trải dài từ quản lý dữ liệu, đào tạo GPU, suy luận mô hình và triển khai sản xuất trên các phiên bản GPU AWS . Ngoài ra, Eliuth còn là một vận động viên đua xe đạp leo núi, vận động viên trượt tuyết, quần vợt và chơi bài poker đầy đam mê.

Gia Hồng Lưu là Kiến trúc sư Giải pháp trong nhóm Nhà cung cấp Dịch vụ Đám mây tại NVIDIA. Anh ấy hỗ trợ khách hàng trong việc áp dụng học máy và các giải pháp AI tận dụng tính toán tăng tốc của NVIDIA để giải quyết các thách thức về đào tạo và suy luận của họ. Trong thời gian rảnh rỗi, anh ấy thích xếp giấy origami, các dự án tự làm và chơi bóng rổ.

Kshitiz Gupta là Kiến trúc sư Giải pháp tại NVIDIA. Anh ấy thích giáo dục khách hàng đám mây về các công nghệ GPU AI mà NVIDIA cung cấp và hỗ trợ họ tăng tốc các ứng dụng học máy và học sâu. Ngoài công việc, anh ấy thích chạy, đi bộ đường dài và ngắm động vật hoang dã.

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
nguồn: https://aws.amazon.com/blogs/machine-learning/optimize-price-performance-of-llm-inference-on-nvidia-gpus-using-the-amazon-sagemaker-integration-with-nvidia-nim-microservices/

Dấu thời gian: 18 Tháng ba, 2024

Dấu thời gian: Tháng Sáu 15, 2022

Được xuất bản lại bởi Plato

Vượt qua rào cản ngôn ngữ với Amazon Transcribe, Amazon Translate và Amazon Polly

Đổi mới trải nghiệm dữ liệu: Sử dụng trí tuệ nhân tạo tổng quát và kiến trúc dữ liệu hiện đại để khám phá những hiểu biết sâu sắc | Dịch vụ web của Amazon

Quản lý nhóm và người dùng với Amazon SageMaker và AWS SSO

Chuẩn bị dữ liệu nhanh hơn với các đoạn mã PySpark và Altair trong Amazon SageMaker Data Wrangler

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản