NVIDIA Anh ta mdịch vụ vi mô bây giờ tích hợp với Amazon SageMaker, cho phép bạn triển khai các mô hình ngôn ngữ lớn (LLM) hàng đầu trong ngành và tối ưu hóa hiệu suất cũng như chi phí của mô hình. Bạn có thể triển khai LLM tiên tiến trong vài phút thay vì vài ngày bằng cách sử dụng các công nghệ như NVIDIA TenorRT, NVIDIA TensorRT-LLMvà Máy chủ suy luận NVIDIA Triton trên các phiên bản tăng tốc NVIDIA do SageMaker lưu trữ.
NIM, một phần của Doanh nghiệp AI của NVIDIA nền tảng phần mềm được liệt kê trên thị trường AWS, là một tập hợp các vi dịch vụ suy luận mang lại sức mạnh của LLM tiên tiến cho các ứng dụng của bạn, cung cấp khả năng xử lý ngôn ngữ tự nhiên (NLP) và hiểu, cho dù bạn đang phát triển chatbot, tóm tắt tài liệu hay triển khai NLP- các ứng dụng được hỗ trợ. Bạn có thể sử dụng các bộ chứa NVIDIA dựng sẵn để lưu trữ các LLM phổ biến được tối ưu hóa cho các GPU NVIDIA cụ thể để triển khai nhanh chóng hoặc sử dụng các công cụ NIM để tạo các bộ chứa của riêng bạn.
Trong bài đăng này, chúng tôi cung cấp phần giới thiệu cấp cao về NIM và chỉ ra cách bạn có thể sử dụng nó với SageMaker.
Giới thiệu về NVIDIA NIM
NIM cung cấp các công cụ được tối ưu hóa và tạo sẵn cho nhiều mô hình suy luận phổ biến. Các dịch vụ vi mô này hỗ trợ nhiều loại LLM, chẳng hạn như Llama 2 (7B, 13B và 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona và Code Llama 70B, sử dụng ngay lập tức bằng cách sử dụng pre- đã xây dựng các công cụ NVIDIA TensorRT được thiết kế riêng cho các GPU NVIDIA cụ thể để có hiệu suất và mức sử dụng tối đa. Các mô hình này được quản lý bằng các siêu tham số tối ưu để mang lại hiệu suất lưu trữ mô hình nhằm triển khai các ứng dụng một cách dễ dàng.
Nếu mô hình của bạn không nằm trong bộ mô hình được quản lý của NVIDIA, NIM sẽ cung cấp các tiện ích thiết yếu như Model Repo Generator, tạo điều kiện thuận lợi cho việc tạo công cụ tăng tốc TensorRT-LLM và thư mục mô hình định dạng NIM thông qua tệp YAML đơn giản. Hơn nữa, phần phụ trợ cộng đồng tích hợp của vLLM cung cấp hỗ trợ cho các mô hình tiên tiến và các tính năng mới nổi có thể chưa được tích hợp liền mạch vào ngăn xếp được tối ưu hóa TensorRT-LLM.
Ngoài việc tạo LLM được tối ưu hóa để suy luận, NIM còn cung cấp các công nghệ lưu trữ tiên tiến như kỹ thuật lập lịch được tối ưu hóa như phân khối trong chuyến bay, có thể chia nhỏ quy trình tạo văn bản tổng thể cho LLM thành nhiều lần lặp trên mô hình. Với tính năng phân nhóm trong khi thực hiện, thay vì đợi toàn bộ lô kết thúc trước khi chuyển sang nhóm yêu cầu tiếp theo, thời gian chạy NIM sẽ ngay lập tức loại bỏ các chuỗi đã hoàn thành khỏi lô. Sau đó, thời gian chạy bắt đầu chạy các yêu cầu mới trong khi các yêu cầu khác vẫn đang được thực hiện, tận dụng tốt nhất các phiên bản điện toán và GPU của bạn.
Triển khai NIM trên SageMaker
NIM tích hợp với SageMaker, cho phép bạn lưu trữ LLM của mình với hiệu suất và tối ưu hóa chi phí đồng thời hưởng lợi từ các khả năng của SageMaker. Khi sử dụng NIM trên SageMaker, bạn có thể sử dụng các khả năng như mở rộng số lượng phiên bản để lưu trữ mô hình của mình, thực hiện triển khai xanh lam/xanh lục và đánh giá khối lượng công việc bằng thử nghiệm bóng—tất cả đều có khả năng quan sát và giám sát tốt nhất trong phân khúc với amazoncloudwatch.
Kết luận
Sử dụng NIM để triển khai LLM được tối ưu hóa có thể là một lựa chọn tuyệt vời cho cả hiệu suất và chi phí. Nó cũng giúp triển khai LLM dễ dàng. Trong tương lai, NIM cũng sẽ cho phép các phương pháp tùy chỉnh Tinh chỉnh tham số hiệu quả (PEFT) như LoRA và P-tuning. NIM cũng có kế hoạch hỗ trợ LLM bằng cách hỗ trợ các chương trình phụ trợ Triton Inference Server, TensorRT-LLM và vLLM.
Chúng tôi khuyến khích bạn tìm hiểu thêm về các dịch vụ vi mô của NVIDIA cũng như cách triển khai LLM của bạn bằng SageMaker và thử những lợi ích có sẵn cho bạn. NIM có sẵn dưới dạng dịch vụ trả phí như một phần của đăng ký phần mềm NVIDIA AI Enterprise có sẵn trên AWS Marketplace.
Trong thời gian tới, chúng tôi sẽ đăng hướng dẫn chuyên sâu về NIM trên SageMaker.
Giới thiệu về tác giả
Công viên James là Kiến trúc sư giải pháp tại Amazon Web Services. Anh làm việc với Amazon.com để thiết kế, xây dựng và triển khai các giải pháp công nghệ trên AWS, đồng thời có mối quan tâm đặc biệt đến trí tuệ nhân tạo và máy học. Trong thời gian rảnh rỗi, anh ấy thích tìm kiếm những nền văn hóa mới, trải nghiệm mới và cập nhật những xu hướng công nghệ mới nhất. Bạn có thể tìm thấy anh ấy trên LinkedIn.
Saurabh Trikande là Giám đốc sản phẩm cấp cao của Amazon SageMaker Inference. Anh ấy đam mê làm việc với khách hàng và được thúc đẩy bởi mục tiêu dân chủ hóa việc học máy. Ông tập trung vào những thách thức cốt lõi liên quan đến việc triển khai các ứng dụng ML phức tạp, mô hình ML nhiều người thuê, tối ưu hóa chi phí và làm cho việc triển khai các mô hình học sâu dễ tiếp cận hơn. Khi rảnh rỗi, Saurabh thích đi bộ đường dài, tìm hiểu về các công nghệ tiên tiến, theo dõi TechCrunch và dành thời gian cho gia đình.
Thanh Lan là Kỹ sư phát triển phần mềm trong AWS. Anh ấy đã làm việc trên một số sản phẩm đầy thử thách ở Amazon, bao gồm các giải pháp suy luận ML hiệu suất cao và hệ thống ghi nhật ký hiệu suất cao. Nhóm của Qing đã khởi chạy thành công mô hình Tỷ tham số đầu tiên trong Quảng cáo Amazon với độ trễ yêu cầu rất thấp. Qing có kiến thức chuyên sâu về tối ưu hóa cơ sở hạ tầng và tăng tốc Deep Learning.
Nikhil Kulkarni là nhà phát triển phần mềm với AWS Machine Learning, tập trung vào việc giúp khối lượng công việc machine learning đạt hiệu suất cao hơn trên đám mây và là người đồng sáng tạo AWS Deep Learning Container để đào tạo và suy luận. Anh ấy đam mê Hệ thống học sâu phân tán. Ngoài công việc, anh ấy thích đọc sách, chơi guitar và làm bánh pizza.
Harish Tummalacherla là Kỹ sư phần mềm thuộc nhóm Hiệu suất học tập sâu tại SageMaker. Anh làm việc về kỹ thuật hiệu suất nhằm phục vụ các mô hình ngôn ngữ lớn một cách hiệu quả trên SageMaker. Khi rảnh rỗi, anh thích chạy bộ, đạp xe và leo núi trượt tuyết.
Eliuth Triana Isaza là Giám đốc quan hệ nhà phát triển tại NVIDIA, trao quyền cho các chuyên gia kỹ thuật AWS, DevOps, Nhà khoa học và AI MLOps của Amazon để làm chủ hệ thống điện toán NVIDIA nhằm tăng tốc và tối ưu hóa các mô hình Generative AI Foundation trải dài từ quản lý dữ liệu, đào tạo GPU, suy luận mô hình và triển khai sản xuất trên các phiên bản GPU AWS . Ngoài ra, Eliuth còn là một vận động viên đua xe đạp leo núi, vận động viên trượt tuyết, quần vợt và chơi bài poker đầy đam mê.
Gia Hồng Lưu là Kiến trúc sư Giải pháp trong nhóm Nhà cung cấp Dịch vụ Đám mây tại NVIDIA. Anh ấy hỗ trợ khách hàng trong việc áp dụng học máy và các giải pháp AI tận dụng tính toán tăng tốc của NVIDIA để giải quyết các thách thức về đào tạo và suy luận của họ. Trong thời gian rảnh rỗi, anh ấy thích xếp giấy origami, các dự án tự làm và chơi bóng rổ.
Kshitiz Gupta là Kiến trúc sư Giải pháp tại NVIDIA. Anh ấy thích giáo dục khách hàng đám mây về các công nghệ GPU AI mà NVIDIA cung cấp và hỗ trợ họ tăng tốc các ứng dụng học máy và học sâu. Ngoài công việc, anh ấy thích chạy, đi bộ đường dài và ngắm động vật hoang dã.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/machine-learning/optimize-price-performance-of-llm-inference-on-nvidia-gpus-using-the-amazon-sagemaker-integration-with-nvidia-nim-microservices/
- : có
- :là
- :không phải
- $ LÊN
- 100
- 121
- 7
- a
- Giới thiệu
- tăng tốc
- tăng tốc
- tăng tốc
- có thể truy cập
- Ngoài ra
- địa chỉ
- Nhận nuôi
- tiên tiến
- Quảng cáo
- AI
- cho phép
- Cho phép
- Ngoài ra
- đàn bà gan dạ
- Amazon SageMaker
- Amazon Web Services
- Amazon.com
- an
- và
- các ứng dụng
- LÀ
- AS
- trợ giúp
- hỗ trợ
- At
- có sẵn
- AWS
- Học máy AWS
- Backend
- phụ trợ
- Bóng rổ
- trạm trộn
- BE
- được
- trước
- bắt đầu
- hưởng lợi
- Lợi ích
- BEST
- Sách
- cả hai
- Hộp
- Nghỉ giải lao
- mang lại
- xây dựng
- by
- CAN
- khả năng
- thách thức
- thách thức
- chatbot
- khách hàng
- đám mây
- mã
- COM
- cộng đồng
- phức tạp
- Tính
- máy tính
- Container
- Trung tâm
- Phí Tổn
- tạo
- Tạo
- tạo
- các nền văn hóa
- lưu trữ
- sự giám tuyển
- khách hàng
- tùy biến
- tiên tiến
- dữ liệu
- Ngày
- Ngày
- sâu
- học kĩ càng
- Dân chủ hóa
- triển khai
- triển khai
- triển khai
- triển khai
- Thiết kế
- Nhà phát triển
- phát triển
- Phát triển
- thư mục
- phân phối
- Tự làm
- tài liệu
- xuống
- dễ dàng
- giáo dục
- hiệu quả
- nỗ lực
- mới nổi
- nâng cao vị thế
- khuyến khích
- Động cơ
- ky sư
- Kỹ Sư
- Động cơ
- Doanh nghiệp
- phần mềm doanh nghiệp
- thiết yếu
- đánh giá
- Kinh nghiệm
- các chuyên gia
- tạo điều kiện
- gia đình
- Tính năng
- Tập tin
- Tìm kiếm
- hoàn thành
- Tên
- chuyến bay
- tập trung
- tập trung
- tiếp theo
- Trong
- Nền tảng
- từ
- Hơn nữa
- tương lai
- thế hệ
- thế hệ
- Trí tuệ nhân tạo
- máy phát điện
- mục tiêu
- GPU
- GPU
- tuyệt vời
- hướng dẫn
- Có
- he
- giúp
- Cao
- cấp độ cao
- anh ta
- của mình
- chủ nhà
- tổ chức
- lưu trữ
- Độ đáng tin của
- Hướng dẫn
- http
- HTTPS
- ngay
- thực hiện
- in
- sâu
- Bao gồm
- đầu ngành
- Cơ sở hạ tầng
- sáng tạo
- công nghệ tiên tiến
- thay vì
- tích hợp
- tích hợp
- Tích hợp
- hội nhập
- quan tâm
- trong
- Giới thiệu
- IT
- sự lặp lại
- jpeg
- jpg
- kiến thức
- Ngôn ngữ
- lớn
- Độ trễ
- mới nhất
- phát động
- LEARN
- học tập
- Tỉ lệ đòn bẩy
- Lượt thích
- Liệt kê
- Loài đà mã ở nam mỹ
- LLM
- khai thác gỗ
- Thấp
- máy
- học máy
- làm cho
- Làm
- giám đốc
- chủ
- tối đa
- Có thể..
- phương pháp
- microservices
- Phút
- ML
- MLOps
- kiểu mẫu
- mô hình
- giám sát
- chi tiết
- động cơ
- núi
- di chuyển
- nhiều
- Tự nhiên
- Xử lý ngôn ngữ tự nhiên
- Gần
- Mới
- tiếp theo
- nlp
- tại
- con số
- Nvidia
- of
- cung cấp
- cung cấp
- Cung cấp
- on
- tối ưu
- tối ưu hóa
- tối ưu hóa
- Tối ưu hóa
- tối ưu hóa
- tối ưu hóa
- Tùy chọn
- or
- Nền tảng khác
- ra
- bên ngoài
- tổng thể
- riêng
- thanh toán
- một phần
- riêng
- đam mê
- hiệu suất
- biểu diễn
- Bánh Pizza
- kế hoạch
- nền tảng
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- máy nghe nhạc
- chơi
- poker.
- Phổ biến
- Bài đăng
- quyền lực
- quá trình
- xử lý
- Sản phẩm
- giám đốc sản xuất
- Sản lượng
- Sản phẩm
- dự án
- cho
- nhà cung cấp dịch vụ
- cung cấp
- cung cấp
- Nhanh chóng
- hơn
- Reading
- liên quan
- quan hệ
- yêu cầu
- cần phải
- chạy
- thời gian chạy
- nhà làm hiền triết
- Suy luận của SageMaker
- mở rộng quy mô
- lập kế hoạch
- các nhà khoa học
- liền mạch
- tìm kiếm
- cao cấp
- máy chủ
- dịch vụ
- Nhà cung cấp dịch vụ
- DỊCH VỤ
- phục vụ
- định
- một số
- Bóng tối
- hiển thị
- Phần mềm
- phát triển phần mềm
- Kỹ sư phần mềm
- giải pháp
- Giải pháp
- Vôn
- riêng
- Chi
- ngăn xếp
- nhà nước-of-the-art
- ở lại
- Vẫn còn
- đơn giản
- đăng ký
- Thành công
- như vậy
- hỗ trợ
- Hỗ trợ
- hệ thống
- hệ thống
- phù hợp
- nhóm
- TechCrunch
- Kỹ thuật
- kỹ thuật
- Công nghệ
- Công nghệ
- quần vợt
- văn bản
- hơn
- việc này
- Sản phẩm
- Tương lai
- cung cấp their dịch
- Them
- sau đó
- Kia là
- điều này
- Thông qua
- thời gian
- đến
- công cụ
- Hội thảo
- Xu hướng
- Triton
- thử
- sự hiểu biết
- sử dụng
- sử dụng
- tiện ích
- nhiều
- rất
- Đợi
- xem
- we
- web
- các dịch vụ web
- khi nào
- liệu
- cái nào
- trong khi
- toàn bộ
- sẽ
- với
- Công việc
- đang làm việc
- công trinh
- khoai mỡ
- Bạn
- trên màn hình
- zephyrnet