Giảm chi phí suy luận của Amazon SageMaker với AWS Graviton

Được xuất bản lại bởi Plato

Người theo dõi: 0

Amazon SageMaker cung cấp nhiều lựa chọn cơ sở hạ tầng máy học (ML) và các tùy chọn triển khai mô hình để giúp đáp ứng nhu cầu suy luận ML của bạn. Đó là dịch vụ được quản lý hoàn toàn và tích hợp với các công cụ MLOps để bạn có thể làm việc để mở rộng quy mô triển khai mô hình của mình, giảm chi phí suy luận, quản lý mô hình hiệu quả hơn trong sản xuất và giảm gánh nặng vận hành. SageMaker cung cấp nhiều tùy chọn suy luận để bạn có thể chọn tùy chọn phù hợp nhất với khối lượng công việc của mình.

Các thế hệ CPU mới mang đến sự cải thiện hiệu suất đáng kể trong suy luận ML nhờ các hướng dẫn tích hợp chuyên biệt. Trong bài đăng này, chúng tôi tập trung vào cách bạn có thể tận dụng lợi thế của AWS Graviton3-dựa trên Amazon Elastic Compute Cloud (EC2) phiên bản C7g để giúp giảm tới 50% chi phí suy luận so với các phiên bản EC2 tương đương cho suy luận thời gian thực trên Amazon SageMaker. Chúng tôi trình bày cách bạn có thể đánh giá hiệu suất suy luận và chuyển khối lượng công việc ML sang phiên bản AWS Graviton chỉ trong vài bước.

Để đề cập đến phạm vi ứng dụng phổ biến và rộng rãi của khách hàng, trong bài đăng này, chúng tôi thảo luận về hiệu suất suy luận của các khung PyTorch, TensorFlow, XGBoost và scikit-learning. Chúng tôi đề cập đến các tình huống về thị giác máy tính (CV), xử lý ngôn ngữ tự nhiên (NLP), phân loại và xếp hạng cho các mô hình và các phiên bản ml.c6g, ml.c7g, ml.c5 và ml.c6i SageMaker để đo điểm chuẩn.

Kết quả đo điểm chuẩn

Để so sánh, chúng tôi đã sử dụng bốn loại phiên bản khác nhau:

Cả bốn phiên bản đều có 16 vCPU và 32 GiB bộ nhớ.

Trong biểu đồ sau, chúng tôi đã đo lường chi phí trên một triệu lần suy luận cho bốn loại phiên bản. Chúng tôi tiếp tục chuẩn hóa chi phí trên một triệu kết quả suy luận thành phiên bản c5.4xlarge, được đo bằng 1 trên trục Y của biểu đồ. Bạn có thể thấy rằng đối với các mẫu XGBoost, chi phí trên một triệu lần suy luận cho c7g.4xlarge (AWS Graviton3) bằng khoảng 50% của c5.4xlarge và 40% của c6i.4xlarge; đối với các mô hình NLP của PyTorch, mức tiết kiệm chi phí là khoảng 30–50% so với các phiên bản c5 và c6i.4xlarge. Đối với các mô hình và khuôn khổ khác, chúng tôi đo lường được mức tiết kiệm chi phí ít nhất là 30% so với các phiên bản c5 và c6i.4xlarge.

Giảm chi phí suy luận của Amazon SageMaker với AWS Graviton PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Tương tự như biểu đồ so sánh chi phí suy luận trước đó, biểu đồ sau đây cho thấy độ trễ p90 của mô hình đối với bốn loại phiên bản giống nhau. Chúng tôi đã chuẩn hóa thêm kết quả độ trễ cho phiên bản c5.4xlarge, được đo bằng 1 trong trục Y của biểu đồ. Độ trễ suy luận của mô hình c7g.4xlarge (AWS Graviton3) tốt hơn tới 50% so với độ trễ được đo trên c5.4xlarge và c6i.4xlarge.

Giảm chi phí suy luận của Amazon SageMaker với AWS Graviton PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Di chuyển sang các phiên bản AWS Graviton

Để triển khai các mô hình của bạn lên các phiên bản AWS Graviton, bạn có thể sử dụng AWS Deep Learning Container (DLC) hoặc mang theo thùng chứa của riêng bạn tương thích với kiến trúc ARMv8.2.

Quá trình di chuyển (hoặc triển khai mới) các mô hình của bạn sang các phiên bản AWS Graviton rất đơn giản vì AWS không chỉ cung cấp các bộ chứa để lưu trữ các mô hình bằng PyTorch, TensorFlow, scikit-learning và XGBoost, mà các mô hình này còn có tính bất khả tri về mặt kiến trúc. Bạn cũng có thể mang theo thư viện của riêng mình nhưng hãy đảm bảo rằng bộ chứa của bạn được xây dựng với môi trường hỗ trợ kiến trúc ARMv8.2. Để biết thêm thông tin, xem Xây dựng bộ chứa thuật toán của riêng bạn.

Bạn sẽ cần hoàn thành ba bước để triển khai mô hình của mình:

Tạo mô hình SageMaker. Điều này sẽ chứa, trong số các tham số khác, thông tin về vị trí tệp mô hình, vùng chứa sẽ được sử dụng để triển khai và vị trí của tập lệnh suy luận. (Nếu bạn đã triển khai một mô hình hiện có trong phiên bản suy luận được tối ưu hóa bằng điện toán, thì bạn có thể bỏ qua bước này.)
Tạo một cấu hình điểm cuối. Điều này sẽ chứa thông tin về loại phiên bản bạn muốn cho điểm cuối (ví dụ: ml.c7g.xlarge cho AWS Graviton3), tên của mô hình bạn đã tạo ở bước trước và số lượng phiên bản trên mỗi điểm cuối.
Khởi chạy điểm cuối với cấu hình điểm cuối được tạo ở bước trước.

Để được hướng dẫn chi tiết, hãy tham khảo Chạy khối lượng công việc suy luận bằng máy học trên các phiên bản dựa trên AWS Graviton với Amazon SageMaker

phương pháp đo điểm chuẩn

Chúng tôi đã sử dụng Người đề xuất suy luận của Amazon SageMaker để tự động hóa điểm chuẩn hiệu suất trên các phiên bản khác nhau. Dịch vụ này so sánh hiệu suất của mô hình ML của bạn về độ trễ và chi phí trên các phiên bản khác nhau, đồng thời đề xuất phiên bản và cấu hình mang lại hiệu suất tốt nhất với chi phí thấp nhất. Chúng tôi đã thu thập dữ liệu hiệu suất nói trên bằng Trình đề xuất suy luận. Để biết thêm chi tiết, hãy tham khảo Repo GitHub.

Bạn có thể sử dụng mẫu máy tính xách tay để chạy điểm chuẩn và tái tạo kết quả. Chúng tôi đã sử dụng các mô hình sau để đo điểm chuẩn:

Kết luận

AWS đã đo lường mức tiết kiệm chi phí lên tới 50% đối với suy luận mô hình PyTorch, TensorFlow, XGBoost và scikit-learning với các phiên bản EC3 C2g dựa trên AWS Graviton7 so với các phiên bản EC2 tương đương trên Amazon SageMaker. Bạn có thể di chuyển các trường hợp sử dụng suy luận hiện có của mình hoặc triển khai các mô hình ML mới trên AWS Graviton bằng cách làm theo các bước được cung cấp trong bài đăng này. Bạn cũng có thể tham khảo các Hướng dẫn kỹ thuật AWS Graviton, cung cấp danh sách các thư viện được tối ưu hóa và các phương pháp hay nhất sẽ giúp bạn đạt được lợi ích về chi phí với các phiên bản AWS Graviton trên các khối lượng công việc khác nhau.

Nếu bạn thấy các trường hợp sử dụng không đạt được mức tăng hiệu suất tương tự trên AWS Graviton, vui lòng liên hệ với chúng tôi. Chúng tôi sẽ tiếp tục bổ sung thêm nhiều cải tiến về hiệu suất để AWS Graviton trở thành bộ xử lý đa năng hiệu quả và tiết kiệm chi phí nhất dành cho suy luận ML.

Giới thiệu về tác giả

Giảm chi phí suy luận của Amazon SageMaker với AWS Graviton PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái. Sunita Nadampalli là Giám đốc phát triển phần mềm tại AWS. Cô lãnh đạo việc tối ưu hóa hiệu suất phần mềm Graviton cho khối lượng công việc học máy, HPC và đa phương tiện. Cô đam mê phát triển nguồn mở và cung cấp các giải pháp phần mềm tiết kiệm chi phí với Arm SoC.

Giảm chi phí suy luận của Amazon SageMaker với AWS Graviton PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái. Jaymin Desai là Kỹ sư phát triển phần mềm của nhóm Amazon SageMaker Inference. Anh ấy đam mê đưa AI đến với đại chúng và cải thiện khả năng sử dụng của các tài sản AI tiên tiến nhất bằng cách sản xuất chúng thành các tính năng và dịch vụ. Trong thời gian rảnh rỗi, anh ấy thích khám phá âm nhạc và đi du lịch.

Giảm chi phí suy luận của Amazon SageMaker với AWS Graviton PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái. Mike Schneider là Nhà phát triển hệ thống, có trụ sở tại Phoenix AZ. Anh ấy là thành viên của bộ chứa Deep Learning, hỗ trợ nhiều hình ảnh bộ chứa Framework khác nhau, bao gồm Suy luận Graviton. Ông tận tụy với hiệu quả và sự ổn định của cơ sở hạ tầng.

Mohan Gandhi là Kỹ sư phần mềm cao cấp tại AWS. Anh ấy đã làm việc với AWS trong 10 năm qua và đã làm việc trên nhiều dịch vụ AWS khác nhau như EMR, EFA và RDS. Hiện tại, anh ấy đang tập trung vào việc cải thiện Trải nghiệm suy luận của SageMaker. Trong thời gian rảnh rỗi, anh ấy thích đi bộ đường dài và chạy marathon.

Giảm chi phí suy luận của Amazon SageMaker với AWS Graviton PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái. Thanh Vĩ là Chuyên gia Máy học tại Amazon Web Services. Anh ấy đã nhận bằng Tiến sĩ. trong Nghiên cứu hoạt động sau khi anh ta phá vỡ tài khoản tài trợ nghiên cứu của cố vấn và không trao được giải thưởng Nobel mà anh ta đã hứa. Hiện tại, anh ấy đang giúp các khách hàng trong ngành dịch vụ tài chính và bảo hiểm xây dựng các giải pháp máy học trên AWS. Trong thời gian rảnh rỗi, anh ấy thích đọc sách và giảng dạy.

Wayne Toh là Kiến trúc sư giải pháp chuyên gia cho Graviton tại AWS. Ông tập trung vào việc giúp khách hàng áp dụng kiến trúc ARM cho khối lượng công việc bộ chứa quy mô lớn. Trước khi gia nhập AWS, Wayne đã làm việc cho một số nhà cung cấp phần mềm lớn, bao gồm cả IBM và Red Hat.

Lauren Mullennex là Kiến trúc sư Giải pháp có trụ sở tại Denver, CO. Cô ấy làm việc với khách hàng để giúp họ kiến trúc các giải pháp trên AWS. Khi rảnh rỗi, cô thích đi bộ đường dài và nấu các món ăn Hawaii.

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
PlatoAiStream. Thông minh dữ liệu Web3. Kiến thức khuếch đại. Truy cập Tại đây.
Đúc kết tương lai với Adryenn Ashley. Truy cập Tại đây.
Mua và bán cổ phần trong các công ty PRE-IPO với PREIPO®. Truy cập Tại đây.
nguồn: https://aws.amazon.com/blogs/machine-learning/reduce-amazon-sagemaker-inference-cost-with-aws-graviton/

Dấu thời gian: 10 Tháng Năm, 2023

Dấu thời gian: Tháng Mười Một 17, 2022

Bảo vệ người tiêu dùng và thúc đẩy đổi mới – Quy định AI và xây dựng niềm tin vào AI có trách nhiệm

Cụm nguồn:

Học máy AWS

Nút nguồn: 1765573

Dấu thời gian: Tháng Mười Hai 1, 2022

Các khả năng mới đáng kể giúp việc sử dụng Amazon Bedrock để xây dựng và mở rộng quy mô các ứng dụng AI tổng hợp trở nên dễ dàng hơn – đồng thời đạt được kết quả ấn tượng | Dịch vụ web của Amazon

Cụm nguồn:

Học máy AWS

Nút nguồn: 1967437

Dấu thời gian: Tháng Tư 23, 2024

Giảm chi phí suy luận của Amazon SageMaker với AWS Graviton

Được xuất bản lại bởi Plato

Kết quả đo điểm chuẩn

Di chuyển sang các phiên bản AWS Graviton

phương pháp đo điểm chuẩn

Kết luận

Giới thiệu về tác giả

Thêm từ Học máy AWS

Thông báo trình kết nối Salesforce (V2) được cập nhật cho Amazon Kendra

Tăng cường chỉnh sửa nội dung của bạn với Contentful và Amazon Bedrock | Dịch vụ web của Amazon

Cách Patsnap sử dụng suy luận GPT-2 trên Amazon SageMaker với độ trễ và chi phí thấp | Dịch vụ web của Amazon

Xây dựng bộ dữ liệu sẵn sàng cho máy học từ Cửa hàng tính năng ngoại tuyến của Amazon SageMaker bằng Amazon SageMaker Python SDK | Dịch vụ web của Amazon

Tạo dữ liệu tổng hợp cho đường ống thị giác máy tính trên AWS

Xây dựng các mô hình phân loại hình ảnh hiệu suất cao bằng cách sử dụng Amazon SageMaker JumpStart

Bảo vệ người tiêu dùng và thúc đẩy đổi mới – Quy định AI và xây dựng niềm tin vào AI có trách nhiệm

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản