Các mẫu thiết kế để suy luận nối tiếp trên Amazon SageMaker

Được xuất bản lại bởi Plato

Người theo dõi: 0

Khi học máy (ML) trở thành xu hướng chủ đạo và được áp dụng rộng rãi hơn, các ứng dụng hỗ trợ ML ngày càng trở nên phổ biến để giải quyết một loạt các vấn đề kinh doanh phức tạp. Giải pháp cho những vấn đề kinh doanh phức tạp này thường yêu cầu sử dụng nhiều mô hình ML. Các mô hình này có thể được kết hợp tuần tự để thực hiện các nhiệm vụ khác nhau, chẳng hạn như tiền xử lý, chuyển đổi dữ liệu, lựa chọn mô hình, tạo suy luận, hợp nhất suy luận và xử lý hậu kỳ. Các tổ chức cần các tùy chọn linh hoạt để sắp xếp các quy trình công việc ML phức tạp này. Quy trình suy luận nối tiếp là một trong những mẫu thiết kế như vậy để sắp xếp các quy trình công việc này thành một loạt các bước, trong đó mỗi bước sẽ làm phong phú hoặc xử lý thêm đầu ra do các bước trước đó tạo ra và chuyển đầu ra sang bước tiếp theo trong quy trình.

Ngoài ra, các quy trình suy luận nối tiếp này phải cung cấp những thông tin sau:

Triển khai linh hoạt và tùy chỉnh (phụ thuộc, thuật toán, logic nghiệp vụ, v.v.)
Có thể lặp lại và nhất quán trong quá trình triển khai sản xuất
Nâng vật nặng không phân biệt bằng cách giảm thiểu quản lý cơ sở hạ tầng

Trong bài đăng này, chúng ta xem xét một số trường hợp sử dụng phổ biến cho quy trình suy luận nối tiếp và xem qua một số tùy chọn triển khai cho từng trường hợp sử dụng này bằng cách sử dụng Amazon SageMaker. Chúng tôi cũng thảo luận về những cân nhắc cho từng phương án triển khai này.

Bảng sau đây tóm tắt các trường hợp sử dụng khác nhau cho suy luận nối tiếp, các cân nhắc triển khai và các tùy chọn. Những điều này được thảo luận trong bài viết này.

Trường hợp sử dụng	Mô tả trường hợp sử dụng	Cân nhắc chính	Độ phức tạp thực hiện tổng thể	Các tùy chọn triển khai được đề xuất	Các tạo phẩm mã mẫu và sổ ghi chép
Đường dẫn suy luận nối tiếp (bao gồm các bước tiền xử lý và hậu xử lý)	Quy trình suy luận cần xử lý trước dữ liệu đến trước khi gọi một mô hình đã được đào tạo để tạo ra các suy luận, sau đó xử lý các suy luận được tạo ra sau đó để các ứng dụng hạ nguồn có thể dễ dàng sử dụng chúng	Dễ thực hiện	Thấp	Vùng chứa suy luận sử dụng Bộ công cụ suy luận SageMaker	Triển khai mô hình PyTorch đã được đào tạo
Đường dẫn suy luận nối tiếp (bao gồm các bước tiền xử lý và hậu xử lý)	Quy trình suy luận cần xử lý trước dữ liệu đến trước khi gọi một mô hình đã được đào tạo để tạo ra các suy luận, sau đó xử lý các suy luận được tạo ra sau đó để các ứng dụng hạ nguồn có thể dễ dàng sử dụng chúng	Tách rời, triển khai và nâng cấp đơn giản	Trung bình	Đường dẫn suy luận SageMaker	Đường ống suy luận với Bộ chứa tùy chỉnh và xgBoost
Nhóm mô hình nối tiếp	Đường dẫn suy luận cần lưu trữ và sắp xếp nhiều mô hình một cách tuần tự, để mỗi mô hình tăng cường suy luận do mô hình trước đó tạo ra, trước khi tạo ra suy luận cuối cùng	Tách rời, triển khai và nâng cấp đơn giản, linh hoạt trong việc lựa chọn khung mô hình	Trung bình	Đường dẫn suy luận SageMaker	Đường dẫn suy luận với Scikit-learn và Linear Learner
Đường dẫn suy luận nối tiếp (với lệnh gọi mô hình được nhắm mục tiêu từ một nhóm)	Đường dẫn suy luận cần gọi một mô hình tùy chỉnh cụ thể từ một nhóm các mô hình đã triển khai, dựa trên đặc điểm yêu cầu hoặc để tối ưu hóa chi phí, ngoài các nhiệm vụ tiền xử lý và hậu xử lý	Tối ưu hóa chi phí và tùy chỉnh	Cao	Quy trình suy luận SageMaker với điểm cuối đa mô hình (MME)	Điểm cuối đa mô hình của Amazon SageMaker sử dụng Trình học tuyến tính

Trong các phần sau, chúng ta sẽ thảo luận chi tiết hơn về từng trường hợp sử dụng.

Đường dẫn suy luận nối tiếp sử dụng vùng chứa suy luận

Các trường hợp sử dụng quy trình suy luận nối tiếp có yêu cầu xử lý trước dữ liệu đến trước khi gọi mô hình ML được đào tạo trước để tạo suy luận. Ngoài ra, trong một số trường hợp, các suy luận được tạo ra có thể cần phải được xử lý thêm để các ứng dụng tiếp theo có thể dễ dàng sử dụng chúng. Đây là trường hợp phổ biến cho các trường hợp sử dụng trong đó nguồn dữ liệu phát trực tuyến cần được xử lý trong thời gian thực trước khi có thể lắp mô hình vào đó. Tuy nhiên, trường hợp sử dụng này cũng có thể biểu hiện cho suy luận hàng loạt.

SageMaker cung cấp tùy chọn để tùy chỉnh các vùng chứa suy luận và sử dụng chúng để xây dựng quy trình suy luận nối tiếp. Các thùng chứa suy luận sử dụng Bộ công cụ suy luận SageMaker và được xây dựng trên Máy chủ đa mô hình SageMaker (MMS), cung cấp một cơ chế linh hoạt để phục vụ các mô hình ML. Sơ đồ sau đây minh họa mẫu tham chiếu về cách triển khai quy trình suy luận nối tiếp bằng cách sử dụng vùng chứa suy luận.

SageMaker MMS yêu cầu tập lệnh Python triển khai các chức năng sau để tải mô hình, xử lý trước dữ liệu đầu vào, nhận dự đoán từ mô hình và xử lý hậu kỳ dữ liệu đầu ra:

input_fn () – Chịu trách nhiệm deserializing và tiền xử lý dữ liệu đầu vào
model_fn () – Chịu trách nhiệm tải mô hình được đào tạo từ các tạo phẩm trong Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3)
dự đoán_fn () – Chịu trách nhiệm đưa ra các suy luận từ mô hình
đầu ra_fn() – Chịu trách nhiệm tuần tự hóa và xử lý hậu kỳ dữ liệu đầu ra (suy luận)

Để biết các bước chi tiết để tùy chỉnh vùng chứa suy luận, hãy tham khảo Điều chỉnh vùng chứa suy luận của riêng bạn.

Bộ chứa suy luận là một mẫu thiết kế lý tưởng cho các trường hợp sử dụng đường dẫn suy luận nối tiếp với những cân nhắc chính sau:

Tính gắn kết cao – Logic xử lý và mô hình tương ứng thúc đẩy chức năng kinh doanh đơn lẻ và cần được đặt cùng vị trí
Độ trễ tổng thể thấp – Khoảng thời gian trôi qua kể từ khi đưa ra yêu cầu suy luận cho đến khi nhận được phản hồi

Trong một đường dẫn suy luận nối tiếp, logic xử lý và mô hình được gói gọn trong cùng một vùng chứa duy nhất, vì vậy phần lớn lệnh gọi vẫn nằm trong vùng chứa đó. Điều này giúp giảm tổng số bước nhảy, dẫn đến độ trễ tổng thể và khả năng phản hồi tổng thể của đường dẫn tốt hơn.

Ngoài ra, đối với các trường hợp sử dụng mà tính dễ triển khai là một tiêu chí quan trọng, các vùng chứa suy luận có thể trợ giúp, với các bước xử lý khác nhau của quy trình được đặt cùng trong cùng một vùng chứa.

Đường dẫn suy luận nối tiếp sử dụng đường dẫn suy luận SageMaker

Một biến thể khác của trường hợp sử dụng đường dẫn suy luận nối tiếp yêu cầu tách rời rõ ràng hơn giữa các bước khác nhau trong đường ống (chẳng hạn như tiền xử lý dữ liệu, tạo suy luận, xử lý hậu kỳ dữ liệu cũng như định dạng và tuần tự hóa). Điều này có thể là do nhiều lý do:

Tách - Các bước khác nhau của đường ống có mục đích được xác định rõ ràng và cần được chạy trên các thùng chứa riêng biệt do các phụ thuộc cơ bản liên quan. Điều này cũng giúp giữ cho đường ống có cấu trúc tốt.
khung - Các bước khác nhau của đường ống sử dụng các khuôn khổ phù hợp với mục đích cụ thể (chẳng hạn như scikit hoặc Spark ML) và do đó cần phải chạy trên các thùng chứa riêng biệt.
Cách ly tài nguyên - Các bước khác nhau của đường ống có yêu cầu tiêu thụ tài nguyên khác nhau và do đó cần được chạy trên các thùng chứa riêng biệt để kiểm soát và linh hoạt hơn.

Hơn nữa, đối với các quy trình suy luận nối tiếp phức tạp hơn một chút, có thể cần nhiều bước để xử lý yêu cầu và tạo ra suy luận. Do đó, từ quan điểm vận hành, có thể có ích nếu lưu trữ các bước này trên các vùng chứa riêng biệt để cách ly chức năng tốt hơn và tạo điều kiện nâng cấp và cải tiến dễ dàng hơn (thay đổi một bước mà không ảnh hưởng đến các mô hình hoặc các bước xử lý khác).

Nếu trường hợp sử dụng của bạn phù hợp với một số cân nhắc này, Đường dẫn suy luận SageMaker cung cấp một tùy chọn dễ dàng và linh hoạt để xây dựng một đường dẫn suy luận nối tiếp. Sơ đồ sau đây minh họa mẫu tham chiếu về cách triển khai quy trình suy luận nối tiếp bằng cách sử dụng nhiều bước được lưu trữ trên các vùng chứa chuyên dụng bằng cách sử dụng quy trình suy luận SageMaker.

ml9154-inference-pipeline

Quy trình suy luận SageMaker bao gồm một chuỗi tuyến tính gồm 2–15 vùng chứa xử lý các yêu cầu suy luận về dữ liệu. Quy trình suy luận cung cấp tùy chọn sử dụng các thuật toán tích hợp sẵn của SageMaker đã được đào tạo trước hoặc các thuật toán tùy chỉnh được đóng gói trong vùng chứa Docker. Các vùng chứa được lưu trữ trên cùng một phiên bản cơ bản, giúp giảm độ trễ tổng thể và giảm thiểu chi phí.

Đoạn mã sau đây cho thấy cách kết hợp nhiều bước xử lý và mô hình để tạo ra một quy trình suy luận nối tiếp.

Chúng tôi bắt đầu bằng cách xây dựng và chỉ định các mô hình dựa trên Spark ML và XGBoost mà chúng tôi dự định sử dụng như một phần của quy trình:

from sagemaker.model import Model
from sagemaker.pipeline_model import PipelineModel
from sagemaker.sparkml.model import SparkMLModel
sparkml_data = 's3://{}/{}/{}'.format(s3_model_bucket, s3_model_key_prefix, 'model.tar.gz')
sparkml_model = SparkMLModel(model_data=sparkml_data)
xgb_model = Model(model_data=xgb_model.model_data, image=training_image)

Các mô hình sau đó được sắp xếp tuần tự trong định nghĩa mô hình đường ống:

model_name = 'serial-inference-' + timestamp_prefix
endpoint_name = 'serial-inference-ep-' + timestamp_prefix
sm_model = PipelineModel(name=model_name, role=role, models=[sparkml_model, xgb_model])

Sau đó, quy trình suy luận được triển khai phía sau điểm cuối để suy luận theo thời gian thực bằng cách chỉ định loại và số lượng phiên bản ML máy chủ:

sm_model.deploy(initial_instance_count=1, instance_type='ml.c4.xlarge', endpoint_name=endpoint_name)

Toàn bộ quy trình suy luận được tập hợp có thể được coi là mô hình SageMaker mà bạn có thể sử dụng để đưa ra dự đoán theo thời gian thực hoặc xử lý các phép biến đổi hàng loạt một cách trực tiếp mà không cần bất kỳ quá trình tiền xử lý bên ngoài nào. Trong mô hình đường dẫn suy luận, SageMaker xử lý các lệnh gọi dưới dạng một chuỗi yêu cầu HTTP bắt nguồn từ một ứng dụng bên ngoài. Vùng chứa đầu tiên trong đường ống xử lý yêu cầu ban đầu, thực hiện một số xử lý rồi gửi phản hồi trung gian dưới dạng yêu cầu đến vùng chứa thứ hai trong đường ống. Điều này xảy ra đối với từng vùng chứa trong quy trình và cuối cùng trả về phản hồi cuối cùng cho ứng dụng khách đang gọi.

Quy trình suy luận SageMaker được quản lý hoàn toàn. Khi quy trình được triển khai, SageMaker sẽ cài đặt và chạy tất cả các vùng chứa được xác định trên mỗi Đám mây điện toán đàn hồi Amazon Các phiên bản (Amazon EC2) được cung cấp như một phần của công việc chuyển đổi hàng loạt hoặc điểm cuối. Hơn nữa, do các vùng chứa được đặt cùng vị trí và được lưu trữ trên cùng một phiên bản EC2 nên độ trễ chung của quy trình sẽ giảm xuống.

Tổ hợp mô hình nối tiếp sử dụng quy trình suy luận SageMaker

Mô hình tập hợp là một cách tiếp cận trong ML trong đó nhiều mô hình ML được kết hợp và sử dụng như một phần của quy trình suy luận để tạo ra các suy luận cuối cùng. Động lực cho các mô hình tập hợp có thể bao gồm việc cải thiện độ chính xác, giảm độ nhạy của mô hình đối với các tính năng đầu vào cụ thể và giảm sai lệch mô hình đơn lẻ, cùng nhiều yếu tố khác. Trong bài đăng này, chúng tôi tập trung vào các trường hợp sử dụng liên quan đến tập hợp mô hình nối tiếp, trong đó nhiều mô hình ML được kết hợp tuần tự như một phần của quy trình suy luận nối tiếp.

Hãy xem xét một ví dụ cụ thể liên quan đến một nhóm mô hình nối tiếp trong đó chúng ta cần nhóm các hình ảnh đã tải lên của người dùng dựa trên các chủ đề hoặc chủ đề nhất định. Quy trình này có thể bao gồm ba mô hình ML:

mẫu 1 – Chấp nhận hình ảnh làm đầu vào và đánh giá chất lượng hình ảnh dựa trên độ phân giải, hướng hình ảnh, v.v. Sau đó, mô hình này cố gắng nâng cao chất lượng hình ảnh và gửi các hình ảnh đã xử lý đáp ứng ngưỡng chất lượng nhất định đến mô hình tiếp theo (Mô hình 2).
mẫu 2 – Chấp nhận hình ảnh được xác thực thông qua Mô hình 1 và thực hiện nhận dạng hình ảnh để xác định các đối tượng, địa điểm, con người, văn bản cũng như các hành động và khái niệm tùy chỉnh khác trong hình ảnh. Đầu ra từ Mô hình 2 chứa các đối tượng được xác định sẽ được gửi đến Mô hình 3.
mẫu 3 – Chấp nhận đầu ra từ Mô hình 2 và thực hiện các tác vụ xử lý ngôn ngữ tự nhiên (NLP) như lập mô hình chủ đề để nhóm các hình ảnh lại với nhau dựa trên chủ đề. Ví dụ: hình ảnh có thể được nhóm dựa trên vị trí hoặc những người được xác định. Đầu ra (nhóm) được gửi trở lại ứng dụng khách.

Sơ đồ sau đây minh họa mẫu tham chiếu về cách triển khai nhiều mô hình ML được lưu trữ trên một tập hợp mô hình nối tiếp bằng cách sử dụng quy trình suy luận SageMaker.

ml9154-model-tập hợp

Như đã thảo luận trước đó, quy trình suy luận SageMaker được quản lý, cho phép bạn tập trung vào việc lựa chọn và phát triển mô hình ML, đồng thời giảm bớt gánh nặng không phân biệt liên quan đến việc xây dựng quy trình tập hợp nối tiếp.

Ngoài ra, một số cân nhắc đã thảo luận trước đó xung quanh việc tách rời, lựa chọn thuật toán và khung để phát triển và triển khai mô hình cũng có liên quan ở đây. Ví dụ: vì mỗi mô hình được lưu trữ trên một vùng chứa riêng biệt nên bạn có thể linh hoạt trong việc chọn khung ML phù hợp nhất với từng mô hình và trường hợp sử dụng tổng thể của mình. Hơn nữa, từ quan điểm tách rời và vận hành, bạn có thể tiếp tục nâng cấp hoặc sửa đổi các bước riêng lẻ dễ dàng hơn nhiều mà không ảnh hưởng đến các mô hình khác.

Đường dẫn suy luận SageMaker cũng được tích hợp với Đăng ký mô hình SageMaker để lập danh mục mô hình, tạo phiên bản, quản lý siêu dữ liệu và triển khai có quản lý vào môi trường sản xuất để hỗ trợ các phương pháp vận hành tốt nhất nhất quán. Đường dẫn suy luận SageMaker cũng được tích hợp với amazoncloudwatch để cho phép giám sát các mô hình nhiều vùng chứa trong đường ống suy luận. Bạn cũng có thể có được tầm nhìn vào số liệu thời gian thực để hiểu rõ hơn về các lệnh gọi và độ trễ cho từng vùng chứa trong quy trình, giúp khắc phục sự cố và tối ưu hóa tài nguyên.

Đường dẫn suy luận nối tiếp (với lệnh gọi mô hình được nhắm mục tiêu từ một nhóm) bằng cách sử dụng đường dẫn suy luận SageMaker

Điểm cuối đa mô hình của SageMaker (MME) cung cấp giải pháp tiết kiệm chi phí để triển khai một số lượng lớn mô hình ML đằng sau một điểm cuối duy nhất. Động lực sử dụng điểm cuối nhiều mô hình có thể bao gồm việc yêu cầu một mô hình tùy chỉnh cụ thể dựa trên các đặc điểm yêu cầu (chẳng hạn như nguồn gốc, vị trí địa lý, cá nhân hóa người dùng, v.v.) hoặc đơn giản là lưu trữ nhiều mô hình phía sau cùng một điểm cuối để đạt được tối ưu hóa chi phí.

Khi bạn triển khai nhiều mô hình trên một điểm cuối hỗ trợ nhiều mô hình, tất cả các mô hình sẽ chia sẻ tài nguyên điện toán và vùng chứa mô hình. Đường dẫn suy luận SageMaker có thể được triển khai trên MME, trong đó một trong các vùng chứa trong đường dẫn có thể phân phát động các yêu cầu dựa trên mô hình cụ thể đang được gọi. Từ góc độ quy trình, các mô hình có các yêu cầu tiền xử lý giống hệt nhau và mong đợi bộ tính năng giống nhau nhưng được đào tạo để điều chỉnh cho phù hợp với một hành vi cụ thể. Sơ đồ sau đây minh họa mẫu tham chiếu về cách hoạt động của đường ống tích hợp này.

ml9154-mme

Với MME, yêu cầu suy luận bắt nguồn từ ứng dụng khách phải chỉ định mô hình đích cần được gọi. Vùng chứa đầu tiên trong đường dẫn xử lý yêu cầu ban đầu, thực hiện một số xử lý rồi gửi phản hồi trung gian dưới dạng yêu cầu đến vùng chứa thứ hai trong đường ống, nơi lưu trữ nhiều mô hình. Dựa trên mô hình đích được chỉ định trong yêu cầu suy luận, mô hình này được gọi để tạo ra suy luận. Suy luận được tạo sẽ được gửi đến vùng chứa tiếp theo trong quy trình để xử lý thêm. Điều này xảy ra với từng vùng chứa tiếp theo trong quy trình và cuối cùng SageMaker trả về phản hồi cuối cùng cho ứng dụng khách đang gọi.

Nhiều thành phần mô hình được lưu giữ trong bộ chứa S3. Khi một mô hình cụ thể được gọi, SageMaker sẽ tự động tải mô hình đó vào vùng chứa lưu trữ điểm cuối. Nếu mô hình đã được tải vào bộ nhớ của vùng chứa thì việc gọi sẽ nhanh hơn vì SageMaker không cần tải xuống mô hình từ Amazon S3. Nếu mức sử dụng bộ nhớ phiên bản cao và một mô hình mới được gọi và do đó cần được tải, thì các mô hình không sử dụng sẽ được tải khỏi bộ nhớ. Tuy nhiên, các mô hình chưa được tải vẫn nằm trong ổ lưu trữ của phiên bản và có thể được tải lại vào bộ nhớ của vùng chứa sau đó mà không cần tải xuống lại từ vùng lưu trữ S3.

Một trong những điều cần cân nhắc chính khi sử dụng MME là hiểu hành vi độ trễ của lệnh gọi mô hình. Như đã thảo luận trước đó, các mô hình được tải động vào bộ nhớ của vùng chứa của phiên bản lưu trữ điểm cuối khi được gọi. Do đó, việc gọi mô hình có thể mất nhiều thời gian hơn khi nó được gọi lần đầu tiên. Khi mô hình đã có trong bộ nhớ của vùng chứa phiên bản, các lệnh gọi tiếp theo sẽ nhanh hơn. Nếu mức sử dụng bộ nhớ phiên bản cao và cần tải một mô hình mới thì các mô hình không sử dụng sẽ bị hủy tải. Nếu dung lượng lưu trữ của phiên bản đầy, các mô hình không sử dụng sẽ bị xóa khỏi dung lượng lưu trữ. SageMaker quản lý hoàn toàn việc tải và dỡ mô hình mà bạn không cần phải thực hiện bất kỳ hành động cụ thể nào. Tuy nhiên, điều quan trọng là phải hiểu hành vi này vì nó có tác động đến độ trễ gọi mô hình và do đó độ trễ tổng thể từ đầu đến cuối.

Tùy chọn lưu trữ đường ống

SageMaker cung cấp nhiều loại thể hiện các tùy chọn để chọn để triển khai các mô hình ML và xây dựng quy trình suy luận, dựa trên yêu cầu về trường hợp sử dụng, thông lượng và chi phí của bạn. Ví dụ: bạn có thể chọn các phiên bản được tối ưu hóa CPU hoặc GPU để xây dựng quy trình suy luận nối tiếp, trên một vùng chứa hoặc trên nhiều vùng chứa. Tuy nhiên, đôi khi có những yêu cầu cần có sự linh hoạt và hỗ trợ để chạy các mô hình trên các phiên bản dựa trên CPU hoặc GPU trong cùng một quy trình để có thêm tính linh hoạt.

Giờ đây, bạn có thể sử dụng Máy chủ suy luận NVIDIA Triton để cung cấp các mô hình suy luận trên SageMaker cho các yêu cầu điện toán không đồng nhất. Thủ tục thanh toán Triển khai AI nhanh chóng và có thể mở rộng với Máy chủ suy luận NVIDIA Triton trong Amazon SageMaker để biết thêm chi tiết.

Kết luận

Khi các tổ chức khám phá và xây dựng các giải pháp mới do ML cung cấp, các công cụ cần thiết để điều phối các quy trình này phải đủ linh hoạt để hỗ trợ dựa trên trường hợp sử dụng nhất định, đồng thời đơn giản hóa và giảm chi phí hoạt động liên tục. SageMaker cung cấp nhiều tùy chọn để thiết kế và xây dựng các quy trình suy luận nối tiếp này, dựa trên yêu cầu của bạn.

Chúng tôi rất mong nhận được phản hồi từ bạn về những trường hợp sử dụng mà bạn đang xây dựng bằng cách sử dụng quy trình suy luận nối tiếp. Nếu bạn có câu hỏi hoặc phản hồi, xin vui lòng chia sẻ chúng trong phần bình luận.

Giới thiệu về tác giả

Các mẫu thiết kế cho suy luận nối tiếp trên Amazon SageMaker PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái. La Mã là Kiến trúc sư giải pháp cấp cao tại Phòng thí nghiệm dữ liệu AWS, giúp khách hàng AWS thiết kế và xây dựng các giải pháp AI/ML. Trước khi gia nhập AWS, Rahul đã có nhiều năm làm việc trong lĩnh vực tài chính và bảo hiểm, giúp khách hàng xây dựng nền tảng dữ liệu và phân tích.

Các mẫu thiết kế cho suy luận nối tiếp trên Amazon SageMaker PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái. Anand Prakash là Kiến trúc sư giải pháp cấp cao tại Phòng thí nghiệm dữ liệu AWS. Anand tập trung vào việc giúp khách hàng thiết kế và xây dựng các giải pháp AI/ML, phân tích dữ liệu và cơ sở dữ liệu để đẩy nhanh quá trình sản xuất của họ.

Các mẫu thiết kế cho suy luận nối tiếp trên Amazon SageMaker PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái. Dhawal Patel là một Kiến trúc sư chính về Học máy tại AWS. Ông đã làm việc với các tổ chức khác nhau, từ các doanh nghiệp lớn đến các công ty khởi nghiệp quy mô trung bình về các vấn đề liên quan đến máy tính phân tán và Trí tuệ nhân tạo. Ông tập trung vào Học sâu bao gồm các lĩnh vực NLP và Thị giác máy tính. Anh ấy giúp khách hàng đạt được khả năng suy luận mô hình hiệu suất cao trên SageMaker.

Các mẫu thiết kế cho suy luận nối tiếp trên Amazon SageMaker PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái. Saurabh Trikande là Giám đốc sản phẩm cấp cao của Amazon SageMaker Inference. Anh ấy đam mê làm việc với khách hàng và làm cho việc học máy trở nên dễ tiếp cận hơn. Khi rảnh rỗi, Saurabh thích đi bộ đường dài, tìm hiểu về các công nghệ tiên tiến, theo dõi TechCrunch và dành thời gian cho gia đình.

Dấu thời gian: 19 Tháng Mười 22 Tháng Mười

Dấu thời gian: Tháng Bảy 19, 2023

Các mẫu thiết kế cho suy luận nối tiếp trên Amazon SageMaker

Được xuất bản lại bởi Plato

Đường dẫn suy luận nối tiếp sử dụng vùng chứa suy luận

Đường dẫn suy luận nối tiếp sử dụng đường dẫn suy luận SageMaker

Tổ hợp mô hình nối tiếp sử dụng quy trình suy luận SageMaker

Đường dẫn suy luận nối tiếp (với lệnh gọi mô hình được nhắm mục tiêu từ một nhóm) bằng cách sử dụng đường dẫn suy luận SageMaker

Tùy chọn lưu trữ đường ống

Kết luận

Giới thiệu về tác giả

Thêm từ Học máy AWS

Tối đa hóa hiệu suất Khuếch tán ổn định và giảm chi phí suy luận với AWS Inferentia2 | Dịch vụ web của Amazon

Thiết kế các thành phố có khả năng phục hồi tại Arup bằng khả năng không gian địa lý của Amazon SageMaker | Dịch vụ web của Amazon

Giảm thiểu tác động sản xuất của các bản cập nhật mô hình ML với thử nghiệm bóng Amazon SageMaker

Sử dụng mô hình nền tảng AI tổng quát để tóm tắt và trả lời câu hỏi bằng dữ liệu của riêng bạn | Dịch vụ web của Amazon

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản