Cung cấp và quản lý môi trường ML với Amazon SageMaker Canvas bằng cách sử dụng AWS CDK và AWS Service Catalog PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Cung cấp và quản lý môi trường ML với Amazon SageMaker Canvas bằng AWS CDK và AWS Service Catalog

Sự gia tăng của học máy (ML) trong một loạt các trường hợp sử dụng đang trở nên phổ biến trong mọi ngành. Tuy nhiên, điều này vượt xa sự gia tăng số lượng người thực hành ML, những người có truyền thống chịu trách nhiệm thực hiện các giải pháp kỹ thuật này để hiện thực hóa kết quả kinh doanh.

Trong doanh nghiệp ngày nay, nhu cầu về máy học được sử dụng bởi những người không phải là ML, những người thành thạo với dữ liệu, đó là nền tảng của ML. Để biến điều này thành hiện thực, giá trị của ML đang được hiện thực hóa trên toàn doanh nghiệp thông qua các nền tảng ML không mã. Các nền tảng này cho phép các cá nhân khác nhau, chẳng hạn như các nhà phân tích kinh doanh, sử dụng ML mà không cần viết một dòng mã nào và cung cấp các giải pháp cho các vấn đề kinh doanh một cách nhanh chóng, đơn giản và trực quan. Canvas SageMaker của Amazon là một dịch vụ trỏ và nhấp trực quan cho phép các nhà phân tích kinh doanh sử dụng ML để giải quyết các vấn đề kinh doanh bằng cách tự tạo ra các dự đoán chính xác — mà không yêu cầu bất kỳ kinh nghiệm ML nào hoặc phải viết một dòng mã. Canvas đã mở rộng việc sử dụng ML trong doanh nghiệp với giao diện trực quan dễ sử dụng giúp doanh nghiệp triển khai các giải pháp một cách nhanh chóng.

Mặc dù Canvas đã cho phép dân chủ hóa ML, nhưng thách thức trong việc cung cấp và triển khai môi trường ML một cách an toàn vẫn còn. Thông thường, đây là trách nhiệm của các đội CNTT trung tâm trong hầu hết các doanh nghiệp lớn. Trong bài đăng này, chúng tôi thảo luận về cách các nhóm CNTT có thể quản trị, cung cấp và quản lý môi trường ML an toàn bằng cách sử dụng Canvas SageMaker của Amazon, Bộ công cụ phát triển đám mây AWS (AWS CDK) và Danh mục dịch vụ AWS. Bài đăng trình bày hướng dẫn từng bước cho các quản trị viên CNTT để đạt được điều này một cách nhanh chóng và quy mô.

Tổng quan về AWS CDK và AWS Service Catalog

AWS CDK là một khung phát triển phần mềm mã nguồn mở để xác định các tài nguyên ứng dụng đám mây của bạn. Nó sử dụng sự quen thuộc và sức mạnh biểu đạt của các ngôn ngữ lập trình để mô hình hóa các ứng dụng của bạn, đồng thời cung cấp tài nguyên theo cách an toàn và có thể lặp lại.

Danh mục dịch vụ AWS cho phép bạn quản lý tập trung các dịch vụ, ứng dụng, tài nguyên và siêu dữ liệu CNTT đã triển khai. Với Danh mục dịch vụ AWS, bạn có thể tạo, chia sẻ, tổ chức và quản lý tài nguyên đám mây với cơ sở hạ tầng là các mẫu mã (IaC) và cho phép cung cấp nhanh chóng và đơn giản.

Tổng quan về giải pháp

Chúng tôi cho phép cấp phép môi trường ML bằng Canvas theo ba bước:

  1. Đầu tiên, chúng tôi chia sẻ cách bạn có thể quản lý danh mục tài nguyên cần thiết cho việc sử dụng Canvas đã được phê duyệt bằng Danh mục dịch vụ AWS.
  2. Sau đó, chúng tôi triển khai một danh mục Danh mục dịch vụ AWS mẫu cho Canvas bằng AWS CDK.
  3. Cuối cùng, chúng tôi chứng minh cách bạn có thể cung cấp môi trường Canvas theo yêu cầu trong vòng vài phút.

Điều kiện tiên quyết

Để cung cấp môi trường ML với Canvas, AWS CDK và Danh mục dịch vụ AWS, bạn cần thực hiện những việc sau:

  1. Có quyền truy cập vào tài khoản AWS nơi danh mục Danh mục dịch vụ sẽ được triển khai. Đảm bảo bạn có bằng chứng xác thực và quyền để triển khai ngăn xếp AWS CDK vào tài khoản của mình. Các Hội thảo AWS CDK là nguồn tài liệu hữu ích bạn có thể tham khảo nếu cần hỗ trợ.
  2. Chúng tôi khuyên bạn nên làm theo một số phương pháp hay nhất được làm nổi bật thông qua các khái niệm được trình bày chi tiết trong các tài nguyên sau:
  3. Clone kho GitHub này vào môi trường của bạn.

Cung cấp các môi trường ML được phê duyệt với Amazon SageMaker Canvas sử dụng Danh mục dịch vụ AWS

Trong các ngành công nghiệp được quản lý và hầu hết các doanh nghiệp lớn, bạn cần tuân thủ các yêu cầu do nhóm CNTT ủy quyền để cung cấp và quản lý môi trường ML. Chúng có thể bao gồm một mạng riêng tư, an toàn, mã hóa dữ liệu, các biện pháp kiểm soát để chỉ cho phép những người dùng được ủy quyền và xác thực, chẳng hạn như Quản lý truy cập và nhận dạng AWS (IAM) để truy cập các giải pháp như Canvas, ghi nhật ký và giám sát chặt chẽ cho mục đích kiểm tra.

Với tư cách là quản trị viên CNTT, bạn có thể sử dụng Danh mục dịch vụ AWS để tạo và tổ chức các môi trường ML an toàn, có thể tái tạo với SageMaker Canvas thành một danh mục sản phẩm. Điều này được quản lý bằng cách sử dụng các điều khiển IaC được nhúng để đáp ứng các yêu cầu đã đề cập trước đó và có thể được cung cấp theo yêu cầu trong vòng vài phút. Bạn cũng có thể duy trì quyền kiểm soát những ai có thể truy cập vào danh mục đầu tư này để ra mắt sản phẩm.

Sơ đồ sau minh họa kiến ​​trúc này.

Dòng ví dụ

Trong phần này, chúng tôi trình bày một ví dụ về danh mục Danh mục dịch vụ AWS với SageMaker Canvas. Danh mục đầu tư bao gồm các khía cạnh khác nhau của môi trường Canvas là một phần của danh mục Danh mục dịch vụ:

  • Miền studio - Canvas là một ứng dụng chạy trong Miền studio. Miền bao gồm một Hệ thống tệp đàn hồi Amazon (Amazon EFS) khối lượng, danh sách người dùng được ủy quyền và một loạt các bảo mật, ứng dụng, chính sách và Đám mây riêng ảo Amazon (VPC) cấu hình. Tài khoản AWS được liên kết với một miền cho mỗi Khu vực.
  • Nhóm Amazon S3 - Sau khi miền Studio được tạo, một Dịch vụ lưu trữ đơn giản của Amazon Bộ chứa (Amazon S3) được cung cấp cho Canvas để cho phép nhập bộ dữ liệu từ các tệp cục bộ, còn được gọi là tải lên tệp cục bộ. Nhóm này có trong tài khoản của khách hàng và được cấp phép một lần.
  • Người dùng canvas - SageMaker Canvas là một ứng dụng mà bạn có thể thêm hồ sơ người dùng trong miền Studio cho mỗi người dùng Canvas, những người này có thể tiến hành nhập bộ dữ liệu, xây dựng và đào tạo mô hình ML mà không cần viết mã và chạy dự đoán trên mô hình.
  • Đã lên lịch tắt các phiên Canvas - Người dùng Canvas có thể đăng xuất khỏi giao diện Canvas khi họ hoàn thành nhiệm vụ của mình. Ngoài ra, quản trị viên có thể tắt các phiên Canvas từ Bảng điều khiển quản lý AWS như một phần của việc quản lý các phiên Canvas. Trong phần này của danh mục Danh mục dịch vụ AWS, một AWS Lambda chức năng được tạo và cấp phép để tự động tắt các phiên Canvas theo các khoảng thời gian được lập lịch đã xác định. Điều này giúp quản lý các phiên đang mở và tắt chúng khi không sử dụng.

Dòng ví dụ này có thể được tìm thấy trong Kho GitHub để tham khảo nhanh chóng.

Triển khai quy trình với AWS CDK

Trong phần này, chúng tôi triển khai quy trình được mô tả trước đó bằng AWS CDK. Sau khi nó được triển khai, bạn cũng có thể theo dõi phiên bản và quản lý danh mục đầu tư.

Ngăn xếp danh mục đầu tư có thể được tìm thấy trong app.py và sản phẩm xếp dưới products/ thư mục. Bạn có thể lặp lại các vai trò IAM, Dịch vụ quản lý khóa AWS (AWS KMS) và thiết lập VPC trong studio_constructs/ thư mục. Trước khi triển khai ngăn xếp vào tài khoản của mình, bạn có thể chỉnh sửa các dòng sau trong app.py và cấp quyền truy cập danh mục đầu tư cho một vai trò IAM mà bạn lựa chọn.

Cung cấp và quản lý môi trường ML với Amazon SageMaker Canvas bằng cách sử dụng AWS CDK và AWS Service Catalog PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Bạn có thể quản lý quyền truy cập vào danh mục đầu tư cho những người dùng, nhóm và vai trò IAM có liên quan. Nhìn thấy Cấp quyền truy cập cho người dùng để biết thêm chi tiết.

Triển khai danh mục đầu tư vào tài khoản của bạn

Bây giờ bạn có thể chạy các lệnh sau để cài đặt AWS CDK và đảm bảo rằng bạn có các phụ thuộc phù hợp để triển khai danh mục đầu tư:

npm install -g aws-cdk@2.27.0
python3 -m venv .venv
source .venv/bin/activate
pip3 install -r requirements.txt

Chạy các lệnh sau để triển khai danh mục đầu tư vào tài khoản của bạn:

ACCOUNT_ID=$(aws sts get-caller-identity --query Account | tr -d '"')
AWS_REGION=$(aws configure get region)
cdk bootstrap aws://${ACCOUNT_ID}/${AWS_REGION}
cdk deploy --require-approval never

Hai lệnh đầu tiên lấy ID tài khoản của bạn và Khu vực hiện tại bằng cách sử dụng Giao diện dòng lệnh AWS (AWS CLI) trên máy tính của bạn. Sau đây, cdk bootstrapcdk deploy xây dựng nội dung cục bộ và triển khai ngăn xếp trong vài phút.

Cung cấp và quản lý môi trường ML với Amazon SageMaker Canvas bằng cách sử dụng AWS CDK và AWS Service Catalog PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Danh mục đầu tư hiện có thể được tìm thấy trong Danh mục dịch vụ AWS, như được hiển thị trong ảnh chụp màn hình sau.

Cung cấp và quản lý môi trường ML với Amazon SageMaker Canvas bằng cách sử dụng AWS CDK và AWS Service Catalog PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Cung cấp theo yêu cầu

Các sản phẩm trong danh mục có thể được tung ra nhanh chóng và dễ dàng theo yêu cầu từ Cung cấp trên bảng điều khiển Danh mục dịch vụ AWS. Quy trình điển hình là khởi chạy miền Studio và tự động tắt Canvas trước vì đây thường là hành động một lần. Sau đó, bạn có thể thêm người dùng Canvas vào miền. ID miền và ARN vai trò IAM của người dùng được lưu trong Người quản lý hệ thống AWS và được tự động điền với các thông số người dùng như được hiển thị trong ảnh chụp màn hình sau.

Cung cấp và quản lý môi trường ML với Amazon SageMaker Canvas bằng cách sử dụng AWS CDK và AWS Service Catalog PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Bạn cũng có thể sử dụng các thẻ phân bổ chi phí được đính kèm cho từng người dùng. Ví dụ, UserCostCenter là một thẻ mẫu nơi bạn có thể thêm tên của từng người dùng.

Những cân nhắc chính để quản lý môi trường ML bằng Canvas

Bây giờ chúng tôi đã cung cấp và triển khai danh mục Danh mục dịch vụ AWS tập trung vào Canvas, chúng tôi muốn nêu bật một số cân nhắc để chi phối các môi trường ML dựa trên Canvas tập trung vào miền và hồ sơ người dùng.

Sau đây là những cân nhắc về miền Studio:

  • Mạng cho Canvas được quản lý ở cấp miền Studio, nơi miền được triển khai trên mạng con VPC riêng để kết nối an toàn. Nhìn thấy Bảo mật kết nối Amazon SageMaker Studio bằng VPC riêng để tìm hiểu thêm.
  • Vai trò thực thi IAM mặc định được xác định ở cấp miền. Vai trò mặc định này được chỉ định cho tất cả người dùng Canvas trong miền.
  • Quá trình mã hóa được thực hiện bằng AWS KMS bằng cách mã hóa khối lượng EFS trong miền. Đối với các biện pháp kiểm soát bổ sung, bạn có thể chỉ định khóa được quản lý của riêng mình, còn được gọi là khóa do khách hàng quản lý (CMK). Nhìn thấy Bảo vệ dữ liệu ở trạng thái nghỉ bằng cách sử dụng mã hóa để tìm hiểu thêm.
  • Khả năng tải tệp lên từ đĩa cục bộ của bạn được thực hiện bằng cách đính kèm chính sách chia sẻ tài nguyên nguồn gốc chéo (CORS) vào nhóm S3 được Canvas sử dụng. Nhìn thấy Cấp cho người dùng của bạn quyền tải lên tệp cục bộ để tìm hiểu thêm.

Sau đây là những cân nhắc về hồ sơ người dùng:

  • Xác thực trong Studio có thể được thực hiện cả thông qua đăng nhập một lần (SSO) và IAM. Nếu bạn có nhà cung cấp danh tính hiện có để liên kết người dùng truy cập bảng điều khiển, bạn có thể chỉ định hồ sơ người dùng Studio cho từng danh tính được liên kết bằng IAM. Xem phần Chỉ định chính sách cho người dùng Studio in Định cấu hình Amazon SageMaker Studio cho các nhóm và nhóm với sự cô lập hoàn toàn về tài nguyên để tìm hiểu thêm.
  • Bạn có thể gán vai trò thực thi IAM cho từng hồ sơ người dùng. Trong khi sử dụng Studio, người dùng giả định vai trò được ánh xạ tới hồ sơ người dùng của họ ghi đè vai trò thực thi mặc định. Bạn có thể sử dụng điều này cho các điều khiển truy cập chi tiết trong một nhóm.
  • Bạn có thể đạt được sự cô lập bằng cách sử dụng kiểm soát truy cập dựa trên thuộc tính (ABAC) để đảm bảo người dùng chỉ có thể truy cập tài nguyên cho nhóm của họ. Nhìn thấy Định cấu hình Amazon SageMaker Studio cho các nhóm và nhóm với sự cô lập hoàn toàn về tài nguyên để tìm hiểu thêm.
  • Bạn có thể thực hiện theo dõi chi phí cụ thể bằng cách áp dụng thẻ phân bổ chi phí cho hồ sơ người dùng.

Làm sạch

Để dọn dẹp tài nguyên được tạo bởi ngăn xếp AWS CDK ở trên, hãy điều hướng đến trang ngăn xếp AWS CloudFormation và xóa các ngăn xếp Canvas. Bạn cũng có thể chạy cdk destroy từ trong thư mục kho lưu trữ, để làm tương tự.

Kết luận

Trong bài đăng này, chúng tôi đã chia sẻ cách bạn có thể nhanh chóng và dễ dàng cung cấp môi trường ML với Canvas bằng cách sử dụng Danh mục dịch vụ AWS và AWS CDK. Chúng tôi đã thảo luận về cách bạn có thể tạo danh mục đầu tư trên Danh mục dịch vụ AWS, cung cấp danh mục đầu tư và triển khai danh mục đó trong tài khoản của bạn. Quản trị viên CNTT có thể sử dụng phương pháp này để triển khai và quản lý người dùng, phiên và chi phí liên quan trong khi cấp phép Canvas.

Tìm hiểu thêm về Canvas trên trang sản phẩmHướng dẫn dành cho nhà phát triển. Để đọc thêm, bạn có thể tìm hiểu cách cho phép các nhà phân tích kinh doanh truy cập SageMaker Canvas bằng AWS SSO mà không cần bảng điều khiển. Bạn cũng có thể học cách các nhà phân tích kinh doanh và nhà khoa học dữ liệu có thể cộng tác nhanh hơn bằng Canvas và Studio.


Về các tác giả

Cung cấp và quản lý môi trường ML với Amazon SageMaker Canvas bằng cách sử dụng AWS CDK và AWS Service Catalog PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Davide Gallitelli là Kiến trúc sư Giải pháp Chuyên gia về AI / ML trong khu vực EMEA. Anh ấy có trụ sở tại Brussels và làm việc chặt chẽ với khách hàng trên khắp Benelux. Anh ấy đã là một nhà phát triển từ khi còn rất trẻ, bắt đầu viết mã ở tuổi 7. Anh ấy bắt đầu học AI / ML ở trường đại học, và yêu nó kể từ đó.

Cung cấp và quản lý môi trường ML với Amazon SageMaker Canvas bằng cách sử dụng AWS CDK và AWS Service Catalog PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Sofian Hamiti là một Kiến trúc sư Giải pháp chuyên gia về AI / ML tại AWS. Anh ấy giúp khách hàng trong các ngành tăng tốc hành trình AI / ML của họ bằng cách giúp họ xây dựng và vận hành các giải pháp học máy từ đầu đến cuối.

Cung cấp và quản lý môi trường ML với Amazon SageMaker Canvas bằng cách sử dụng AWS CDK và AWS Service Catalog PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Shyam Srinivasan là Giám đốc sản phẩm chính của nhóm AWS AI / ML, quản lý sản phẩm hàng đầu cho Amazon SageMaker Canvas. Shyam quan tâm đến việc làm cho thế giới trở thành một nơi tốt đẹp hơn thông qua công nghệ và đam mê về cách AI và ML có thể trở thành chất xúc tác trong hành trình này.

Cung cấp và quản lý môi trường ML với Amazon SageMaker Canvas bằng cách sử dụng AWS CDK và AWS Service Catalog PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Avi Patel làm việc với tư cách là kỹ sư phần mềm trong nhóm Amazon SageMaker Canvas. Nền tảng của anh ấy bao gồm làm việc toàn bộ ngăn xếp với tiêu điểm giao diện người dùng. Trong thời gian rảnh rỗi, anh ấy thích đóng góp cho các dự án mã nguồn mở trong không gian tiền điện tử và tìm hiểu về các giao thức DeFi mới.

Cung cấp và quản lý môi trường ML với Amazon SageMaker Canvas bằng cách sử dụng AWS CDK và AWS Service Catalog PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Jared Heywood là Giám đốc Phát triển Kinh doanh Cấp cao tại AWS. Anh ấy là chuyên gia AI / ML toàn cầu giúp khách hàng sử dụng công nghệ máy học không mã. Anh ấy đã làm việc trong không gian AutoML trong 5 năm qua và tung ra các sản phẩm tại Amazon như Amazon SageMaker JumpStart và Amazon SageMaker Canvas.

Dấu thời gian:

Thêm từ Học máy AWS