Vận hành sổ ghi chép Amazon SageMaker Studio của bạn dưới dạng các công việc sổ ghi chép được lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Vận hành sổ ghi chép Amazon SageMaker Studio của bạn dưới dạng tác vụ sổ ghi chép đã lên lịch

Xưởng sản xuất Amazon SageMaker cung cấp giải pháp được quản lý hoàn toàn cho các nhà khoa học dữ liệu để xây dựng, đào tạo và triển khai các mô hình học máy (ML) một cách tương tác. Ngoài trải nghiệm ML tương tác, nhân viên dữ liệu cũng tìm kiếm giải pháp chạy sổ ghi chép dưới dạng công việc tạm thời mà không cần cấu trúc lại mã dưới dạng mô-đun Python hoặc tìm hiểu các công cụ DevOps và các phương pháp hay nhất để tự động hóa cơ sở hạ tầng triển khai của họ. Một số trường hợp sử dụng phổ biến để thực hiện việc này bao gồm:

  • Thường xuyên chạy suy luận mô hình để tạo báo cáo
  • Mở rộng bước kỹ thuật tính năng sau khi thử nghiệm trong Studio dựa trên một tập hợp con dữ liệu trên một phiên bản nhỏ
  • Đào tạo lại và triển khai các mô hình trên một số nhịp
  • Phân tích nhóm của bạn Amazon SageMaker sử dụng đều đặn

Trước đây, khi các nhà khoa học dữ liệu muốn lấy mã mà họ đã xây dựng tương tác trên sổ ghi chép và chạy chúng dưới dạng tác vụ hàng loạt, họ đã phải đối mặt với một lộ trình học tập khó khăn khi sử dụng Đường ống Amazon SageMaker, AWS Lambda, Sự kiện Amazon, hoặc là giải pháp khác khó thiết lập, sử dụng và quản lý.

Với Công việc máy tính xách tay SageMaker, giờ đây bạn có thể chạy sổ ghi chép của mình nguyên trạng hoặc theo kiểu được tham số hóa chỉ bằng vài cú nhấp chuột đơn giản từ SageMaker Studio hoặc Phòng thí nghiệm SageMaker Studio giao diện. Bạn có thể chạy những sổ ghi chép này theo lịch trình hoặc ngay lập tức. Người dùng cuối không cần sửa đổi mã sổ ghi chép hiện có của họ. Khi công việc hoàn tất, bạn có thể xem các ô sổ ghi chép đã được điền, bao gồm mọi hình ảnh trực quan!

Trong bài đăng này, chúng tôi chia sẻ cách vận hành sổ ghi chép SageMaker Studio của bạn dưới dạng các tác vụ sổ ghi chép đã lên lịch.

Tổng quan về giải pháp

Sơ đồ sau minh họa kiến ​​trúc giải pháp của chúng tôi. Chúng tôi sử dụng tiện ích mở rộng SageMaker được cài đặt sẵn để chạy sổ ghi chép dưới dạng công việc ngay lập tức hoặc theo lịch trình.

Trong các phần sau, chúng tôi sẽ hướng dẫn các bước để tạo sổ ghi chép, tham số hóa các ô, tùy chỉnh các tùy chọn bổ sung và lên lịch công việc của bạn. Chúng tôi cũng bao gồm một trường hợp sử dụng mẫu.

Điều kiện tiên quyết

Để sử dụng các tác vụ sổ ghi chép SageMaker, bạn cần chạy ứng dụng JupyterLab 3 JupyterServer trong Studio. Để biết thêm thông tin về cách nâng cấp lên JupyterLab 3, hãy tham khảo Xem và cập nhật phiên bản JupyterLab của ứng dụng từ bảng điều khiển. Chắc chắn rằng Tắt và cập nhật SageMaker Studio để nhận được những thông tin cập nhật mới nhất.

Để xác định định nghĩa công việc chạy sổ ghi chép theo lịch, bạn có thể cần thêm các quyền bổ sung vào vai trò thực thi SageMaker của mình.

Trước tiên, hãy thêm mối quan hệ tin cậy vào vai trò thực thi SageMaker của bạn để cho phép events.amazonaws.com đảm nhận vai trò của bạn:

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Effect": "Allow",
            "Principal": {
                "Service": "sagemaker.amazonaws.com"
            },
            "Action": "sts:AssumeRole"
        },
        {
            "Effect": "Allow",
            "Principal": {
                "Service": "events.amazonaws.com"
            },
            "Action": "sts:AssumeRole"
        }
    ]
}

Ngoài ra, bạn có thể cần tạo và đính kèm chính sách nội tuyến vào vai trò thực thi của mình. Chính sách dưới đây là bổ sung cho chính sách rất dễ dãi AmazonSageMakerFullAccess chính sách. Để biết bộ quyền đầy đủ và tối thiểu, hãy xem Cài đặt chính sách và quyền.

{
    "Version": "2012-10-17",
    "Statement": [
        {
            "Sid": "VisualEditor0",
            "Effect": "Allow",
            "Action": [
                "events:TagResource",
                "events:DeleteRule",
                "events:PutTargets",
                "events:DescribeRule",
                "events:PutRule",
                "events:RemoveTargets",
                "events:DisableRule",
                "events:EnableRule"
            ],
            "Resource": "*",
            "Condition": {
              "StringEquals": {
                "aws:ResourceTag/sagemaker:is-scheduling-notebook-job": "true"
              }
            }
        },
        {
            "Sid": "VisualEditor1",
            "Effect": "Allow",
            "Action": "iam:PassRole",
            "Resource": "arn:aws:iam::*:role/*",
            "Condition": {
                "StringLike": {
                    "iam:PassedToService": "events.amazonaws.com"
                }
            }
        },
        {
            "Sid": "VisualEditor2",
            "Effect": "Allow",
            "Action": "sagemaker:ListTags",
            "Resource": "arn:aws:sagemaker:*:*:user-profile/*/*"
        }
    ]
}

Tạo một công việc sổ ghi chép

Để vận hành sổ ghi chép của bạn dưới dạng tác vụ sổ ghi chép SageMaker, hãy chọn Tạo một công việc sổ ghi chép biểu tượng.

Vận hành sổ ghi chép Amazon SageMaker Studio của bạn dưới dạng các công việc sổ ghi chép được lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Ngoài ra, bạn có thể chọn (nhấp chuột phải vào) sổ ghi chép của mình trên hệ thống tệp và chọn Tạo công việc sổ tay.

Vận hành sổ ghi chép Amazon SageMaker Studio của bạn dưới dạng các công việc sổ ghi chép được lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Trong tạp chí Tạo việc làm phần này, bạn chỉ cần chọn loại phiên bản phù hợp cho công việc đã lên lịch dựa trên khối lượng công việc của bạn: phiên bản tiêu chuẩn, phiên bản điện toán được tối ưu hóa hoặc phiên bản điện toán tăng tốc có chứa GPU. Bạn có thể chọn bất kỳ phiên bản nào có sẵn cho công việc đào tạo của SageMaker. Để biết danh sách đầy đủ các phiên bản có sẵn, hãy tham khảo Amazon SageMaker Giá.

Vận hành sổ ghi chép Amazon SageMaker Studio của bạn dưới dạng các công việc sổ ghi chép được lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Khi một công việc hoàn tất, bạn có thể xem tệp sổ ghi chép đầu ra cùng với các ô được điền của nó, cũng như nhật ký cơ bản từ các lần chạy công việc.

Vận hành sổ ghi chép Amazon SageMaker Studio của bạn dưới dạng các công việc sổ ghi chép được lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Tham số hóa các ô

Khi di chuyển sổ ghi chép sang quy trình sản xuất, điều quan trọng là có thể sử dụng lại sổ ghi chép đó với các bộ tham số khác nhau cho tính mô-đun. Ví dụ: bạn có thể muốn tham số hóa vị trí tập dữ liệu hoặc siêu tham số của mô hình để có thể sử dụng lại cùng một sổ ghi chép cho nhiều khóa đào tạo mô hình riêng biệt. Công việc sổ ghi chép SageMaker hỗ trợ điều này thông qua thẻ di động. Chỉ cần chọn biểu tượng bánh răng đôi ở khung bên phải và chọn Thêm thẻ. Sau đó gắn nhãn thẻ làm tham số.

Vận hành sổ ghi chép Amazon SageMaker Studio của bạn dưới dạng các công việc sổ ghi chép được lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Theo mặc định, quá trình chạy công việc sổ ghi chép sử dụng các giá trị tham số được chỉ định trong sổ ghi chép, nhưng ngoài ra, bạn có thể sửa đổi các giá trị này làm cấu hình cho công việc sổ ghi chép của mình.

Vận hành sổ ghi chép Amazon SageMaker Studio của bạn dưới dạng các công việc sổ ghi chép được lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Định cấu hình các tùy chọn bổ sung

Khi tạo một công việc sổ ghi chép, bạn có thể mở rộng Tùy chọn bổ sung để tùy chỉnh định nghĩa công việc của bạn. Studio sẽ tự động phát hiện hình ảnh hoặc hạt nhân bạn đang sử dụng trong sổ ghi chép của mình và chọn trước nó cho bạn. Đảm bảo rằng bạn đã xác nhận lựa chọn này.

Bạn cũng có thể chỉ định các biến môi trường hoặc tập lệnh khởi động để tùy chỉnh môi trường chạy máy tính xách tay của mình. Để biết danh sách đầy đủ các cấu hình, hãy xem Các tùy chọn.

Lên lịch công việc của bạn

Để lên lịch công việc của bạn, hãy chọn Chạy theo lịch trình và đặt ra khoảng thời gian và khoảng thời gian thích hợp. Sau đó bạn có thể chọn công việc máy tính xách tay tab hiển thị sau khi chọn biểu tượng trang chủ. Sau khi nạp sổ ghi chép, hãy chọn Định nghĩa công việc sổ ghi chép để tạm dừng hoặc xóa lịch trình của bạn.

Vận hành sổ ghi chép Amazon SageMaker Studio của bạn dưới dạng các công việc sổ ghi chép được lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Trường hợp sử dụng ví dụ

Trong ví dụ của chúng tôi, chúng tôi giới thiệu quy trình làm việc ML toàn diện nhằm chuẩn bị dữ liệu từ nguồn thực tế cơ bản, đào tạo mô hình được làm mới từ khoảng thời gian đó và sau đó chạy suy luận về dữ liệu gần đây nhất để tạo ra thông tin chi tiết hữu ích. Trong thực tế, bạn có thể chạy một quy trình làm việc hoàn chỉnh từ đầu đến cuối hoặc chỉ vận hành một bước trong quy trình làm việc của mình. Bạn có thể lên lịch một Keo AWS phiên tương tác để chuẩn bị dữ liệu hàng ngày hoặc chạy công việc suy luận hàng loạt tạo ra kết quả đồ họa trực tiếp trong sổ ghi chép đầu ra của bạn.

Sổ ghi chép đầy đủ cho ví dụ này có thể được tìm thấy trong Ví dụ về SageMaker Kho lưu trữ GitHub. Trường hợp sử dụng giả định rằng chúng tôi là một công ty viễn thông đang muốn lập lịch ghi chép để dự đoán khả năng rời bỏ khách hàng dựa trên mô hình được đào tạo với dữ liệu gần đây nhất mà chúng tôi có sẵn.

Để bắt đầu, chúng tôi thu thập dữ liệu khách hàng có sẵn gần đây nhất và thực hiện một số bước xử lý trước trên dữ liệu đó:

import pandas as pd
from synthetic_data import generate_data

previous_two_weeks_data = generate_data(5000, label_known=True)
todays_data = generate_data(300, label_known=False)

processed_prior_data = process_data(previous_two_weeks_data, label_known=True)
processed_todays_data = process_data(todays_data, label_known=False)

Chúng tôi đào tạo mô hình được làm mới của mình dựa trên dữ liệu đào tạo cập nhật này để đưa ra dự đoán chính xác về todays_data:

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import f1_score, confusion_matrix, ConfusionMatrixDisplay

y = np.ravel(processed_prior_data[["Churn"]])
x = processed_prior_data.drop(["Churn"], axis=1)

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25)

clf = RandomForestClassifier(n_estimators=int(number_rf_estimators), criterion="gini")
clf.fit(x_train, y_train)

Bởi vì chúng tôi sẽ lên lịch cho sổ ghi chép này dưới dạng báo cáo hàng ngày nên chúng tôi muốn nắm bắt mức độ hoạt động của mô hình được làm mới trên bộ xác thực của chúng tôi để chúng tôi có thể tự tin vào các dự đoán trong tương lai của nó. Các kết quả trong ảnh chụp màn hình sau đây là từ báo cáo suy luận theo lịch trình của chúng tôi.

Vận hành sổ ghi chép Amazon SageMaker Studio của bạn dưới dạng các công việc sổ ghi chép được lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Cuối cùng, bạn muốn ghi lại kết quả dự đoán của dữ liệu ngày hôm nay vào cơ sở dữ liệu để có thể thực hiện các hành động dựa trên kết quả của mô hình này.

Vận hành sổ ghi chép Amazon SageMaker Studio của bạn dưới dạng các công việc sổ ghi chép được lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Sau khi hiểu rõ sổ ghi chép, bạn có thể thoải mái thực hiện công việc này như một công việc tạm thời bằng cách sử dụng Chạy ngay đi tùy chọn được mô tả trước đó hoặc kiểm tra chức năng lập kế hoạch.

Làm sạch

Nếu bạn làm theo ví dụ của chúng tôi, hãy nhớ tạm dừng hoặc xóa lịch trình công việc trong sổ ghi chép của bạn để tránh phát sinh các khoản phí liên tục.

Kết luận

Đưa sổ ghi chép vào sản xuất bằng các tác vụ sổ ghi chép của SageMaker giúp đơn giản hóa đáng kể khối lượng công việc nặng nhọc không phân biệt mà nhân viên dữ liệu yêu cầu. Cho dù bạn đang lên lịch cho các quy trình công việc ML toàn diện hay một mảnh ghép, chúng tôi khuyến khích bạn đưa một số sổ tay vào sản xuất bằng SageMaker Studio hoặc SageMaker Studio Lab! Để tìm hiểu thêm, xem Quy trình làm việc dựa trên sổ tay.


Giới thiệu về tác giả

Sean MorganSean Morgan là Kiến trúc sư Giải pháp ML Cao cấp tại AWS. Anh ấy có kinh nghiệm trong lĩnh vực nghiên cứu học thuật và bán dẫn, đồng thời sử dụng kinh nghiệm của mình để giúp khách hàng đạt được mục tiêu của họ trên AWS. Trong thời gian rảnh rỗi, Sean là người đóng góp / bảo trì nguồn mở kích hoạt và là trưởng nhóm sở thích đặc biệt cho TensorFlow Addons.

Vận hành sổ ghi chép Amazon SageMaker Studio của bạn dưới dạng các công việc sổ ghi chép được lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Sumedha Swamy là Giám đốc Sản phẩm Chính tại Amazon Web Services. Anh ấy dẫn dắt nhóm SageMaker Studio xây dựng nó thành IDE được lựa chọn cho quy trình công việc kỹ thuật dữ liệu và khoa học dữ liệu tương tác. Ông đã dành 15 năm qua để xây dựng các sản phẩm doanh nghiệp và người tiêu dùng bị ám ảnh bởi khách hàng bằng cách sử dụng Học máy. Khi rảnh rỗi, anh ấy thích chụp ảnh địa chất kỳ thú của miền Tây Nam nước Mỹ.

Vận hành sổ ghi chép Amazon SageMaker Studio của bạn dưới dạng các công việc sổ ghi chép được lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Edward mặt trời là một SDE cấp cao làm việc cho SageMaker Studio tại Amazon Web Services. Anh ấy tập trung vào việc xây dựng giải pháp ML tương tác và đơn giản hóa trải nghiệm của khách hàng để tích hợp SageMaker Studio với các công nghệ phổ biến trong kỹ thuật dữ liệu và hệ sinh thái ML. Khi rảnh rỗi, Edward rất thích cắm trại, đi bộ đường dài và câu cá, đồng thời tận hưởng thời gian dành cho gia đình.

Dấu thời gian:

Thêm từ Học máy AWS