Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với bộ dữ liệu được tham số hóa và công việc đã lên lịch

Dữ liệu đang biến đổi mọi lĩnh vực và mọi doanh nghiệp. Tuy nhiên, với dữ liệu phát triển nhanh hơn khả năng theo dõi của hầu hết các công ty, việc thu thập dữ liệu và khai thác giá trị từ dữ liệu đó là một việc khó thực hiện. Một chiến lược dữ liệu hiện đại có thể giúp bạn tạo ra kết quả kinh doanh tốt hơn với dữ liệu. AWS cung cấp bộ dịch vụ hoàn chỉnh nhất cho hành trình dữ liệu từ đầu đến cuối để giúp bạn mở khóa giá trị từ dữ liệu của bạn và biến nó thành cái nhìn sâu sắc.

Các nhà khoa học dữ liệu có thể dành tới 80% thời gian để chuẩn bị dữ liệu cho các dự án máy học (ML). Quá trình chuẩn bị này phần lớn là công việc tẻ nhạt và tẻ nhạt, đồng thời có thể liên quan đến nhiều API lập trình và thư viện tùy chỉnh. Trình sắp xếp dữ liệu Amazon SageMaker giúp các nhà khoa học dữ liệu và kỹ sư dữ liệu đơn giản hóa và tăng tốc việc chuẩn bị dữ liệu dạng bảng và chuỗi thời gian cũng như kỹ thuật tính năng thông qua giao diện trực quan. Bạn có thể nhập dữ liệu từ nhiều nguồn dữ liệu, chẳng hạn như Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3), amazon Athena, Amazon RedShifthoặc thậm chí các giải pháp của bên thứ ba như Snowflake or gạch dữ liệuvà xử lý dữ liệu của bạn với hơn 300 phép biến đổi dữ liệu tích hợp sẵn và thư viện các đoạn mã, vì vậy bạn có thể nhanh chóng chuẩn hóa, chuyển đổi và kết hợp các tính năng mà không cần viết bất kỳ mã nào. Bạn cũng có thể mang các biến đổi tùy chỉnh của mình trong PySpark, SQL hoặc Pandas.

Bài đăng này trình bày cách bạn có thể lên lịch chạy tự động các công việc chuẩn bị dữ liệu của mình. Chúng tôi cũng khám phá khả năng Trình sắp xếp dữ liệu mới của bộ dữ liệu được tham số hóa, cho phép bạn chỉ định các tệp sẽ được đưa vào luồng dữ liệu bằng các URI được tham số hóa.

Tổng quan về giải pháp

Trình sắp xếp dữ liệu hiện hỗ trợ nhập dữ liệu bằng URI được tham số hóa. Điều này cho phép linh hoạt hơn vì giờ đây bạn có thể nhập tất cả các bộ dữ liệu khớp với các tham số đã chỉ định, có thể thuộc loại Chuỗi, Số, Ngày giờ và Mẫu trong URI. Ngoài ra, giờ đây bạn có thể kích hoạt các công việc chuyển đổi Data Wrangler của mình theo lịch trình.

Trong bài đăng này, chúng tôi tạo một quy trình mẫu với tập dữ liệu Titanic để cho biết cách bạn có thể bắt đầu thử nghiệm hai tính năng mới này của Data Wrangler. Để tải xuống tập dữ liệu, hãy tham khảo Titanic - Máy học từ thảm họa.

Điều kiện tiên quyết

Để có được tất cả các tính năng được mô tả trong bài đăng này, bạn cần chạy phiên bản nhân mới nhất của Data Wrangler. Để biết thêm thông tin, hãy tham khảo Cập nhật dữ liệu sắp xếp. Ngoài ra, bạn cần phải chạy Xưởng sản xuất Amazon SageMaker JupyterLab 3. Để xem và cập nhật phiên bản hiện tại, hãy tham khảo Phiên bản JupyterLab.

Cấu trúc tệp

Đối với phần trình diễn này, chúng tôi tuân theo một cấu trúc tệp đơn giản mà bạn phải sao chép để tạo lại các bước được nêu trong bài đăng này.

  1. Ở phòng chụp, tạo sổ ghi chép mới.
  2. Chạy đoạn mã sau để tạo cấu trúc thư mục mà chúng tôi sử dụng (đảm bảo rằng bạn đang ở thư mục mong muốn trong cây tệp của mình):
    !mkdir titanic_dataset
    !mkdir titanic_dataset/datetime_data
    !mkdir titanic_dataset/datetime_data/2021
    !mkdir titanic_dataset/datetime_data/2022
    
    !mkdir titanic_dataset/datetime_data/2021/01 titanic_dataset/datetime_data/2021/02 titanic_dataset/datetime_data/2021/03 
    !mkdir titanic_dataset/datetime_data/2021/04 titanic_dataset/datetime_data/2021/05 titanic_dataset/datetime_data/2021/06
    !mkdir titanic_dataset/datetime_data/2022/01 titanic_dataset/datetime_data/2022/02 titanic_dataset/datetime_data/2022/03 
    !mkdir titanic_dataset/datetime_data/2022/04 titanic_dataset/datetime_data/2022/05 titanic_dataset/datetime_data/2022/06
    
    !mkdir titanic_dataset/datetime_data/2021/01/01 titanic_dataset/datetime_data/2021/02/01 titanic_dataset/datetime_data/2021/03/01 
    !mkdir titanic_dataset/datetime_data/2021/04/01 titanic_dataset/datetime_data/2021/05/01 titanic_dataset/datetime_data/2021/06/01
    !mkdir titanic_dataset/datetime_data/2022/01/01 titanic_dataset/datetime_data/2022/02/01 titanic_dataset/datetime_data/2022/03/01 
    !mkdir titanic_dataset/datetime_data/2022/04/01 titanic_dataset/datetime_data/2022/05/01 titanic_dataset/datetime_data/2022/06/01
    
    !mkdir titanic_dataset/train_1 titanic_dataset/train_2 titanic_dataset/train_3 titanic_dataset/train_4 titanic_dataset/train_5
    !mkdir titanic_dataset/train titanic_dataset/test

  3. Sao chép train.csvtest.csv các tệp từ bộ dữ liệu Titanic ban đầu vào các thư mục titanic_dataset/traintitanic_dataset/test, Tương ứng.
  4. Chạy đoạn mã sau để điền vào các thư mục các tệp cần thiết:
    import os
    import math
    import pandas as pd
    batch_size = 100
    
    #Get a list of all the leaf nodes in the folder structure
    leaf_nodes = []
    
    for root, dirs, files in os.walk('titanic_dataset'):
        if not dirs:
            if root != "titanic_dataset/test" and root != "titanic_dataset/train":
                leaf_nodes.append(root)
                
    titanic_df = pd.read_csv('titanic_dataset/train/train.csv')
    
    #Create the mini batch files
    for i in range(math.ceil(titanic_df.shape[0]/batch_size)):
        batch_df = titanic_df[i*batch_size:(i+1)*batch_size]
        
        #Place a copy of each mini batch in each one of the leaf folders
        for node in leaf_nodes:
            batch_df.to_csv(node+'/part_{}.csv'.format(i), index=False)

Chúng tôi chia train.csv tập dữ liệu Titanic thành chín tệp khác nhau, được đặt tên part_x, trong đó x là số của bộ phận. Phần 0 có 100 bản ghi đầu tiên, phần 1 có 100 bản ghi tiếp theo, v.v. cho đến phần 8. Mỗi thư mục nút của cây tệp chứa một bản sao của chín phần dữ liệu huấn luyện ngoại trừ phần traintest các thư mục chứa train.csvtest.csv.

Bộ dữ liệu được tham số hóa

Người dùng Data Wrangler hiện có thể chỉ định tham số cho bộ dữ liệu được nhập từ Amazon S3. Các tham số tập dữ liệu được chỉ định tại URI của tài nguyên và giá trị của nó có thể được thay đổi linh hoạt, cho phép linh hoạt hơn trong việc chọn các tệp mà chúng tôi muốn nhập. Các tham số có thể có bốn loại dữ liệu:

  • Con số – Có thể lấy giá trị của bất kỳ số nguyên nào
  • Chuỗi – Có thể lấy giá trị của bất kỳ chuỗi văn bản nào
  • Họa tiết – Có thể nhận giá trị của bất kỳ biểu thức chính quy nào
  • Ngày giờ – Có thể lấy giá trị của bất kỳ định dạng ngày/giờ nào được hỗ trợ

Trong phần này, chúng tôi cung cấp hướng dẫn về tính năng mới này. Tính năng này chỉ khả dụng sau khi bạn nhập tập dữ liệu vào quy trình hiện tại và chỉ dành cho các tập dữ liệu được nhập từ Amazon S3.

  1. Từ luồng dữ liệu của bạn, hãy chọn dấu cộng (+) bên cạnh bước nhập và chọn Chỉnh sửa tập dữ liệu.
  2. Phương pháp ưa thích (và dễ dàng nhất) để tạo tham số mới là đánh dấu một phần trong URI của bạn và chọn Tạo tham số tùy chỉnh trên trình đơn thả xuống. Bạn cần chỉ định bốn điều cho mỗi thông số bạn muốn tạo:
    1. Họ tên
    2. Kiểu
    3. Giá trị mặc định
    4. Mô tả

    Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
    Ở đây chúng tôi đã tạo một tham số kiểu Chuỗi được gọi là filename_param với giá trị mặc định là train.csv. Bây giờ bạn có thể thấy tên tham số được đặt trong dấu ngoặc kép, thay thế phần URI mà chúng tôi đã đánh dấu trước đó. Bởi vì giá trị được xác định cho tham số này là train.csv, bây giờ chúng ta thấy tệp train.csv được liệt kê trên bảng nhập khẩu.
    Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

  3. Khi chúng tôi cố gắng tạo một công việc chuyển đổi, trên Định cấu hình công việc bước, bây giờ chúng ta thấy một Thông số phần, nơi chúng ta có thể xem danh sách tất cả các tham số đã xác định của mình.
  4. Việc chọn tham số cho chúng ta tùy chọn thay đổi giá trị của tham số, trong trường hợp này là thay đổi tập dữ liệu đầu vào sẽ được chuyển đổi theo luồng xác định.
    Giả sử chúng ta thay đổi giá trị của filename_param từ train.csv đến part_0.csv, công việc chuyển đổi bây giờ mất part_0.csv (với điều kiện là tệp có tên part_0.csv tồn tại trong cùng một thư mục) làm dữ liệu đầu vào mới của nó.
    Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  5. Ngoài ra, nếu bạn cố gắng xuất luồng của mình sang đích Amazon S3 (thông qua sổ ghi chép Jupyter), giờ đây bạn sẽ thấy một ô mới chứa các tham số mà bạn đã xác định.
    Lưu ý rằng tham số lấy giá trị mặc định của chúng, nhưng bạn có thể thay đổi nó bằng cách thay thế giá trị của nó trong parameter_overrides từ điển (trong khi giữ nguyên các khóa của từ điển).
    Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
    Ngoài ra, bạn có thể tạo các tham số mới từ Thông số UI.
  6. Mở nó lên bằng cách chọn biểu tượng tham số ({{}}) nằm cạnh Go quyền mua; cả hai đều nằm bên cạnh giá trị đường dẫn URI.
    Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Một bảng sẽ mở ra với tất cả các tham số hiện có trên tệp quy trình của bạn (filename_param tại thời điểm này).
  7. Bạn có thể tạo tham số mới cho quy trình của mình bằng cách chọn Tạo tham số.
    Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
    Một cửa sổ bật lên sẽ mở ra để cho phép bạn tạo một thông số tùy chỉnh mới.
  8. Ở đây, chúng tôi đã tạo một cái mới example_parameter dưới dạng Số với giá trị mặc định là 0. Tham số mới được tạo này hiện được liệt kê trong Thông số bàn. Di chuột qua tham số sẽ hiển thị các tùy chọn Chỉnh sửa, Xóa bỏChèn.Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  9. Từ bên trong Thông số UI, bạn có thể chèn một trong các tham số của mình vào URI bằng cách chọn tham số mong muốn và chọn Chèn.
    Thao tác này sẽ thêm tham số vào cuối URI của bạn. Bạn cần di chuyển nó đến phần mong muốn trong URI của mình.
    Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  10. Thay đổi giá trị mặc định của tham số, áp dụng thay đổi (từ phương thức), chọn Govà chọn biểu tượng làm mới để cập nhật danh sách xem trước bằng tập dữ liệu đã chọn dựa trên giá trị của tham số mới được xác định.Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Bây giờ chúng ta hãy khám phá các loại tham số khác. Giả sử bây giờ chúng ta có một tập dữ liệu được chia thành nhiều phần, trong đó mỗi tệp có một số phần.
  11. Nếu muốn tự động thay đổi số tệp, chúng tôi có thể xác định tham số Số như trong ảnh chụp màn hình sau.Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Lưu ý rằng tệp đã chọn là tệp khớp với số được chỉ định trong tham số.
    Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Bây giờ, hãy trình bày cách sử dụng tham số Mẫu. Giả sử chúng ta muốn nhập tất cả part_1.csv tập tin trong tất cả các thư mục dưới titanic-dataset/ thư mục. Các tham số mẫu có thể nhận bất kỳ biểu thức chính quy hợp lệ nào; có một số mẫu biểu thức chính quy được hiển thị làm ví dụ.
  12. Tạo một tham số Mẫu được gọi là any_pattern để khớp với bất kỳ thư mục hoặc tệp nào trong titanic-dataset/ thư mục có giá trị mặc định .*.Chú ý ký tự đại diện không phải là dấu * đơn (dấu hoa thị) mà còn có dấu chấm.
  13. Làm nổi bật titanic-dataset/ một phần của đường dẫn và tạo thông số tùy chỉnh. Lần này chúng tôi chọn Họa tiết kiểu.Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Mẫu này chọn tất cả các tệp có tên part-1.csv từ bất kỳ thư mục nào bên dưới titanic-dataset/.
    Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Một tham số có thể được sử dụng nhiều lần trong một đường dẫn. Trong ví dụ sau, chúng tôi sử dụng tham số mới được tạo any_pattern hai lần trong URI của chúng tôi để khớp với bất kỳ tệp phần nào trong bất kỳ thư mục nào bên dưới titanic-dataset/.
    Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Cuối cùng, hãy tạo một tham số Datetime. Tham số ngày giờ rất hữu ích khi chúng ta xử lý các đường dẫn được phân vùng theo ngày và giờ, giống như các đường dẫn được tạo bởi Amazon Kinesis Dữ liệu Firehose (xem Phân vùng động trong Kinesis Data Firehose). Đối với phần trình diễn này, chúng tôi sử dụng dữ liệu trong thư mục dữ liệu ngày giờ.
  14. Chọn phần đường dẫn của bạn là ngày/giờ và tạo thông số tùy chỉnh. Chọn Ngày giờ loại tham số.
    Khi chọn kiểu dữ liệu Datetime, bạn cần điền thêm thông tin chi tiết.
  15. Trước hết, bạn phải cung cấp định dạng ngày tháng. Bạn có thể chọn bất kỳ định dạng ngày/giờ được xác định trước nào hoặc tạo một định dạng tùy chỉnh.
    Đối với các định dạng ngày/giờ được xác định trước, chú giải cung cấp ví dụ về ngày khớp với định dạng đã chọn. Đối với trình diễn này, chúng tôi chọn định dạng yyyy / MM / dd.Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  16. Tiếp theo, chỉ định múi giờ cho các giá trị ngày/giờ.
    Ví dụ: ngày hiện tại có thể là ngày 1 tháng 2022 năm 2 ở một múi giờ nhưng có thể là ngày 2022 tháng XNUMX năm XNUMX ở múi giờ khác.
  17. Cuối cùng, bạn có thể chọn phạm vi thời gian, cho phép bạn chọn phạm vi tệp mà bạn muốn đưa vào luồng dữ liệu của mình.
    Bạn có thể chỉ định phạm vi thời gian của mình theo giờ, ngày, tuần, tháng hoặc năm. Đối với ví dụ này, chúng tôi muốn lấy tất cả các tệp từ năm ngoái.
  18. Cung cấp một mô tả của tham số và chọn Tạo.
    Nếu bạn đang sử dụng nhiều bộ dữ liệu với các múi giờ khác nhau, thời gian sẽ không được chuyển đổi tự động; bạn cần xử lý trước từng tệp hoặc nguồn để chuyển đổi nó thành một múi giờ.Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Các tệp được chọn là tất cả các tệp trong các thư mục tương ứng với dữ liệu của năm ngoái.Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  19. Bây giờ, nếu chúng ta tạo một công việc chuyển đổi dữ liệu, chúng ta có thể xem danh sách tất cả các tham số đã xác định và chúng ta có thể ghi đè các giá trị mặc định của chúng để các công việc chuyển đổi của chúng ta chọn các tệp đã chỉ định.Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
    Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Lên lịch xử lý công việc

Giờ đây, bạn có thể lên lịch các công việc xử lý để tự động chạy các công việc chuyển đổi dữ liệu và xuất dữ liệu đã chuyển đổi của mình sang Amazon S3 hoặc Cửa hàng tính năng Amazon SageMaker. Bạn có thể lên lịch các công việc với thời gian và chu kỳ phù hợp với nhu cầu của bạn.

Công việc xử lý theo lịch trình sử dụng Sự kiện Amazon quy tắc để lên lịch chạy công việc. Do đó, như một điều kiện tiên quyết, bạn phải đảm bảo rằng Quản lý truy cập và nhận dạng AWS (IAM) đang được Data Wrangler sử dụng, cụ thể là vai trò Amazon SageMaker vai trò thực hiện của phiên bản Studio, có quyền tạo quy tắc EventBridge.

Định cấu hình IAM

Tiếp tục với các cập nhật sau về vai trò thực thi IAM SageMaker tương ứng với phiên bản Studio nơi dòng Trình sắp xếp dữ liệu đang chạy:

  1. Đính kèm AmazonEventBridgeTruy cập đầy đủ chính sách được quản lý.
  2. Đính kèm chính sách để cấp quyền tạo công việc xử lý:
    {
    	"Version": "2012-10-17",
    	"Statement": [
    		{
    			"Effect": "Allow",
    			"Action": "sagemaker:StartPipelineExecution",
    			"Resource": "arn:aws:sagemaker:Region:AWS-account-id:pipeline/data-wrangler-*"
    		}
    	]
    }

  3. Cấp quyền cho EventBridge để đảm nhận vai trò bằng cách thêm chính sách tin cậy sau:
    {
    	"Effect": "Allow",
    	"Principal": {
    		"Service": "events.amazonaws.com"
    	},
    	"Action": "sts:AssumeRole"
    }

Ngoài ra, nếu bạn đang sử dụng một vai trò khác để chạy công việc xử lý, hãy áp dụng các chính sách được nêu trong bước 2 và 3 cho vai trò đó. Để biết chi tiết về cấu hình IAM, hãy tham khảo Tạo lịch biểu để tự động xử lý dữ liệu mới.

Tạo một lịch trình

Để tạo lịch biểu, hãy mở quy trình của bạn trong trình chỉnh sửa quy trình Sắp xếp dữ liệu.

  1. trên Dòng dữ liệu tab, chọn Tạo việc làm.
  2. Định cấu hình các trường bắt buộc và chọn Tiếp theo, 2. Định cấu hình công việc.
    Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  3. Mở rộng Lịch trình liên kết.
  4. Chọn Tạo lịch trình mới.
    Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
    Sản phẩm Tạo lịch trình mới hộp thoại mở ra, nơi bạn xác định các chi tiết của lịch trình công việc xử lý.
    Hộp thoại cung cấp sự linh hoạt tuyệt vời để giúp bạn xác định lịch trình. Ví dụ, bạn có thể có công việc xử lý đang chạy vào một thời điểm cụ thể hoặc X giờ một lần, vào những ngày cụ thể trong tuần.Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
    Tính chu kỳ có thể chi tiết đến mức phút.Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  5. Xác định tên lịch trình và chu kỳ, sau đó chọn Tạo để lưu lịch trình.
  6. Bạn có tùy chọn để bắt đầu công việc xử lý ngay lập tức cùng với việc lập lịch trình, điều này sẽ quan tâm đến các lần chạy trong tương lai hoặc để công việc chỉ chạy theo lịch trình.
  7. Bạn cũng có thể xác định một lịch trình bổ sung cho cùng một công việc xử lý.
    Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  8. Để kết thúc lịch trình cho công việc xử lý, hãy chọn Tạo.
    Bạn thấy thông báo "Công việc được lên lịch thành công". Ngoài ra, nếu bạn chọn để công việc chỉ chạy theo lịch trình, bạn sẽ thấy một liên kết đến quy tắc EventBridge mà bạn vừa tạo.Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Nếu bạn chọn liên kết lịch trình, một tab mới trong trình duyệt sẽ mở ra, hiển thị quy tắc EventBridge. Trên trang này, bạn có thể thực hiện thêm các sửa đổi đối với quy tắc và theo dõi lịch sử gọi của nó. Để ngừng chạy công việc xử lý theo lịch trình của bạn, hãy xóa quy tắc sự kiện có chứa tên lịch trình.

Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Quy tắc EventBridge hiển thị một quy trình SageMaker làm mục tiêu, được kích hoạt theo lịch trình đã xác định và công việc xử lý được gọi như một phần của quy trình.

Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Để theo dõi hoạt động của quy trình SageMaker, bạn có thể quay lại Studio, chọn Tài nguyên của SageMaker biểu tượng, chọn Đường ốngvà chọn tên quy trình bạn muốn theo dõi. Giờ đây, bạn có thể thấy một bảng có tất cả các lần chạy hiện tại và trước đây cũng như trạng thái của đường dẫn đó.

Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Bạn có thể xem thêm chi tiết bằng cách bấm đúp vào một mục cụ thể.

Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Làm sạch

Khi bạn không sử dụng Data Wrangler, bạn nên tắt phiên bản mà nó chạy để tránh phát sinh thêm phí.

Để tránh mất công việc, hãy lưu luồng dữ liệu của bạn trước khi tắt Data Wrangler.

  1. Để lưu luồng dữ liệu của bạn trong Studio, hãy chọn Tập tin, sau đó chọn Lưu dữ liệu Wrangler Flow. Data Wrangler tự động lưu luồng dữ liệu của bạn cứ sau 60 giây.
  2. Để tắt phiên bản Data Wrangler, trong Studio, hãy chọn Phiên bản và hạt nhân đang chạy.
  3. Theo ĐANG CHẠY CÁC ỨNG DỤNG, chọn biểu tượng tắt bên cạnh sagemaker-data-wrangler-1.0 ứng dụng.Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  4. Chọn Tắt tất cả xác nhận.Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Data Wrangler chạy trên một phiên bản ml.m5.4xlarge. Phiên bản này biến mất khỏi CẢI TIẾN CHẠY khi bạn tắt ứng dụng Data Wrangler.

Sau khi bạn tắt ứng dụng Data Wrangler, nó phải khởi động lại vào lần tiếp theo bạn mở tệp luồng Data Wrangler. Quá trình này có thể mất vài phút.

Kết luận

Trong bài đăng này, chúng tôi đã trình bày cách bạn có thể sử dụng các tham số để nhập tập dữ liệu của mình bằng cách sử dụng các luồng Data Wrangler và tạo các công việc chuyển đổi dữ liệu trên chúng. Bộ dữ liệu được tham số hóa cho phép các bộ dữ liệu bạn sử dụng linh hoạt hơn và cho phép bạn sử dụng lại các luồng của mình. Chúng tôi cũng trình bày cách bạn có thể thiết lập các công việc đã lên lịch để tự động chuyển đổi dữ liệu và xuất sang Amazon S3 hoặc Feature Store, vào thời điểm và chu kỳ phù hợp với nhu cầu của bạn, trực tiếp từ bên trong giao diện người dùng của Data Wrangler.

Để tìm hiểu thêm về cách sử dụng luồng dữ liệu với Data Wrangler, hãy tham khảo Tạo và sử dụng Luồng trình xử lý dữ liệuAmazon SageMaker Giá. Để bắt đầu với Data Wrangler, hãy xem Chuẩn bị dữ liệu ML với Amazon SageMaker Data Wrangler.


Giới thiệu về tác giả

Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.david laredo là Kiến trúc sư tạo mẫu cho nhóm Tạo mẫu và Kỹ thuật đám mây tại Amazon Web Services, nơi ông đã giúp phát triển nhiều nguyên mẫu máy học cho khách hàng AWS. Anh ấy đã làm việc trong lĩnh vực máy học trong 6 năm qua, đào tạo và tinh chỉnh các mô hình ML cũng như triển khai các quy trình từ đầu đến cuối để sản xuất các mô hình đó. Các lĩnh vực anh ấy quan tâm là NLP, ứng dụng ML và ML từ đầu đến cuối.

Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Givanildo Alves là Kiến trúc sư tạo mẫu của nhóm Kỹ thuật đám mây và Tạo mẫu tại Amazon Web Services, giúp khách hàng đổi mới và tăng tốc bằng cách thể hiện nghệ thuật khả thi trên AWS, đã triển khai một số nguyên mẫu xung quanh trí tuệ nhân tạo. Anh ấy có một thời gian dài làm việc trong lĩnh vực công nghệ phần mềm và trước đây từng là Kỹ sư phát triển phần mềm tại Amazon.com.br.

Kiểm soát nhiều hơn khối lượng công việc Amazon SageMaker Data Wrangler của bạn với các bộ dữ liệu được tham số hóa và các công việc đã lên lịch PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Adrian Fuentes là Giám đốc chương trình của nhóm Tạo mẫu và Kỹ thuật đám mây tại Amazon Web Services, đổi mới cho khách hàng về máy học, IoT và chuỗi khối. Ông có hơn 15 năm kinh nghiệm quản lý và triển khai các dự án và 1 năm làm việc tại AWS.

Dấu thời gian:

Thêm từ Học máy AWS