Sử dụng mẫu Github với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Sử dụng mẫu Github với Trình sắp xếp dữ liệu của Amazon SageMaker

Amazon SageMaker Trình sắp xếp dữ liệu là một công cụ chuẩn bị dữ liệu dựa trên giao diện người dùng giúp thực hiện phân tích, xử lý trước và trực quan hóa dữ liệu với các tính năng giúp làm sạch, chuyển đổi và chuẩn bị dữ liệu nhanh hơn. Các mẫu luồng dựng sẵn của Data Wrangler giúp chuẩn bị dữ liệu nhanh hơn cho các nhà khoa học dữ liệu và những người thực hành máy học (ML) bằng cách giúp bạn tăng tốc và hiểu các mẫu phương pháp thực hành tốt nhất cho các luồng dữ liệu bằng cách sử dụng các bộ dữ liệu phổ biến.

Bạn có thể sử dụng luồng Data Wrangler để thực hiện các tác vụ sau:

  • Trực quan hóa dữ liệu - Kiểm tra các thuộc tính thống kê cho từng cột trong tập dữ liệu, xây dựng biểu đồ, nghiên cứu các ngoại lệ
  • Làm sạch dữ liệu - Loại bỏ các bản sao, loại bỏ hoặc điền vào các mục nhập có giá trị bị thiếu, loại bỏ các giá trị ngoại lệ
  • Làm giàu dữ liệu và kỹ thuật tính năng - Xử lý các cột để xây dựng các tính năng biểu cảm hơn, chọn một tập hợp con các tính năng để đào tạo

Bài đăng này sẽ giúp bạn hiểu Data Wrangler bằng cách sử dụng các quy trình mẫu dựng sẵn sau đây trên GitHub. Kho lưu trữ hiển thị chuyển đổi dữ liệu dạng bảng, chuyển đổi dữ liệu chuỗi thời gian và chuyển đổi tập dữ liệu đã nối. Mỗi loại yêu cầu một loại biến đổi khác nhau vì tính chất cơ bản của chúng. Dữ liệu dạng bảng hoặc dữ liệu cắt ngang tiêu chuẩn được thu thập tại một thời điểm cụ thể. Ngược lại, dữ liệu chuỗi thời gian được ghi lại nhiều lần theo thời gian, với mỗi điểm dữ liệu kế tiếp phụ thuộc vào giá trị trong quá khứ của nó.

Hãy xem một ví dụ về cách chúng ta có thể sử dụng luồng dữ liệu mẫu cho dữ liệu dạng bảng.

Điều kiện tiên quyết

Data Wrangler là một Amazon SageMaker tính năng có sẵn trong Xưởng sản xuất Amazon SageMaker, vì vậy chúng ta cần tuân theo quy trình giới thiệu Studio để hoàn thiện môi trường Studio và sổ ghi chép. Mặc dù bạn có thể chọn từ một số phương thức xác thực nhưng cách đơn giản nhất để tạo miền Studio là làm theo Khởi động nhanh hướng dẫn. Khởi động nhanh sử dụng các cài đặt mặc định giống như thiết lập Studio tiêu chuẩn. Bạn cũng có thể chọn tham gia bằng cách sử dụng Trung tâm nhận dạng AWS IAM (kế thừa Đăng nhập một lần AWS) để xác thực (xem Tham gia vào miền Amazon SageMaker bằng Trung tâm nhận dạng IAM).

Nhập tập dữ liệu và tệp luồng vào Data Wrangler bằng Studio

Các bước sau đây phác thảo cách nhập dữ liệu vào SageMaker để Data Wrangler sử dụng:

Khởi tạo Data Wrangler thông qua giao diện người dùng Studio bằng cách chọn Luồng dữ liệu mới.

Sao chép Repo GitHub để tải các tệp luồng xuống môi trường Studio của bạn.

Sử dụng mẫu Github với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Khi quá trình sao chép hoàn tất, bạn sẽ có thể xem nội dung kho lưu trữ ở khung bên trái.

Sử dụng mẫu Github với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Chọn tập tin Khách sạn-Đặt chỗ-Classification.flow để nhập tệp luồng vào Data Wrangler.

Nếu bạn sử dụng chuỗi thời gian hoặc luồng dữ liệu đã nối thì luồng sẽ xuất hiện dưới dạng tên khác. Sau khi nhập luồng, bạn sẽ thấy ảnh chụp màn hình sau. Điều này cho chúng ta thấy lỗi vì chúng ta cần đảm bảo rằng tệp luồng trỏ đến nguồn dữ liệu chính xác trong Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3).

Sử dụng mẫu Github với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Chọn Chỉnh sửa tập dữ liệu để hiển thị tất cả các nhóm S3 của bạn. Tiếp theo, chọn tập dữ liệu hotel_bookings.csv từ nhóm S3 của bạn để chạy qua luồng dữ liệu dạng bảng.

Lưu ý rằng nếu bạn đang sử dụng luồng dữ liệu đã tham gia, bạn có thể phải nhập nhiều tập dữ liệu vào Data WranglerSử dụng mẫu Github với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Trong khung bên phải, hãy đảm bảo ĐOẠN VĂN được chọn làm dấu phân cách và Lấy mẫu được thiết lập để K đầu tiên. Tập dữ liệu của chúng tôi đủ nhỏ để chạy các phép biến đổi Data Wrangler trên tập dữ liệu đầy đủ nhưng chúng tôi muốn nêu bật cách bạn có thể nhập tập dữ liệu. Nếu bạn có tập dữ liệu lớn, hãy cân nhắc sử dụng phương pháp lấy mẫu. Chọn Nhập khẩu để nhập tập dữ liệu này vào Data Wrangler.

Sử dụng mẫu Github với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Sau khi tập dữ liệu được nhập, Data Wrangler sẽ tự động xác thực tập dữ liệu và phát hiện các loại dữ liệu. Bạn có thể thấy rằng các lỗi đã biến mất vì chúng tôi đang trỏ đến tập dữ liệu chính xác. Trình chỉnh sửa luồng hiện hiển thị hai khối cho biết dữ liệu đã được nhập từ nguồn và loại dữ liệu được nhận dạng. Bạn cũng có thể chỉnh sửa các loại dữ liệu nếu cần.

Sử dụng mẫu Github với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Ảnh chụp màn hình sau đây hiển thị các loại dữ liệu của chúng tôi.

Sử dụng mẫu Github với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Chúng ta hãy xem xét một số biến đổi được thực hiện như một phần của quy trình dạng bảng này. Nếu bạn đang sử dụng chuỗi thời gian or gia nhập luồng dữ liệu, hãy kiểm tra một số phép biến đổi phổ biến trên Repo GitHub. Chúng tôi đã thực hiện một số phân tích dữ liệu khám phá cơ bản bằng cách sử dụng các báo cáo thông tin chuyên sâu về dữ liệu để nghiên cứu mức độ rò rỉ mục tiêu và tính cộng tuyến của đặc điểm trong tập dữ liệu, phân tích tóm tắt bảng và khả năng lập mô hình nhanh. Khám phá các bước trên Repo GitHub.

Bây giờ chúng tôi loại bỏ các cột dựa trên đề xuất được cung cấp bởi Báo cáo chất lượng và thông tin chi tiết về dữ liệu.

  • Đối với rò rỉ mục tiêu, thả trạng thái đặt chỗ.
  • Đối với các cột thừa, hãy thả ngày_trong_danh sách chờ, khách sạn, loại_phòng dành riêng, ngày_đến_tháng, ngày_tình_trạng_đặt_đặt, em bé, ngày đến_ngày_tháng_đến.
  • Dựa trên kết quả tương quan tuyến tính, thả cột ngày đến_tuần_số ngày_đến_năm bởi vì các giá trị tương quan cho các cặp tính năng (cột) này lớn hơn ngưỡng khuyến nghị là 0.90.
  • Dựa trên kết quả tương quan phi tuyến tính, giảm trạng thái đặt chỗ. Cột này đã được đánh dấu là bị loại bỏ dựa trên phân tích rò rỉ mục tiêu.
  • Xử lý các giá trị số (tỷ lệ tối thiểu-tối đa) cho thời gian dẫn, lượt lưu trú_trong_tuần_đêm, lượt lưu trú_trong_ngày_đêm, được_repeated_khách, trước_hủy, trước_bookings_not_canceled, booking_changes, adr, tổng_of_specical_request, bắt buộc_car_parking_spaces.
  • Các biến phân loại mã hóa một lần như bữa ăn, is_repeated_khách, phân khúc thị trường, loại phòng được chỉ định, loại tiền gửi, loại khách hàng.
  • Cân bằng biến mục tiêu Mẫu dư thừa ngẫu nhiên cho sự mất cân bằng lớp. Sử dụng khả năng lập mô hình nhanh để xử lý các giá trị ngoại lệ và giá trị bị thiếu.

Sử dụng mẫu Github với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Xuất sang Amazon S3

Bây giờ chúng ta đã trải qua các chuyển đổi khác nhau và sẵn sàng xuất dữ liệu sang Amazon S3. Tùy chọn này tạo ra một công việc xử lý SageMaker, chạy luồng xử lý Data Wrangler và lưu tập dữ liệu kết quả vào bộ chứa S3 được chỉ định. Làm theo các bước tiếp theo để thiết lập xuất sang Amazon S3:

Chọn dấu cộng bên cạnh tập hợp các phần tử biến đổi và chọn Thêm điểm đếnthì Amazon S3.

Sử dụng mẫu Github với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

  • Trong Tên tập dữ liệu, nhập tên cho tập dữ liệu mới, ví dụ NYC_export.
  • Trong Loại tập tin, chọn CSV.
  • Trong Dấu phân cách, chọn Dấu phẩy.
  • Trong Nén, chọn Không áp dụng.
  • Trong Vị trí Amazon S3, hãy sử dụng cùng tên nhóm mà chúng tôi đã tạo trước đó.
  • Chọn Thêm điểm đến.

Sử dụng mẫu Github với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Chọn Tạo việc làm.

Sử dụng mẫu Github với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Trong Tên công việc, nhập tên hoặc giữ tùy chọn được tạo tự động và chọn điểm đến. Chúng ta chỉ có một đích đến S3:testingtabulardata, nhưng bạn có thể có nhiều đích đến từ các bước khác nhau trong quy trình làm việc của mình. Để lại ARN khóa KMS trường trống và chọn Sau.

Bây giờ bạn phải cấu hình khả năng tính toán cho một công việc. Bạn có thể giữ tất cả các giá trị mặc định cho ví dụ này.

  • Trong Loại phiên bản, hãy sử dụng ml.m5.4xlarge.
  • Trong Số lượng phiên bản, sử dụng 2.
  • Bạn có thể khám phá Cấu hình bổ sung, nhưng vẫn giữ cài đặt mặc định.
  • Chọn chạy.

Sử dụng mẫu Github với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Bây giờ công việc của bạn đã bắt đầu và phải mất một thời gian để xử lý 6 GB dữ liệu theo quy trình xử lý Data Wrangler của chúng tôi. Chi phí cho công việc này sẽ vào khoảng 2 USD, vì ml.m5.4xlarge có giá 0.922 USD mỗi giờ và chúng tôi đang sử dụng hai trong số đó.

Nếu bạn chọn tên công việc, bạn sẽ được chuyển hướng đến một cửa sổ mới có chi tiết công việc.

Sử dụng mẫu Github với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Trên trang chi tiết công việc, bạn có thể xem tất cả các thông số từ các bước trước đó.

Khi trạng thái công việc thay đổi thành Đã hoàn thành, bạn cũng có thể kiểm tra Thời gian xử lý (giây) giá trị. Công việc xử lý này mất khoảng 5–10 phút để hoàn thành.

Sử dụng mẫu Github với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Khi công việc hoàn thành, các tệp đầu ra đào tạo và kiểm tra sẽ có sẵn trong các thư mục đầu ra S3 tương ứng. Bạn có thể tìm thấy vị trí đầu ra từ cấu hình công việc xử lý.

Sử dụng mẫu Github với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Sau khi công việc xử lý Data Wrangler hoàn tất, chúng ta có thể kiểm tra kết quả được lưu trong bộ chứa S3 của mình. Đừng quên cập nhật job_name biến có tên công việc của bạn.

Bây giờ bạn có thể sử dụng dữ liệu đã xuất này để chạy các mô hình ML.

Làm sạch

Xóa nhóm S3 của bạnLuồng Data Wrangler để xóa các tài nguyên cơ bản và tránh những chi phí không mong muốn sau khi bạn kết thúc thử nghiệm.

Kết luận

Trong bài đăng này, chúng tôi đã hướng dẫn cách bạn có thể nhập luồng dữ liệu dựng sẵn dạng bảng vào Data Wrangler, cắm luồng dữ liệu đó vào tập dữ liệu của chúng tôi và xuất kết quả sang Amazon S3. Nếu trường hợp sử dụng của bạn yêu cầu bạn thao tác với dữ liệu chuỗi thời gian hoặc nối nhiều tập dữ liệu, bạn có thể xem qua các luồng mẫu dựng sẵn khác trong Repo GitHub.

Sau khi nhập quy trình chuẩn bị dữ liệu dựng sẵn, bạn có thể tích hợp quy trình đó với Amazon SageMaker Treatment, Đường ống Amazon SageMakerCửa hàng tính năng Amazon SageMaker để đơn giản hóa nhiệm vụ xử lý, chia sẻ và lưu trữ dữ liệu đào tạo ML. Bạn cũng có thể xuất luồng dữ liệu mẫu này sang tập lệnh Python và tạo quy trình chuẩn bị dữ liệu ML tùy chỉnh, từ đó tăng tốc độ phát hành của bạn.

Chúng tôi khuyến khích bạn kiểm tra Kho GitHub để thực hành và tìm ra những cách mới để cải thiện độ chính xác của mô hình! Để tìm hiểu thêm về SageMaker, hãy truy cập Hướng dẫn dành cho nhà phát triển Amazon SageMaker.


Về các tác giả

Sử dụng mẫu Github với Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Isha Dua là một Kiến trúc sư Giải pháp Cao cấp có trụ sở tại Khu vực Vịnh San Francisco. Cô ấy giúp khách hàng AWS Enterprise phát triển bằng cách hiểu các mục tiêu và thách thức của họ, đồng thời hướng dẫn họ cách họ có thể kiến ​​trúc các ứng dụng của mình theo cách riêng trên nền tảng đám mây trong khi đảm bảo chúng có khả năng phục hồi và mở rộng. Cô ấy đam mê công nghệ máy học và tính bền vững của môi trường.

Dấu thời gian:

Thêm từ Học máy AWS