Sử dụng mẫu Github với Trình sắp xếp dữ liệu của Amazon SageMaker

Được xuất bản lại bởi Plato

Người theo dõi: 0

Amazon SageMake r Trình sắp xếp dữ liệu là một công cụ chuẩn bị dữ liệu dựa trên giao diện người dùng giúp thực hiện phân tích, xử lý trước và trực quan hóa dữ liệu với các tính năng giúp làm sạch, chuyển đổi và chuẩn bị dữ liệu nhanh hơn. Các mẫu luồng dựng sẵn của Data Wrangler giúp chuẩn bị dữ liệu nhanh hơn cho các nhà khoa học dữ liệu và những người thực hành máy học (ML) bằng cách giúp bạn tăng tốc và hiểu các mẫu phương pháp thực hành tốt nhất cho các luồng dữ liệu bằng cách sử dụng các bộ dữ liệu phổ biến.

Bạn có thể sử dụng luồng Data Wrangler để thực hiện các tác vụ sau:

Trực quan hóa dữ liệu - Kiểm tra các thuộc tính thống kê cho từng cột trong tập dữ liệu, xây dựng biểu đồ, nghiên cứu các ngoại lệ
Làm sạch dữ liệu - Loại bỏ các bản sao, loại bỏ hoặc điền vào các mục nhập có giá trị bị thiếu, loại bỏ các giá trị ngoại lệ
Làm giàu dữ liệu và kỹ thuật tính năng - Xử lý các cột để xây dựng các tính năng biểu cảm hơn, chọn một tập hợp con các tính năng để đào tạo

Bài đăng này sẽ giúp bạn hiểu Data Wrangler bằng cách sử dụng các quy trình mẫu dựng sẵn sau đây trên GitHub. Kho lưu trữ hiển thị chuyển đổi dữ liệu dạng bảng, chuyển đổi dữ liệu chuỗi thời gian và chuyển đổi tập dữ liệu đã nối. Mỗi loại yêu cầu một loại biến đổi khác nhau vì tính chất cơ bản của chúng. Dữ liệu dạng bảng hoặc dữ liệu cắt ngang tiêu chuẩn được thu thập tại một thời điểm cụ thể. Ngược lại, dữ liệu chuỗi thời gian được ghi lại nhiều lần theo thời gian, với mỗi điểm dữ liệu kế tiếp phụ thuộc vào giá trị trong quá khứ của nó.

Hãy xem một ví dụ về cách chúng ta có thể sử dụng luồng dữ liệu mẫu cho dữ liệu dạng bảng.

Điều kiện tiên quyết

Data Wrangler là một Amazon SageMaker tính năng có sẵn trong Xưởng sản xuất Amazon SageMaker, vì vậy chúng ta cần tuân theo quy trình giới thiệu Studio để hoàn thiện môi trường Studio và sổ ghi chép. Mặc dù bạn có thể chọn từ một số phương thức xác thực nhưng cách đơn giản nhất để tạo miền Studio là làm theo Khởi động nhanh hướng dẫn. Khởi động nhanh sử dụng các cài đặt mặc định giống như thiết lập Studio tiêu chuẩn. Bạn cũng có thể chọn tham gia bằng cách sử dụng Trung tâm nhận dạng AWS IAM (kế thừa Đăng nhập một lần AWS) để xác thực (xem Tham gia vào miền Amazon SageMaker bằng Trung tâm nhận dạng IAM).