Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm với ML

Phòng thí nghiệm Amazon SageMaker Studio là một môi trường phát triển máy học (ML) miễn phí dựa trên mã nguồn mở JupyterLab cho mọi người tìm hiểu và thử nghiệm với ML bằng cách sử dụng tài nguyên máy tính AWS ML. Nó dựa trên cùng một kiến ​​trúc và giao diện người dùng như Xưởng sản xuất Amazon SageMaker, nhưng với một tập hợp con các khả năng của Studio.

Khi bắt đầu thực hiện các sáng kiến ​​ML, bạn cần thực hiện phân tích dữ liệu khám phá (EDA) hoặc chuẩn bị dữ liệu trước khi tiến hành xây dựng mô hình. Trình sắp xếp dữ liệu Amazon SageMaker là một khả năng của Amazon SageMaker điều đó giúp các nhà khoa học dữ liệu và kỹ sư chuẩn bị dữ liệu cho các ứng dụng ML thông qua giao diện trực quan nhanh hơn. Data Wrangler giảm thời gian tổng hợp và chuẩn bị dữ liệu cho ML từ vài tuần xuống còn vài phút.

Một yếu tố thúc đẩy chính của việc chuẩn bị tính năng trong Data Wrangler là Báo cáo chất lượng dữ liệu và thông tin chi tiết. Báo cáo này kiểm tra chất lượng dữ liệu và giúp phát hiện những bất thường trong dữ liệu của bạn để bạn có thể thực hiện kỹ thuật dữ liệu cần thiết để sửa tập dữ liệu của mình. Bạn có thể sử dụng Báo cáo thông tin chi tiết và chất lượng dữ liệu để thực hiện phân tích dữ liệu nhằm hiểu rõ hơn về tập dữ liệu của mình, chẳng hạn như số lượng giá trị bị thiếu và số lượng giá trị ngoại lệ. Nếu bạn gặp vấn đề với dữ liệu của mình, chẳng hạn như rò rỉ hoặc mất cân bằng mục tiêu, thì báo cáo thông tin chi tiết có thể khiến bạn chú ý đến những vấn đề đó và giúp bạn xác định các bước chuẩn bị dữ liệu mà bạn cần thực hiện.

Người dùng Studio Lab có thể được hưởng lợi từ Data Wrangler vì chất lượng dữ liệu và kỹ thuật tính năng rất quan trọng đối với hiệu suất dự đoán của mô hình của bạn. Data Wrangler giúp nâng cao chất lượng dữ liệu và kỹ thuật tính năng bằng cách cung cấp thông tin chi tiết về các vấn đề chất lượng dữ liệu và dễ dàng cho phép lặp lại và kỹ thuật tính năng nhanh chóng bằng cách sử dụng giao diện người dùng mã thấp.

Trong bài đăng này, chúng tôi hướng dẫn bạn cách thực hiện phân tích dữ liệu khám phá, chuẩn bị và chuyển đổi dữ liệu bằng Data Wrangler, đồng thời xuất dữ liệu đã biến đổi và chuẩn bị sang Studio Lab để thực hiện xây dựng mô hình.

Tổng quan về giải pháp

Giải pháp bao gồm các bước cấp cao sau:

  1. Tạo tài khoản AWS và người dùng quản trị. Đây là điều kiện tiên quyết
  2. Tải xuống tập dữ liệu khuấy.csv.
  3. Tải tập dữ liệu vào Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3).
  4. Tạo miền SageMaker Studio và khởi chạy Data Wrangler.
  5. Nhập tập dữ liệu vào luồng Data Wrangler từ Amazon S3.
  6. Tạo Báo cáo chất lượng dữ liệu và thông tin chi tiết và đưa ra kết luận về kỹ thuật tính năng cần thiết.
  7. Thực hiện các phép biến đổi dữ liệu cần thiết trong Data Wrangler.
  8. Tải xuống Báo cáo chất lượng dữ liệu và thông tin chi tiết và tập dữ liệu đã chuyển đổi.
  9. Tải dữ liệu lên dự án Studio Lab để đào tạo mô hình.

Sơ đồ sau minh họa quy trình làm việc này.

Điều kiện tiên quyết

Để sử dụng Data Wrangler và Studio Lab, bạn cần có các điều kiện tiên quyết sau:

Xây dựng quy trình chuẩn bị dữ liệu với Data Wrangler

Để bắt đầu, hãy hoàn thành các bước sau:

  1. Tải tập dữ liệu của bạn lên Amazon S3.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  2. Trên bảng điều khiển SageMaker, dưới Bảng điều khiển trong ngăn điều hướng, chọn Studio.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  3. trên Chạy chương trình bên cạnh hồ sơ người dùng của bạn, chọn Studio.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
    Sau khi đăng nhập thành công vào Studio, bạn sẽ thấy một môi trường phát triển như ảnh chụp màn hình sau.
  4. Để tạo dòng công việc Data Wrangler mới, trên Tập tin menu, chọn Mới, sau đó chọn Luồng trình xử lý dữ liệu.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
    Bước đầu tiên trong Data Wrangler là nhập khẩu dữ liệu của bạn. Bạn có thể nhập dữ liệu từ nhiều nguồn dữ liệu, chẳng hạn như Amazon S3, amazon Athena, Amazon RedShift, SnowflakeBảng dữ liệu. Trong ví dụ này, chúng tôi sử dụng Amazon S3. Nếu bạn chỉ muốn xem Data Wrangler hoạt động như thế nào, bạn luôn có thể chọn Sử dụng tập dữ liệu mẫu.
  5. Chọn Nhập dữ liệu.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  6. Chọn Amazon S3.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  7. Chọn tập dữ liệu bạn đã tải lên và chọn Nhập khẩu.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
    Data Wrangler cho phép bạn nhập toàn bộ tập dữ liệu hoặc lấy mẫu một phần của nó.
  8. Để nhanh chóng có được thông tin chi tiết về tập dữ liệu, hãy chọn K đầu tiên cho Lấy mẫu và nhập 50000 cho Cỡ mẫu.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Hiểu chất lượng dữ liệu và nhận thông tin chi tiết

Hãy sử dụng Báo cáo thông tin chi tiết và chất lượng dữ liệu để thực hiện phân tích dữ liệu mà chúng tôi đã nhập vào Data Wrangler. Bạn có thể sử dụng báo cáo để hiểu những bước bạn cần thực hiện để làm sạch và xử lý dữ liệu của mình. Báo cáo này cung cấp thông tin như số lượng giá trị bị thiếu và số lượng giá trị ngoại lai. Nếu bạn gặp vấn đề với dữ liệu của mình, chẳng hạn như rò rỉ hoặc mất cân bằng mục tiêu, báo cáo thông tin chi tiết có thể khiến bạn chú ý đến những vấn đề đó.

  1. Chọn dấu cộng bên cạnh Loại dữ liệu Và chọn Nhận thông tin chi tiết về dữ liệu.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  2. Trong Loại phân tích, chọn Báo cáo chất lượng dữ liệu và thông tin chi tiết.
  3. Trong Cột mục tiêu, chọn Khuấy đảo?.
  4. Trong Loại vấn đềlựa chọn phân loại.
  5. Chọn Tạo.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Bạn được trình bày với một báo cáo chi tiết mà bạn có thể xem lại và tải xuống. Báo cáo bao gồm một số phần như mô hình nhanh, tóm tắt tính năng, tương quan tính năng và thông tin chi tiết về dữ liệu. Ảnh chụp màn hình sau đây cung cấp các ví dụ về các phần này.

Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái. Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái. Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Quan sát từ báo cáo

Từ báo cáo, chúng tôi có thể đưa ra những nhận xét sau:

  • Không có hàng trùng lặp nào được tìm thấy.
  • Sản phẩm State cột dường như được phân bố khá đồng đều, vì vậy dữ liệu được cân bằng về dân số trạng thái.
  • Sản phẩm Phone cột hiển thị quá nhiều giá trị duy nhất để có thể sử dụng trong thực tế. Quá nhiều giá trị duy nhất làm cho cột này không hữu ích. Chúng tôi có thể thả Phone trong quá trình chuyển đổi của chúng tôi.
  • Dựa trên phần tương quan đặc điểm của báo cáo, MinsCharge có tương quan cao. Chúng tôi có thể loại bỏ một trong số chúng.

Chuyển đổi

Dựa trên những quan sát của chúng tôi, chúng tôi muốn thực hiện các phép biến đổi sau:

  • Gỡ bỏ Phone vì nó có nhiều giá trị duy nhất.
  • Chúng tôi cũng thấy một số tính năng về cơ bản có mối tương quan 100% với nhau. Bao gồm các cặp tính năng này trong một số thuật toán ML có thể tạo ra các vấn đề không mong muốn, trong khi ở các thuật toán khác, nó sẽ chỉ gây ra sự dư thừa và sai lệch nhỏ. Hãy xóa một đặc điểm khỏi mỗi cặp có tương quan cao: Day Charge từ cặp với Day Mins, Night Charge từ cặp với Night MinsIntl Charge từ cặp với Intl Mins.
  • Chuyển đổi True or False trong Churn cột là một giá trị số của 1 hoặc 0.
  1. Quay lại luồng dữ liệu và chọn dấu cộng bên cạnh Loại dữ liệu.
  2. Chọn Thêm biến đổi.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  3. Chọn Thêm bước.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  4. Bạn có thể tìm kiếm biến đổi mà bạn đang tìm kiếm (trong trường hợp của chúng tôi là quản lý các cột).
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  5. Chọn Quản lý các cột.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  6. Trong Chuyển đổichọn Thả cột.
  7. Trong Các cột để thảchọn Phone, Day Charge, Eve Charge, Night ChargeIntl Charge.
  8. Chọn Xem trước, sau đó chọn Cập nhật.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
    Hãy thêm một biến đổi khác để thực hiện mã hóa phân loại trên Churn? cột.
  9. Chọn chuyển đổi Mã hóa phân loại.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  10. Trong Chuyển đổi, chọn Mã hóa thông thường.
  11. Trong Các cột đầu vào, chọn Churn? cột.
  12. Trong Chiến lược xử lý không hợp lệ, chọn Thay thế bằng NaN.
  13. Chọn Xem trước, sau đó chọn Cập nhật.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Hiện nay TrueFalse được chuyển đổi tương ứng thành 1 và 0.

Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Bây giờ chúng tôi đã hiểu rõ về dữ liệu và đã chuẩn bị và chuyển đổi dữ liệu để xây dựng mô hình, chúng tôi có thể chuyển dữ liệu đến Studio Lab để xây dựng mô hình.

Tải dữ liệu lên Studio Lab

Để bắt đầu sử dụng dữ liệu trong Studio Lab, hãy hoàn thành các bước sau:

  1. Chọn Xuất dữ liệu đến xuất khẩu vào một thùng S3.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  2. Trong Vị trí Amazon S3, nhập đường dẫn S3 của bạn.
  3. Chỉ định loại tệp.
  4. Chọn Xuất dữ liệu.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  5. Sau khi xuất dữ liệu, bạn có thể tải dữ liệu từ thùng S3 xuống máy tính cục bộ của mình.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  6. Bây giờ bạn có thể vào Studio Lab và tải tệp lên Studio Lab.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
    Ngoài ra, bạn có thể kết nối với Amazon S3 từ Studio Lab. Để biết thêm thông tin, hãy tham khảo Sử dụng tài nguyên bên ngoài trong Amazon SageMaker Studio Lab.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  7. Hãy cài đặt SageMaker và nhập gấu trúc.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  8. Nhập tất cả các thư viện theo yêu cầu.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  9. Bây giờ chúng ta có thể đọc tệp CSV.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
  10. Hãy in churn để xác nhận tập dữ liệu là chính xác.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Bây giờ bạn đã xử lý tập dữ liệu trong Studio Lab, bạn có thể thực hiện các bước tiếp theo cần thiết để xây dựng mô hình.

Định giá Data Wrangler

Bạn có thể thực hiện tất cả các bước trong bài đăng này cho EDA hoặc chuẩn bị dữ liệu trong Data Wrangler và trả đối với ví dụ đơn giản, công việc và định giá bộ nhớ dựa trên mức sử dụng hoặc mức tiêu thụ. Không cần trả trước hoặc phí cấp phép.

Làm sạch

Khi bạn không sử dụng Data Wrangler, điều quan trọng là phải tắt phiên bản mà nó chạy để tránh phát sinh thêm phí. Để tránh mất công việc, hãy lưu luồng dữ liệu của bạn trước khi tắt Data Wrangler.

  1. Để lưu luồng dữ liệu của bạn trong Studio, hãy chọn Tập tin, sau đó chọn Lưu dữ liệu Wrangler Flow.
    Data Wrangler tự động lưu luồng dữ liệu của bạn sau mỗi 60 giây.
  2. Để tắt phiên bản Data Wrangler, trong Studio, hãy chọn Phiên bản và hạt nhân đang chạy.
  3. Theo ĐANG CHẠY CÁC ỨNG DỤNG, chọn biểu tượng tắt bên cạnh sagemaker-data-wrangler-1.0 app.
  4. Chọn Tắt tất cả xác nhận.
    Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Data Wrangler chạy trên một phiên bản ml.m5.4xlarge. Phiên bản này biến mất khỏi CẢI TIẾN CHẠY khi bạn tắt ứng dụng Data Wrangler.

Sau khi bạn tắt ứng dụng Data Wrangler, nó phải khởi động lại vào lần tiếp theo bạn mở tệp luồng Data Wrangler. Quá trình này có thể mất vài phút.

Kết luận

Trong bài đăng này, chúng tôi đã thấy cách bạn có thể hiểu rõ hơn về tập dữ liệu của mình, thực hiện phân tích dữ liệu khám phá, chuẩn bị và chuyển đổi dữ liệu bằng Data Wrangler trong Studio, đồng thời xuất dữ liệu đã biến đổi và chuẩn bị sang Studio Lab và thực hiện xây dựng mô hình và các bước khác.

Với SageMaker Data Wrangler, bạn có thể đơn giản hóa quá trình chuẩn bị dữ liệu và kỹ thuật tính năng, đồng thời hoàn thành từng bước của quy trình chuẩn bị dữ liệu, bao gồm lựa chọn, làm sạch, thăm dò và trực quan hóa dữ liệu từ một giao diện trực quan duy nhất.


Giới thiệu về tác giả

Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Rajakumar Sampathkumar là Giám đốc Tài khoản Kỹ thuật Chính tại AWS, cung cấp cho khách hàng hướng dẫn về sự liên kết giữa kinh doanh và công nghệ và hỗ trợ việc sáng tạo lại các mô hình và quy trình hoạt động đám mây của họ. Anh ấy đam mê đám mây và máy học. Raj cũng là một chuyên gia học máy và làm việc với khách hàng AWS để thiết kế, triển khai và quản lý khối lượng công việc và kiến ​​trúc AWS của họ.

Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.Meenakshisundaram Thandavarayan là một chuyên gia cao cấp về AI / ML với niềm đam mê thiết kế, tạo và thúc đẩy trải nghiệm Dữ liệu và Phân tích lấy con người làm trung tâm. Anh ấy hỗ trợ các khách hàng Chiến lược của AWS trong quá trình chuyển đổi của họ sang tổ chức theo hướng dữ liệu.

Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm ML PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.James Wu là Kiến trúc sư Giải pháp Chuyên gia về AI / ML Cấp cao tại AWS. giúp khách hàng thiết kế và xây dựng các giải pháp AI / ML. Công việc của James bao gồm một loạt các trường hợp sử dụng ML, với mối quan tâm chính là tầm nhìn máy tính, học sâu và mở rộng ML trong toàn doanh nghiệp. Trước khi gia nhập AWS, James là kiến ​​trúc sư, nhà phát triển và nhà lãnh đạo công nghệ trong hơn 10 năm, bao gồm 6 năm trong lĩnh vực kỹ thuật và 4 năm trong ngành tiếp thị & quảng cáo.

Dấu thời gian:

Thêm từ Học máy AWS