Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và phòng thí nghiệm Studio để tìm hiểu và thử nghiệm với ML

Được xuất bản lại bởi Plato

Người theo dõi: 0

Phòng thí nghiệm Amazon SageMaker Studio là một môi trường phát triển máy học (ML) miễn phí dựa trên mã nguồn mở JupyterLab cho mọi người tìm hiểu và thử nghiệm với ML bằng cách sử dụng tài nguyên máy tính AWS ML. Nó dựa trên cùng một kiến trúc và giao diện người dùng như Xưởng sản xuất Amazon SageMaker, nhưng với một tập hợp con các khả năng của Studio.

Khi bắt đầu thực hiện các sáng kiến ML, bạn cần thực hiện phân tích dữ liệu khám phá (EDA) hoặc chuẩn bị dữ liệu trước khi tiến hành xây dựng mô hình. Trình sắp xếp dữ liệu Amazon SageMaker là một khả năng của Amazon SageMaker điều đó giúp các nhà khoa học dữ liệu và kỹ sư chuẩn bị dữ liệu cho các ứng dụng ML thông qua giao diện trực quan nhanh hơn. Data Wrangler giảm thời gian tổng hợp và chuẩn bị dữ liệu cho ML từ vài tuần xuống còn vài phút.

Một yếu tố thúc đẩy chính của việc chuẩn bị tính năng trong Data Wrangler là Báo cáo chất lượng dữ liệu và thông tin chi tiết. Báo cáo này kiểm tra chất lượng dữ liệu và giúp phát hiện những bất thường trong dữ liệu của bạn để bạn có thể thực hiện kỹ thuật dữ liệu cần thiết để sửa tập dữ liệu của mình. Bạn có thể sử dụng Báo cáo thông tin chi tiết và chất lượng dữ liệu để thực hiện phân tích dữ liệu nhằm hiểu rõ hơn về tập dữ liệu của mình, chẳng hạn như số lượng giá trị bị thiếu và số lượng giá trị ngoại lệ. Nếu bạn gặp vấn đề với dữ liệu của mình, chẳng hạn như rò rỉ hoặc mất cân bằng mục tiêu, thì báo cáo thông tin chi tiết có thể khiến bạn chú ý đến những vấn đề đó và giúp bạn xác định các bước chuẩn bị dữ liệu mà bạn cần thực hiện.

Người dùng Studio Lab có thể được hưởng lợi từ Data Wrangler vì chất lượng dữ liệu và kỹ thuật tính năng rất quan trọng đối với hiệu suất dự đoán của mô hình của bạn. Data Wrangler giúp nâng cao chất lượng dữ liệu và kỹ thuật tính năng bằng cách cung cấp thông tin chi tiết về các vấn đề chất lượng dữ liệu và dễ dàng cho phép lặp lại và kỹ thuật tính năng nhanh chóng bằng cách sử dụng giao diện người dùng mã thấp.

Trong bài đăng này, chúng tôi hướng dẫn bạn cách thực hiện phân tích dữ liệu khám phá, chuẩn bị và chuyển đổi dữ liệu bằng Data Wrangler, đồng thời xuất dữ liệu đã biến đổi và chuẩn bị sang Studio Lab để thực hiện xây dựng mô hình.

Tổng quan về giải pháp

Giải pháp bao gồm các bước cấp cao sau:

Tạo tài khoản AWS và người dùng quản trị. Đây là điều kiện tiên quyết
Tải xuống tập dữ liệu khuấy.csv.
Tải tập dữ liệu vào Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3).
Tạo miền SageMaker Studio và khởi chạy Data Wrangler.
Nhập tập dữ liệu vào luồng Data Wrangler từ Amazon S3.
Tạo Báo cáo chất lượng dữ liệu và thông tin chi tiết và đưa ra kết luận về kỹ thuật tính năng cần thiết.
Thực hiện các phép biến đổi dữ liệu cần thiết trong Data Wrangler.
Tải xuống Báo cáo chất lượng dữ liệu và thông tin chi tiết và tập dữ liệu đã chuyển đổi.
Tải dữ liệu lên dự án Studio Lab để đào tạo mô hình.

Sơ đồ sau minh họa quy trình làm việc này.

Điều kiện tiên quyết

Để sử dụng Data Wrangler và Studio Lab, bạn cần có các điều kiện tiên quyết sau:

Xây dựng quy trình chuẩn bị dữ liệu với Data Wrangler

Để bắt đầu, hãy hoàn thành các bước sau:

Tải tập dữ liệu của bạn lên Amazon S3.
Trên bảng điều khiển SageMaker, dưới Bảng điều khiển trong ngăn điều hướng, chọn Studio.
trên Chạy chương trình bên cạnh hồ sơ người dùng của bạn, chọn Studio.

Sau khi đăng nhập thành công vào Studio, bạn sẽ thấy một môi trường phát triển như ảnh chụp màn hình sau.
Để tạo dòng công việc Data Wrangler mới, trên Tập tin menu, chọn Mới, sau đó chọn Luồng trình xử lý dữ liệu.

Bước đầu tiên trong Data Wrangler là nhập khẩu dữ liệu của bạn. Bạn có thể nhập dữ liệu từ nhiều nguồn dữ liệu, chẳng hạn như Amazon S3, amazon Athena, Amazon RedShift, Snowflakevà Bảng dữ liệu. Trong ví dụ này, chúng tôi sử dụng Amazon S3. Nếu bạn chỉ muốn xem Data Wrangler hoạt động như thế nào, bạn luôn có thể chọn Sử dụng tập dữ liệu mẫu.
Chọn Nhập dữ liệu.
Chọn Amazon S3.
Chọn tập dữ liệu bạn đã tải lên và chọn Nhập khẩu.

Data Wrangler cho phép bạn nhập toàn bộ tập dữ liệu hoặc lấy mẫu một phần của nó.
Để nhanh chóng có được thông tin chi tiết về tập dữ liệu, hãy chọn K đầu tiên cho Lấy mẫu và nhập 50000 cho Cỡ mẫu.

Hiểu chất lượng dữ liệu và nhận thông tin chi tiết

Hãy sử dụng Báo cáo thông tin chi tiết và chất lượng dữ liệu để thực hiện phân tích dữ liệu mà chúng tôi đã nhập vào Data Wrangler. Bạn có thể sử dụng báo cáo để hiểu những bước bạn cần thực hiện để làm sạch và xử lý dữ liệu của mình. Báo cáo này cung cấp thông tin như số lượng giá trị bị thiếu và số lượng giá trị ngoại lai. Nếu bạn gặp vấn đề với dữ liệu của mình, chẳng hạn như rò rỉ hoặc mất cân bằng mục tiêu, báo cáo thông tin chi tiết có thể khiến bạn chú ý đến những vấn đề đó.

Chọn dấu cộng bên cạnh Loại dữ liệu Và chọn Nhận thông tin chi tiết về dữ liệu.
Trong Loại phân tích, chọn Báo cáo chất lượng dữ liệu và thông tin chi tiết.
Trong Cột mục tiêu, chọn Khuấy đảo?.
Trong Loại vấn đềlựa chọn phân loại.
Chọn Tạo.

Bạn được trình bày với một báo cáo chi tiết mà bạn có thể xem lại và tải xuống. Báo cáo bao gồm một số phần như mô hình nhanh, tóm tắt tính năng, tương quan tính năng và thông tin chi tiết về dữ liệu. Ảnh chụp màn hình sau đây cung cấp các ví dụ về các phần này.

Quan sát từ báo cáo

Từ báo cáo, chúng tôi có thể đưa ra những nhận xét sau:

Không có hàng trùng lặp nào được tìm thấy.
Sản phẩm State cột dường như được phân bố khá đồng đều, vì vậy dữ liệu được cân bằng về dân số trạng thái.
Sản phẩm Phone cột hiển thị quá nhiều giá trị duy nhất để có thể sử dụng trong thực tế. Quá nhiều giá trị duy nhất làm cho cột này không hữu ích. Chúng tôi có thể thả Phone trong quá trình chuyển đổi của chúng tôi.
Dựa trên phần tương quan đặc điểm của báo cáo, Mins và Charge có tương quan cao. Chúng tôi có thể loại bỏ một trong số chúng.

Chuyển đổi

Dựa trên những quan sát của chúng tôi, chúng tôi muốn thực hiện các phép biến đổi sau:

Gỡ bỏ Phone vì nó có nhiều giá trị duy nhất.
Chúng tôi cũng thấy một số tính năng về cơ bản có mối tương quan 100% với nhau. Bao gồm các cặp tính năng này trong một số thuật toán ML có thể tạo ra các vấn đề không mong muốn, trong khi ở các thuật toán khác, nó sẽ chỉ gây ra sự dư thừa và sai lệch nhỏ. Hãy xóa một đặc điểm khỏi mỗi cặp có tương quan cao: Day Charge từ cặp với Day Mins, Night Charge từ cặp với Night Minsvà Intl Charge từ cặp với Intl Mins.
Chuyển đổi True or False trong Churn cột là một giá trị số của 1 hoặc 0.

Quay lại luồng dữ liệu và chọn dấu cộng bên cạnh Loại dữ liệu.
Chọn Thêm biến đổi.
Chọn Thêm bước.
Bạn có thể tìm kiếm biến đổi mà bạn đang tìm kiếm (trong trường hợp của chúng tôi là quản lý các cột).
Chọn Quản lý các cột.
Trong Chuyển đổichọn Thả cột.
Trong Các cột để thảchọn Phone, Day Charge, Eve Charge, Night Chargevà Intl Charge.
Chọn Xem trước, sau đó chọn Cập nhật.

Hãy thêm một biến đổi khác để thực hiện mã hóa phân loại trên Churn? cột.
Chọn chuyển đổi Mã hóa phân loại.
Trong Chuyển đổi, chọn Mã hóa thông thường.
Trong Các cột đầu vào, chọn Churn? cột.
Trong Chiến lược xử lý không hợp lệ, chọn Thay thế bằng NaN.
Chọn Xem trước, sau đó chọn Cập nhật.

Hiện nay True và False được chuyển đổi tương ứng thành 1 và 0.

Bây giờ chúng tôi đã hiểu rõ về dữ liệu và đã chuẩn bị và chuyển đổi dữ liệu để xây dựng mô hình, chúng tôi có thể chuyển dữ liệu đến Studio Lab để xây dựng mô hình.

Tải dữ liệu lên Studio Lab

Để bắt đầu sử dụng dữ liệu trong Studio Lab, hãy hoàn thành các bước sau:

Chọn Xuất dữ liệu đến xuất khẩu vào một thùng S3.
Trong Vị trí Amazon S3, nhập đường dẫn S3 của bạn.
Chỉ định loại tệp.
Chọn Xuất dữ liệu.
Sau khi xuất dữ liệu, bạn có thể tải dữ liệu từ thùng S3 xuống máy tính cục bộ của mình.
Bây giờ bạn có thể vào Studio Lab và tải tệp lên Studio Lab.

Ngoài ra, bạn có thể kết nối với Amazon S3 từ Studio Lab. Để biết thêm thông tin, hãy tham khảo Sử dụng tài nguyên bên ngoài trong Amazon SageMaker Studio Lab.
Hãy cài đặt SageMaker và nhập gấu trúc.
Nhập tất cả các thư viện theo yêu cầu.
Bây giờ chúng ta có thể đọc tệp CSV.
Hãy in churn để xác nhận tập dữ liệu là chính xác.

Bây giờ bạn đã xử lý tập dữ liệu trong Studio Lab, bạn có thể thực hiện các bước tiếp theo cần thiết để xây dựng mô hình.

Định giá Data Wrangler

Bạn có thể thực hiện tất cả các bước trong bài đăng này cho EDA hoặc chuẩn bị dữ liệu trong Data Wrangler và trả đối với ví dụ đơn giản, công việc và định giá bộ nhớ dựa trên mức sử dụng hoặc mức tiêu thụ. Không cần trả trước hoặc phí cấp phép.

Làm sạch

Khi bạn không sử dụng Data Wrangler, điều quan trọng là phải tắt phiên bản mà nó chạy để tránh phát sinh thêm phí. Để tránh mất công việc, hãy lưu luồng dữ liệu của bạn trước khi tắt Data Wrangler.

Để lưu luồng dữ liệu của bạn trong Studio, hãy chọn Tập tin, sau đó chọn Lưu dữ liệu Wrangler Flow.
Data Wrangler tự động lưu luồng dữ liệu của bạn sau mỗi 60 giây.
Để tắt phiên bản Data Wrangler, trong Studio, hãy chọn Phiên bản và hạt nhân đang chạy.
Theo ĐANG CHẠY CÁC ỨNG DỤNG, chọn biểu tượng tắt bên cạnh sagemaker-data-wrangler-1.0 app.
Chọn Tắt tất cả xác nhận.

Data Wrangler chạy trên một phiên bản ml.m5.4xlarge. Phiên bản này biến mất khỏi CẢI TIẾN CHẠY khi bạn tắt ứng dụng Data Wrangler.

Sau khi bạn tắt ứng dụng Data Wrangler, nó phải khởi động lại vào lần tiếp theo bạn mở tệp luồng Data Wrangler. Quá trình này có thể mất vài phút.

Kết luận

Trong bài đăng này, chúng tôi đã thấy cách bạn có thể hiểu rõ hơn về tập dữ liệu của mình, thực hiện phân tích dữ liệu khám phá, chuẩn bị và chuyển đổi dữ liệu bằng Data Wrangler trong Studio, đồng thời xuất dữ liệu đã biến đổi và chuẩn bị sang Studio Lab và thực hiện xây dựng mô hình và các bước khác.

Với SageMaker Data Wrangler, bạn có thể đơn giản hóa quá trình chuẩn bị dữ liệu và kỹ thuật tính năng, đồng thời hoàn thành từng bước của quy trình chuẩn bị dữ liệu, bao gồm lựa chọn, làm sạch, thăm dò và trực quan hóa dữ liệu từ một giao diện trực quan duy nhất.

Giới thiệu về tác giả

Rajakumar Sampathkumar là Giám đốc Tài khoản Kỹ thuật Chính tại AWS, cung cấp cho khách hàng hướng dẫn về sự liên kết giữa kinh doanh và công nghệ và hỗ trợ việc sáng tạo lại các mô hình và quy trình hoạt động đám mây của họ. Anh ấy đam mê đám mây và máy học. Raj cũng là một chuyên gia học máy và làm việc với khách hàng AWS để thiết kế, triển khai và quản lý khối lượng công việc và kiến trúc AWS của họ.

Meenakshisundaram Thandavarayan là một chuyên gia cao cấp về AI / ML với niềm đam mê thiết kế, tạo và thúc đẩy trải nghiệm Dữ liệu và Phân tích lấy con người làm trung tâm. Anh ấy hỗ trợ các khách hàng Chiến lược của AWS trong quá trình chuyển đổi của họ sang tổ chức theo hướng dữ liệu.

James Wu là Kiến trúc sư Giải pháp Chuyên gia về AI / ML Cấp cao tại AWS. giúp khách hàng thiết kế và xây dựng các giải pháp AI / ML. Công việc của James bao gồm một loạt các trường hợp sử dụng ML, với mối quan tâm chính là tầm nhìn máy tính, học sâu và mở rộng ML trong toàn doanh nghiệp. Trước khi gia nhập AWS, James là kiến trúc sư, nhà phát triển và nhà lãnh đạo công nghệ trong hơn 10 năm, bao gồm 6 năm trong lĩnh vực kỹ thuật và 4 năm trong ngành tiếp thị & quảng cáo.

Dấu thời gian: Ngày 15 tháng 2022 năm XNUMXNgày 15 tháng 2022 năm XNUMX

Dấu thời gian: Tháng 4, 2024

Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm với ML

Được xuất bản lại bởi Plato

Tổng quan về giải pháp

Điều kiện tiên quyết

Xây dựng quy trình chuẩn bị dữ liệu với Data Wrangler

Hiểu chất lượng dữ liệu và nhận thông tin chi tiết

Quan sát từ báo cáo

Chuyển đổi

Tải dữ liệu lên Studio Lab

Định giá Data Wrangler

Làm sạch

Kết luận

Giới thiệu về tác giả

Thêm từ Học máy AWS

Accenture tạo ra giải pháp soạn thảo tài liệu quy định bằng cách sử dụng dịch vụ AI tổng hợp của AWS | Dịch vụ web của Amazon

Tình cảm được nhắm mục tiêu của Amazon Comprehend bổ sung hỗ trợ đồng bộ

Cách BigBasket cải thiện hoạt động thanh toán hỗ trợ AI tại các cửa hàng thực tế của họ bằng Amazon SageMaker | Dịch vụ web của Amazon

Sử dụng AWS CDK để triển khai các cấu hình vòng đời của Amazon SageMaker Studio | Dịch vụ web của Amazon

Thông báo trình kết nối Salesforce (V2) được cập nhật cho Amazon Kendra

Thử nghiệm Amazon SageMaker thế hệ tiếp theo – Sắp xếp, theo dõi và so sánh các khóa đào tạo máy học của bạn trên quy mô lớn

Đạt được sự trưởng thành của DevOps với BMC AMI zAdviser Enterprise và Amazon Bedrock | Dịch vụ web của Amazon

Mở khóa sự đổi mới: AWS và Anthropic cùng nhau vượt qua các ranh giới của AI sáng tạo | Dịch vụ web của Amazon

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản