Khám phá các khả năng sắp xếp dữ liệu của Amazon SageMaker với các tập dữ liệu mẫu

Được xuất bản lại bởi Plato

Người theo dõi: 0

Chuẩn bị dữ liệu là quá trình thu thập, làm sạch và chuyển đổi dữ liệu thô để làm cho dữ liệu phù hợp cho việc khai thác thông tin chi tiết thông qua máy học (ML) và phân tích. Chuẩn bị dữ liệu là rất quan trọng cho ML và đường ống phân tích. Mô hình và thông tin chi tiết của bạn sẽ chỉ đáng tin cậy như dữ liệu bạn sử dụng để đào tạo họ. Dữ liệu sai lệch sẽ tạo ra kết quả kém bất kể sự tinh vi của các thuật toán và công cụ phân tích của bạn.

Trình sắp xếp dữ liệu Amazon SageMaker là một dịch vụ giúp các nhà khoa học dữ liệu và kỹ sư dữ liệu đơn giản hóa và tăng tốc việc chuẩn bị dữ liệu dạng bảng và chuỗi thời gian cũng như kỹ thuật tính năng thông qua giao diện trực quan. Bạn có thể nhập dữ liệu từ nhiều nguồn dữ liệu, chẳng hạn như Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3), amazon Athena, Amazon RedShift, Snowflakevà gạch dữ liệuvà xử lý dữ liệu của bạn với hơn 300 phép biến đổi dữ liệu tích hợp sẵn và thư viện các đoạn mã, vì vậy bạn có thể nhanh chóng chuẩn hóa, chuyển đổi và kết hợp các tính năng mà không cần viết bất kỳ mã nào. Bạn cũng có thể mang các biến đổi tùy chỉnh của mình trong PySpark, SQL hoặc Pandas.

Trước đây, khách hàng muốn khám phá Data Wrangler cần mang theo bộ dữ liệu của riêng họ; chúng tôi đã thay đổi điều đó. Bắt đầu từ hôm nay, bạn có thể bắt đầu thử nghiệm các tính năng của Data Wrangler thậm chí còn nhanh hơn bằng cách sử dụng tập dữ liệu mẫu và làm theo các hành động được đề xuất để dễ dàng điều hướng sản phẩm lần đầu tiên. Trong bài đăng này, chúng tôi hướng dẫn bạn thực hiện quá trình này.

Tổng quan về giải pháp

Data Wrangler cung cấp phiên bản tải sẵn của bộ dữ liệu Titanic nổi tiếng, được sử dụng rộng rãi để giảng dạy và thử nghiệm với ML. Các hành động được đề xuất của Data Wrangler giúp khách hàng lần đầu khám phá các tính năng như Báo cáo thông tin chi tiết và chất lượng dữ liệu của Data Wrangler, một tính năng xác minh chất lượng dữ liệu và giúp phát hiện các bất thường trong dữ liệu của bạn.

Trong bài đăng này, chúng tôi tạo một luồng mẫu với bộ dữ liệu Titanic mẫu được tải sẵn để chỉ ra cách bạn có thể bắt đầu thử nghiệm các tính năng của Data Wrangler nhanh hơn. Sau đó, chúng tôi sử dụng tập dữ liệu Titanic đã xử lý để tạo ra một mô hình phân loại để cho chúng tôi biết liệu một hành khách có sống sót hay không, bằng cách sử dụng chức năng đào tạo, cho phép bạn khởi chạy một Amazon SageMaker Tự động lái thử nghiệm trong bất kỳ bước nào trong luồng Data Wrangler. Trên đường đi, chúng ta có thể khám phá các tính năng của Data Wrangler thông qua các đề xuất sản phẩm xuất hiện trong Data Wrangler. Những đề xuất này có thể giúp bạn đẩy nhanh đường cong học tập của mình với Data Wrangler bằng cách đề xuất các hành động và các bước tiếp theo.

Điều kiện tiên quyết

Để có được tất cả các tính năng được mô tả trong bài đăng này, bạn cần chạy phiên bản nhân mới nhất của Data Wrangler. Đối với bất kỳ luồng mới nào được tạo, nhân sẽ luôn là luồng mới nhất; tuy nhiên, đối với các luồng hiện có, bạn cần phải cập nhật ứng dụng Data Wrangler đầu tiên.

Nhập bộ dữ liệu Titanic

Bộ dữ liệu Titanic là một tập dữ liệu công khai được sử dụng rộng rãi để giảng dạy và thử nghiệm với ML. Bạn có thể sử dụng nó để tạo mô hình ML dự đoán hành khách nào sẽ sống sót sau vụ đắm tàu Titanic. Data Wrangler hiện kết hợp tập dữ liệu này làm tập dữ liệu mẫu mà bạn có thể sử dụng để bắt đầu với Data Wrangler nhanh hơn. Trong bài đăng này, chúng tôi thực hiện một số biến đổi dữ liệu bằng cách sử dụng tập dữ liệu này.

Hãy tạo luồng Data Wrangler mới và gọi nó là Titanic. Data Wrangler hiển thị cho bạn hai tùy chọn: bạn có thể nhập tập dữ liệu của riêng mình hoặc bạn có thể sử dụng tập dữ liệu mẫu (tập dữ liệu Titanic).

Bạn sẽ thấy một thanh tải cho biết tiến trình của tập dữ liệu đang được nhập vào Data Wrangler. Nhấp qua băng chuyền để tìm hiểu thêm về cách Data Wrangler giúp bạn nhập, chuẩn bị và xử lý tập dữ liệu cho ML. Chờ cho đến khi thanh được tải đầy đủ; điều này cho biết rằng tập dữ liệu của bạn đã được nhập và sẵn sàng để sử dụng.

Bộ dữ liệu Titanic hiện đã được tải vào luồng của chúng tôi. Để biết mô tả về tập dữ liệu, hãy tham khảo Titanic - Máy học từ thảm họa.

Khám phá các tính năng của Data Wrangler

Với tư cách là người dùng Data Wrangler lần đầu, bạn hiện thấy các hành động được đề xuất để giúp bạn điều hướng sản phẩm và khám phá các tính năng thú vị. Hãy cùng theo dõi những lời khuyên được gợi ý.

Chọn dấu cộng để nhận danh sách các tùy chọn để sửa đổi tập dữ liệu.
Chọn Nhận thông tin chi tiết về dữ liệu.

Điều này mở ra nghiên cứu trên dữ liệu, trong đó bạn có thể tạo Báo cáo chất lượng dữ liệu và thông tin chi tiết. Khi bạn tạo báo cáo này, Data Wrangler cung cấp cho bạn tùy chọn để chọn cột mục tiêu. Cột mục tiêu là cột mà bạn đang cố gắng dự đoán. Khi bạn chọn một cột mục tiêu, Data Wrangler sẽ tự động tạo phân tích cột mục tiêu. Nó cũng xếp hạng các tính năng theo thứ tự sức mạnh dự đoán của chúng. Khi bạn chọn một cột mục tiêu, bạn phải xác định xem bạn đang cố gắng giải quyết vấn đề hồi quy hay phân loại.
Chọn cột tồn tại làm cột mục tiêu vì đó là giá trị chúng tôi muốn dự đoán.
Trong Loại vấn đềlựa chọn phân loại¸ bởi vì chúng tôi muốn biết liệu một hành khách thuộc các lớp sống sót hay không sống sót.
Chọn Tạo.
Điều này tạo ra một phân tích trên tập dữ liệu của bạn có chứa các điểm có liên quan như tóm tắt về tập dữ liệu, các hàng trùng lặp, mẫu bất thường, chi tiết tính năng và hơn thế nữa. Để tìm hiểu thêm về Báo cáo chất lượng dữ liệu và thông tin chi tiết, hãy tham khảo Tăng tốc chuẩn bị dữ liệu với chất lượng dữ liệu và thông tin chi tiết trong Amazon SageMaker Data Wrangler và Nhận thông tin chi tiết về dữ liệu và chất lượng dữ liệu.
Hãy xem nhanh chính tập dữ liệu.
Chọn Ngày để trực quan hóa dữ liệu dưới dạng bảng.Bây giờ hãy tạo một số hình ảnh hóa dữ liệu mẫu.
Chọn nghiên cứu để bắt đầu hiển thị dữ liệu của bạn. Bạn có thể tạo ba biểu đồ: hai biểu đồ đầu tiên trực quan hóa số người sống sót dựa trên cột giới tính và giai cấp, như được hiển thị trong ảnh chụp màn hình sau.Hình thứ ba hình dung tuổi của những người đã lên tàu Titanic.Hãy thực hiện một số chuyển đổi trên dữ liệu,
Đầu tiên, hãy bỏ phiếu cột, cabin và tên.
Tiếp theo, thực hiện mã hóa một lần trên các cột phân loại bắt đầu và giới tính, và home.dest.
Cuối cùng, điền các giá trị còn thiếu cho cột và phần thân bằng giá trị 0.
Tập dữ liệu của bạn bây giờ trông giống như ảnh chụp màn hình sau.
Bây giờ, hãy chia tập dữ liệu thành ba tập: tập huấn luyện với 70% dữ liệu, tập xác thực với 20% dữ liệu và tập kiểm tra với 10% dữ liệu.Việc phân chia được thực hiện ở đây sử dụng phương pháp phân tách phân tầng bằng cách sử dụng biến tồn tại và chỉ nhằm mục đích trình diễn.Bây giờ chúng ta hãy cấu hình đích của dữ liệu của chúng ta.
Chọn dấu cộng trên mỗi Bộ dữ liệu nút, chọn Thêm điểm đến, và lựa chọn S3 để thêm đích Amazon S3 cho các tập dữ liệu đã chuyển đổi.
Trong tạp chí Thêm điểm đến , bạn có thể định cấu hình chi tiết Amazon S3 để lưu trữ các tập dữ liệu đã xử lý của mình.Dòng chảy Titanic của chúng ta bây giờ sẽ giống như ảnh chụp màn hình sau đây.Bây giờ bạn có thể chuyển đổi tất cả dữ liệu bằng cách sử dụng các công việc xử lý của SageMaker.
Chọn Tạo công việc.
Giữ các giá trị mặc định và chọn Sau.
Chọn chạy.Một công việc xử lý SageMaker mới hiện đã được tạo. Bạn có thể xem chi tiết công việc và theo dõi tiến trình của nó trên bảng điều khiển SageMaker dưới Xử lý công việc.Khi công việc xử lý hoàn tất, bạn có thể điều hướng đến bất kỳ vị trí nào của S3 được chỉ định để lưu trữ bộ dữ liệu và truy vấn dữ liệu chỉ để xác nhận rằng quá trình xử lý đã thành công. Bây giờ bạn có thể sử dụng dữ liệu này để cung cấp cho các dự án ML của mình.

Khởi chạy thử nghiệm Autopilot để tạo bộ phân loại

Bây giờ bạn có thể khởi chạy Thử nghiệm lái tự động trực tiếp từ Data Wrangler và sử dụng dữ liệu ở bất kỳ bước nào trong quy trình để tự động đào tạo mô hình trên dữ liệu.

Chọn Bộ dữ liệu nút được gọi là Titanic_dataset (tàu hỏa) và điều hướng đến Train tab.
Trước khi đào tạo, trước tiên bạn cần xuất dữ liệu của mình sang Amazon S3.
Làm theo hướng dẫn để xuất dữ liệu của bạn sang vị trí S3 mà bạn chọn.
Bạn có thể chỉ định xuất dữ liệu ở định dạng CSV hoặc Parquet để tăng hiệu quả. Ngoài ra, bạn có thể chỉ định một Dịch vụ quản lý khóa AWS (AWS KMS) để mã hóa dữ liệu của bạn.
Trên trang tiếp theo, bạn định cấu hình thử nghiệm Lái xe tự động của mình.
Trừ khi dữ liệu của bạn được chia thành nhiều phần, hãy để giá trị mặc định dưới Kết nối dữ liệu của bạn.
Đối với phần trình diễn này, hãy để các giá trị mặc định cho Tên thử nghiệm và Vị trí dữ liệu đầu ra.
Theo Cài đặt nâng cao, mở rộng Loại vấn đề học máy.
Chọn Phân loại nhị phân như loại vấn đề và tính chính xác làm thước đo mục tiêu. Bạn chỉ định hai giá trị này theo cách thủ công mặc dù Autopilot có khả năng suy ra chúng từ dữ liệu.
Để lại phần còn lại của các trường với giá trị mặc định và chọn Tạo thử nghiệm.Chờ một vài phút cho đến khi thử nghiệm Autopilot hoàn tất và bạn sẽ thấy một bảng xếp hạng như sau với từng mô hình được Autopilot thu được.

Bây giờ bạn có thể chọn triển khai bất kỳ mô hình nào trong bảng xếp hạng để suy luận.

Làm sạch

Khi bạn không sử dụng Data Wrangler, điều quan trọng là phải tắt phiên bản mà nó chạy để tránh phát sinh thêm phí.

Để tránh mất công việc, hãy lưu luồng dữ liệu của bạn trước khi tắt Data Wrangler.

Để lưu luồng dữ liệu của bạn vào Xưởng sản xuất Amazon SageMaker, chọn Tập tin, sau đó chọn Lưu dữ liệu Wrangler Flow.
Data Wrangler tự động lưu luồng dữ liệu của bạn sau mỗi 60 giây.
Để tắt phiên bản Data Wrangler, trong Studio, hãy chọn Phiên bản và hạt nhân đang chạy.
Theo ĐANG CHẠY CÁC ỨNG DỤNG, chọn biểu tượng tắt bên cạnh ứng dụng sagemaker-data-wrangler-1.0.
Chọn Tắt tất cả xác nhận.Data Wrangler chạy trên một phiên bản ml.m5.4xlarge. Phiên bản này biến mất khỏi CẢI TIẾN CHẠY khi bạn tắt ứng dụng Data Wrangler.

Sau khi bạn tắt ứng dụng Data Wrangler, nó phải khởi động lại vào lần tiếp theo bạn mở tệp luồng Data Wrangler. Quá trình này có thể mất vài phút.

Kết luận

Trong bài đăng này, chúng tôi đã trình bày cách bạn có thể sử dụng tập dữ liệu mẫu mới trên Data Wrangler để khám phá các tính năng của Data Wrangler mà không cần mang theo dữ liệu của riêng bạn. Chúng tôi cũng trình bày hai tính năng bổ sung: trang tải để cho phép bạn theo dõi trực quan tiến trình dữ liệu được nhập vào Data Wrangler và các đề xuất sản phẩm cung cấp các mẹo hữu ích để bắt đầu với Data Wrangler. Chúng tôi đã đi xa hơn để chỉ ra cách bạn có thể tạo các công việc xử lý SageMaker và khởi chạy thử nghiệm Autopilot trực tiếp từ giao diện người dùng Data Wrangler.

Để tìm hiểu thêm về cách sử dụng luồng dữ liệu với Data Wrangler, hãy tham khảo Tạo và sử dụng Luồng trình xử lý dữ liệu và Amazon SageMaker Giá. Để bắt đầu với Data Wrangler, hãy xem Chuẩn bị dữ liệu ML với Amazon SageMaker Data Wrangler. Để tìm hiểu thêm về Autopilot và AutoML trên SageMaker, hãy truy cập Tự động hóa phát triển mô hình với Amazon SageMaker Autopilot.

Giới thiệu về tác giả

david laredo là Kiến trúc sư tạo mẫu tại AWS Envision Engineering ở LATAM, nơi anh ấy đã giúp phát triển nhiều nguyên mẫu máy học. Trước đây, anh ấy đã từng là Kỹ sư học máy và đã làm công việc học máy được hơn 5 năm. Các lĩnh vực anh ấy quan tâm là NLP, chuỗi thời gian và ML đầu cuối.

Parth Patel là Kiến trúc sư Giải pháp tại AWS ở Khu vực Vịnh San Francisco. Parth hướng dẫn khách hàng tăng tốc hành trình của họ đến đám mây và giúp họ áp dụng AWS Cloud thành công. Ông tập trung vào ML và hiện đại hóa ứng dụng.

Dấu thời gian: Tháng Tám 29, 2022Tháng Tám 30, 2022

Dấu thời gian: Tháng Tư 3, 2024

Khám phá các khả năng của Amazon SageMaker Data Wrangler với bộ dữ liệu mẫu

Được xuất bản lại bởi Plato

Tổng quan về giải pháp

Điều kiện tiên quyết

Nhập bộ dữ liệu Titanic

Khám phá các tính năng của Data Wrangler

Khởi chạy thử nghiệm Autopilot để tạo bộ phân loại

Làm sạch

Kết luận

Giới thiệu về tác giả

Thêm từ Học máy AWS

Xử lý tài liệu thông minh với dịch vụ AWS AI trong ngành bảo hiểm: Phần 1

Thử nghiệm Amazon SageMaker thế hệ tiếp theo – Sắp xếp, theo dõi và so sánh các khóa đào tạo máy học của bạn trên quy mô lớn

Cách Amp trên Amazon sử dụng dữ liệu để tăng mức độ tương tác của khách hàng, Phần 1: Xây dựng nền tảng phân tích dữ liệu

Đào tạo gia tăng với Amazon SageMaker JumpStart

Tìm kiếm thông minh các dự án Jira của bạn với trình kết nối đám mây Amazon Kendra Jira

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản