Tạo các mẫu dữ liệu ngẫu nhiên và phân tầng bằng Amazon SageMaker Data Wrangler

Được xuất bản lại bởi Plato

Người theo dõi: 0

Trong bài đăng này, chúng tôi hướng dẫn bạn hai kỹ thuật lấy mẫu trong Trình sắp xếp dữ liệu Amazon SageMaker để bạn có thể nhanh chóng tạo quy trình xử lý cho dữ liệu của mình. Chúng tôi bao gồm cả kỹ thuật lấy mẫu ngẫu nhiên và lấy mẫu phân tầng để giúp bạn lấy mẫu dữ liệu dựa trên các yêu cầu cụ thể của bạn.

Data Wrangler giảm thời gian tổng hợp và chuẩn bị dữ liệu cho máy học (ML) từ vài tuần xuống còn vài phút. Bạn có thể đơn giản hóa quy trình chuẩn bị dữ liệu và kỹ thuật tính năng, đồng thời hoàn thành từng bước của quy trình chuẩn bị dữ liệu, bao gồm lựa chọn, làm sạch, thăm dò và trực quan hóa dữ liệu từ một giao diện trực quan duy nhất. Với công cụ chọn dữ liệu của Data Wrangler, bạn có thể chọn dữ liệu bạn muốn từ nhiều nguồn dữ liệu khác nhau và nhập dữ liệu đó chỉ với một cú nhấp chuột. Data Wrangler chứa hơn 300 phép biến đổi dữ liệu được tích hợp sẵn để bạn có thể nhanh chóng chuẩn hóa, chuyển đổi và kết hợp các tính năng mà không cần phải viết bất kỳ mã nào. Với các mẫu trực quan hóa của Data Wrangler, bạn có thể nhanh chóng xem trước và kiểm tra xem các phép biến đổi này đã hoàn thành như bạn dự định chưa bằng cách xem chúng trong Xưởng sản xuất Amazon SageMaker, môi trường phát triển tích hợp đầy đủ (IDE) đầu tiên cho ML. Sau khi dữ liệu của bạn được chuẩn bị, bạn có thể xây dựng quy trình ML hoàn toàn tự động với Đường ống Amazon SageMaker và lưu chúng để sử dụng lại Cửa hàng tính năng Amazon SageMaker.

Lấy mẫu là gì và nó có thể giúp ích như thế nào

Trong phân tích thống kê, tổng tập hợp các quan sát được gọi là dân số. Khi làm việc với dữ liệu, việc đo lường mọi quan sát từ dân số thường không khả thi về mặt tính toán. Lấy mẫu thống kê là một thủ tục cho phép bạn hiểu dữ liệu của mình bằng cách chọn các tập hợp con từ tập hợp.

Lấy mẫu cung cấp một giải pháp thực tế hy sinh một số độ chính xác vì lợi ích thiết thực và dễ dàng. Để đảm bảo mẫu của bạn là đại diện tốt cho tổng thể, bạn có thể sử dụng các chiến lược lấy mẫu. Data Wrangler hỗ trợ hai trong số các chiến lược phổ biến nhất: lấy mẫu ngẫu nhiên và lấy mẫu phân tầng.

Lấy mẫu ngẫu nhiên

Nếu bạn có một tập dữ liệu lớn, việc thử nghiệm trên tập dữ liệu đó có thể tốn nhiều thời gian. Data Wrangler cung cấp lấy mẫu ngẫu nhiên để bạn có thể xử lý và trực quan hóa dữ liệu của mình một cách hiệu quả. Ví dụ: bạn có thể muốn tính số lần mua hàng trung bình của một khách hàng trong một khung thời gian hoặc bạn có thể muốn tính tỷ lệ tiêu hao của một người đăng ký. Bạn có thể sử dụng một mẫu ngẫu nhiên để hình dung các giá trị gần đúng với các chỉ số này.

Một mẫu ngẫu nhiên từ tập dữ liệu của bạn được chọn để mỗi phần tử có xác suất được chọn bằng nhau. Thao tác này được thực hiện theo cách hiệu quả phù hợp với các tập dữ liệu lớn, do đó, kích thước mẫu được trả về xấp xỉ kích thước được yêu cầu và không nhất thiết phải bằng kích thước được yêu cầu.

Bạn có thể sử dụng lấy mẫu ngẫu nhiên nếu bạn muốn thực hiện các tính toán gần đúng nhanh chóng để hiểu tập dữ liệu của mình. Khi kích thước mẫu lớn hơn, mẫu ngẫu nhiên có thể gần đúng hơn với toàn bộ tập dữ liệu, nhưng trừ khi bạn bao gồm tất cả các điểm dữ liệu, mẫu ngẫu nhiên của bạn có thể không bao gồm tất cả các trường hợp ngoại lệ và cạnh. Nếu bạn muốn chuẩn bị toàn bộ tập dữ liệu của mình một cách tương tác, bạn cũng có thể chuyển sang loại phiên bản lớn hơn.

Theo nguyên tắc chung, lỗi lấy mẫu trong tính toán dân số có nghĩa là sử dụng mẫu ngẫu nhiên có xu hướng về 0 khi mẫu lớn hơn. Khi kích thước mẫu tăng lên, sai số giảm đi khi nghịch đảo của căn bậc hai của kích thước mẫu. Điều cần rút ra, mẫu càng lớn thì xấp xỉ càng tốt.

Lấy mẫu phân tầng

Trong một số trường hợp, dân số của bạn có thể được chia thành các tầng lớp hoặc các nhóm loại trừ lẫn nhau, chẳng hạn như vị trí địa lý cho các địa chỉ, năm xuất bản cho các bài hát hoặc khung thuế cho thu nhập. Lấy mẫu ngẫu nhiên là kỹ thuật lấy mẫu phổ biến nhất, nhưng nếu một số tầng không phổ biến trong dân số của bạn, bạn có thể sử dụng lấy mẫu phân tầng trong Data Wrangler để đảm bảo rằng mỗi tầng được đại diện theo tỷ lệ trong mẫu của bạn. Điều này có thể hữu ích để giảm lỗi lấy mẫu cũng như đảm bảo bạn đang nắm bắt các trường hợp cạnh trong quá trình thử nghiệm của mình.

Trong thế giới thực, các giao dịch gian lận bằng thẻ tín dụng là những trường hợp hiếm gặp và thường chiếm ít hơn 1% dữ liệu của bạn. Nếu chúng tôi lấy mẫu ngẫu nhiên, không có gì lạ khi mẫu chứa rất ít hoặc không có giao dịch gian lận. Kết quả là, khi đào tạo một mô hình, chúng ta sẽ có quá ít ví dụ gian lận để tìm hiểu một mô hình chính xác. Chúng tôi có thể sử dụng phương pháp lấy mẫu phân tầng để đảm bảo rằng chúng tôi có đại diện tương xứng về các giao dịch gian lận.

Trong lấy mẫu phân tầng, kích thước của mỗi tầng trong mẫu tỷ lệ với kích thước của các tầng trong quần thể. Điều này hoạt động bằng cách chia dữ liệu của bạn thành các lớp dựa trên cột được chỉ định của bạn, chọn các mẫu ngẫu nhiên từ mỗi lớp với tỷ lệ chính xác và kết hợp các mẫu đó thành một mẫu phân tầng của tổng thể.

Lấy mẫu phân tầng là một kỹ thuật hữu ích khi bạn muốn hiểu các nhóm khác nhau trong dữ liệu của mình so sánh với nhau như thế nào và bạn muốn đảm bảo bạn có đại diện phù hợp từ mỗi nhóm.

Lấy mẫu ngẫu nhiên khi nhập từ Amazon S3

Trong phần này, chúng tôi sử dụng lấy mẫu ngẫu nhiên với tập dữ liệu bao gồm cả các sự kiện gian lận và không gian lận từ hệ thống phát hiện gian lận của chúng tôi. Bạn có thể tải về tập dữ liệu để theo dõi cùng với bài đăng này (Giấy phép phân bổ quốc tế CC 4.0).

Tại thời điểm viết bài này, bạn có thể nhập bộ dữ liệu từ Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3), amazon Athena, Amazon RedShiftvà Snowflake. Tập dữ liệu của chúng tôi rất lớn, chứa 1 triệu hàng. Trong trường hợp này, chúng tôi muốn lấy mẫu 1,0000 hàng khi nhập từ Amazon S3 cho một số thử nghiệm tương tác trong Data Wrangler.

Mở SageMaker Studio và tạo luồng Data Wrangler mới.
Theo Nhập dữ liệu, chọn Amazon S3.
Chọn tập dữ liệu để nhập.
Trong tạp chí Chi tiết , cung cấp tên tập dữ liệu và loại tệp của bạn.
Trong Lấy mẫu, chọn ngẫu nhiên.
Trong Cỡ mẫu, đi vào 10000.
Chọn Nhập khẩu để tải tập dữ liệu vào Data Wrangler.

Bạn có thể hình dung hai bước riêng biệt trên trang luồng dữ liệu trong Data Wrangler. Bước đầu tiên chỉ ra việc tải tập dữ liệu mẫu dựa trên chiến lược lấy mẫu mà bạn đã xác định. Sau khi dữ liệu được tải, Data Wrangler thực hiện tự động phát hiện các kiểu dữ liệu cho từng cột trong tập dữ liệu. Bước này được thêm vào theo mặc định cho tất cả các tập dữ liệu.

Bây giờ bạn có thể xem lại dữ liệu được lấy mẫu ngẫu nhiên trong Data Wrangler bằng cách thêm một phân tích.

Chọn dấu cộng bên cạnh Loại dữ liệu Và chọn nghiên cứu.
Trong Loại phân tíchchọn Lô phân tán.
Chọn kỳ công_1 và kỳ công_2 như đối với trục X và Trục Y, Tương ứng.
Trong Màu của, chọn là_lừa đảo.

Khi bạn cảm thấy hài lòng với tập dữ liệu, hãy tiếp tục thực hiện các chuyển đổi dữ liệu khác theo yêu cầu kinh doanh của bạn để chuẩn bị dữ liệu của bạn cho ML.

Trong ảnh chụp màn hình sau, chúng ta có thể quan sát các giao dịch gian lận (xanh lam đậm) và không gian lận (xanh lam nhạt) trong phân tích của chúng tôi.

Trong phần tiếp theo, chúng ta sẽ thảo luận về việc sử dụng lấy mẫu phân tầng để đảm bảo các trường hợp gian lận được chọn tương ứng.

Lấy mẫu phân tầng với một phép biến đổi

Data Wrangler cho phép bạn lấy mẫu khi nhập, cũng như lấy mẫu qua một biến đổi. Trong phần này, chúng ta thảo luận về việc sử dụng lấy mẫu phân tầng thông qua một phép biến đổi sau khi bạn đã nhập tập dữ liệu của mình vào Data Wrangler.

Để bắt đầu lấy mẫu, trên Dòng dữ liệu , chọn dấu cộng bên cạnh tập dữ liệu đã nhập và chọn Thêm chuyển đổi.

Tại thời điểm viết bài này, Data Wrangler cung cấp nhiều hơn 300 phép biến đổi cài sẵn. Ngoài các phép biến đổi có sẵn, bạn có thể viết các phép biến đổi tùy chỉnh của riêng mình trong Pandas hoặc PySpark.

Từ Thêm biến đổi danh sách, chọn Lấy mẫu.

Bây giờ bạn có thể sử dụng ba chiến lược lấy mẫu riêng biệt: giới hạn, ngẫu nhiên và phân tầng.

Trong Phương pháp lấy mẫu, chọn Phân tầng.
Sử dụng is_fraud cột làm cột phân tầng.
Chọn Xem trước để xem trước quá trình chuyển đổi, sau đó chọn Thêm để thêm biến đổi này như một bước vào công thức biến đổi của bạn.

Luồng dữ liệu của bạn hiện phản ánh bước lấy mẫu đã thêm.

Bây giờ chúng ta có thể xem lại dữ liệu được lấy mẫu ngẫu nhiên bằng cách thêm một phân tích.

Chọn dấu cộng và chọn nghiên cứu.
Trong Loại phân tíchchọn Histogram.
Chọn là_lừa đảo cho cả hai trục X và Màu của.
Chọn Xem trước.

Trong ảnh chụp màn hình sau, chúng ta có thể quan sát bảng phân tích các trường hợp gian lận (xanh lam đậm) và không gian lận (xanh lam nhạt) được chọn thông qua lấy mẫu phân tầng theo đúng tỷ lệ 20% gian lận và 80% không gian lận.

Kết luận

Điều cần thiết là phải lấy mẫu dữ liệu một cách chính xác khi làm việc với các tập dữ liệu cực lớn và chọn chiến lược lấy mẫu phù hợp để đáp ứng các yêu cầu kinh doanh của bạn. Hiệu quả của việc lấy mẫu của bạn phụ thuộc vào nhiều yếu tố khác nhau, bao gồm cả kết quả kinh doanh, tính khả dụng của dữ liệu và phân phối. Trong bài đăng này, chúng tôi đã đề cập đến cách sử dụng Data Wrangler và các chiến lược lấy mẫu tích hợp của nó để chuẩn bị dữ liệu của bạn.

Bạn có thể bắt đầu sử dụng tính năng này ngay hôm nay ở tất cả các Khu vực có SageMaker Studio. Để bắt đầu, hãy truy cập Chuẩn bị dữ liệu ML với Amazon SageMaker Data Wrangler.

Lời cảm ơn

Các tác giả xin cảm ơn Jonathan Chung (Nhà khoa học ứng dụng) đã đánh giá và phản hồi có giá trị về bài báo này.

Về các tác giả

Ben Harris là một kỹ sư phần mềm có kinh nghiệm thiết kế, triển khai và duy trì các đường ống dẫn dữ liệu có thể mở rộng và các giải pháp học máy trên nhiều lĩnh vực khác nhau.

Vishaal Kapoor là Nhà khoa học ứng dụng cấp cao với AWS AI. Anh ấy rất đam mê giúp khách hàng hiểu dữ liệu của họ trong Data Wrangler. Khi rảnh rỗi, anh ấy đạp xe leo núi, trượt ván và dành thời gian cho gia đình.

Meenakshisundaram Thandavarayan là chuyên gia cao cấp về AI / ML của AWS. Anh ấy giúp đỡ các tài khoản chiến lược Hi-Tech trong hành trình AI và ML của họ. Anh ấy rất đam mê về AI theo hướng dữ liệu.

Ajai Sharma là Giám đốc Sản phẩm Chính của Amazon SageMaker, nơi ông tập trung vào Data Wrangler, một công cụ chuẩn bị dữ liệu trực quan cho các nhà khoa học dữ liệu. Trước AWS, Ajai là Chuyên gia Khoa học Dữ liệu tại McKinsey and Company, nơi ông đã lãnh đạo các cam kết tập trung vào ML cho các công ty tài chính và bảo hiểm hàng đầu trên toàn thế giới. Ajai đam mê khoa học dữ liệu và thích khám phá các thuật toán và kỹ thuật máy học mới nhất.

Dấu thời gian: 26 Tháng Tư, 2022

Dấu thời gian: Tháng Hai 6, 2024

Tạo mẫu dữ liệu ngẫu nhiên và phân tầng với Amazon SageMaker Data Wrangler

Được xuất bản lại bởi Plato

Lấy mẫu là gì và nó có thể giúp ích như thế nào

Lấy mẫu ngẫu nhiên

Lấy mẫu phân tầng

Lấy mẫu ngẫu nhiên khi nhập từ Amazon S3

Lấy mẫu phân tầng với một phép biến đổi

Kết luận

Lời cảm ơn

Về các tác giả

Thêm từ Học máy AWS

Tinh chỉnh các mô hình Whisper trên Amazon SageMaker với LoRA | Dịch vụ web của Amazon

Tìm kiếm thông minh nội dung Adobe Experience Manager bằng Amazon Kendra | Dịch vụ web của Amazon

Tạo dữ liệu tổng hợp cho đường ống thị giác máy tính trên AWS

Vận hành sổ ghi chép Amazon SageMaker Studio của bạn dưới dạng tác vụ sổ ghi chép đã lên lịch

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản