Phát hiện các mẫu trong dữ liệu văn bản bằng Amazon SageMaker Data Wrangler

Được xuất bản lại bởi Plato

Người theo dõi: 0

Trong bài đăng này, chúng tôi giới thiệu một phân tích mới trong Báo cáo chất lượng dữ liệu và thông tin chi tiết of Trình sắp xếp dữ liệu Amazon SageMaker. Phân tích này hỗ trợ bạn xác thực tính chính xác của các tính năng văn bản và phát hiện các hàng không hợp lệ để sửa chữa hoặc thiếu sót.

Data Wrangler giảm thời gian tổng hợp và chuẩn bị dữ liệu cho máy học (ML) từ vài tuần xuống còn vài phút. Bạn có thể đơn giản hóa quy trình chuẩn bị dữ liệu và kỹ thuật tính năng, đồng thời hoàn thành từng bước của quy trình chuẩn bị dữ liệu, bao gồm lựa chọn, làm sạch, khám phá và trực quan hóa dữ liệu từ một giao diện trực quan duy nhất.

Tổng quan về giải pháp

Quá trình tiền xử lý dữ liệu thường liên quan đến việc làm sạch dữ liệu văn bản như địa chỉ email, số điện thoại và tên sản phẩm. Dữ liệu này có thể có các ràng buộc toàn vẹn cơ bản có thể được mô tả bằng các biểu thức chính quy. Ví dụ: để được coi là hợp lệ, số điện thoại địa phương có thể cần phải tuân theo mẫu như [1-9][0-9]{2}-[0-9]{4}, sẽ khớp với một chữ số khác 0, theo sau là hai chữ số nữa, tiếp theo là dấu gạch ngang, tiếp theo là bốn chữ số nữa.

Các tình huống phổ biến dẫn đến dữ liệu không hợp lệ có thể bao gồm việc con người nhập không nhất quán, ví dụ: số điện thoại ở nhiều định dạng khác nhau (5551234 so với 555 1234 so với 555-1234) hoặc dữ liệu không mong muốn, chẳng hạn như 0, 911 hoặc 411. Đối với trung tâm cuộc gọi của khách hàng, điều quan trọng là phải bỏ qua các số như 0, 911 hoặc 411 và xác thực các mục nhập (và có thể đúng) như 5551234 hoặc 555 1234.

Thật không may, mặc dù tồn tại những hạn chế về mặt văn bản nhưng chúng có thể không được cung cấp dữ liệu. Do đó, nhà khoa học dữ liệu chuẩn bị tập dữ liệu phải khám phá các hạn chế theo cách thủ công bằng cách xem dữ liệu. Điều này có thể tẻ nhạt, dễ xảy ra lỗi và tốn thời gian.

Học mẫu tự động phân tích dữ liệu của bạn và hiển thị các ràng buộc văn bản có thể áp dụng cho tập dữ liệu của bạn. Đối với ví dụ về số điện thoại, việc học mẫu có thể phân tích dữ liệu và xác định rằng phần lớn số điện thoại tuân theo ràng buộc văn bản [1-9][0-9]{2}-[0-9][4]. Nó cũng có thể cảnh báo bạn rằng có những ví dụ về dữ liệu không hợp lệ để bạn có thể loại trừ hoặc sửa chúng.

Trong các phần sau, chúng tôi trình bày cách sử dụng tính năng học mẫu trong Data Wrangler bằng cách sử dụng tập dữ liệu hư cấu về danh mục sản phẩm và mã SKU (đơn vị lưu giữ hàng tồn kho).

Tập dữ liệu này chứa các tính năng mô tả sản phẩm theo công ty, nhãn hiệu và mức tiêu thụ năng lượng. Đáng chú ý, nó bao gồm một SKU tính năng có định dạng sai. Tất cả dữ liệu trong tập dữ liệu này là hư cấu và được tạo ngẫu nhiên bằng cách sử dụng tên thương hiệu và tên thiết bị ngẫu nhiên.

Điều kiện tiên quyết

Trước khi bạn bắt đầu sử dụng Data Wrangler, tải về tập dữ liệu mẫu và tải nó lên một vị trí trong Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3). Để biết hướng dẫn, hãy tham khảo Tải lên các đối tượng.

Nhập tập dữ liệu của bạn

Để nhập tập dữ liệu của bạn, hãy hoàn thành các bước sau:

Trong Data Wrangler, chọn Nhập và khám phá dữ liệu cho ML.
Chọn Nhập khẩu.
Trong Nhập dữ liệu, chọn Amazon S3.
Xác định vị trí tệp trong Amazon S3 và chọn Nhập khẩu.

Sau khi nhập, chúng ta có thể điều hướng đến luồng dữ liệu.

Nhận thông tin chi tiết về dữ liệu

Trong bước này, chúng tôi tạo báo cáo thông tin chi tiết về dữ liệu bao gồm thông tin về chất lượng dữ liệu. Để biết thêm thông tin, hãy tham khảo Nhận thông tin chi tiết về dữ liệu và chất lượng dữ liệu. Hoàn thành các bước sau:

trên Dòng dữ liệu tab, chọn dấu cộng bên cạnh Loại dữ liệu.
Chọn Nhận thông tin chi tiết về dữ liệu.
Trong Loại phân tích, chọn Báo cáo chất lượng dữ liệu và thông tin chi tiết.
Đối với bài đăng này, hãy để lại Cột mục tiêu và Loại vấn đề trống. Nếu bạn dự định sử dụng tập dữ liệu của mình cho tác vụ hồi quy hoặc phân loại với tính năng mục tiêu, bạn có thể chọn các tùy chọn đó và báo cáo sẽ bao gồm phân tích về cách các tính năng đầu vào liên quan đến mục tiêu của bạn. Ví dụ: nó có thể tạo ra các báo cáo về rò rỉ mục tiêu. Để biết thêm thông tin, hãy tham khảo Cột mục tiêu.
Chọn Tạo.

Hiện chúng tôi có Báo cáo về chất lượng dữ liệu và thông tin chi tiết về dữ liệu. Nếu chúng ta cuộn xuống Mã hàng phần này, chúng ta có thể thấy một ví dụ về việc học mẫu mô tả SKU. Tính năng này dường như có một số dữ liệu không hợp lệ và cần phải có biện pháp khắc phục có thể thực hiện được.

Trước khi chúng ta làm sạch tính năng SKU, hãy cuộn lên phần Nhãn hiệu phần để xem thêm một số thông tin chi tiết. Ở đây chúng ta thấy hai mẫu đã được phát hiện, cho thấy phần lớn tên thương hiệu là những từ đơn bao gồm các ký tự từ hoặc ký tự chữ cái. MỘT ký tự từ là dấu gạch dưới hoặc ký tự có thể xuất hiện trong một từ ở bất kỳ ngôn ngữ nào. Ví dụ, các chuỗi Hello_world và écoute cả hai đều bao gồm các ký tự từ: H và é.

Đối với bài đăng này, chúng tôi không xóa tính năng này.

Xem thông tin chi tiết về học tập theo mẫu

Hãy quay lại việc dọn dẹp SKU và phóng to mẫu cũng như thông báo cảnh báo.

Như được minh họa trong ảnh chụp màn hình sau, việc học mẫu sẽ hiển thị một mẫu có độ chính xác cao khớp với 97.78% dữ liệu. Nó cũng hiển thị một số ví dụ phù hợp với mẫu cũng như các ví dụ không khớp với mẫu. Trong những trường hợp không khớp, chúng tôi thấy một số SKU không hợp lệ.

Ngoài các mẫu được hiển thị, cảnh báo có thể xuất hiện cho biết hành động tiềm năng nhằm xóa dữ liệu nếu có mẫu có độ chính xác cao cũng như một số dữ liệu không tuân theo mẫu.

Chúng tôi có thể bỏ qua dữ liệu không hợp lệ. Nếu chúng ta chọn (nhấp chuột phải) vào biểu thức chính quy, chúng ta có thể sao chép biểu thức [A-Z]{3}-[0-9]{4,5}.

Xóa dữ liệu không hợp lệ

Hãy tạo một phép biến đổi để loại bỏ dữ liệu không phù hợp và không khớp với mẫu này.

trên Dòng dữ liệu tab, chọn dấu cộng bên cạnh Loại dữ liệu.
Chọn Thêm biến đổi.
Chọn Thêm bước.
Tìm kiếm regex Và chọn Tìm kiếm và chỉnh sửa.
Trong Chuyển đổi, chọn Chuyển đổi không khớp thành thiếu.
Trong Các cột đầu vào, chọn SKU.
Trong Họa tiết, nhập biểu thức chính quy của chúng tôi.
Chọn Xem trước, sau đó chọn Thêm.

Bây giờ dữ liệu không liên quan đã bị xóa khỏi các tính năng.
Để xóa các hàng, hãy thêm bước Xử lý thiếu và chọn chuyển đổi Bỏ sót.
Chọn SKU làm cột đầu vào.

Chúng tôi quay lại luồng dữ liệu của mình với dữ liệu sai đã bị xóa.

Kết luận

Trong bài đăng này, chúng tôi đã hướng dẫn bạn cách sử dụng tính năng học mẫu trong thông tin chuyên sâu về dữ liệu để tìm dữ liệu văn bản không hợp lệ trong tập dữ liệu của bạn cũng như cách sửa hoặc bỏ qua dữ liệu đó.

Bây giờ bạn đã dọn sạch một cột văn bản, bạn có thể hình dung tập dữ liệu của mình bằng cách sử dụng một phân tích hoặc bạn có thể nộp đơn các phép biến đổi tích hợp để tiếp tục xử lý dữ liệu của bạn. Khi bạn hài lòng với dữ liệu của mình, bạn có thể đào tạo một người mẫu với Amazon SageMaker Tự động lái, hoặc là xuất dữ liệu của bạn đến nguồn dữ liệu như Amazon S3.

Chúng tôi xin cảm ơn Nikita Ivkin vì sự đánh giá chu đáo của anh ấy.

Giới thiệu về tác giả

Vishaal Kapoor là Nhà khoa học ứng dụng cấp cao với AWS AI. Anh ấy rất đam mê giúp khách hàng hiểu dữ liệu của họ trong Data Wrangler. Khi rảnh rỗi, anh ấy đạp xe leo núi, trượt ván và dành thời gian cho gia đình.

Zohar Karnin là Nhà khoa học chính của Amazon AI. Mối quan tâm nghiên cứu của ông là trong các lĩnh vực thuật toán học máy trực tuyến và quy mô lớn. Anh phát triển các thuật toán học máy có khả năng mở rộng vô hạn cho Amazon SageMaker.

Ajai Sharma là Giám đốc Sản phẩm Chính của Amazon SageMaker, nơi ông tập trung vào Data Wrangler, một công cụ chuẩn bị dữ liệu trực quan cho các nhà khoa học dữ liệu. Trước AWS, Ajai là Chuyên gia Khoa học Dữ liệu tại McKinsey and Company, nơi ông đã lãnh đạo các cam kết tập trung vào ML cho các công ty tài chính và bảo hiểm hàng đầu trên toàn thế giới. Ajai đam mê khoa học dữ liệu và thích khám phá các thuật toán và kỹ thuật máy học mới nhất.

Nam tước Derek là người quản lý phát triển phần mềm cho Amazon SageMaker Data Wrangler

Dấu thời gian: 24 Tháng Mười 24 Tháng Mười

Dấu thời gian: Tháng Chín 15, 2022

Phát hiện các mẫu trong dữ liệu văn bản bằng Amazon SageMaker Data Wrangler

Được xuất bản lại bởi Plato

Tổng quan về giải pháp

Điều kiện tiên quyết

Nhập tập dữ liệu của bạn

Nhận thông tin chi tiết về dữ liệu

Xem thông tin chi tiết về học tập theo mẫu

Xóa dữ liệu không hợp lệ

Kết luận

Giới thiệu về tác giả

Thêm từ Học máy AWS

AWS Toàn cảnh hiện hỗ trợ NVIDIA JetPack SDK 4.6.2

Bắt đầu triển khai mô hình thời gian thực trên Amazon SageMaker

Cơ sở Kiến thức trong Amazon Bedrock giờ đây đơn giản hóa việc đặt câu hỏi trên một tài liệu duy nhất | Dịch vụ web của Amazon

Dự báo hàng tuần hiện có thể bắt đầu vào Chủ nhật với Amazon Forecast

Đơn giản hóa việc học liên tục của Amazon Hiểu các mô hình tùy chỉnh bằng cách sử dụng Hiểu bánh đà

Tìm kiếm thông minh các dự án Jira của bạn với trình kết nối đám mây Amazon Kendra Jira

Phiên bản Amazon EC2 DL2q dành cho suy luận AI hiệu suất cao, tiết kiệm chi phí hiện đã có sẵn rộng rãi | Dịch vụ web của Amazon

Sử dụng Amazon SageMaker Data Wrangler để chuẩn bị dữ liệu và Studio Labs để tìm hiểu và thử nghiệm với ML

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản