Giới thiệu Hình ảnh trực quan nhúng mới của Amazon SageMaker Data Wrangler

Được xuất bản lại bởi Plato

Người theo dõi: 0

Kiểm tra chất lượng dữ liệu và làm sạch dữ liệu theo cách thủ công là một quá trình khó khăn và tốn thời gian, có thể chiếm một lượng lớn thời gian của nhà khoa học dữ liệu trong một dự án. Theo một cuộc khảo sát năm 2020 về các nhà khoa học dữ liệu do Anaconda thực hiện, các nhà khoa học dữ liệu dành khoảng 66% thời gian của họ cho các nhiệm vụ phân tích và chuẩn bị dữ liệu, bao gồm tải (19%), làm sạch (26%) và trực quan hóa dữ liệu (21%). Amazon SageMaker cung cấp một loạt các công cụ chuẩn bị dữ liệu để đáp ứng các nhu cầu và sở thích khác nhau của khách hàng. Đối với người dùng thích giao diện tương tác dựa trên GUI, Trình sắp xếp dữ liệu SageMaker cung cấp hơn 300 hình ảnh trực quan hóa, phân tích và chuyển đổi tích hợp để xử lý hiệu quả dữ liệu do Spark hỗ trợ mà không cần viết một dòng mã nào.

Trực quan hóa dữ liệu trong học máy (ML) là một quy trình lặp đi lặp lại và yêu cầu trực quan hóa liên tục tập dữ liệu để khám phá, điều tra và xác thực. Đưa dữ liệu vào quan điểm đòi hỏi phải xem từng cột để hiểu các lỗi dữ liệu có thể xảy ra, các giá trị bị thiếu, loại dữ liệu sai, dữ liệu gây hiểu nhầm/không chính xác, dữ liệu ngoại lai, v.v.

Trong bài đăng này, chúng tôi sẽ chỉ cho bạn cách Trình sắp xếp dữ liệu Amazon SageMaker tự động tạo các hình ảnh trực quan hóa chính về phân phối dữ liệu, phát hiện các vấn đề về chất lượng dữ liệu và hiển thị thông tin chuyên sâu về dữ liệu, chẳng hạn như các giá trị ngoại lai cho từng tính năng mà không cần viết một dòng mã nào. Nó giúp cải thiện trải nghiệm lưới dữ liệu với cảnh báo chất lượng tự động (ví dụ: giá trị bị thiếu hoặc giá trị không hợp lệ). Các hình ảnh trực quan được tạo tự động cũng có tính tương tác. Ví dụ: bạn có thể hiển thị bảng gồm năm mục thường xuyên nhất được sắp xếp theo phần trăm và di chuột qua thanh để chuyển đổi giữa số lượng và phần trăm.

Điều kiện tiên quyết

Amazon SageMaker Data Wrangler là một tính năng của SageMaker có sẵn trong SageMaker Studio. Bạn có thể đi theo tui quy trình giới thiệu Studio để cải thiện môi trường Studio và sổ ghi chép. Mặc dù bạn có thể chọn từ một số phương pháp xác thực, nhưng cách đơn giản nhất để tạo miền Studio là làm theo hướng dẫn Hướng dẫn bắt đầu nhanh. Bắt đầu nhanh sử dụng các cài đặt mặc định giống như cài đặt Studio tiêu chuẩn. Bạn cũng có thể chọn tham gia bằng cách sử dụng Trung tâm nhận dạng AWS Identity and Access Management (IAM) (kế thừa Đăng nhập một lần AWS) để xác thực (xem Tham gia vào miền Amazon SageMaker bằng Trung tâm nhận dạng IAM).

Hướng dẫn giải pháp

Bắt đầu của bạn Studio SageMaker Môi trường và tạo mới Luồng Data Wrangler. Bạn có thể nhập tập dữ liệu của riêng mình hoặc sử dụng tập dữ liệu mẫu (Chất hóa học) như trong hình dưới đây. Hai nút này (các nguồn nút và dữ liệu type) có thể nhấp được – khi bạn nhấp đúp vào hai nút này, Data Wrangler sẽ hiển thị bảng.

Trong trường hợp của chúng tôi, hãy nhấp chuột phải vào Loại dữ liệu biểu tượng và Thêm một biến đổi:

Bây giờ bạn sẽ thấy hình ảnh trực quan trên đầu mỗi cột. Vui lòng đợi một chút thời gian để tải các biểu đồ. Độ trễ tùy thuộc vào kích thước của tập dữ liệu (đối với tập dữ liệu Titanic, sẽ mất 1-2 giây trong phiên bản mặc định).

Giới thiệu trực quan hóa nhúng mới của Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Cuộn đến thanh ngang trên cùng bằng cách di chuột qua chú giải công cụ. Bây giờ các biểu đồ đã được tải, bạn có thể xem phân phối dữ liệu, giá trị không hợp lệ và giá trị bị thiếu. Giá trị ngoại lai và giá trị bị thiếu là đặc điểm của dữ liệu sai và điều quan trọng là phải xác định chúng vì chúng có thể ảnh hưởng đến kết quả của bạn. Điều này có nghĩa là do dữ liệu của bạn đến từ một mẫu không có tính đại diện nên những phát hiện của bạn có thể không khái quát được cho các tình huống bên ngoài nghiên cứu của bạn. Phân loại các giá trị có thể được nhìn thấy trên các biểu đồ ở phía dưới nơi hợp lệ các giá trị được thể hiện bằng màu trắng, không hợp lệ các giá trị màu xanh lam và mất tích các giá trị màu tím. Bạn cũng có thể nhìn vào ngoại lệ được mô tả bằng các chấm màu xanh ở bên trái hoặc bên phải của biểu đồ.

Giới thiệu trực quan hóa nhúng mới của Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Tất cả các hình ảnh hóa đều có dạng biểu đồ. Đối với dữ liệu không phân loại, một bộ nhóm được xác định cho mỗi ngăn. Đối với dữ liệu phân loại, mỗi giá trị duy nhất được coi là một thùng. Trên đầu biểu đồ, có một biểu đồ thanh hiển thị cho bạn các giá trị không hợp lệ và bị thiếu. Chúng ta có thể xem tỷ lệ của các giá trị hợp lệ cho các loại Số, Phân loại, Nhị phân, Văn bản và Ngày giờ, cũng như tỷ lệ của các giá trị bị thiếu dựa trên tổng số ô rỗng và ô trống và cuối cùng là tỷ lệ của các giá trị không hợp lệ. Hãy xem xét một số ví dụ để hiểu làm thế nào bạn có thể thấy những điều này bằng cách sử dụng Bộ dữ liệu Titanic mẫu được tải sẵn của Data Wrangler.

Ví dụ 1 – Chúng ta có thể xem xét 20% giá trị còn thiếu cho TUỔI TÁC tính năng/cột. Điều quan trọng là phải xử lý dữ liệu bị thiếu trong lĩnh vực nghiên cứu/ML liên quan đến dữ liệu, bằng cách loại bỏ hoặc quy nó (xử lý các giá trị bị thiếu bằng một số ước tính).

Giới thiệu trực quan hóa nhúng mới của Amazon SageMaker Data Wrangler PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.
Bạn có thể xử lý các giá trị bị thiếu bằng cách sử dụng Xử lý các giá trị bị thiếu nhóm biến hình. Sử dụng quy lỗi mất tích biến đổi để tạo các giá trị được quy định trong đó các giá trị bị thiếu được tìm thấy trong cột đầu vào. Cấu hình phụ thuộc vào loại dữ liệu của bạn.

Trong ví dụ này, TUỔI TÁC cột có kiểu dữ liệu số. Đối với chiến lược quy nạp, chúng ta có thể chọn quy nạp nghĩa là hoặc là trung bình gần đúng trên các giá trị có trong tập dữ liệu của bạn.

Bây giờ chúng ta đã thêm phép biến đổi, chúng ta có thể thấy rằng TUỔI TÁC cột không còn thiếu giá trị.

Ví dụ 2 – Chúng ta có thể xem xét 27% giá trị không hợp lệ cho VÉ tính năng/cột đó là của STRING loại hình. Dữ liệu không hợp lệ có thể tạo ra các ước tính sai lệch, điều này có thể làm giảm độ chính xác của mô hình và dẫn đến kết luận sai. Hãy để chúng tôi khám phá một số biến đổi mà chúng tôi có thể sử dụng để xử lý dữ liệu không hợp lệ trong VÉ cột.

Nhìn vào ảnh chụp màn hình, chúng tôi thấy rằng một số đầu vào được viết ở định dạng chứa bảng chữ cái trước chữ số “PC 17318” và những số khác chỉ là những con số chẳng hạn như “11769".

Chúng tôi có thể chọn áp dụng một biến đổi để tìm kiếm và chỉnh sửa các mẫu cụ thể trong các chuỗi, chẳng hạn như “MÁY TÍNH" và thay thế chúng. Tiếp theo, chúng ta có thể truyền chuỗi cột sang một loại mới, chẳng hạn như dài để dễ sử dụng.

Điều này vẫn để lại cho chúng tôi 19% giá trị còn thiếu trên VÉ tính năng. Tương tự như ví dụ 1, giờ đây chúng ta có thể quy các giá trị còn thiếu bằng cách sử dụng giá trị trung bình trung bình hoặc gần đúng. tính năng VÉ sẽ không còn giá trị không hợp lệ hoặc bị thiếu như hình ảnh bên dưới.

Để đảm bảo rằng bạn không bị tính phí sau khi làm theo hướng dẫn này, hãy đảm bảo rằng bạn tắt ứng dụng Data Wrangler.

Kết luận

Trong bài đăng này, chúng tôi đã trình bày cái mới Trình sắp xếp dữ liệu Amazon Sagemaker tiện ích sẽ giúp loại bỏ nâng vật nặng không phân biệt cho người dùng cuối trong quá trình chuẩn bị dữ liệu với tính năng trực quan hóa hiển thị tự động và thông tin chi tiết về hồ sơ dữ liệu cho từng tính năng. Tiện ích này giúp bạn dễ dàng trực quan hóa dữ liệu (ví dụ: biểu đồ phân loại/không phân loại), phát hiện các vấn đề về chất lượng dữ liệu (ví dụ: giá trị bị thiếu và giá trị không hợp lệ) cũng như thông tin chuyên sâu về dữ liệu bề mặt (ví dụ: giá trị ngoại lệ và mục N hàng đầu).

Bạn có thể bắt đầu sử dụng khả năng này ngay hôm nay ở tất cả các khu vực có sẵn SageMaker Studio. Hãy thử một lần, Và cho chúng tôi biết những gì bạn nghĩ. Chúng tôi luôn mong chờ phản hồi của bạn, thông qua các liên hệ hỗ trợ AWS thông thường của bạn hoặc trên Diễn đàn AWS cho SageMaker.

Về các tác giả

Isha Dua là một Kiến trúc sư Giải pháp Cao cấp có trụ sở tại Khu vực Vịnh San Francisco. Cô ấy giúp khách hàng AWS Enterprise phát triển bằng cách hiểu các mục tiêu và thách thức của họ, đồng thời hướng dẫn họ cách họ có thể kiến trúc các ứng dụng của mình theo cách riêng trên nền tảng đám mây trong khi đảm bảo chúng có khả năng phục hồi và mở rộng. Cô ấy đam mê công nghệ máy học và tính bền vững của môi trường.

Parth Patel là Kiến trúc sư Giải pháp tại AWS ở Khu vực Vịnh San Francisco. Parth hướng dẫn khách hàng tăng tốc hành trình của họ đến đám mây và giúp họ áp dụng AWS Cloud thành công. Ông tập trung vào ML và hiện đại hóa ứng dụng.

Dấu thời gian: 13 Tháng mười hai, 202213 Tháng mười hai, 2022

Dấu thời gian: Tháng Chín 29, 2022

Giới thiệu các hình ảnh hóa nhúng mới của Amazon SageMaker Data Wrangler

Được xuất bản lại bởi Plato

Điều kiện tiên quyết

Hướng dẫn giải pháp

Kết luận

Về các tác giả

Thêm từ Học máy AWS

Triển khai các mô hình lớn trên Amazon SageMaker bằng cách sử dụng suy luận song song của mô hình DJLServing và DeepSpeed

Kiểm soát quyền truy cập vào Cửa hàng tính năng Amazon SageMaker ngoại tuyến bằng AWS Lake Formation

Cải thiện độ chính xác của tìm kiếm với Trình kiểm tra chính tả trong Amazon Kendra

Phân tích sự phá hoại của loài gặm nhấm bằng khả năng không gian địa lý của Amazon SageMaker | Dịch vụ web của Amazon

Khám phá kiến thức trong không gian làm việc Slack với tính năng tìm kiếm thông minh bằng trình kết nối Amazon Kendra Slack

Cách Sophos đào tạo một trình phát hiện phần mềm độc hại PDF nhẹ, mạnh mẽ ở quy mô cực lớn với Amazon SageMaker

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản