Sử dụng Amazon SageMaker Canvas để phân tích dữ liệu khám phá

Được xuất bản lại bởi Plato

Người theo dõi: 0

Phân tích dữ liệu thăm dò (EDA) là một nhiệm vụ phổ biến được thực hiện bởi các nhà phân tích kinh doanh để khám phá các mẫu, hiểu các mối quan hệ, xác thực các giả định và xác định các điểm bất thường trong dữ liệu của họ. Trong học máy (ML), điều quan trọng trước tiên là phải hiểu dữ liệu và các mối quan hệ của nó trước khi bắt đầu xây dựng mô hình. Các chu kỳ phát triển ML truyền thống đôi khi có thể mất hàng tháng và yêu cầu khoa học dữ liệu tiên tiến và kỹ năng kỹ thuật ML, trong khi các giải pháp ML không mã có thể giúp các công ty đẩy nhanh việc cung cấp các giải pháp ML đến hàng ngày hoặc thậm chí hàng giờ.

Canvas SageMaker của Amazon là một công cụ ML không mã giúp các nhà phân tích kinh doanh tạo ra các dự đoán ML chính xác mà không cần phải viết mã hoặc không yêu cầu bất kỳ kinh nghiệm ML nào. Canvas cung cấp giao diện trực quan dễ sử dụng để tải, dọn dẹp và chuyển đổi tập dữ liệu, tiếp theo là xây dựng mô hình ML và tạo dự đoán chính xác.

Trong bài đăng này, chúng tôi hướng dẫn cách thực hiện EDA để hiểu rõ hơn về dữ liệu của bạn trước khi xây dựng mô hình ML, nhờ các hình ảnh trực quan nâng cao được tích hợp sẵn của Canvas. Những hình ảnh trực quan này giúp bạn phân tích mối quan hệ giữa các tính năng trong tập dữ liệu và hiểu dữ liệu của bạn tốt hơn. Điều này được thực hiện một cách trực quan, với khả năng tương tác với dữ liệu và khám phá thông tin chi tiết có thể không được chú ý với truy vấn đặc biệt. Chúng có thể được tạo nhanh chóng thông qua 'Trình hiển thị dữ liệu' trong Canvas trước khi xây dựng và đào tạo các mô hình ML.

Tổng quan về giải pháp

Những hình ảnh trực quan này bổ sung vào phạm vi khả năng chuẩn bị và khám phá dữ liệu đã được Canvas cung cấp, bao gồm khả năng sửa chữa các giá trị bị thiếu và thay thế các giá trị ngoại lệ; lọc, nối và sửa đổi tập dữ liệu; và trích xuất các giá trị thời gian cụ thể từ dấu thời gian. Để tìm hiểu thêm về cách Canvas có thể giúp bạn làm sạch, chuyển đổi và chuẩn bị tập dữ liệu của mình, hãy xem Chuẩn bị dữ liệu với các phép biến đổi nâng cao.

Đối với trường hợp sử dụng của chúng tôi, chúng tôi xem xét lý do tại sao khách hàng rời bỏ bất kỳ doanh nghiệp nào và minh họa cách EDA có thể trợ giúp từ quan điểm của một nhà phân tích. Tập dữ liệu chúng tôi sử dụng trong bài đăng này là tập dữ liệu tổng hợp từ một nhà cung cấp dịch vụ điện thoại di động viễn thông để dự đoán tình hình khách hàng mà bạn có thể tải xuống (khuấy.csv), hoặc bạn mang tập dữ liệu của riêng mình để thử nghiệm. Để biết hướng dẫn về cách nhập tập dữ liệu của riêng bạn, hãy tham khảo Nhập dữ liệu trong Amazon SageMaker Canvas.

Điều kiện tiên quyết

Làm theo hướng dẫn trong Điều kiện tiên quyết để thiết lập Amazon SageMaker Canvas trước khi bạn tiếp tục.

Nhập tập dữ liệu của bạn vào Canvas

Để nhập tập dữ liệu mẫu vào Canvas, hãy hoàn thành các bước sau:

Đăng nhập vào Canvas với tư cách là người dùng doanh nghiệp.Đầu tiên, chúng tôi tải tập dữ liệu đã đề cập trước đó từ máy tính cục bộ của chúng tôi lên Canvas. Nếu bạn muốn sử dụng các nguồn khác, chẳng hạn như Amazon RedShift, tham khảo Kết nối với nguồn dữ liệu bên ngoài.
Chọn Nhập khẩu.
Chọn Tải lên, sau đó chọn Chọn tệp từ máy tính của bạn.
Chọn tập dữ liệu của bạn (churn.csv) và chọn Nhập dữ liệu.
Chọn tập dữ liệu và chọn Tạo mô hình.
Trong tên mẫu, nhập tên (đối với bài đăng này, chúng tôi đã đặt tên dự đoán Churn).
Chọn Tạo.

Ngay sau khi bạn chọn tập dữ liệu của mình, bạn sẽ được xem tổng quan phác thảo các loại dữ liệu, giá trị bị thiếu, giá trị không khớp, giá trị duy nhất và giá trị trung bình hoặc chế độ của các cột tương ứng.
Từ góc độ EDA, bạn có thể quan sát thấy không có giá trị nào bị thiếu hoặc không khớp trong tập dữ liệu. Là một nhà phân tích kinh doanh, bạn có thể muốn có cái nhìn ban đầu về việc xây dựng mô hình ngay cả trước khi bắt đầu khám phá dữ liệu để xác định cách mô hình sẽ hoạt động và những yếu tố nào đang đóng góp vào hiệu suất của mô hình. Canvas cung cấp cho bạn khả năng nhận thông tin chi tiết từ dữ liệu của bạn trước khi bạn tạo mô hình bằng cách xem trước mô hình trước.
Trước khi bạn thực hiện bất kỳ hoạt động khám phá dữ liệu nào, hãy chọn Xem trước mô hình.
Chọn cột để dự đoán (churn) .anvas tự động phát hiện đây là dự đoán hai danh mục.
Chọn Xem trước mô hình. SageMaker Canvas sử dụng một tập hợp con dữ liệu của bạn để xây dựng mô hình một cách nhanh chóng nhằm kiểm tra xem dữ liệu của bạn đã sẵn sàng để tạo dự đoán chính xác chưa. Sử dụng mô hình mẫu này, bạn có thể hiểu độ chính xác của mô hình hiện tại và tác động tương đối của mỗi cột đối với các dự đoán.

Ảnh chụp màn hình sau đây cho thấy bản xem trước của chúng tôi.

Bản xem trước mô hình chỉ ra rằng mô hình dự đoán mục tiêu chính xác (churn?) 95.6% thời gian. Bạn cũng có thể thấy tác động của cột ban đầu (ảnh hưởng của mỗi cột đối với cột mục tiêu). Hãy thực hiện một số khám phá, hình dung và chuyển đổi dữ liệu, sau đó tiến hành xây dựng một mô hình.

Khám phá dữ liệu

Canvas đã cung cấp một số hình ảnh hóa cơ bản phổ biến, chẳng hạn như phân phối dữ liệu trong chế độ xem lưới trên Xây dựng chuyển hướng. Đây là những điều tuyệt vời để có được cái nhìn tổng quan cấp cao về dữ liệu, hiểu cách dữ liệu được phân phối và có được tổng quan tóm tắt về tập dữ liệu.

Là một nhà phân tích kinh doanh, bạn có thể cần phải có được thông tin chi tiết cấp cao về cách dữ liệu được phân phối cũng như cách phân phối phản ánh so với cột mục tiêu (churn) để dễ dàng hiểu mối quan hệ dữ liệu trước khi xây dựng mô hình. Bây giờ bạn có thể chọn Lưới xem để có cái nhìn tổng quan về phân phối dữ liệu.

Sử dụng Amazon SageMaker Canvas để phân tích dữ liệu khám phá PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Ảnh chụp màn hình sau đây cho thấy tổng quan về việc phân phối tập dữ liệu.

Sử dụng Amazon SageMaker Canvas để phân tích dữ liệu khám phá PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Chúng ta có thể thực hiện các nhận xét sau:

Điện thoại có quá nhiều giá trị độc đáo để có thể sử dụng trong thực tế. Chúng tôi biết điện thoại là một ID khách hàng và không muốn xây dựng một mô hình có thể xem xét những khách hàng cụ thể, mà là tìm hiểu theo nghĩa chung hơn những gì có thể dẫn đến tình trạng ngừng hoạt động. Bạn có thể loại bỏ biến này.
Hầu hết các tính năng số được phân phối độc đáo, sau Gaussian đường cong hình chuông. Trong ML, bạn muốn dữ liệu được phân phối bình thường vì bất kỳ biến nào thể hiện phân phối chuẩn đều có thể được dự báo với độ chính xác cao hơn.

Hãy đi sâu hơn và xem các hình ảnh trực quan nâng cao có sẵn trong Canvas.

Trực quan hóa dữ liệu

Là nhà phân tích kinh doanh, bạn muốn xem liệu có mối quan hệ giữa các yếu tố dữ liệu và chúng có liên quan như thế nào đến sự churn. Với Canvas, bạn có thể khám phá và trực quan hóa dữ liệu của mình, điều này giúp bạn có được thông tin chi tiết nâng cao về dữ liệu của mình trước khi xây dựng mô hình ML của mình. Bạn có thể trực quan hóa bằng cách sử dụng biểu đồ phân tán, biểu đồ thanh và biểu đồ hộp, có thể giúp bạn hiểu dữ liệu của mình và khám phá mối quan hệ giữa các đối tượng địa lý có thể ảnh hưởng đến độ chính xác của mô hình.

Để bắt đầu tạo hình ảnh trực quan của bạn, hãy hoàn thành các bước sau:

trên Xây dựng tab của ứng dụng Canvas, hãy chọn Trình hiển thị dữ liệu.

Sử dụng Amazon SageMaker Canvas để phân tích dữ liệu khám phá PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Một công cụ tăng tốc chính của hình ảnh hóa trong Canvas là Trình hiển thị dữ liệu. Hãy thay đổi kích thước mẫu để có góc nhìn tốt hơn.

Chọn số hàng bên cạnh Hình ảnh mẫu.
Sử dụng thanh trượt để chọn kích thước mẫu mong muốn của bạn.

Sử dụng Amazon SageMaker Canvas để phân tích dữ liệu khám phá PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Chọn Cập nhật để xác nhận sự thay đổi đối với kích thước mẫu của bạn.

Bạn có thể muốn thay đổi kích thước mẫu dựa trên tập dữ liệu của mình. Trong một số trường hợp, bạn có thể có vài trăm đến vài nghìn hàng, nơi bạn có thể chọn toàn bộ tập dữ liệu. Trong một số trường hợp, bạn có thể có vài nghìn hàng, trong trường hợp này, bạn có thể chọn vài trăm hoặc vài nghìn hàng dựa trên trường hợp sử dụng của mình.

Biểu đồ phân tán cho thấy mối quan hệ giữa hai biến định lượng được đo lường cho các cá nhân giống nhau. Trong trường hợp của chúng tôi, điều quan trọng là phải hiểu mối quan hệ giữa các giá trị để kiểm tra sự tương quan.

Bởi vì chúng tôi có Cuộc gọi, Số phút và Tính phí, chúng tôi sẽ vẽ biểu đồ mối tương quan giữa chúng cho Ngày, Tối và Đêm.

Đầu tiên, hãy tạo một âm mưu phân tán giữa Phí trong ngày và Số phút trong ngày.

Sử dụng Amazon SageMaker Canvas để phân tích dữ liệu khám phá PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Chúng ta có thể quan sát thấy rằng khi Số phút trong ngày tăng lên thì Phí ngày cũng tăng theo.

Sử dụng Amazon SageMaker Canvas để phân tích dữ liệu khám phá PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Điều tương tự cũng áp dụng cho các cuộc gọi buổi tối.

Sử dụng Amazon SageMaker Canvas để phân tích dữ liệu khám phá PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Các cuộc gọi ban đêm cũng có cùng một mô hình.

Sử dụng Amazon SageMaker Canvas để phân tích dữ liệu khám phá PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Bởi vì số phút và phí dường như tăng tuyến tính, bạn có thể nhận thấy rằng chúng có mối tương quan cao với nhau. Việc bao gồm các cặp tính năng này trong một số thuật toán ML có thể mất thêm dung lượng lưu trữ và giảm tốc độ đào tạo và việc có thông tin tương tự trong nhiều cột có thể dẫn đến việc mô hình nhấn mạnh quá mức các tác động và dẫn đến sai lệch không mong muốn trong mô hình. Hãy loại bỏ một tính năng khỏi mỗi cặp có tương quan cao: Phí ban ngày khỏi cặp với Phút ban ngày, Phí ban đêm khỏi cặp với Phút ban đêm và Sạc quốc tế khỏi cặp với Phút thứ.

Số dư và biến thể dữ liệu

Biểu đồ thanh là một biểu đồ giữa biến phân loại trên trục x và biến số trên trục y để khám phá mối quan hệ giữa cả hai biến. Hãy tạo một biểu đồ thanh để xem cách các cuộc gọi được phân phối trên cột mục tiêu của chúng tôi Churn cho Đúng và Sai. Chọn Biểu đồ thanh và kéo và thả các cuộc gọi trong ngày và chuyển sang trục y và trục x, tương ứng.

Sử dụng Amazon SageMaker Canvas để phân tích dữ liệu khám phá PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Bây giờ, hãy tạo cùng một biểu đồ thanh cho các cuộc gọi buổi tối và cuộc gọi churn.

Sử dụng Amazon SageMaker Canvas để phân tích dữ liệu khám phá PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Tiếp theo, hãy tạo một biểu đồ thanh cho các cuộc gọi ban đêm so với cuộc gọi gián đoạn.

Sử dụng Amazon SageMaker Canvas để phân tích dữ liệu khám phá PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Có vẻ như có sự khác biệt về hành vi giữa những khách hàng đã bỏ cuộc và những khách hàng không.

Biểu đồ hộp rất hữu ích vì chúng cho thấy sự khác biệt về hành vi của dữ liệu theo lớp (churn hoặc không). Bởi vì chúng ta sẽ dự đoán thời gian churn (cột mục tiêu), hãy tạo một biểu đồ hộp của một số tính năng so với cột mục tiêu của chúng ta để suy ra thống kê mô tả trên tập dữ liệu như trung bình, tối đa, tối thiểu, trung bình và ngoại lệ.

Chọn Ô hộp và kéo và thả Số phút trong ngày và Chuyển về trục y và trục x, tương ứng.

Sử dụng Amazon SageMaker Canvas để phân tích dữ liệu khám phá PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Bạn cũng có thể thử cách tiếp cận tương tự đối với các cột khác so với cột mục tiêu của chúng tôi (churn).

Bây giờ chúng ta hãy tạo một biểu đồ hộp số phút trong ngày so với các cuộc gọi dịch vụ khách hàng để hiểu giá trị của các cuộc gọi dịch vụ khách hàng trải dài như thế nào trong số phút trong ngày. Bạn có thể thấy rằng các cuộc gọi dịch vụ khách hàng không có mối tương quan hoặc phụ thuộc vào giá trị phút trong ngày.

Sử dụng Amazon SageMaker Canvas để phân tích dữ liệu khám phá PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Từ những quan sát của chúng tôi, chúng tôi có thể xác định rằng tập dữ liệu khá cân bằng. Chúng tôi muốn dữ liệu được phân phối đồng đều trên các giá trị đúng và sai để mô hình không bị lệch về một giá trị.

Chuyển đổi

Dựa trên quan sát của chúng tôi, chúng tôi loại bỏ cột Điện thoại vì nó chỉ là số tài khoản và các cột Phí ngày, Phí đêm, Phí ban đêm vì chúng chứa thông tin trùng lặp như cột phút, nhưng chúng tôi có thể chạy lại bản xem trước để xác nhận.

Sử dụng Amazon SageMaker Canvas để phân tích dữ liệu khám phá PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Sau khi phân tích và chuyển đổi dữ liệu, chúng ta hãy xem trước mô hình một lần nữa.

Bạn có thể thấy rằng độ chính xác ước tính của mô hình đã thay đổi từ 95.6% thành 93.6% (điều này có thể thay đổi), tuy nhiên tác động của cột (tầm quan trọng của tính năng) đối với các cột cụ thể đã thay đổi đáng kể, điều này giúp cải thiện tốc độ đào tạo cũng như ảnh hưởng của các cột đối với dự đoán khi chúng ta chuyển sang các bước tiếp theo của quá trình xây dựng mô hình. Tập dữ liệu của chúng tôi không yêu cầu chuyển đổi bổ sung, nhưng nếu cần, bạn có thể tận dụng Chuyển đổi dữ liệu ML để làm sạch, chuyển đổi và chuẩn bị dữ liệu của bạn để xây dựng mô hình.

Xây dựng mô hình

Bây giờ bạn có thể tiến hành xây dựng mô hình và phân tích kết quả. Để biết thêm thông tin, hãy tham khảo Dự đoán thời gian nghỉ ngơi của khách hàng với công nghệ máy học không mã sử dụng Amazon SageMaker Canvas.

Làm sạch

Để tránh phát sinh sau này phí phiên, đăng xuất của Canvas.

Sử dụng Amazon SageMaker Canvas để phân tích dữ liệu khám phá PlatoBlockchain Data Intelligence. Tìm kiếm dọc. Ái.

Kết luận

Trong bài đăng này, chúng tôi đã chỉ ra cách bạn có thể sử dụng khả năng trực quan hóa Canvas cho EDA để hiểu rõ hơn dữ liệu của bạn trước khi xây dựng mô hình, tạo mô hình ML chính xác và tạo dự đoán bằng giao diện không mã, trực quan, trỏ và nhấp.

Về các tác giả

Rajakumar Sampathkumar là Giám đốc tài khoản kỹ thuật chính tại AWS, cung cấp cho khách hàng hướng dẫn về sự liên kết giữa kinh doanh và công nghệ và hỗ trợ việc sáng tạo lại các mô hình và quy trình hoạt động đám mây của họ. Anh ấy rất đam mê về đám mây và máy học. Raj cũng là một chuyên gia học máy và làm việc với khách hàng AWS để thiết kế, triển khai và quản lý khối lượng công việc và kiến trúc AWS của họ.

Rahul Nabera là Nhà tư vấn phân tích dữ liệu trong Dịch vụ chuyên nghiệp của AWS. Công việc hiện tại của anh ấy tập trung vào việc cho phép khách hàng xây dựng khối lượng công việc học máy và dữ liệu của họ trên AWS. Trong thời gian rảnh rỗi, anh ấy thích chơi cricket và bóng chuyền.

Raviteja Yelamanchili là Kiến trúc sư Giải pháp Doanh nghiệp của Amazon Web Services có trụ sở tại New York. Anh làm việc với các khách hàng doanh nghiệp dịch vụ tài chính lớn để thiết kế và triển khai các ứng dụng có độ bảo mật cao, khả năng mở rộng, đáng tin cậy và hiệu quả về chi phí trên đám mây. Ông có hơn 11 năm kinh nghiệm quản lý rủi ro, tư vấn công nghệ, phân tích dữ liệu và máy học. Khi không giúp đỡ khách hàng, anh ấy thích đi du lịch và chơi PS5.

Dấu thời gian: 18 Tháng Mười 19 Tháng Mười

Dấu thời gian: Tháng 1, 2022

Sử dụng Amazon SageMaker Canvas để phân tích dữ liệu khám phá

Được xuất bản lại bởi Plato

Tổng quan về giải pháp

Điều kiện tiên quyết

Nhập tập dữ liệu của bạn vào Canvas

Khám phá dữ liệu

Trực quan hóa dữ liệu

Số dư và biến thể dữ liệu

Chuyển đổi

Xây dựng mô hình

Làm sạch

Kết luận

Về các tác giả

Thêm từ Học máy AWS

Xác định các kế hoạch bảo hiểm phòng thủ trong Thống kê thế hệ tiếp theo của NFL

Cải thiện khả năng mở rộng cho các API không trạng thái của Amazon Rekognition bằng cách sử dụng nhiều vùng

Xác định rừng ngập mặn bằng các tính năng hình ảnh vệ tinh bằng Amazon SageMaker Studio và Amazon SageMaker Autopilot - Part 1

Hướng dẫn đào tạo Llama 2 đơn giản với AWS Trainium trên Amazon SageMaker | Dịch vụ web của Amazon

Thiết kế chức năng mô-đun cho Hệ thống hỗ trợ trình điều khiển nâng cao (ADAS) trên AWS

Đào tạo phân tán và mở rộng quy mô hiệu quả với Thư viện song song dữ liệu và song song mô hình Amazon SageMaker | Dịch vụ web của Amazon

Phát hiện bất thường với Amazon SageMaker Edge Manager bằng AWS IoT Greengrass V2

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản