Xác định và tránh các vấn đề dữ liệu thường gặp khi xây dựng mô hình ML không cần mã với Amazon SageMaker Canvas

Được xuất bản lại bởi Plato

Người theo dõi: 0

Các nhà phân tích kinh doanh làm việc với dữ liệu và thích phân tích, khám phá và hiểu dữ liệu để đạt được kết quả kinh doanh hiệu quả. Để giải quyết các vấn đề kinh doanh, họ thường dựa vào những người thực hành máy học (ML), chẳng hạn như các nhà khoa học dữ liệu để hỗ trợ các kỹ thuật như sử dụng ML để xây dựng các mô hình sử dụng dữ liệu hiện có và đưa ra các dự đoán. Tuy nhiên, không phải lúc nào cũng có thể thực hiện được vì các nhà khoa học dữ liệu thường bị ràng buộc với các nhiệm vụ của họ và không có đủ khả năng để trợ giúp các nhà phân tích.

Để độc lập và đạt được mục tiêu của bạn với tư cách là nhà phân tích kinh doanh, lý tưởng nhất là làm việc với các công cụ trực quan, dễ sử dụng và trực quan sử dụng ML mà không cần biết chi tiết và sử dụng mã. Sử dụng những công cụ này sẽ giúp bạn giải quyết các vấn đề kinh doanh của mình và đạt được kết quả mong muốn.

Với mục tiêu giúp bạn và tổ chức của bạn trở nên hiệu quả hơn và sử dụng ML mà không cần viết mã, chúng tôi đã giới thiệu Amazon SageMaker Canvas. Đây là một giải pháp ML không cần mã giúp bạn xây dựng các mô hình ML chính xác mà không cần tìm hiểu về các chi tiết kỹ thuật, chẳng hạn như thuật toán ML và chỉ số đánh giá. SageMaker Canvas cung cấp giao diện trực quan, trực quan cho phép bạn nhập dữ liệu, đào tạo mô hình ML, thực hiện phân tích mô hình và tạo dự đoán ML, tất cả mà không cần viết một dòng mã nào.

Khi sử dụng SageMaker Canvas để thử nghiệm, bạn có thể gặp phải các vấn đề về chất lượng dữ liệu chẳng hạn như thiếu giá trị hoặc có loại vấn đề sai. Những vấn đề này có thể không được phát hiện cho đến khá muộn trong quá trình sau khi đào tạo một mô hình ML. Để giảm bớt thách thức này, SageMaker Canvas hiện hỗ trợ xác thực dữ liệu. Tính năng này chủ động kiểm tra các vấn đề trong dữ liệu của bạn và cung cấp hướng dẫn về cách giải quyết.

Trong bài đăng này, chúng tôi sẽ trình bày cách bạn có thể sử dụng khả năng xác thực dữ liệu trong SageMaker Canvas trước khi xây dựng mô hình. Như tên gợi ý, tính năng này xác thực tập dữ liệu của bạn, báo cáo sự cố và cung cấp các gợi ý hữu ích để khắc phục chúng. Bằng cách sử dụng dữ liệu có chất lượng tốt hơn, bạn sẽ có được một mô hình ML hoạt động tốt hơn.

Xác thực dữ liệu trong SageMaker Canvas

Xác thực dữ liệu là một tính năng mới trong SageMaker Canvas để chủ động kiểm tra các vấn đề tiềm ẩn về chất lượng dữ liệu. Sau khi bạn nhập dữ liệu và chọn một cột mục tiêu, bạn có một lựa chọn để xác thực dữ liệu của mình như được hiển thị ở đây:

Nếu bạn chọn xác thực dữ liệu của mình, Canvas sẽ phân tích dữ liệu của bạn theo nhiều điều kiện, bao gồm:

Quá nhiều nhãn duy nhất trong cột mục tiêu của bạn – đối với loại mô hình dự đoán danh mục
Quá nhiều nhãn duy nhất trong cột mục tiêu so với số lượng hàng trong dữ liệu của bạn – đối với loại mô hình dự đoán danh mục
Loại mô hình sai cho dữ liệu của bạn – loại mô hình không phù hợp với dữ liệu bạn đang dự đoán trong cột Mục tiêu
Quá nhiều hàng không hợp lệ – các giá trị bị thiếu trong cột mục tiêu của bạn
Tất cả các cột tính năng là cột văn bản – chúng sẽ bị loại bỏ đối với các bản dựng tiêu chuẩn
Quá ít cột – quá ít cột trong dữ liệu của bạn
Không có hàng hoàn chỉnh – tất cả các hàng trong dữ liệu của bạn chứa các giá trị bị thiếu
Một hoặc nhiều tên cột chứa dấu gạch dưới kép – SageMaker không thể xử lý (__) trong tiêu đề cột

Thông tin chi tiết cho từng tiêu chí xác nhận sẽ được cung cấp trong các phần sau của bài đăng này.

Nếu tất cả các bước kiểm tra đều được thông qua, thì bạn sẽ nhận được xác nhận sau: "Không có vấn đề nào được tìm thấy trong tập dữ liệu của bạn".

Nếu phát hiện thấy bất kỳ vấn đề nào, bạn sẽ nhận được thông báo để xem và hiểu. Điều này làm nổi lên sớm các vấn đề về chất lượng dữ liệu và cho phép bạn giải quyết chúng ngay lập tức trước khi lãng phí thêm thời gian và tài nguyên trong quy trình.

Bạn có thể thực hiện các điều chỉnh và tiếp tục xác thực tập dữ liệu của mình cho đến khi tất cả các vấn đề được giải quyết.

Xác thực cột mục tiêu và các loại mô hình

Khi bạn đang xây dựng mô hình ML trong SageMaker Canvas, một số vấn đề về chất lượng dữ liệu liên quan đến cột mục tiêu có thể khiến quá trình xây dựng mô hình của bạn bị lỗi. SageMaker Canvas kiểm tra các loại sự cố khác nhau có thể ảnh hưởng đến bạn cột mục tiêu.

Đối với cột mục tiêu của bạn, hãy kiểm tra Loại mô hình sai cho dữ liệu của bạn. Ví dụ: nếu mô hình dự đoán 2 danh mục được chọn nhưng cột mục tiêu của bạn có nhiều hơn 2 nhãn duy nhất thì SageMaker Canvas sẽ cung cấp cảnh báo xác thực sau.
Nếu loại mô hình là dự đoán danh mục 2 hoặc 3+, thì bạn phải xác thực quá nhiều nhãn độc đáo cho cột mục tiêu của bạn. Số lượng lớp duy nhất tối đa là 2000. Nếu bạn chọn một cột có hơn 2000 giá trị duy nhất trong cột Mục tiêu, thì Canvas sẽ đưa ra cảnh báo xác thực sau.
Ngoài việc có quá nhiều nhãn mục tiêu duy nhất, bạn cũng nên cẩn thận với nhiều nhãn mục tiêu duy nhất cho số hàng trong dữ liệu của bạn. SageMaker Canvas thực thi tỷ lệ nhãn mục tiêu trên tổng số hàng phải nhỏ hơn 10%. Điều này đảm bảo bạn có đủ đại diện cho từng danh mục để có một mô hình chất lượng cao và giảm khả năng trang bị thừa. Mô hình của bạn được coi là phù hợp quá mức khi nó dự đoán tốt trên dữ liệu huấn luyện nhưng không dự đoán đúng trên dữ liệu mới mà nó chưa từng thấy trước đây. Tham khảo tại đây để tìm hiểu thêm.
Cuối cùng, kiểm tra cuối cùng cho cột mục tiêu là quá nhiều hàng không hợp lệ. Nếu cột mục tiêu của bạn có hơn 10% dữ liệu bị thiếu hoặc không hợp lệ thì điều này sẽ ảnh hưởng đến hiệu suất mô hình của bạn và trong một số trường hợp khiến quá trình xây dựng mô hình của bạn không thành công. Ví dụ sau có nhiều giá trị bị thiếu (thiếu >90%) trong cột mục tiêu và bạn nhận được cảnh báo xác thực sau.

Nếu bạn nhận được bất kỳ cảnh báo nào ở trên cho cột mục tiêu của mình, thì hãy sử dụng các bước sau để giảm thiểu sự cố:

Bạn có đang sử dụng đúng cột mục tiêu không?
Bạn đã chọn đúng loại mô hình?
Bạn có thể tăng số lượng hàng trong tập dữ liệu của mình trên mỗi nhãn mục tiêu không?
Bạn có thể hợp nhất/nhóm các nhãn tương tự lại với nhau không?
Bạn có thể điền vào các giá trị còn thiếu/không hợp lệ không?
Bạn có đủ dữ liệu để loại bỏ các giá trị bị thiếu/không hợp lệ không?
Nếu tất cả các tùy chọn trên không xóa cảnh báo, thì bạn nên cân nhắc sử dụng một tập dữ liệu khác.

Tham khảo đến Tài liệu chuyển đổi dữ liệu SageMaker Canvas để thực hiện các bước quy nạp nêu trên.

Xác thực tất cả các cột

Ngoài cột mục tiêu, bạn cũng có thể gặp phải các vấn đề về chất lượng dữ liệu với các cột dữ liệu khác (cột đặc trưng). Các cột tính năng là dữ liệu đầu vào được sử dụng để đưa ra dự đoán ML.

Mỗi tập dữ liệu phải có ít nhất 1 cột tính năng và 1 cột mục tiêu (tổng cộng 2 cột). Nếu không, SageMaker Canvas sẽ cung cấp cho bạn Quá ít cột trong dữ liệu của bạn cảnh báo. Bạn phải đáp ứng yêu cầu này trước khi có thể tiến hành xây dựng mô hình.
Sau đó, bạn phải đảm bảo rằng dữ liệu của bạn có ít nhất 1 cột số. Nếu không, sau đó bạn sẽ nhận được tất cả các cột tính năng là cột văn bản cảnh báo. Điều này là do các cột văn bản thường bị loại bỏ trong quá trình xây dựng tiêu chuẩn, do đó khiến mô hình không có tính năng nào để huấn luyện. Do đó, điều này sẽ khiến việc xây dựng mô hình của bạn thất bại. Bạn có thể sử dụng SageMaker Canvas để mã hóa một số cột văn bản thành số hoặc sử dụng bản dựng nhanh thay vì bản dựng tiêu chuẩn.
Loại cảnh báo thứ ba mà bạn có thể nhận được đối với các cột đặc điểm là Không có hàng hoàn chỉnh. Quá trình xác thực này kiểm tra xem bạn có ít nhất một hàng không có giá trị bị thiếu hay không. SageMaker Canvas yêu cầu ít nhất một hàng hoàn chỉnh, nếu không, bạn xây dựng nhanh chóng sẽ thất bại. Cố gắng điền vào các giá trị còn thiếu trước khi xây dựng mô hình.
Loại xác thực cuối cùng là Một hoặc nhiều tên cột chứa dấu gạch dưới kép. Đây là một yêu cầu cụ thể của SageMaker Canvas. Nếu bạn có hai dấu gạch dưới (__) trong tiêu đề cột thì điều này sẽ khiến bạn xây dựng nhanh chóng thất bại. Đổi tên các cột để loại bỏ bất kỳ dấu gạch dưới kép nào, rồi thử lại.

Làm sạch

Để tránh phát sinh sau này phí phiên, đăng xuất khỏi SageMaker Canvas.

Kết luận

SageMaker Canvas là một giải pháp ML không cần mã, cho phép các nhà phân tích kinh doanh tạo các mô hình ML chính xác và đưa ra các dự đoán thông qua giao diện trỏ và nhấp trực quan. Chúng tôi đã chỉ cho bạn cách SageMaker Canvas giúp bạn đảm bảo chất lượng dữ liệu và giảm thiểu các vấn đề về dữ liệu bằng cách chủ động xác thực tập dữ liệu. Bằng cách sớm xác định các vấn đề, SageMaker Canvas giúp bạn xây dựng các mô hình ML chất lượng và giảm số lần lặp lại bản dựng mà không cần có kiến thức chuyên môn về khoa học dữ liệu và lập trình. Để tìm hiểu thêm về tính năng mới này, hãy tham khảo Tài liệu về SageMaker Canvas.

Để bắt đầu và tìm hiểu thêm về SageMaker Canvas, hãy tham khảo các tài nguyên sau:

Giới thiệu về tác giả

Hariharan Suresh là Kiến trúc sư giải pháp cấp cao tại AWS. Anh ấy đam mê cơ sở dữ liệu, học máy và thiết kế các giải pháp sáng tạo. Trước khi gia nhập AWS, Hariharan là kiến trúc sư sản phẩm, chuyên gia triển khai ngân hàng lõi và nhà phát triển, đồng thời làm việc với các tổ chức BFSI trong hơn 11 năm. Ngoài công nghệ, anh ấy thích dù lượn và đạp xe.

Sainath Miriyala là Giám đốc tài khoản kỹ thuật cao cấp tại AWS làm việc cho các khách hàng ô tô ở Hoa Kỳ. Sainath đam mê thiết kế và xây dựng các ứng dụng phân tán quy mô lớn bằng AI/ML. Khi rảnh rỗi, Sainath dành thời gian cho gia đình và bạn bè.

James Wu là Kiến trúc sư Giải pháp Chuyên gia về AI / ML Cấp cao tại AWS. giúp khách hàng thiết kế và xây dựng các giải pháp AI / ML. Công việc của James bao gồm một loạt các trường hợp sử dụng ML, với mối quan tâm chính là tầm nhìn máy tính, học sâu và mở rộng ML trong toàn doanh nghiệp. Trước khi gia nhập AWS, James là kiến trúc sư, nhà phát triển và nhà lãnh đạo công nghệ trong hơn 10 năm, bao gồm 6 năm trong lĩnh vực kỹ thuật và 4 năm trong ngành tiếp thị & quảng cáo.

Dấu thời gian: Tháng Mười Một 10, 2022Tháng Mười Một 11, 2022

Dấu thời gian: 5 Tháng Năm, 2022

Xác định và tránh các vấn đề phổ biến về dữ liệu trong khi xây dựng các mô hình ML không dùng mã với Amazon SageMaker Canvas

Được xuất bản lại bởi Plato

Xác thực dữ liệu trong SageMaker Canvas

Xác thực cột mục tiêu và các loại mô hình

Xác thực tất cả các cột

Làm sạch

Kết luận

Giới thiệu về tác giả

Thêm từ Học máy AWS

Công bố các công cụ và khả năng mới để hỗ trợ đổi mới AI có trách nhiệm | Dịch vụ web của Amazon

Kích hoạt CI/CD của điểm cuối Amazon SageMaker đa khu vực

Xử lý tài liệu thông minh với dịch vụ AWS AI và Analytics trong ngành bảo hiểm: Phần 2

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản