Cải thiện chất lượng dự đoán trong các mô hình phân loại tùy chỉnh với Amazon Comprehend

Được xuất bản lại bởi Plato

Người theo dõi: 0

Trí tuệ nhân tạo (AI) và học máy (ML) đã được áp dụng rộng rãi trong các tổ chức doanh nghiệp và chính phủ. Việc xử lý dữ liệu phi cấu trúc đã trở nên dễ dàng hơn nhờ những tiến bộ trong xử lý ngôn ngữ tự nhiên (NLP) và các dịch vụ AI/ML thân thiện với người dùng như Văn bản Amazon, Phiên âm Amazonvà Amazon hiểu. Các tổ chức đã bắt đầu sử dụng các dịch vụ AI/ML như Amazon Comprehend để xây dựng mô hình phân loại bằng dữ liệu phi cấu trúc nhằm có được thông tin chuyên sâu mà trước đây họ không có. Mặc dù bạn có thể sử dụng các mô hình được đào tạo trước với nỗ lực tối thiểu, nếu không quản lý dữ liệu và điều chỉnh mô hình phù hợp, bạn không thể nhận ra đầy đủ lợi ích của các mô hình AI/ML.

Trong bài đăng này, chúng tôi giải thích cách xây dựng và tối ưu hóa mô hình phân loại tùy chỉnh bằng Amazon Comprehend. Chúng tôi chứng minh điều này bằng cách sử dụng phân loại tùy chỉnh của Amazon Comprehend để xây dựng mô hình phân loại tùy chỉnh nhiều nhãn và cung cấp hướng dẫn về cách chuẩn bị tập dữ liệu huấn luyện cũng như điều chỉnh mô hình để đáp ứng các số liệu hiệu suất như độ chính xác, độ chính xác, khả năng thu hồi và điểm F1. Chúng tôi sử dụng các tạo phẩm đầu ra đào tạo của mô hình Amazon Comprehend như ma trận nhầm lẫn để điều chỉnh hiệu suất mô hình và hướng dẫn bạn cải thiện dữ liệu đào tạo của mình.

Tổng quan về giải pháp

Giải pháp này trình bày cách tiếp cận để xây dựng mô hình phân loại tùy chỉnh được tối ưu hóa bằng Amazon Comprehend. Chúng tôi thực hiện một số bước, bao gồm chuẩn bị dữ liệu, tạo mô hình, phân tích chỉ số hiệu suất mô hình và tối ưu hóa suy luận dựa trên phân tích của chúng tôi. Chúng tôi sử dụng một Amazon SageMaker máy tính xách tay và Bảng điều khiển quản lý AWS để hoàn thành một số bước này.

Chúng tôi cũng xem xét các phương pháp hay nhất và kỹ thuật tối ưu hóa trong quá trình chuẩn bị dữ liệu, xây dựng mô hình và điều chỉnh mô hình.

Điều kiện tiên quyết

Nếu không có phiên bản sổ ghi chép SageMaker, bạn có thể tạo một phiên bản. Để biết hướng dẫn, hãy tham khảo Tạo phiên bản sổ tay Amazon SageMaker.

Chuẩn bị dữ liệu

Để phân tích này, chúng tôi sử dụng bộ dữ liệu Phân loại nhận xét độc hại từ Kaggle. Tập dữ liệu này chứa 6 nhãn với 158,571 điểm dữ liệu. Tuy nhiên, mỗi nhãn chỉ có ít hơn 10% tổng dữ liệu là ví dụ tích cực, với hai trong số các nhãn có ít hơn 1%.

Chúng tôi chuyển đổi tập dữ liệu Kaggle hiện có sang Amazon Comprehend định dạng CSV hai cột với các nhãn được phân tách bằng dấu phân cách ống (|). Amazon Comprehend yêu cầu có ít nhất một nhãn cho mỗi điểm dữ liệu. Trong tập dữ liệu này, chúng tôi gặp phải một số điểm dữ liệu không thuộc bất kỳ nhãn nào được cung cấp. Chúng tôi tạo một nhãn mới có tên là sạch và gán bất kỳ điểm dữ liệu nào không độc hại là tích cực với nhãn này. Cuối cùng, chúng tôi chia các tập dữ liệu đã tuyển chọn thành các tập dữ liệu huấn luyện và kiểm tra bằng cách chia tỷ lệ 80/20 cho mỗi nhãn.

Chúng tôi sẽ sử dụng sổ ghi chép Chuẩn bị dữ liệu. Các bước sau đây sử dụng tập dữ liệu Kaggle và chuẩn bị dữ liệu cho mô hình của chúng tôi.

Trên bảng điều khiển SageMaker, chọn Trường hợp máy tính xách tay trong khung điều hướng.
Chọn phiên bản sổ ghi chép bạn đã định cấu hình và chọn Mở Jupyter.
trên Mới menu, chọn Thiết bị đầu cuối.

Cải thiện chất lượng dự đoán trong các mô hình phân loại tùy chỉnh với Amazon Comprehend | Dịch vụ web của Amazon PlatoThông minh dữ liệu Blockchain. Tìm kiếm dọc. Ái.

Chạy các lệnh sau trong terminal để tải xuống các tạo phẩm cần thiết cho bài đăng này:

cd SageMaker
wget https://aws-ml-blog.s3.amazonaws.com/artifacts/amazon-comprehend-improve-prediction-quality/comprehend-blog-artifacts.zip
unzip comprehend-blog-artifacts.zip
rm comprehend-blog-artifacts.zip
mkdir assets

Đóng cửa sổ đầu cuối.

Bạn sẽ thấy ba cuốn sổ tay và đào tạo.csv các tập tin.

Chọn sổ tay Chuẩn bị dữ liệu.ipynb.
Chạy tất cả các bước trong sổ ghi chép.

Các bước này chuẩn bị tập dữ liệu Kaggle thô để dùng làm tập dữ liệu kiểm tra và đào tạo được quản lý. Các tập dữ liệu được tuyển chọn sẽ được lưu trữ trong sổ ghi chép và Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3).

Hãy xem xét các nguyên tắc chuẩn bị dữ liệu sau đây khi xử lý các bộ dữ liệu nhiều nhãn quy mô lớn:

Bộ dữ liệu phải có tối thiểu 10 mẫu trên mỗi nhãn.
Amazon Comprehend chấp nhận tối đa 100 nhãn. Đây là giới hạn mềm có thể tăng lên.
Đảm bảo tệp dữ liệu được được định dạng chính xác với dấu phân cách thích hợp. Dấu phân cách không chính xác có thể tạo ra các nhãn trống.
Tất cả các điểm dữ liệu phải có nhãn.
Các tập dữ liệu huấn luyện và kiểm tra phải được phân phối dữ liệu cân bằng trên mỗi nhãn. Không sử dụng phân phối ngẫu nhiên vì nó có thể gây ra sai lệch trong tập dữ liệu huấn luyện và kiểm tra.

Xây dựng mô hình phân loại tùy chỉnh

Chúng tôi sử dụng tập dữ liệu kiểm tra và đào tạo được tuyển chọn mà chúng tôi đã tạo trong bước chuẩn bị dữ liệu để xây dựng mô hình của mình. Các bước sau đây tạo mô hình phân loại tùy chỉnh nhiều nhãn của Amazon Comprehend:

Trên bảng điều khiển Hiểu toàn diện của Amazon, chọn Phân loại tùy chỉnh trong khung điều hướng.
Chọn Tạo mô hình mới.
Trong tên mẫu, nhập mô hình phân loại độc hại.
Trong Tên phiên bản, nhập 1.
Trong Chú thích và định dạng dữ liệu, chọn Sử dụng chế độ Đa nhãn.
Trong Tập dữ liệu đào tạo, nhập vị trí của tập dữ liệu huấn luyện được tuyển chọn trên Amazon S3.
Chọn Khách hàng cung cấp tập dữ liệu thử nghiệm và nhập vị trí của dữ liệu thử nghiệm được tuyển chọn trên Amazon S3.
Trong Dữ liệu đầu ra, nhập vị trí Amazon S3.
Trong Vai trò IAM, lựa chọn Tạo vai trò IAM, chỉ định hậu tố tên là “hiểu-blog”.
Chọn Tạo để bắt đầu đào tạo mô hình phân loại tùy chỉnh và tạo mô hình.

Ảnh chụp màn hình sau đây hiển thị chi tiết mô hình phân loại tùy chỉnh trên bảng điều khiển Amazon Comprehend.

Điều chỉnh hiệu suất của mô hình

Ảnh chụp màn hình sau đây hiển thị số liệu hiệu suất của mô hình. Nó bao gồm các số liệu chính như độ chính xác, khả năng thu hồi, điểm F1, độ chính xác, v.v.

Sau khi đào tạo và tạo mô hình, nó sẽ tạo tệp đầu ra.tar.gz, tệp này chứa các nhãn từ tập dữ liệu cũng như ma trận nhầm lẫn cho từng nhãn. Để điều chỉnh thêm hiệu suất dự đoán của mô hình, bạn phải hiểu mô hình của mình với xác suất dự đoán cho từng lớp. Để thực hiện việc này, bạn cần tạo một công việc phân tích để xác định điểm số mà Amazon Comprehend gán cho từng điểm dữ liệu.

Hoàn thành các bước sau để tạo công việc phân tích:

Trên bảng điều khiển Hiểu toàn diện của Amazon, chọn Công việc phân tích trong khung điều hướng.
Chọn Tạo việc làm.
Trong Họ tên, đi vào toxic_train_data_analysis_job.
Trong Loại phân tích, chọn Phân loại tùy chỉnh.
Trong Mô hình phân loại và bánh đà, chỉ định toxic-classification-model.
Trong phiên bản, chỉ định 1.
Trong Nhập dữ liệu vị trí S3, nhập vị trí của tệp dữ liệu đào tạo được quản lý.
Trong định dạng đầu vào, chọn Một tài liệu trên mỗi dòng.
Trong Dữ liệu đầu ra vị trí S3, nhập vị trí.
Trong Quyền truy cập, lựa chọn Sử dụng Vai trò IAM hiện có và chọn vai trò đã tạo trước đó.
Chọn Tạo việc làm để bắt đầu công việc phân tích.
Chọn hình ba gạch Công việc phân tích để xem chi tiết công việc. Vui lòng ghi lại id công việc trong Chi tiết công việc. Chúng tôi sẽ sử dụng id công việc trong bước tiếp theo.

Lặp lại các bước để bắt đầu công việc phân tích đối với dữ liệu thử nghiệm được quản lý. Chúng tôi sử dụng kết quả dự đoán từ công việc phân tích của mình để tìm hiểu về xác suất dự đoán của mô hình. Vui lòng ghi lại mã công việc của công việc đào tạo và phân tích bài kiểm tra.

Chúng tôi sử dụng Model-Threshold-Analysis.ipynb sổ ghi chép để kiểm tra kết quả đầu ra ở tất cả các ngưỡng có thể và chấm điểm kết quả đầu ra dựa trên xác suất dự đoán bằng cách sử dụng scikit-learn's precision_recall_curve chức năng. Ngoài ra, chúng tôi có thể tính điểm F1 ở mỗi ngưỡng.

Chúng tôi sẽ cần id công việc phân tích của Amazon Comprehend làm đầu vào cho Phân tích ngưỡng mô hình sổ tay. Bạn có thể lấy id công việc từ bảng điều khiển Amazon Comprehend. Thực hiện tất cả các bước trong Phân tích ngưỡng mô hình sổ ghi chép để quan sát ngưỡng cho tất cả các lớp.

Lưu ý mức độ chính xác tăng lên khi ngưỡng tăng lên, trong khi điều ngược lại xảy ra khi thu hồi. Để tìm sự cân bằng giữa cả hai, chúng tôi sử dụng điểm F1 nơi nó có các đỉnh rõ ràng trên đường cong của chúng. Điểm cao nhất trong điểm F1 tương ứng với một ngưỡng cụ thể có thể cải thiện hiệu suất của mô hình. Lưu ý rằng hầu hết các nhãn đều nằm quanh mốc 0.5 cho ngưỡng ngoại trừ nhãn mối đe dọa, có ngưỡng khoảng 0.04.

Sau đó, chúng tôi có thể sử dụng ngưỡng này cho các nhãn cụ thể hoạt động kém chỉ với ngưỡng 0.5 mặc định. Bằng cách sử dụng các ngưỡng được tối ưu hóa, kết quả của mô hình trên dữ liệu thử nghiệm sẽ cải thiện mối đe dọa nhãn từ 0.00 lên 0.24. Chúng tôi đang sử dụng điểm F1 tối đa ở ngưỡng làm điểm chuẩn để xác định tích cực so với tiêu cực cho nhãn đó thay vì điểm chuẩn chung (giá trị tiêu chuẩn như > 0.7) cho tất cả các nhãn.

Xử lý các lớp học thiếu đại diện

Một cách tiếp cận khác có hiệu quả đối với tập dữ liệu mất cân bằng là oversampling. Bằng cách lấy mẫu quá mức của lớp được trình bày dưới mức, mô hình sẽ nhìn thấy lớp được trình bày dưới mức thường xuyên hơn và nhấn mạnh tầm quan trọng của các mẫu đó. Chúng tôi sử dụng Lấy mẫu quá mức-không được trình bày.ipynb sổ ghi chép để tối ưu hóa các tập dữ liệu.

Đối với tập dữ liệu này, chúng tôi đã kiểm tra xem hiệu suất của mô hình trên tập dữ liệu đánh giá thay đổi như thế nào khi chúng tôi cung cấp nhiều mẫu hơn. Chúng tôi sử dụng kỹ thuật lấy mẫu quá mức để tăng sự xuất hiện của các lớp được trình bày thiếu nhằm cải thiện hiệu suất.

Trong trường hợp cụ thể này, chúng tôi đã thử nghiệm trên 10, 25, 50, 100, 200 và 500 ví dụ tích cực. Lưu ý rằng mặc dù chúng tôi đang lặp lại các điểm dữ liệu, nhưng chúng tôi vốn đang cải thiện hiệu suất của mô hình bằng cách nhấn mạnh tầm quan trọng của lớp được trình bày ít hơn.

Phí Tổn

Với Amazon Comprehend, bạn trả tiền theo mức sử dụng dựa trên số lượng ký tự văn bản được xử lý. tham khảo Định giá toàn diện của Amazon cho chi phí thực tế.

Làm sạch

Khi bạn thử nghiệm xong giải pháp này, hãy dọn sạch tài nguyên của bạn để xóa tất cả tài nguyên được triển khai trong ví dụ này. Điều này giúp bạn tránh được chi phí liên tục trong tài khoản của mình.

Kết luận

Trong bài đăng này, chúng tôi đã cung cấp các phương pháp và hướng dẫn tốt nhất về chuẩn bị dữ liệu, điều chỉnh mô hình bằng cách sử dụng các kỹ thuật và xác suất dự đoán để xử lý các lớp dữ liệu được trình bày dưới mức. Bạn có thể sử dụng các phương pháp và kỹ thuật tốt nhất này để cải thiện số liệu hiệu suất của mô hình phân loại tùy chỉnh Amazon Comprehend của mình.

Để biết thêm thông tin về Amazon Comprehend, hãy truy cập Tài nguyên dành cho nhà phát triển của Amazon Am hiểu để tìm tài nguyên video và bài đăng trên blog, đồng thời tham khảo Câu hỏi thường gặp về AWS Hiểu.

Về các tác giả

Sathya Balakrishnan là Sr. Customer Delivery Architect trong nhóm Dịch vụ Chuyên nghiệp tại AWS, chuyên về dữ liệu và các giải pháp ML. Anh ấy làm việc với các khách hàng tài chính liên bang của Hoa Kỳ. Anh ấy đam mê xây dựng các giải pháp thực tế để giải quyết các vấn đề kinh doanh của khách hàng. Khi rảnh rỗi, anh ấy thích xem phim và đi bộ đường dài cùng gia đình.

Hoàng tử Mallari là Nhà khoa học dữ liệu NLP trong nhóm Dịch vụ chuyên nghiệp tại AWS, chuyên về các ứng dụng NLP cho khách hàng khu vực công. Anh ấy đam mê sử dụng ML như một công cụ cho phép khách hàng làm việc hiệu quả hơn. Trong thời gian rảnh rỗi, anh ấy thích chơi trò chơi điện tử và phát triển một trò chơi với bạn bè của mình.

Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
nguồn: https://aws.amazon.com/blogs/machine-learning/improve-prediction-quality-in-custom-classification-models-with-amazon-comprehend/

Dấu thời gian: 5 Tháng Mười

Dấu thời gian: Tháng 17, 2022

Cải thiện chất lượng dự đoán trong các mô hình phân loại tùy chỉnh với Amazon Comprehend | Dịch vụ web của Amazon

Được xuất bản lại bởi Plato

Tổng quan về giải pháp

Điều kiện tiên quyết

Chuẩn bị dữ liệu

Xây dựng mô hình phân loại tùy chỉnh

Điều chỉnh hiệu suất của mô hình

Xử lý các lớp học thiếu đại diện

Phí Tổn

Làm sạch

Kết luận

Về các tác giả

Thêm từ Học máy AWS

Đo lường tác động kinh doanh của đề xuất cá nhân hóa Amazon

Tổ chức phát triển máy học bằng không gian dùng chung trong SageMaker Studio để cộng tác theo thời gian thực

Điều chỉnh các mô hình ML cho các mục tiêu bổ sung như tính công bằng với Điều chỉnh mô hình tự động của SageMaker

Triển khai BLOOM-176B và OPT-30B trên Amazon SageMaker với khả năng suy luận mô hình lớn Deep Learning Containers và DeepSpeed

Cách Amazon Search đạt được suy luận T5 có độ trễ thấp, thông lượng cao với NVIDIA Triton trên AWS

Phát hiện các sự kiện âm thanh với Amazon Rekognition

Amazon SageMaker với TensorBoard: Tổng quan về trải nghiệm TensorBoard được lưu trữ

Xây dựng đường dẫn phân tích cú pháp tài liệu đa định dạng, tùy chỉnh, có thể theo dõi với Amazon Textract

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản