Trí tuệ nhân tạo (AI) và học máy (ML) đã được áp dụng rộng rãi trong các tổ chức doanh nghiệp và chính phủ. Việc xử lý dữ liệu phi cấu trúc đã trở nên dễ dàng hơn nhờ những tiến bộ trong xử lý ngôn ngữ tự nhiên (NLP) và các dịch vụ AI/ML thân thiện với người dùng như Văn bản Amazon, Phiên âm Amazonvà Amazon hiểu. Các tổ chức đã bắt đầu sử dụng các dịch vụ AI/ML như Amazon Comprehend để xây dựng mô hình phân loại bằng dữ liệu phi cấu trúc nhằm có được thông tin chuyên sâu mà trước đây họ không có. Mặc dù bạn có thể sử dụng các mô hình được đào tạo trước với nỗ lực tối thiểu, nếu không quản lý dữ liệu và điều chỉnh mô hình phù hợp, bạn không thể nhận ra đầy đủ lợi ích của các mô hình AI/ML.
Trong bài đăng này, chúng tôi giải thích cách xây dựng và tối ưu hóa mô hình phân loại tùy chỉnh bằng Amazon Comprehend. Chúng tôi chứng minh điều này bằng cách sử dụng phân loại tùy chỉnh của Amazon Comprehend để xây dựng mô hình phân loại tùy chỉnh nhiều nhãn và cung cấp hướng dẫn về cách chuẩn bị tập dữ liệu huấn luyện cũng như điều chỉnh mô hình để đáp ứng các số liệu hiệu suất như độ chính xác, độ chính xác, khả năng thu hồi và điểm F1. Chúng tôi sử dụng các tạo phẩm đầu ra đào tạo của mô hình Amazon Comprehend như ma trận nhầm lẫn để điều chỉnh hiệu suất mô hình và hướng dẫn bạn cải thiện dữ liệu đào tạo của mình.
Tổng quan về giải pháp
Giải pháp này trình bày cách tiếp cận để xây dựng mô hình phân loại tùy chỉnh được tối ưu hóa bằng Amazon Comprehend. Chúng tôi thực hiện một số bước, bao gồm chuẩn bị dữ liệu, tạo mô hình, phân tích chỉ số hiệu suất mô hình và tối ưu hóa suy luận dựa trên phân tích của chúng tôi. Chúng tôi sử dụng một Amazon SageMaker máy tính xách tay và Bảng điều khiển quản lý AWS để hoàn thành một số bước này.
Chúng tôi cũng xem xét các phương pháp hay nhất và kỹ thuật tối ưu hóa trong quá trình chuẩn bị dữ liệu, xây dựng mô hình và điều chỉnh mô hình.
Điều kiện tiên quyết
Nếu không có phiên bản sổ ghi chép SageMaker, bạn có thể tạo một phiên bản. Để biết hướng dẫn, hãy tham khảo Tạo phiên bản sổ tay Amazon SageMaker.
Chuẩn bị dữ liệu
Để phân tích này, chúng tôi sử dụng bộ dữ liệu Phân loại nhận xét độc hại từ Kaggle. Tập dữ liệu này chứa 6 nhãn với 158,571 điểm dữ liệu. Tuy nhiên, mỗi nhãn chỉ có ít hơn 10% tổng dữ liệu là ví dụ tích cực, với hai trong số các nhãn có ít hơn 1%.
Chúng tôi chuyển đổi tập dữ liệu Kaggle hiện có sang Amazon Comprehend định dạng CSV hai cột với các nhãn được phân tách bằng dấu phân cách ống (|). Amazon Comprehend yêu cầu có ít nhất một nhãn cho mỗi điểm dữ liệu. Trong tập dữ liệu này, chúng tôi gặp phải một số điểm dữ liệu không thuộc bất kỳ nhãn nào được cung cấp. Chúng tôi tạo một nhãn mới có tên là sạch và gán bất kỳ điểm dữ liệu nào không độc hại là tích cực với nhãn này. Cuối cùng, chúng tôi chia các tập dữ liệu đã tuyển chọn thành các tập dữ liệu huấn luyện và kiểm tra bằng cách chia tỷ lệ 80/20 cho mỗi nhãn.
Chúng tôi sẽ sử dụng sổ ghi chép Chuẩn bị dữ liệu. Các bước sau đây sử dụng tập dữ liệu Kaggle và chuẩn bị dữ liệu cho mô hình của chúng tôi.
- Trên bảng điều khiển SageMaker, chọn Trường hợp máy tính xách tay trong khung điều hướng.
- Chọn phiên bản sổ ghi chép bạn đã định cấu hình và chọn Mở Jupyter.
- trên Mới menu, chọn Thiết bị đầu cuối.
- Chạy các lệnh sau trong terminal để tải xuống các tạo phẩm cần thiết cho bài đăng này:
- Đóng cửa sổ đầu cuối.
Bạn sẽ thấy ba cuốn sổ tay và đào tạo.csv các tập tin.
- Chọn sổ tay Chuẩn bị dữ liệu.ipynb.
- Chạy tất cả các bước trong sổ ghi chép.
Các bước này chuẩn bị tập dữ liệu Kaggle thô để dùng làm tập dữ liệu kiểm tra và đào tạo được quản lý. Các tập dữ liệu được tuyển chọn sẽ được lưu trữ trong sổ ghi chép và Dịch vụ lưu trữ đơn giản của Amazon (Amazon S3).
Hãy xem xét các nguyên tắc chuẩn bị dữ liệu sau đây khi xử lý các bộ dữ liệu nhiều nhãn quy mô lớn:
- Bộ dữ liệu phải có tối thiểu 10 mẫu trên mỗi nhãn.
- Amazon Comprehend chấp nhận tối đa 100 nhãn. Đây là giới hạn mềm có thể tăng lên.
- Đảm bảo tệp dữ liệu được được định dạng chính xác với dấu phân cách thích hợp. Dấu phân cách không chính xác có thể tạo ra các nhãn trống.
- Tất cả các điểm dữ liệu phải có nhãn.
- Các tập dữ liệu huấn luyện và kiểm tra phải được phân phối dữ liệu cân bằng trên mỗi nhãn. Không sử dụng phân phối ngẫu nhiên vì nó có thể gây ra sai lệch trong tập dữ liệu huấn luyện và kiểm tra.
Xây dựng mô hình phân loại tùy chỉnh
Chúng tôi sử dụng tập dữ liệu kiểm tra và đào tạo được tuyển chọn mà chúng tôi đã tạo trong bước chuẩn bị dữ liệu để xây dựng mô hình của mình. Các bước sau đây tạo mô hình phân loại tùy chỉnh nhiều nhãn của Amazon Comprehend:
- Trên bảng điều khiển Hiểu toàn diện của Amazon, chọn Phân loại tùy chỉnh trong khung điều hướng.
- Chọn Tạo mô hình mới.
- Trong tên mẫu, nhập mô hình phân loại độc hại.
- Trong Tên phiên bản, nhập 1.
- Trong Chú thích và định dạng dữ liệu, chọn Sử dụng chế độ Đa nhãn.
- Trong Tập dữ liệu đào tạo, nhập vị trí của tập dữ liệu huấn luyện được tuyển chọn trên Amazon S3.
- Chọn Khách hàng cung cấp tập dữ liệu thử nghiệm và nhập vị trí của dữ liệu thử nghiệm được tuyển chọn trên Amazon S3.
- Trong Dữ liệu đầu ra, nhập vị trí Amazon S3.
- Trong Vai trò IAM, lựa chọn Tạo vai trò IAM, chỉ định hậu tố tên là “hiểu-blog”.
- Chọn Tạo để bắt đầu đào tạo mô hình phân loại tùy chỉnh và tạo mô hình.
Ảnh chụp màn hình sau đây hiển thị chi tiết mô hình phân loại tùy chỉnh trên bảng điều khiển Amazon Comprehend.
Điều chỉnh hiệu suất của mô hình
Ảnh chụp màn hình sau đây hiển thị số liệu hiệu suất của mô hình. Nó bao gồm các số liệu chính như độ chính xác, khả năng thu hồi, điểm F1, độ chính xác, v.v.
Sau khi đào tạo và tạo mô hình, nó sẽ tạo tệp đầu ra.tar.gz, tệp này chứa các nhãn từ tập dữ liệu cũng như ma trận nhầm lẫn cho từng nhãn. Để điều chỉnh thêm hiệu suất dự đoán của mô hình, bạn phải hiểu mô hình của mình với xác suất dự đoán cho từng lớp. Để thực hiện việc này, bạn cần tạo một công việc phân tích để xác định điểm số mà Amazon Comprehend gán cho từng điểm dữ liệu.
Hoàn thành các bước sau để tạo công việc phân tích:
- Trên bảng điều khiển Hiểu toàn diện của Amazon, chọn Công việc phân tích trong khung điều hướng.
- Chọn Tạo việc làm.
- Trong Họ tên, đi vào
toxic_train_data_analysis_job
. - Trong Loại phân tích, chọn Phân loại tùy chỉnh.
- Trong Mô hình phân loại và bánh đà, chỉ định
toxic-classification-model
. - Trong phiên bản, chỉ định 1.
- Trong Nhập dữ liệu vị trí S3, nhập vị trí của tệp dữ liệu đào tạo được quản lý.
- Trong định dạng đầu vào, chọn Một tài liệu trên mỗi dòng.
- Trong Dữ liệu đầu ra vị trí S3, nhập vị trí.
- Trong Quyền truy cập, lựa chọn Sử dụng Vai trò IAM hiện có và chọn vai trò đã tạo trước đó.
- Chọn Tạo việc làm để bắt đầu công việc phân tích.
- Chọn hình ba gạch Công việc phân tích để xem chi tiết công việc. Vui lòng ghi lại id công việc trong Chi tiết công việc. Chúng tôi sẽ sử dụng id công việc trong bước tiếp theo.
Lặp lại các bước để bắt đầu công việc phân tích đối với dữ liệu thử nghiệm được quản lý. Chúng tôi sử dụng kết quả dự đoán từ công việc phân tích của mình để tìm hiểu về xác suất dự đoán của mô hình. Vui lòng ghi lại mã công việc của công việc đào tạo và phân tích bài kiểm tra.
Chúng tôi sử dụng Model-Threshold-Analysis.ipynb sổ ghi chép để kiểm tra kết quả đầu ra ở tất cả các ngưỡng có thể và chấm điểm kết quả đầu ra dựa trên xác suất dự đoán bằng cách sử dụng scikit-learn's precision_recall_curve
chức năng. Ngoài ra, chúng tôi có thể tính điểm F1 ở mỗi ngưỡng.
Chúng tôi sẽ cần id công việc phân tích của Amazon Comprehend làm đầu vào cho Phân tích ngưỡng mô hình sổ tay. Bạn có thể lấy id công việc từ bảng điều khiển Amazon Comprehend. Thực hiện tất cả các bước trong Phân tích ngưỡng mô hình sổ ghi chép để quan sát ngưỡng cho tất cả các lớp.
Lưu ý mức độ chính xác tăng lên khi ngưỡng tăng lên, trong khi điều ngược lại xảy ra khi thu hồi. Để tìm sự cân bằng giữa cả hai, chúng tôi sử dụng điểm F1 nơi nó có các đỉnh rõ ràng trên đường cong của chúng. Điểm cao nhất trong điểm F1 tương ứng với một ngưỡng cụ thể có thể cải thiện hiệu suất của mô hình. Lưu ý rằng hầu hết các nhãn đều nằm quanh mốc 0.5 cho ngưỡng ngoại trừ nhãn mối đe dọa, có ngưỡng khoảng 0.04.
Sau đó, chúng tôi có thể sử dụng ngưỡng này cho các nhãn cụ thể hoạt động kém chỉ với ngưỡng 0.5 mặc định. Bằng cách sử dụng các ngưỡng được tối ưu hóa, kết quả của mô hình trên dữ liệu thử nghiệm sẽ cải thiện mối đe dọa nhãn từ 0.00 lên 0.24. Chúng tôi đang sử dụng điểm F1 tối đa ở ngưỡng làm điểm chuẩn để xác định tích cực so với tiêu cực cho nhãn đó thay vì điểm chuẩn chung (giá trị tiêu chuẩn như > 0.7) cho tất cả các nhãn.
Xử lý các lớp học thiếu đại diện
Một cách tiếp cận khác có hiệu quả đối với tập dữ liệu mất cân bằng là oversampling. Bằng cách lấy mẫu quá mức của lớp được trình bày dưới mức, mô hình sẽ nhìn thấy lớp được trình bày dưới mức thường xuyên hơn và nhấn mạnh tầm quan trọng của các mẫu đó. Chúng tôi sử dụng Lấy mẫu quá mức-không được trình bày.ipynb sổ ghi chép để tối ưu hóa các tập dữ liệu.
Đối với tập dữ liệu này, chúng tôi đã kiểm tra xem hiệu suất của mô hình trên tập dữ liệu đánh giá thay đổi như thế nào khi chúng tôi cung cấp nhiều mẫu hơn. Chúng tôi sử dụng kỹ thuật lấy mẫu quá mức để tăng sự xuất hiện của các lớp được trình bày thiếu nhằm cải thiện hiệu suất.
Trong trường hợp cụ thể này, chúng tôi đã thử nghiệm trên 10, 25, 50, 100, 200 và 500 ví dụ tích cực. Lưu ý rằng mặc dù chúng tôi đang lặp lại các điểm dữ liệu, nhưng chúng tôi vốn đang cải thiện hiệu suất của mô hình bằng cách nhấn mạnh tầm quan trọng của lớp được trình bày ít hơn.
Phí Tổn
Với Amazon Comprehend, bạn trả tiền theo mức sử dụng dựa trên số lượng ký tự văn bản được xử lý. tham khảo Định giá toàn diện của Amazon cho chi phí thực tế.
Làm sạch
Khi bạn thử nghiệm xong giải pháp này, hãy dọn sạch tài nguyên của bạn để xóa tất cả tài nguyên được triển khai trong ví dụ này. Điều này giúp bạn tránh được chi phí liên tục trong tài khoản của mình.
Kết luận
Trong bài đăng này, chúng tôi đã cung cấp các phương pháp và hướng dẫn tốt nhất về chuẩn bị dữ liệu, điều chỉnh mô hình bằng cách sử dụng các kỹ thuật và xác suất dự đoán để xử lý các lớp dữ liệu được trình bày dưới mức. Bạn có thể sử dụng các phương pháp và kỹ thuật tốt nhất này để cải thiện số liệu hiệu suất của mô hình phân loại tùy chỉnh Amazon Comprehend của mình.
Để biết thêm thông tin về Amazon Comprehend, hãy truy cập Tài nguyên dành cho nhà phát triển của Amazon Am hiểu để tìm tài nguyên video và bài đăng trên blog, đồng thời tham khảo Câu hỏi thường gặp về AWS Hiểu.
Về các tác giả
Sathya Balakrishnan là Sr. Customer Delivery Architect trong nhóm Dịch vụ Chuyên nghiệp tại AWS, chuyên về dữ liệu và các giải pháp ML. Anh ấy làm việc với các khách hàng tài chính liên bang của Hoa Kỳ. Anh ấy đam mê xây dựng các giải pháp thực tế để giải quyết các vấn đề kinh doanh của khách hàng. Khi rảnh rỗi, anh ấy thích xem phim và đi bộ đường dài cùng gia đình.
Hoàng tử Mallari là Nhà khoa học dữ liệu NLP trong nhóm Dịch vụ chuyên nghiệp tại AWS, chuyên về các ứng dụng NLP cho khách hàng khu vực công. Anh ấy đam mê sử dụng ML như một công cụ cho phép khách hàng làm việc hiệu quả hơn. Trong thời gian rảnh rỗi, anh ấy thích chơi trò chơi điện tử và phát triển một trò chơi với bạn bè của mình.
- Phân phối nội dung và PR được hỗ trợ bởi SEO. Được khuếch đại ngay hôm nay.
- PlatoData.Network Vertical Generative Ai. Trao quyền cho chính mình. Truy cập Tại đây.
- PlatoAiStream. Thông minh Web3. Kiến thức khuếch đại. Truy cập Tại đây.
- Trung tâmESG. Than đá, công nghệ sạch, Năng lượng, Môi trường Hệ mặt trời, Quản lý chất thải. Truy cập Tại đây.
- PlatoSức khỏe. Tình báo thử nghiệm lâm sàng và công nghệ sinh học. Truy cập Tại đây.
- nguồn: https://aws.amazon.com/blogs/machine-learning/improve-prediction-quality-in-custom-classification-models-with-amazon-comprehend/
- : có
- :là
- :Ở đâu
- $ LÊN
- 1
- 10
- 100
- 200
- 24
- 25
- 50
- 500
- 7
- 9
- a
- Giới thiệu
- Chấp nhận
- Tài khoản
- chính xác
- ngang qua
- thực tế
- Ngoài ra
- Nhận con nuôi
- tiến bộ
- AI
- AI / ML
- Tất cả
- cho phép
- Ngoài ra
- Mặc dù
- đàn bà gan dạ
- Amazon hiểu
- Amazon SageMaker
- Amazon Web Services
- an
- phân tích
- và
- bất kì
- các ứng dụng
- Các ứng dụng của NLP
- phương pháp tiếp cận
- LÀ
- xung quanh
- AS
- Tài sản
- giao
- At
- tránh
- AWS
- Cân đối
- dựa
- BE
- bởi vì
- trở nên
- trước
- điểm chuẩn
- Lợi ích
- BEST
- thực hành tốt nhất
- giữa
- thiên vị
- Blog
- Blog Posts
- xây dựng
- Xây dựng
- kinh doanh
- by
- gọi là
- CAN
- Có thể có được
- trường hợp
- Những thay đổi
- nhân vật
- Chọn
- tốt nghiệp lớp XNUMX
- các lớp học
- phân loại
- khách hàng
- bình luận
- Chung
- hoàn thành
- hiểu
- Tính
- cấu hình
- nhầm lẫn
- An ủi
- chứa
- tiếp tục
- chuyển đổi
- Chi phí
- tạo
- tạo ra
- tạo
- lưu trữ
- sự giám tuyển
- đường cong
- khách hàng
- khách hàng
- khách hàng
- dữ liệu
- điểm dữ liệu
- Chuẩn bị dữ liệu
- nhà khoa học dữ liệu
- bộ dữ liệu
- xử lý
- sâu
- Mặc định
- giao hàng
- chứng minh
- triển khai
- chi tiết
- Xác định
- Nhà phát triển
- phát triển
- phân phối
- do
- tài liệu
- dont
- tải về
- suốt trong
- mỗi
- dễ dàng hơn
- Hiệu quả
- nỗ lực
- nhấn mạnh
- nhấn mạnh
- đăng ký hạng mục thi
- Doanh nghiệp
- đánh giá
- ví dụ
- ví dụ
- Trừ
- thi hành
- hiện tại
- kỳ vọng
- Giải thích
- f1
- Rơi
- gia đình
- Liên bang
- Tập tin
- Các tập tin
- Cuối cùng
- tài chính
- Tìm kiếm
- tiếp theo
- Trong
- bạn bè
- từ
- Full
- chức năng
- xa hơn
- Trò chơi
- tạo ra
- được
- Go
- Đi
- Chính phủ
- hướng dẫn
- hướng dẫn
- hướng dẫn
- xử lý
- Có
- có
- he
- giúp
- của mình
- Độ đáng tin của
- Hướng dẫn
- Tuy nhiên
- HTML
- http
- HTTPS
- ID
- xác định
- id
- tầm quan trọng
- nâng cao
- cải thiện
- in
- bao gồm
- Bao gồm
- Tăng lên
- tăng
- thông tin
- vốn có
- đầu vào
- những hiểu biết
- ví dụ
- thay vì
- hướng dẫn
- Sự thông minh
- trong
- giới thiệu
- IT
- Việc làm
- việc làm
- chỉ
- Key
- nhãn
- Nhãn
- Ngôn ngữ
- quy mô lớn
- LEARN
- học tập
- ít nhất
- ít
- Lượt thích
- LIMIT
- địa điểm thư viện nào
- máy
- học máy
- làm cho
- quản lý
- dấu
- Matrix
- tối đa
- tối đa
- Gặp gỡ
- Menu
- số liệu
- Metrics
- Might
- tối thiểu
- tối thiểu
- ML
- kiểu mẫu
- mô hình
- chi tiết
- hầu hết
- Phim Điện Ảnh
- phải
- tên
- Tự nhiên
- Xử lý ngôn ngữ tự nhiên
- THÔNG TIN
- Cần
- tiêu cực
- Mới
- tiếp theo
- nlp
- máy tính xách tay
- Để ý..
- con số
- tuân theo
- xảy ra
- of
- thường
- on
- ONE
- có thể
- tối ưu hóa
- Tối ưu hóa
- tối ưu hóa
- tối ưu hóa
- tổ chức
- vfoXNUMXfipXNUMXhfpiXNUMXufhpiXNUMXuf
- đầu ra
- cửa sổ
- riêng
- đam mê
- Trả
- mỗi
- hiệu suất
- chọn
- đường ống
- plato
- Thông tin dữ liệu Plato
- PlatoDữ liệu
- chơi
- xin vui lòng
- Điểm
- điểm
- tích cực
- có thể
- Bài đăng
- bài viết
- thực hành
- thực dụng
- Độ chính xác
- dự đoán
- chuẩn bị
- Chuẩn bị
- quà
- trước đây
- vấn đề
- Xử lý
- xử lý
- sản xuất
- chuyên nghiệp
- đúng
- cho
- cung cấp
- công khai
- chất lượng
- ngẫu nhiên
- tỉ lệ
- Nguyên
- nhận ra
- xem
- cần phải
- Thông tin
- Kết quả
- Vai trò
- nhà làm hiền triết
- Nhà khoa học
- Điểm số
- ngành
- xem
- đã xem
- nhìn
- phục vụ
- DỊCH VỤ
- một số
- nên
- Chương trình
- Đơn giản
- Mềm mại
- giải pháp
- Giải pháp
- động SOLVE
- một số
- chuyên
- riêng
- chia
- Tiêu chuẩn
- Bắt đầu
- bắt đầu
- Bước
- Các bước
- là gắn
- lưu trữ
- như vậy
- Hãy
- nhóm
- kỹ thuật
- kỹ thuật
- Thiết bị đầu cuối
- thử nghiệm
- thử nghiệm
- văn bản
- hơn
- việc này
- Sản phẩm
- cung cấp their dịch
- sau đó
- Kia là
- họ
- điều này
- những
- mối đe dọa
- số ba
- ngưỡng
- Thông qua
- thời gian
- đến
- công cụ
- Tổng số:
- đào tạo
- Hội thảo
- hai
- Dưới
- đại diện
- hiểu
- us
- Liên bang Hoa Kỳ
- sử dụng
- sử dụng
- sử dụng
- giá trị
- Video
- trò chơi video
- Xem
- có thể nhìn thấy
- Truy cập
- vs
- xem
- we
- web
- các dịch vụ web
- TỐT
- khi nào
- cái nào
- trong khi
- phổ biến rộng rãi
- sẽ
- cửa sổ
- với
- không có
- công trinh
- Bạn
- trên màn hình
- zephyrnet
- Zip