Sử dụng phương pháp lựa chọn tính năng trong phân loại văn bản

Được xuất bản lại bởi Plato

Người theo dõi: 0

20 Tháng một, 2014
Vasilis Vryniotis
. 5 Bình luận

Trong phân loại văn bản, lựa chọn tính năng là quá trình chọn một tập hợp con cụ thể của các điều khoản của tập huấn luyện và chỉ sử dụng chúng trong thuật toán phân loại. Quá trình lựa chọn tính năng diễn ra trước khi đào tạo bộ phân loại.

Cập nhật: Khung học máy của Datumbox hiện là nguồn mở và miễn phí tải về. Kiểm tra gói com.datumbox.framework.machinelearning.featureselection để xem việc triển khai các phương pháp Chọn tính năng thông tin Chi-Square và Mutual Information trong Java.

Những lợi thế chính cho việc sử dụng các thuật toán lựa chọn tính năng là sự thật rằng nó làm giảm kích thước dữ liệu của chúng tôi, nó giúp việc đào tạo nhanh hơn và nó có thể cải thiện độ chính xác bằng cách loại bỏ các tính năng gây ồn. Kết quả là lựa chọn tính năng có thể giúp chúng ta tránh bị thừa.

Thuật toán lựa chọn cơ bản để chọn k tính năng tốt nhất được trình bày dưới đây (Manning và cộng sự, 2008):

Sử dụng các phương pháp lựa chọn tính năng trong phân loại văn bản Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Trong các phần tiếp theo, chúng tôi trình bày hai thuật toán lựa chọn tính năng khác nhau: Thông tin lẫn nhau và Quảng trường Chi.

Thông tin lẫn nhau

Một trong những phương pháp lựa chọn tính năng phổ biến nhất là Thông tin lẫn nhau của thuật ngữ t trong lớp c (Manning và cộng sự, 2008). Điều này đo lường mức độ thông tin của sự hiện diện hay vắng mặt của một thuật ngữ cụ thể góp phần đưa ra quyết định phân loại chính xác về c. Thông tin lẫn nhau có thể được tính bằng cách sử dụng công thức sau:

Sử dụng các phương pháp lựa chọn tính năng trong phân loại văn bản Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái. [1]

Trong tính toán của chúng tôi, vì chúng tôi sử dụng Ước tính khả năng tối đa của xác suất, chúng tôi có thể sử dụng phương trình sau:

[2]

Trong đó N là tổng số tài liệu, N_tclà số lượng tài liệu có giá trị e_t(sự xuất hiện của thuật ngữ t trong tài liệu; nó nhận giá trị 1 hoặc 0) và e_c(sự xuất hiện của tài liệu trong lớp c; nó nhận giá trị 1 hoặc 0) được chỉ định bởi hai mục con, và . Cuối cùng, chúng ta phải lưu ý rằng tất cả các biến đã nói ở trên đều có giá trị không âm.

Quảng trường Chi

Một phương pháp lựa chọn tính năng phổ biến khác là Quảng trường Chi. Các x² kiểm tra được sử dụng trong thống kê, trong số những thứ khác, để kiểm tra tính độc lập của hai sự kiện. Cụ thể hơn trong lựa chọn tính năng, chúng tôi sử dụng nó để kiểm tra xem sự xuất hiện của một thuật ngữ cụ thể và sự xuất hiện của một lớp cụ thể có độc lập hay không. Do đó, chúng tôi ước tính số lượng sau cho mỗi thuật ngữ và chúng tôi xếp hạng chúng theo điểm số của chúng:

Sử dụng các phương pháp lựa chọn tính năng trong phân loại văn bản Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái. [3]

Điểm cao trên x² chỉ ra rằng giả thuyết null (H₀) của sự độc lập nên bị từ chối và do đó sự xuất hiện của thuật ngữ và giai cấp là phụ thuộc. Nếu chúng phụ thuộc thì chúng ta chọn tính năng để phân loại văn bản.

Công thức trên có thể được viết lại như sau:

Sử dụng các phương pháp lựa chọn tính năng trong phân loại văn bản Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái. [4]

Nếu chúng ta sử dụng phương pháp Chi Square, chúng ta chỉ nên chọn một số tính năng được xác định trước có rìu² điểm kiểm tra lớn hơn 10.83 cho thấy ý nghĩa thống kê ở mức 0.001.

Cuối cùng nhưng không kém phần quan trọng, chúng ta nên lưu ý rằng từ điểm thống kê, lựa chọn tính năng Chi Square là không chính xác, do một mức độ tự do và Chỉnh sửa Yates nên được sử dụng thay thế (điều này sẽ làm cho việc đạt được ý nghĩa thống kê khó khăn hơn). Vì vậy, chúng ta nên mong đợi rằng trong tổng số các tính năng được chọn, một phần nhỏ trong số chúng là độc lập với lớp). Vì vậy, chúng ta nên mong đợi rằng trong tổng số các tính năng được chọn, một phần nhỏ trong số chúng là độc lập với lớp. Tuy nhiên như Manning và cộng sự (2008) cho thấy, các tính năng ồn ào này không ảnh hưởng nghiêm trọng đến độ chính xác tổng thể của phân loại của chúng tôi.

Loại bỏ các tính năng ồn ào / hiếm

Một kỹ thuật khác có thể giúp chúng ta tránh bị thừa, giảm mức tiêu thụ bộ nhớ và cải thiện tốc độ, là loại bỏ tất cả các thuật ngữ hiếm gặp khỏi từ vựng. Ví dụ, người ta có thể loại bỏ tất cả các điều khoản chỉ xảy ra một lần trên tất cả các danh mục. Loại bỏ các thuật ngữ đó có thể làm giảm việc sử dụng bộ nhớ theo một yếu tố quan trọng và cải thiện tốc độ phân tích. Cuối cùng, chúng ta không nên sử dụng kỹ thuật này cùng với các thuật toán lựa chọn tính năng trên.

Bạn có thích bài viết này? Hãy dành một phút để chia sẻ nó trên Twitter. 🙂

Dấu thời gian: 20 Tháng một, 2014Tháng Mười Một 6, 2022

Dấu thời gian: Tháng Hai 11, 2017

Sử dụng các phương thức chọn tính năng trong phân loại văn bản

Được xuất bản lại bởi Plato

Thông tin lẫn nhau

Quảng trường Chi

Loại bỏ các tính năng ồn ào / hiếm

Thêm từ Hộp dữ liệu

Khung học máy mã nguồn mở mới được viết bằng Java

Mô hình hỗn hợp hữu hạn dựa trên phân phối Dirichlet

Cách cài đặt và sử dụng Khung máy học Datumbox

Phát hành khung máy học Datumbox v0.8.2

Sử dụng Trí tuệ nhân tạo để giải quyết Trò chơi 2048 (mã JAVA)

Xem trước TorchVision v0.11 - Hồi ức của một nhà phát triển TorchVision - 2

Cách khắc phục các giới hạn liên kết tượng trưng của Dropbox trên Linux

Phát triển trình phân loại văn bản Naive Bayes trong JAVA

Đã phát hành khung máy học Datumbox 0.6.0

Cách sao lưu S3 với DejaDup trên Ubuntu 20.10

5 mẹo để đào tạo đa GPU với Keras

Sử dụng GPU của thẻ NVIDIA bằng công cụ Linux dstat

Về chúng tôi

Tìm kiếm dọc & Ai

Nền tảng

NHẬN THÔNG TIN

Tài khoản