Sử dụng các phương pháp lựa chọn tính năng trong phân loại văn bản Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Sử dụng các phương thức chọn tính năng trong phân loại văn bản

Trong phân loại văn bản, lựa chọn tính năng là quá trình chọn một tập hợp con cụ thể của các điều khoản của tập huấn luyện và chỉ sử dụng chúng trong thuật toán phân loại. Quá trình lựa chọn tính năng diễn ra trước khi đào tạo bộ phân loại.

Cập nhật: Khung học máy của Datumbox hiện là nguồn mở và miễn phí tải về. Kiểm tra gói com.datumbox.framework.machinelearning.featureselection để xem việc triển khai các phương pháp Chọn tính năng thông tin Chi-Square và Mutual Information trong Java.

Những lợi thế chính cho việc sử dụng các thuật toán lựa chọn tính năng là sự thật rằng nó làm giảm kích thước dữ liệu của chúng tôi, nó giúp việc đào tạo nhanh hơn và nó có thể cải thiện độ chính xác bằng cách loại bỏ các tính năng gây ồn. Kết quả là lựa chọn tính năng có thể giúp chúng ta tránh bị thừa.

Thuật toán lựa chọn cơ bản để chọn k tính năng tốt nhất được trình bày dưới đây (Manning và cộng sự, 2008):

Sử dụng các phương pháp lựa chọn tính năng trong phân loại văn bản Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.

Trong các phần tiếp theo, chúng tôi trình bày hai thuật toán lựa chọn tính năng khác nhau: Thông tin lẫn nhau và Quảng trường Chi.

Thông tin lẫn nhau

Một trong những phương pháp lựa chọn tính năng phổ biến nhất là Thông tin lẫn nhau của thuật ngữ t trong lớp c (Manning và cộng sự, 2008). Điều này đo lường mức độ thông tin của sự hiện diện hay vắng mặt của một thuật ngữ cụ thể góp phần đưa ra quyết định phân loại chính xác về c. Thông tin lẫn nhau có thể được tính bằng cách sử dụng công thức sau:

Sử dụng các phương pháp lựa chọn tính năng trong phân loại văn bản Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.[1]

Trong tính toán của chúng tôi, vì chúng tôi sử dụng Ước tính khả năng tối đa của xác suất, chúng tôi có thể sử dụng phương trình sau:

Sử dụng các phương pháp lựa chọn tính năng trong phân loại văn bản Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.[2]

Trong đó N là tổng số tài liệu, Ntclà số lượng tài liệu có giá trị et (sự xuất hiện của thuật ngữ t trong tài liệu; nó nhận giá trị 1 hoặc 0) và ec(sự xuất hiện của tài liệu trong lớp c; nó nhận giá trị 1 hoặc 0) được chỉ định bởi hai mục con, Sử dụng các phương pháp lựa chọn tính năng trong phân loại văn bản Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.Sử dụng các phương pháp lựa chọn tính năng trong phân loại văn bản Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.. Cuối cùng, chúng ta phải lưu ý rằng tất cả các biến đã nói ở trên đều có giá trị không âm.

Quảng trường Chi

Một phương pháp lựa chọn tính năng phổ biến khác là Quảng trường Chi. Các x2 kiểm tra được sử dụng trong thống kê, trong số những thứ khác, để kiểm tra tính độc lập của hai sự kiện. Cụ thể hơn trong lựa chọn tính năng, chúng tôi sử dụng nó để kiểm tra xem sự xuất hiện của một thuật ngữ cụ thể và sự xuất hiện của một lớp cụ thể có độc lập hay không. Do đó, chúng tôi ước tính số lượng sau cho mỗi thuật ngữ và chúng tôi xếp hạng chúng theo điểm số của chúng:

Sử dụng các phương pháp lựa chọn tính năng trong phân loại văn bản Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.[3]

Điểm cao trên x2 chỉ ra rằng giả thuyết null (H0) của sự độc lập nên bị từ chối và do đó sự xuất hiện của thuật ngữ và giai cấp là phụ thuộc. Nếu chúng phụ thuộc thì chúng ta chọn tính năng để phân loại văn bản.

Công thức trên có thể được viết lại như sau:

Sử dụng các phương pháp lựa chọn tính năng trong phân loại văn bản Trí tuệ dữ liệu PlatoBlockchain. Tìm kiếm dọc. Ái.[4]

Nếu chúng ta sử dụng phương pháp Chi Square, chúng ta chỉ nên chọn một số tính năng được xác định trước có rìu2 điểm kiểm tra lớn hơn 10.83 cho thấy ý nghĩa thống kê ở mức 0.001.

Cuối cùng nhưng không kém phần quan trọng, chúng ta nên lưu ý rằng từ điểm thống kê, lựa chọn tính năng Chi Square là không chính xác, do một mức độ tự do và Chỉnh sửa Yates nên được sử dụng thay thế (điều này sẽ làm cho việc đạt được ý nghĩa thống kê khó khăn hơn). Vì vậy, chúng ta nên mong đợi rằng trong tổng số các tính năng được chọn, một phần nhỏ trong số chúng là độc lập với lớp). Vì vậy, chúng ta nên mong đợi rằng trong tổng số các tính năng được chọn, một phần nhỏ trong số chúng là độc lập với lớp. Tuy nhiên như Manning và cộng sự (2008) cho thấy, các tính năng ồn ào này không ảnh hưởng nghiêm trọng đến độ chính xác tổng thể của phân loại của chúng tôi.

Loại bỏ các tính năng ồn ào / hiếm

Một kỹ thuật khác có thể giúp chúng ta tránh bị thừa, giảm mức tiêu thụ bộ nhớ và cải thiện tốc độ, là loại bỏ tất cả các thuật ngữ hiếm gặp khỏi từ vựng. Ví dụ, người ta có thể loại bỏ tất cả các điều khoản chỉ xảy ra một lần trên tất cả các danh mục. Loại bỏ các thuật ngữ đó có thể làm giảm việc sử dụng bộ nhớ theo một yếu tố quan trọng và cải thiện tốc độ phân tích. Cuối cùng, chúng ta không nên sử dụng kỹ thuật này cùng với các thuật toán lựa chọn tính năng trên.

Bạn có thích bài viết này? Hãy dành một phút để chia sẻ nó trên Twitter. 🙂

Dấu thời gian:

Thêm từ Hộp dữ liệu