Menggunakan Metode Seleksi Fitur Dalam Klasifikasi Teks

Diterbitkan Ulang Oleh Plato

Followers: 0

Januari 20, 2014
Vasilis Vriniotis
. 5 Komentar

Dalam klasifikasi teks, pemilihan fitur adalah proses memilih subset tertentu dari istilah set pelatihan dan hanya menggunakannya dalam algoritma klasifikasi. Proses pemilihan fitur berlangsung sebelum pelatihan pengklasifikasi.

Pembaruan: Kerangka Pembelajaran Mesin Datumbox sekarang open-source dan bebas untuk Download. Lihat paket com.datumbox.framework.machinelearning.featureselection untuk melihat penerapan metode Seleksi Chi-square dan Mutual Information Feature di Java.

Keuntungan utama menggunakan algoritme pemilihan fitur adalah fakta yang mengurangi dimensi data kami, membuat pelatihan lebih cepat dan dapat meningkatkan akurasi dengan menghapus fitur yang berisik. Karena itu pemilihan fitur dapat membantu kita menghindari overfitting.

Algoritme pemilihan dasar untuk memilih k fitur terbaik disajikan di bawah ini (Manning dkk, 2008):

Menggunakan Metode Pemilihan Fitur dalam Klasifikasi Teks PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai.

Pada bagian selanjutnya kami menyajikan dua algoritma pemilihan fitur yang berbeda: Mutual Information dan Chi Square.

Saling Informasi

Salah satu metode pemilihan fitur yang paling umum adalah Mutual Information dari term t di kelas c (Manning dkk, 2008). Ini mengukur seberapa banyak informasi ada atau tidak adanya istilah tertentu yang berkontribusi untuk membuat keputusan klasifikasi yang benar pada c. Informasi timbal balik dapat dihitung dengan menggunakan rumus berikut:

Menggunakan Metode Pemilihan Fitur dalam Klasifikasi Teks PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai. [1]

Dalam perhitungan kami, karena kami menggunakan Estimasi Kemungkinan Maksimum dari probabilitas, kami dapat menggunakan persamaan berikut:

[2]

Dimana N adalah jumlah dokumen, N_tcadalah hitungan dokumen yang memiliki nilai e_t(kemunculan istilah t dalam dokumen; dibutuhkan nilai 1 atau 0) dan e_c(kemunculan dokumen di kelas c; dibutuhkan nilai 1 atau 0) yang ditunjukkan oleh dua subskrip, dan . Akhirnya kita harus mencatat bahwa semua variabel yang disebutkan di atas mengambil nilai non-negatif.

Kotak Chi

Metode pemilihan fitur umum lainnya adalah Kotak Chi. X² tes digunakan dalam statistik, antara lain untuk menguji independensi dua peristiwa. Lebih khusus lagi dalam pemilihan fitur kami menggunakannya untuk menguji apakah kemunculan istilah tertentu dan kemunculan kelas tertentu adalah independen. Jadi kami memperkirakan jumlah berikut untuk setiap istilah dan kami memberi peringkat berdasarkan skornya:

Menggunakan Metode Pemilihan Fitur dalam Klasifikasi Teks PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai. [3]

Nilai tinggi pada x² menunjukkan bahwa hipotesis nol (H₀) independensi harus ditolak dan dengan demikian kemunculan istilah dan kelas tergantung. Jika tergantung maka kami memilih fitur untuk klasifikasi teks.

Rumus di atas dapat ditulis ulang sebagai berikut:

Menggunakan Metode Pemilihan Fitur dalam Klasifikasi Teks PlatoBlockchain Data Intelligence. Pencarian Vertikal. Ai. [4]

Jika kita menggunakan metode Chi Square, kita harus memilih hanya sejumlah fitur yang telah ditentukan sebelumnya yang memiliki ax² skor tes lebih besar dari 10.83 yang menunjukkan signifikansi statistik pada tingkat 0.001.

Last but not least kita harus mencatat bahwa dari titik statistik pemilihan fitur Chi Square tidak akurat, karena satu derajat kebebasan dan Koreksi Yates sebaiknya digunakan sebagai gantinya (yang akan mempersulit pencapaian signifikansi statistik). Jadi kita harus mengharapkan bahwa dari total fitur yang dipilih, sebagian kecil dari mereka tidak tergantung pada kelas). Jadi kita harus mengharapkan bahwa dari total fitur yang dipilih, sebagian kecil dari mereka tidak bergantung pada kelas. Namun demikian sebagai Manning dkk (2008) menunjukkan, fitur berisik ini tidak terlalu memengaruhi keakuratan keseluruhan pengklasifikasi kami.

Menghapus fitur berisik / langka

Teknik lain yang dapat membantu kita menghindari overfitting, mengurangi konsumsi memori dan meningkatkan kecepatan, adalah dengan menghilangkan semua istilah langka dari kosakata. Misalnya seseorang dapat menghilangkan semua istilah yang muncul hanya sekali di semua kategori. Menghapus istilah tersebut dapat mengurangi penggunaan memori dengan faktor yang signifikan dan meningkatkan kecepatan analisis. Akhirnya kita tidak boleh menggunakan teknik ini bersama dengan algoritma pemilihan fitur di atas.

Apakah Anda suka artikelnya? Silakan luangkan waktu sebentar untuk membagikannya di Twitter. 🙂

Stempel Waktu: Januari 20, 2014November 6, 2022

Stempel Waktu: Jan 14, 2017

Menggunakan Metode Pemilihan Fitur di Klasifikasi Teks

Diterbitkan Ulang Oleh Plato

Saling Informasi

Kotak Chi

Menghapus fitur berisik / langka

Lebih dari kotak data

Mengukur Popularitas Media Sosial Halaman dengan DEA di JAVA

Cara membuat Alat Analisis Sentimen Facebook Anda sendiri

Cara mengambil cadangan S3 dengan DejaDup di Ubuntu 20.10

Sekilas tentang TorchVision v0.11 – Memoirs of a TorchVision developer – 2

Seri Blog Baru – Memoar dari pengembang TorchVision

Cara menyiasati batasan symlink Dropbox di Linux

Kerangka Pembelajaran Mesin Datumbox 0.6.0 Dirilis

Seri Blog Baru – Memoar dari pengembang TorchVision

Model Campuran Hingga berdasarkan Distribusi Dirichlet

Kerangka Pembelajaran Mesin sumber terbuka baru yang ditulis dalam Java

Mendapatkan penggunaan GPU kartu NVIDIA dengan alat Linux dstat

Kerangka Pembelajaran Mesin Datumbox versi 0.8.0 dirilis

Tentang Kami

Pencarian Vertikal & Ai

Platform

Tetap Berhubung

Akun