Metin Sınıflandırmada Özellik Seçim Yöntemlerinin Kullanımı

Plato tarafından yeniden yayınlandı

İzleyiciler: 0

Metin sınıflandırmada özellik seçimi, eğitim setinin terimlerinin belirli bir alt kümesini seçme ve bunları yalnızca sınıflandırma algoritmasında kullanma sürecidir. Özellik seçim süreci, sınıflandırıcının eğitiminden önce gerçekleşir.

Güncelleme: Datumbox Machine Learning Framework artık açık kaynak kodlu ve ücretsiz indir. Java'da Ki-kare ve Karşılıklı Bilgi Özelliği Seçimi yöntemlerinin uygulanmasını görmek için com.datumbox.framework.machinelearning.featureselection paketine bakın.

Özellik seçme algoritmalarını kullanmanın temel avantajları, verilerimizin boyutunu azaltması, eğitimi daha hızlı hale getirmesi ve gürültülü özellikleri kaldırarak doğruluğu artırabilmesidir. Sonuç olarak, özellik seçimi aşırı uyumu önlememize yardımcı olabilir.

En iyi özellikleri seçmek için temel seçim algoritması aşağıda sunulmuştur (Manning ve diğerleri, 2008):

Metin Sınıflandırmada Özellik Seçim Yöntemlerinin Kullanımı PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Sonraki bölümlerde iki farklı özellik seçme algoritması sunuyoruz: Karşılıklı Bilgi ve Ki Kare.

Karşılıklı bilgi

En yaygın özellik seçim yöntemlerinden biri, c sınıfındaki t teriminin Karşılıklı Bilgisidir (Manning ve diğerleri, 2008). Bu, belirli bir terimin varlığının veya yokluğunun c ile ilgili doğru sınıflandırma kararının verilmesine ne kadar katkıda bulunduğunu ölçer. Karşılıklı bilgi, aşağıdaki formül kullanılarak hesaplanabilir:

Metin Sınıflandırmada Özellik Seçim Yöntemlerinin Kullanımı PlatoBlockchain Veri Zekası. Dikey Arama. Ai. [1]

Hesaplamalarımızda olasılıkların Maksimum Olabilirlik Tahminlerini kullandığımız için aşağıdaki denklemi kullanabiliriz:

[2]

N toplam belge sayısı olduğunda, N_tce değerlerine sahip belgelerin sayısıdır_t(belgede t teriminin geçtiği; 1 veya 0 değerini alır) ve e_c(c sınıfında belge oluşumu; 1 veya 0 değerini alır) iki alt simge ile gösterilen, ve . Son olarak, yukarıda belirtilen tüm değişkenlerin negatif olmayan değerler aldığına dikkat etmeliyiz.

Chi Meydanı

Diğer bir yaygın özellik seçim yöntemi, Chi Meydanı. X² test istatistikte, diğer şeylerin yanı sıra, iki olayın bağımsızlığını test etmek için kullanılır. Daha spesifik olarak özellik seçiminde, belirli bir terimin ortaya çıkmasının ve belirli bir sınıfın oluşumunun bağımsız olup olmadığını test etmek için kullanırız. Böylece her terim için aşağıdaki miktarı tahmin ediyor ve puanlarına göre sıralıyoruz:

Metin Sınıflandırmada Özellik Seçim Yöntemlerinin Kullanımı PlatoBlockchain Veri Zekası. Dikey Arama. Ai. [3]

X üzerinde yüksek puanlar² boş hipotezin (H₀) bağımsızlığın reddedilmesi ve dolayısıyla terimin ve sınıfın ortaya çıkmasının bağımlı olması gerekir. Bağımlılarsa, metin sınıflandırması için özelliği seçeriz.

Yukarıdaki formül aşağıdaki gibi yeniden yazılabilir:

Metin Sınıflandırmada Özellik Seçim Yöntemlerinin Kullanımı PlatoBlockchain Veri Zekası. Dikey Arama. Ai. [4]

Chi Square yöntemini kullanırsak, yalnızca axe sahip önceden tanımlanmış sayıda özellik seçmeliyiz.² 10.83 düzeyinde istatistiksel anlamlılığı gösteren 0.001'ten büyük test puanı.

Son olarak, aynı derecede önemli olarak, istatistiksel açıdan Chi Square özellik seçiminin, bir derecelik özgürlük ve Yates düzeltmesi bunun yerine kullanılmalıdır (bu, istatistiksel anlamlılığa ulaşmayı zorlaştıracaktır). Bu nedenle, seçilen toplam özelliklerin küçük bir kısmının sınıftan bağımsız olmasını beklemeliyiz). Bu nedenle, seçilen toplam özelliklerin küçük bir kısmının sınıftan bağımsız olmasını beklemeliyiz. Yine de Manning ve diğerleri (2008) gösterdi ki, bu gürültülü özellikler sınıflandırıcımızın genel doğruluğunu ciddi şekilde etkilemiyor.

Gürültülü / nadir özelliklerin kaldırılması

Aşırı uyumdan kaçınmamıza, bellek tüketimini azaltmamıza ve hızı artırmamıza yardımcı olabilecek diğer bir teknik, kelime dağarcığından tüm nadir terimleri kaldırmaktır. Örneğin, tüm kategorilerde yalnızca bir kez ortaya çıkan tüm terimler elenebilir. Bu terimlerin kaldırılması, bellek kullanımını önemli ölçüde azaltabilir ve analizin hızını artırabilir. Son olarak, bu tekniğin yukarıdaki özellik seçme algoritmalarıyla birlikte kullanılamayacağına dikkat etmeliyiz.

Makaleyi beğendiniz mi? Lütfen Twitter'da paylaşmak için bir dakikanızı ayırın. 🙂

Zaman Damgası: Ocak 20, 20146 Kasım 2022

Zaman Damgası: Jan 14, 2017

Metin Sınıflandırmasında Özellik Seçim Yöntemlerini Kullanma

Plato tarafından yeniden yayınlandı

Karşılıklı bilgi

Chi Meydanı

Gürültülü / nadir özelliklerin kaldırılması

Den fazla Veri kutusu

JAVA'da DEA ile Sayfaların Sosyal Medya Popülerliğini Ölçme

Kendi Facebook Duygu Analizi Aracınızı Oluşturma

Ubuntu 3'da DejaDup ile S20.10 yedeklemeleri nasıl alınır

TorchVision v0.11 – Bir TorchVision geliştiricisinin Anıları – 2'ye kısa bir bakış

Yeni Blog serisi – Bir TorchVision geliştiricisinin Anıları

Linux'ta Dropbox'ın sembolik bağlantı sınırlamaları nasıl aşılır

Datumbox Machine Learning Framework 0.6.0 Yayımlandı

Yeni Blog serisi – Bir TorchVision geliştiricisinin Anıları

Dirichlet Dağılımına Göre Sonlu Karışım Modeli

Java ile yazılmış yeni açık kaynaklı Makine Öğrenimi Çerçevesi

Linux dstat aracıyla NVIDIA kartlarının GPU kullanımını alma

Datumbox Machine Learning Framework sürüm 0.8.0 yayınlandı

Hakkımızda

Dikey Arama ve Ai

Platform

Bağlı Kal

Hesap