Metin Sınıflandırmada Özellik Seçim Yöntemlerinin Kullanımı PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Metin Sınıflandırmasında Özellik Seçim Yöntemlerini Kullanma

Metin sınıflandırmada özellik seçimi, eğitim setinin terimlerinin belirli bir alt kümesini seçme ve bunları yalnızca sınıflandırma algoritmasında kullanma sürecidir. Özellik seçim süreci, sınıflandırıcının eğitiminden önce gerçekleşir.

Güncelleme: Datumbox Machine Learning Framework artık açık kaynak kodlu ve ücretsiz indir. Java'da Ki-kare ve Karşılıklı Bilgi Özelliği Seçimi yöntemlerinin uygulanmasını görmek için com.datumbox.framework.machinelearning.featureselection paketine bakın.

Özellik seçme algoritmalarını kullanmanın temel avantajları, verilerimizin boyutunu azaltması, eğitimi daha hızlı hale getirmesi ve gürültülü özellikleri kaldırarak doğruluğu artırabilmesidir. Sonuç olarak, özellik seçimi aşırı uyumu önlememize yardımcı olabilir.

En iyi özellikleri seçmek için temel seçim algoritması aşağıda sunulmuştur (Manning ve diğerleri, 2008):

Metin Sınıflandırmada Özellik Seçim Yöntemlerinin Kullanımı PlatoBlockchain Veri Zekası. Dikey Arama. Ai.

Sonraki bölümlerde iki farklı özellik seçme algoritması sunuyoruz: Karşılıklı Bilgi ve Ki Kare.

Karşılıklı bilgi

En yaygın özellik seçim yöntemlerinden biri, c sınıfındaki t teriminin Karşılıklı Bilgisidir (Manning ve diğerleri, 2008). Bu, belirli bir terimin varlığının veya yokluğunun c ile ilgili doğru sınıflandırma kararının verilmesine ne kadar katkıda bulunduğunu ölçer. Karşılıklı bilgi, aşağıdaki formül kullanılarak hesaplanabilir:

Metin Sınıflandırmada Özellik Seçim Yöntemlerinin Kullanımı PlatoBlockchain Veri Zekası. Dikey Arama. Ai.[1]

Hesaplamalarımızda olasılıkların Maksimum Olabilirlik Tahminlerini kullandığımız için aşağıdaki denklemi kullanabiliriz:

Metin Sınıflandırmada Özellik Seçim Yöntemlerinin Kullanımı PlatoBlockchain Veri Zekası. Dikey Arama. Ai.[2]

N toplam belge sayısı olduğunda, Ntce değerlerine sahip belgelerin sayısıdırt (belgede t teriminin geçtiği; 1 veya 0 değerini alır) ve ec(c sınıfında belge oluşumu; 1 veya 0 değerini alır) iki alt simge ile gösterilen, Metin Sınıflandırmada Özellik Seçim Yöntemlerinin Kullanımı PlatoBlockchain Veri Zekası. Dikey Arama. Ai. ve Metin Sınıflandırmada Özellik Seçim Yöntemlerinin Kullanımı PlatoBlockchain Veri Zekası. Dikey Arama. Ai.. Son olarak, yukarıda belirtilen tüm değişkenlerin negatif olmayan değerler aldığına dikkat etmeliyiz.

Chi Meydanı

Diğer bir yaygın özellik seçim yöntemi, Chi Meydanı. X2 test istatistikte, diğer şeylerin yanı sıra, iki olayın bağımsızlığını test etmek için kullanılır. Daha spesifik olarak özellik seçiminde, belirli bir terimin ortaya çıkmasının ve belirli bir sınıfın oluşumunun bağımsız olup olmadığını test etmek için kullanırız. Böylece her terim için aşağıdaki miktarı tahmin ediyor ve puanlarına göre sıralıyoruz:

Metin Sınıflandırmada Özellik Seçim Yöntemlerinin Kullanımı PlatoBlockchain Veri Zekası. Dikey Arama. Ai.[3]

X üzerinde yüksek puanlar2 boş hipotezin (H0) bağımsızlığın reddedilmesi ve dolayısıyla terimin ve sınıfın ortaya çıkmasının bağımlı olması gerekir. Bağımlılarsa, metin sınıflandırması için özelliği seçeriz.

Yukarıdaki formül aşağıdaki gibi yeniden yazılabilir:

Metin Sınıflandırmada Özellik Seçim Yöntemlerinin Kullanımı PlatoBlockchain Veri Zekası. Dikey Arama. Ai.[4]

Chi Square yöntemini kullanırsak, yalnızca axe sahip önceden tanımlanmış sayıda özellik seçmeliyiz.2 10.83 düzeyinde istatistiksel anlamlılığı gösteren 0.001'ten büyük test puanı.

Son olarak, aynı derecede önemli olarak, istatistiksel açıdan Chi Square özellik seçiminin, bir derecelik özgürlük ve Yates düzeltmesi bunun yerine kullanılmalıdır (bu, istatistiksel anlamlılığa ulaşmayı zorlaştıracaktır). Bu nedenle, seçilen toplam özelliklerin küçük bir kısmının sınıftan bağımsız olmasını beklemeliyiz). Bu nedenle, seçilen toplam özelliklerin küçük bir kısmının sınıftan bağımsız olmasını beklemeliyiz. Yine de Manning ve diğerleri (2008) gösterdi ki, bu gürültülü özellikler sınıflandırıcımızın genel doğruluğunu ciddi şekilde etkilemiyor.

Gürültülü / nadir özelliklerin kaldırılması

Aşırı uyumdan kaçınmamıza, bellek tüketimini azaltmamıza ve hızı artırmamıza yardımcı olabilecek diğer bir teknik, kelime dağarcığından tüm nadir terimleri kaldırmaktır. Örneğin, tüm kategorilerde yalnızca bir kez ortaya çıkan tüm terimler elenebilir. Bu terimlerin kaldırılması, bellek kullanımını önemli ölçüde azaltabilir ve analizin hızını artırabilir. Son olarak, bu tekniğin yukarıdaki özellik seçme algoritmalarıyla birlikte kullanılamayacağına dikkat etmeliyiz.

Makaleyi beğendiniz mi? Lütfen Twitter'da paylaşmak için bir dakikanızı ayırın. 🙂

Zaman Damgası:

Den fazla Veri kutusu