Korzystanie z metod wyboru cech w klasyfikacji tekstu

Opublikowane ponownie przez Plato

Obserwuje: 0

20 stycznia 2014 r.
Wasilis Wryniotis
. 5 komentarzy

W klasyfikacji tekstu selekcja cech jest procesem wybierania określonego podzbioru terminów zbioru uczącego i wykorzystywania ich tylko w algorytmie klasyfikacyjnym. Proces selekcji cech odbywa się przed szkoleniem klasyfikatora.

Aktualizacja: Platforma uczenia maszynowego Datumbox jest teraz open-source i bezpłatna pobieranie. Sprawdź pakiet com.datumbox.framework.machinelearning.featureselection, aby zobaczyć implementację metod Chi-kwadrat i wyboru funkcji informacji wzajemnej w Javie.

Głównymi zaletami korzystania z algorytmów wyboru cech jest fakt, że zmniejsza to rozmiar naszych danych, przyspiesza szkolenie i może poprawić dokładność poprzez usunięcie hałaśliwych funkcji. W konsekwencji wybór cech może pomóc nam uniknąć nadmiernego dopasowania.

Poniżej przedstawiono podstawowy algorytm selekcji do wyboru k najlepszych cech (Manning i in., 2008):

Korzystanie z metod selekcji cech w klasyfikacji tekstu PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI.

W następnych sekcjach przedstawiamy dwa różne algorytmy wyboru cech: wzajemne informacje i chi-kwadrat.

Wzajemne informacje

Jedną z najpowszechniejszych metod wyboru cech jest wzajemna informacja terminu t w klasie c (Manning i in., 2008). Mierzy, w jakim stopniu obecność lub brak określonego terminu przyczynia się do podjęcia prawidłowej decyzji klasyfikacyjnej na c. Wzajemne informacje można obliczyć za pomocą następującego wzoru:

Korzystanie z metod selekcji cech w klasyfikacji tekstu PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. [1]

W naszych obliczeniach, ponieważ używamy oszacowań prawdopodobieństwa maksymalnego prawdopodobieństwa, możemy użyć następującego równania:

[2]

Gdzie N to całkowita liczba dokumentów, N_tcto liczby dokumentów, które mają wartości e_t(wystąpienie terminu t w dokumencie; przyjmuje wartość 1 lub 0) oraz e_c(wystąpienie dokumentu w klasie c; przyjmuje wartość 1 lub 0) wskazywaną przez dwa indeksy dolne, i . Na koniec należy zauważyć, że wszystkie wspomniane zmienne przyjmują wartości nieujemne.

Chi kwadrat

Inną popularną metodą wyboru funkcji jest Chi kwadrat. X² test jest używany w statystykach między innymi do testowania niezależności dwóch zdarzeń. Mówiąc dokładniej, przy wyborze cech używamy go do testowania, czy wystąpienie określonego terminu i wystąpienie określonej klasy są niezależne. W ten sposób szacujemy następującą ilość dla każdego terminu i klasyfikujemy je według ich wyniku:

Korzystanie z metod selekcji cech w klasyfikacji tekstu PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. [3]

Wysokie wyniki na x² wskazują, że hipoteza zerowa (H.₀) niezależności należy odrzucić, a tym samym, że występowanie terminu i klasy jest zależne. Jeśli są zależne, wybieramy cechę do klasyfikacji tekstu.

Powyższy wzór można przepisać w następujący sposób:

Korzystanie z metod selekcji cech w klasyfikacji tekstu PlatoBlockchain Data Intelligence. Wyszukiwanie pionowe. AI. [4]

Jeśli używamy metody Chi-kwadrat, powinniśmy wybrać tylko predefiniowaną liczbę cech, które mają topór² wynik testu większy niż 10.83, co wskazuje na istotność statystyczną na poziomie 0.001.

Na koniec powinniśmy zauważyć, że ze statystycznego punktu widzenia wybór funkcji Chi-kwadrat jest niedokładny ze względu na jeden stopień swobody i Poprawka Yatesa powinno być użyte zamiast tego (co utrudni osiągnięcie istotności statystycznej). Należy więc spodziewać się, że spośród ogółu wybranych cech niewielka ich część jest niezależna od klasy). Należy więc spodziewać się, że spośród ogółu wybranych cech niewielka ich część jest niezależna od klasy. Niemniej jednak jak Manning i in. (2008) pokazało, że te hałaśliwe cechy nie wpływają poważnie na ogólną dokładność naszego klasyfikatora.

Usuwanie hałaśliwych / rzadkich funkcji

Inną techniką, która może pomóc nam uniknąć nadmiernego dopasowania, zmniejszyć zużycie pamięci i poprawić szybkość, jest usunięcie wszystkich rzadkich terminów ze słownika. Na przykład można wyeliminować wszystkie terminy, które wystąpiły tylko raz we wszystkich kategoriach. Usunięcie tych terminów może znacznie zmniejszyć zużycie pamięci i przyspieszyć analizę. Wreszcie nie powinniśmy, aby ta technika mogła być używana w połączeniu z powyższymi algorytmami wyboru cech.

Podobał Ci się artykuł? Poświęć chwilę, aby udostępnić go na Twitterze. 🙂

Znak czasu: 20 stycznia 2014 r.Listopad 6, 2022

Znak czasu: Październik 19, 2014

Korzystanie z metod wyboru cech w klasyfikacji tekstu

Opublikowane ponownie przez Plato

Wzajemne informacje

Chi kwadrat

Usuwanie hałaśliwych / rzadkich funkcji

Więcej z Skrzynka odniesienia

Klastrowanie z Dirichlet Process Mixture Model w Javie

Jak zbudować własne narzędzie do analizy nastrojów na Facebooku

Wiercenie w algorytmie rekomendacji ALS Spark'a

Opracowanie naiwnego klasyfikatora tekstu Bayesa w JAVA

Nowa seria blogów – Wspomnienia dewelopera TorchVision

Zajawka TorchVision v0.11 – Wspomnienia dewelopera TorchVision – 2

Podróż modernizacji TorchVision – Wspomnienia dewelopera TorchVision – 3

5 wskazówek dotyczących treningu z wieloma GPU z Kerasem

Uzyskanie wykorzystania GPU kart NVIDIA za pomocą narzędzia Linux dstat

Model mieszanki procesowej Dirichleta

Grupowanie dokumentów i danych gaussowskich za pomocą modeli mieszanin procesów Dirichleta

Nowa platforma uczenia maszynowego typu open source napisana w języku Java

O nas

Wyszukiwanie pionowe i AI

Platforma

Pozostań w kontakcie

Konto