Using Feature Selection Methods In Text Classification

Перевидано Платоном

читають: 0

У текстовій класифікації вибір ознак – це процес вибору певної підмножини термінів навчального набору та використання лише їх в алгоритмі класифікації. Процес відбору ознак відбувається перед навчанням класифікатора.

Оновлення: Система машинного навчання Datumbox тепер є відкритою та безкоштовною скачати. Ознайомтеся з пакетом com.datumbox.framework.machinelearning.featureselection, щоб побачити реалізацію методів хі-квадрат і вибору функції взаємної інформації в Java.

Основними перевагами використання алгоритмів вибору функцій є те, що вони зменшують розмірність наших даних, пришвидшують навчання та можуть підвищити точність, видаливши зашумлені функції. Як наслідок, вибір функцій може допомогти нам уникнути переобладнання.

Основний алгоритм вибору для вибору k найкращих характеристик представлений нижче (Меннінг та інші, 2008):

Використання методів вибору функцій у текстовій класифікації PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

У наступних розділах ми представляємо два різні алгоритми вибору функцій: Взаємна інформація та Хі-квадрат.

Взаємна інформація

Одним із найпоширеніших методів вибору ознак є взаємна інформація про термін t у класі c (Меннінг та інші, 2008). Це вимірює, скільки інформації присутність або відсутність певного терміну сприяє прийняттю правильного рішення щодо класифікації c. Взаємну інформацію можна розрахувати за такою формулою:

Використання методів вибору функцій у текстовій класифікації PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. [1]

У наших розрахунках, оскільки ми використовуємо оцінки максимальної правдоподібності ймовірностей, ми можемо використовувати таке рівняння:

[2]

Де N – загальна кількість документів, N_tcкількість документів, які мають значення e_t(поява терміна t у документі; він приймає значення 1 або 0) та e_c(поява документа в класі c; він приймає значення 1 або 0), що позначається двома нижніми індексами, та . Нарешті, ми повинні зазначити, що всі вищезгадані змінні приймають невід’ємні значення.

Площі Чі

Іншим поширеним методом вибору ознак є Площі Чі. х² test використовується в статистиці, серед іншого, для перевірки незалежності двох подій. Точніше, під час вибору ознак ми використовуємо це, щоб перевірити, чи поява певного терміна та поява певного класу є незалежними. Таким чином, ми оцінюємо наступну кількість для кожного терміну та ранжуємо їх за балом:

Використання методів вибору функцій у текстовій класифікації PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. [3]

Високі бали на x² вказують на те, що нульова гіпотеза (H₀) незалежності слід відхилити, і, отже, поява терміна та класу є залежними. Якщо вони залежні, ми вибираємо функцію для класифікації тексту.

Наведену вище формулу можна переписати так:

Використання методів вибору функцій у текстовій класифікації PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. [4]

Якщо ми використовуємо метод Хі-квадрат, ми повинні вибрати лише попередньо визначену кількість функцій, які мають ax² результат тесту перевищує 10.83, що вказує на статистичну значущість на рівні 0.001.

І останнє, але не менш важливе, ми повинні зазначити, що зі статистичної точки зору вибір функції Хі-квадрат є неточним через один ступінь свободи та Виправлення Єйтса слід використовувати натомість (що ускладнить досягнення статистичної значущості). Таким чином, слід очікувати, що із загальної кількості обраних ознак невелика частина з них не залежить від класу). Таким чином, ми повинні очікувати, що із загальної кількості обраних ознак невелика частина з них не залежить від класу. Проте як Меннінг та інші (2008) показали, що шумові особливості серйозно не впливають на загальну точність нашого класифікатора.

Видалення шумних/рідкісних функцій

Інший прийом, який може допомогти нам уникнути переобладнання, зменшити споживання пам'яті та підвищити швидкість, - це видалення всіх рідкісних термінів зі словника. Наприклад, можна виключити всі терміни, які зустрічаються лише один раз у всіх категоріях. Видалення цих термінів може значно зменшити використання пам’яті та підвищити швидкість аналізу. Нарешті, ми не повинні сказати, що цю техніку можна використовувати разом із наведеними вище алгоритмами вибору функцій.

Вам сподобалася стаття? Будь ласка, знайдіть хвилинку, щоб поділитися цим у Twitter. 🙂

Часова мітка: Січень 20, 2014Листопад 6, 2022

Часова мітка: Жовтень 19, 2014

Використання методів виділення ознак у класифікації тексту

Перевидано Платоном

Взаємна інформація

Площі Чі

Видалення шумних/рідкісних функцій

Більше від Датабокс

Кластеризація за допомогою моделі суміші процесів Діріхле в Java

Як створити власний інструмент аналізу настроїв у Facebook

Буріння в алгоритмі рекомендацій ALS від Spark

Розробка наївного байєсового текстового класифікатора в JAVA

Нова серія блогів – Спогади розробника TorchVision

Огляд TorchVision v0.11 – Спогади розробника TorchVision – 2

Подорож модернізації TorchVision – Спогади розробника TorchVision – 3

5 порад для навчання мульти-GPU з Keras

Отримання графічних процесорів карт NVIDIA за допомогою інструмента dstat Linux

Модель суміші процесу Діріхле

Кластеризація документів та гауссових даних за допомогою моделей сумішей процесів Діріхле

Нова платформа машинного навчання з відкритим вихідним кодом, написана на Java

Про нас

Вертикальний пошук & Ai

платформа

Залишайтеся на зв'язку

рахунки