Використання методів вибору функцій у текстовій класифікації PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

Використання методів виділення ознак у класифікації тексту

У текстовій класифікації вибір ознак – це процес вибору певної підмножини термінів навчального набору та використання лише їх в алгоритмі класифікації. Процес відбору ознак відбувається перед навчанням класифікатора.

Оновлення: Система машинного навчання Datumbox тепер є відкритою та безкоштовною скачати. Ознайомтеся з пакетом com.datumbox.framework.machinelearning.featureselection, щоб побачити реалізацію методів хі-квадрат і вибору функції взаємної інформації в Java.

Основними перевагами використання алгоритмів вибору функцій є те, що вони зменшують розмірність наших даних, пришвидшують навчання та можуть підвищити точність, видаливши зашумлені функції. Як наслідок, вибір функцій може допомогти нам уникнути переобладнання.

Основний алгоритм вибору для вибору k найкращих характеристик представлений нижче (Меннінг та інші, 2008):

Використання методів вибору функцій у текстовій класифікації PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.

У наступних розділах ми представляємо два різні алгоритми вибору функцій: Взаємна інформація та Хі-квадрат.

Взаємна інформація

Одним із найпоширеніших методів вибору ознак є взаємна інформація про термін t у класі c (Меннінг та інші, 2008). Це вимірює, скільки інформації присутність або відсутність певного терміну сприяє прийняттю правильного рішення щодо класифікації c. Взаємну інформацію можна розрахувати за такою формулою:

Використання методів вибору функцій у текстовій класифікації PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.[1]

У наших розрахунках, оскільки ми використовуємо оцінки максимальної правдоподібності ймовірностей, ми можемо використовувати таке рівняння:

Використання методів вибору функцій у текстовій класифікації PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.[2]

Де N – загальна кількість документів, Ntcкількість документів, які мають значення et (поява терміна t у документі; він приймає значення 1 або 0) та ec(поява документа в класі c; він приймає значення 1 або 0), що позначається двома нижніми індексами, Використання методів вибору функцій у текстовій класифікації PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai. та Використання методів вибору функцій у текстовій класифікації PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.. Нарешті, ми повинні зазначити, що всі вищезгадані змінні приймають невід’ємні значення.

Площі Чі

Іншим поширеним методом вибору ознак є Площі Чі. х2 test використовується в статистиці, серед іншого, для перевірки незалежності двох подій. Точніше, під час вибору ознак ми використовуємо це, щоб перевірити, чи поява певного терміна та поява певного класу є незалежними. Таким чином, ми оцінюємо наступну кількість для кожного терміну та ранжуємо їх за балом:

Використання методів вибору функцій у текстовій класифікації PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.[3]

Високі бали на x2 вказують на те, що нульова гіпотеза (H0) незалежності слід відхилити, і, отже, поява терміна та класу є залежними. Якщо вони залежні, ми вибираємо функцію для класифікації тексту.

Наведену вище формулу можна переписати так:

Використання методів вибору функцій у текстовій класифікації PlatoBlockchain Data Intelligence. Вертикальний пошук. Ai.[4]

Якщо ми використовуємо метод Хі-квадрат, ми повинні вибрати лише попередньо визначену кількість функцій, які мають ax2 результат тесту перевищує 10.83, що вказує на статистичну значущість на рівні 0.001.

І останнє, але не менш важливе, ми повинні зазначити, що зі статистичної точки зору вибір функції Хі-квадрат є неточним через один ступінь свободи та Виправлення Єйтса слід використовувати натомість (що ускладнить досягнення статистичної значущості). Таким чином, слід очікувати, що із загальної кількості обраних ознак невелика частина з них не залежить від класу). Таким чином, ми повинні очікувати, що із загальної кількості обраних ознак невелика частина з них не залежить від класу. Проте як Меннінг та інші (2008) показали, що шумові особливості серйозно не впливають на загальну точність нашого класифікатора.

Видалення шумних/рідкісних функцій

Інший прийом, який може допомогти нам уникнути переобладнання, зменшити споживання пам'яті та підвищити швидкість, - це видалення всіх рідкісних термінів зі словника. Наприклад, можна виключити всі терміни, які зустрічаються лише один раз у всіх категоріях. Видалення цих термінів може значно зменшити використання пам’яті та підвищити швидкість аналізу. Нарешті, ми не повинні сказати, що цю техніку можна використовувати разом із наведеними вище алгоритмами вибору функцій.

Вам сподобалася стаття? Будь ласка, знайдіть хвилинку, щоб поділитися цим у Twitter. 🙂

Часова мітка:

Більше від Датабокс