Использование методов выбора функций в классификации текста

Переиздано Платоном

Читают: 0

В классификации текста выбор признаков - это процесс выбора определенного подмножества терминов обучающего набора и использования только их в алгоритме классификации. Процесс выбора функции происходит до обучения классификатора.

Обновление: среда машинного обучения Datumbox теперь с открытым исходным кодом и бесплатна для скачать, Ознакомьтесь с пакетом com.datumbox.framework.machinelearning.featureselection, чтобы увидеть реализацию методов выбора хи-квадрат и взаимной информации в Java.

Основными преимуществами использования алгоритмов выбора функций является тот факт, что они уменьшают размерность наших данных, ускоряют обучение и повышают точность, удаляя зашумленные функции. Как следствие, выбор функций может помочь нам избежать переоснащения.

Основной алгоритм выбора для выбора k лучших функций представлен ниже (Мэннинг и др., 2008):

Использование методов выбора функций в классификации текста. Анализ данных PlatoBlockchain. Вертикальный поиск. Ай.

В следующих разделах мы представляем два разных алгоритма выбора объектов: Взаимная информация и Квадрат Ци.

Взаимная информация

Одним из наиболее распространенных методов выбора признаков является Взаимная информация термина t в классе c (Мэннинг и др., 2008). Это измеряет, сколько информации наличие или отсутствие определенного термина способствует принятию правильного решения о классификации c. Взаимную информацию можно рассчитать по следующей формуле:

Использование методов выбора функций в классификации текста. Анализ данных PlatoBlockchain. Вертикальный поиск. Ай. [1]

В наших расчетах, поскольку мы используем оценки максимального правдоподобия вероятностей, мы можем использовать следующее уравнение:

[2]

Где N - общее количество документов, N_tcэто количество документов, которые имеют значения е_t(появление термина t в документе; оно принимает значение 1 или 0) и e_c(вхождение документа в класс c; оно принимает значение 1 или 0), указанное двумя индексами, и , Наконец, мы должны отметить, что все вышеупомянутые переменные принимают неотрицательные значения.

Площадь ци

Другим распространенным методом выбора функции является Площадь ци, Х² test используется в статистике, помимо прочего, для проверки независимости двух событий. В частности, при выборе признаков мы используем его, чтобы проверить, являются ли вхождения конкретного термина и вхождения конкретного класса независимыми. Таким образом, мы оцениваем следующее количество для каждого термина и ранжируем их по их оценке:

Использование методов выбора функций в классификации текста. Анализ данных PlatoBlockchain. Вертикальный поиск. Ай. [3]

Высокие оценки на х² указывают, что нулевая гипотеза (H₀) независимости должны быть отклонены и, таким образом, возникновение термина и класса являются зависимыми. Если они зависимы, тогда мы выбираем функцию для классификации текста.

Приведенную выше формулу можно переписать следующим образом:

Использование методов выбора функций в классификации текста. Анализ данных PlatoBlockchain. Вертикальный поиск. Ай. [4]

Если мы используем метод Chi Square, мы должны выбрать только заранее определенное количество объектов, которые имеют топор² оценка теста больше 10.83, что указывает на статистическую значимость на уровне 0.001.

И последнее, но не менее важное: мы должны отметить, что с точки зрения статистики выбор элемента площади Хи является неточным из-за одной степени свободы и Исправление Йейтса следует использовать вместо этого (что затруднит достижение статистической значимости). Таким образом, следует ожидать, что из общего числа выбранных функций небольшая их часть не зависит от класса). Таким образом, следует ожидать, что из общего числа выбранных функций небольшая их часть не зависит от класса. Тем не менее как Мэннинг и др. (2008) Показано, что эти шумные функции не оказывают серьезного влияния на общую точность нашего классификатора.

Удаление шумных / редких функций

Другая техника, которая может помочь нам избежать перегрузки, уменьшить потребление памяти и повысить скорость, состоит в удалении всех редких терминов из словаря. Например, можно исключить все термины, которые встречались только один раз во всех категориях. Удаление этих терминов может значительно уменьшить использование памяти и повысить скорость анализа. Наконец, мы не должны использовать эту технику в сочетании с вышеупомянутыми алгоритмами выбора признаков.

Вам понравилась статья? Пожалуйста, найдите минутку, чтобы поделиться ею в Twitter. 🙂

Отметка времени: 20 января 20146 ноября 2022

Отметка времени: 19 октября, 2014

Использование методов выбора элементов в текстовой классификации

Переиздано Платоном

Взаимная информация

Площадь ци

Удаление шумных / редких функций

Больше от Датумбокс

Кластеризация с использованием модели процесса Дирихле в Java

Как создать свой собственный инструмент для анализа настроений в Facebook

Детализация алгоритма ALS Рекомендации Spark

Разработка наивного байесовского текстового классификатора в JAVA

Новая серия блогов - Мемуары разработчика TorchVision

Краткий обзор TorchVision v0.11 - Мемуары разработчика TorchVision - 2

Путь модернизации TorchVision – Воспоминания разработчика TorchVision – 3

5 советов по тренировкам с несколькими GPU с помощью Keras

Получение графической карты NVIDIA с помощью инструмента Linux dstat

Модель смеси процесса Дирихле

Кластеризация документов и гауссовых данных с помощью моделей процессов Дирихле

Новая платформа машинного обучения с открытым исходным кодом, написанная на Java

О Нас

Вертикальный поиск и AI

Платформа

Оставайтесь на связи

Учетная запись