Использование методов выбора функций в классификации текста. Анализ данных PlatoBlockchain. Вертикальный поиск. Ай.

Использование методов выбора элементов в текстовой классификации

В классификации текста выбор признаков - это процесс выбора определенного подмножества терминов обучающего набора и использования только их в алгоритме классификации. Процесс выбора функции происходит до обучения классификатора.

Обновление: среда машинного обучения Datumbox теперь с открытым исходным кодом и бесплатна для скачать, Ознакомьтесь с пакетом com.datumbox.framework.machinelearning.featureselection, чтобы увидеть реализацию методов выбора хи-квадрат и взаимной информации в Java.

Основными преимуществами использования алгоритмов выбора функций является тот факт, что они уменьшают размерность наших данных, ускоряют обучение и повышают точность, удаляя зашумленные функции. Как следствие, выбор функций может помочь нам избежать переоснащения.

Основной алгоритм выбора для выбора k лучших функций представлен ниже (Мэннинг и др., 2008):

Использование методов выбора функций в классификации текста. Анализ данных PlatoBlockchain. Вертикальный поиск. Ай.

В следующих разделах мы представляем два разных алгоритма выбора объектов: Взаимная информация и Квадрат Ци.

Взаимная информация

Одним из наиболее распространенных методов выбора признаков является Взаимная информация термина t в классе c (Мэннинг и др., 2008). Это измеряет, сколько информации наличие или отсутствие определенного термина способствует принятию правильного решения о классификации c. Взаимную информацию можно рассчитать по следующей формуле:

Использование методов выбора функций в классификации текста. Анализ данных PlatoBlockchain. Вертикальный поиск. Ай.[1]

В наших расчетах, поскольку мы используем оценки максимального правдоподобия вероятностей, мы можем использовать следующее уравнение:

Использование методов выбора функций в классификации текста. Анализ данных PlatoBlockchain. Вертикальный поиск. Ай.[2]

Где N - общее количество документов, Ntcэто количество документов, которые имеют значения еt (появление термина t в документе; оно принимает значение 1 или 0) и ec(вхождение документа в класс c; оно принимает значение 1 или 0), указанное двумя индексами, Использование методов выбора функций в классификации текста. Анализ данных PlatoBlockchain. Вертикальный поиск. Ай. и Использование методов выбора функций в классификации текста. Анализ данных PlatoBlockchain. Вертикальный поиск. Ай., Наконец, мы должны отметить, что все вышеупомянутые переменные принимают неотрицательные значения.

Площадь ци

Другим распространенным методом выбора функции является Площадь ци, Х2 test используется в статистике, помимо прочего, для проверки независимости двух событий. В частности, при выборе признаков мы используем его, чтобы проверить, являются ли вхождения конкретного термина и вхождения конкретного класса независимыми. Таким образом, мы оцениваем следующее количество для каждого термина и ранжируем их по их оценке:

Использование методов выбора функций в классификации текста. Анализ данных PlatoBlockchain. Вертикальный поиск. Ай.[3]

Высокие оценки на х2 указывают, что нулевая гипотеза (H0) независимости должны быть отклонены и, таким образом, возникновение термина и класса являются зависимыми. Если они зависимы, тогда мы выбираем функцию для классификации текста.

Приведенную выше формулу можно переписать следующим образом:

Использование методов выбора функций в классификации текста. Анализ данных PlatoBlockchain. Вертикальный поиск. Ай.[4]

Если мы используем метод Chi Square, мы должны выбрать только заранее определенное количество объектов, которые имеют топор2 оценка теста больше 10.83, что указывает на статистическую значимость на уровне 0.001.

И последнее, но не менее важное: мы должны отметить, что с точки зрения статистики выбор элемента площади Хи является неточным из-за одной степени свободы и Исправление Йейтса следует использовать вместо этого (что затруднит достижение статистической значимости). Таким образом, следует ожидать, что из общего числа выбранных функций небольшая их часть не зависит от класса). Таким образом, следует ожидать, что из общего числа выбранных функций небольшая их часть не зависит от класса. Тем не менее как Мэннинг и др. (2008) Показано, что эти шумные функции не оказывают серьезного влияния на общую точность нашего классификатора.

Удаление шумных / редких функций

Другая техника, которая может помочь нам избежать перегрузки, уменьшить потребление памяти и повысить скорость, состоит в удалении всех редких терминов из словаря. Например, можно исключить все термины, которые встречались только один раз во всех категориях. Удаление этих терминов может значительно уменьшить использование памяти и повысить скорость анализа. Наконец, мы не должны использовать эту технику в сочетании с вышеупомянутыми алгоритмами выбора признаков.

Вам понравилась статья? Пожалуйста, найдите минутку, чтобы поделиться ею в Twitter. 🙂

Отметка времени:

Больше от Датумбокс