Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Кластеризация документов и гауссовых данных с помощью моделей процессов Дирихле

Эта статья является пятой частью учебника по Кластеризация с помощью DPMM, В предыдущих постах мы подробно освещали теоретические основы метода и описывали его математические представления и способы его построения. В этом посте мы попытаемся связать теорию с практикой, введя две модели DPMM: модель многомерного нормального смешения Дирихле, которая может использоваться для кластеризации гауссовских данных, и модель полиномиального смешивания Дирихле, которая используется для кластеризации документов.

Обновление: среда машинного обучения Datumbox теперь с открытым исходным кодом и бесплатна для скачать, Проверьте пакет com.datumbox.framework.machinelearning.clustering, чтобы увидеть реализацию моделей процессов Дирихле в Java.

1. Многомерная модель нормальной смеси Дирихле

Первой моделью смеси процесса Дирихле, которую мы рассмотрим, является многомерная модель нормальной смеси Дирихле, которую можно использовать для кластеризации непрерывных наборов данных. Модель смеси определяется следующим образом:

Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
Уравнение 1: многомерная модель нормальной смеси Дирихле

Как мы можем видеть выше, конкретная модель предполагает, что Генеративное распределение является многочленным гауссовым распределением и использует процесс китайского ресторана, как и ранее для кластерных назначений. Кроме того, для базового распределения G0 он использует Normal-Inverse-Wishart априори, который сопряженный до многомерного нормального распределения с неизвестным средним и ковариационной матрицей. Ниже мы представляем Графическую модель модели смеси:

Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
Рисунок 1: Графическая модель многомерной модели нормальной смеси Дирихле

Как мы обсуждали ранее, чтобы иметь возможность оценить назначения кластеров, мы будем использовать Свернутая выборка Гиббса который требует выбора соответствующие сопряженные приоры, Кроме того нам нужно будет обновить заданные параметры предшествующий и доказательства, Ниже мы видим Оценки MAP параметров для одного из кластеров:

Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
Уравнение 2: оценки MAP для параметров кластера

Где d - размерность наших данных и Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. образец среднего. Кроме того, у нас есть несколько гиперпараметров Normal-Inverse-Wishart, таких как µ0 что является начальным средним, κ0 средняя доля, которая работает как параметр сглаживания, ν0 это степени свободы, которые установлены на количество измерений и Ψ0 это произведение парных отклонений, которое устанавливается на единичную матрицу dxd, умноженную на константу. Отныне все предыдущие гиперпараметры G0 будет обозначаться через λ для упрощения обозначений. Наконец, имея все вышеперечисленное, мы можем оценить вероятности, которые требуются для свернутого образца Гиббса. Вероятность того, что наблюдения i будут принадлежать кластеру k с учетом назначений кластера, набора данных и всех гиперпараметров α и λ для DP и G0 дается ниже:

Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
Уравнение 3: Вероятности, используемые Гиббсом Сэмплером для МНММ

Где гi это кластерное назначение наблюдения хi, Икс1: п полный набор данных, z-i это набор назначений кластера без одного из яth наблюдение, х-i полный набор данных, исключая Ith наблюдение, сk,-я общее количество наблюдений, назначенных кластеру k, исключая ith наблюдение в то время как Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. и Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай. среднее значение и ковариационная матрица кластера к, исключая Ith наблюдение.

2. Модель смеси Дирихле-Полиномиальная

Модель Дирихле-полиномиальной смеси используется для кластерного анализа документов. Конкретная модель имеет немного более сложную иерархию, поскольку она моделирует темы / категории документов, вероятности слова в каждой теме, кластерные назначения и генеративное распределение документов. Его целью является проведение обучения без учителя и кластеризация списка документов путем распределения их по группам. Модель смеси определяется следующим образом:

Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
Уравнение 4: Дирихле-полиномиальная модель смеси

Где φ моделирует вероятности темы, zi является селектором темы, θk слова вероятности в каждом кластере и хI, J представляет слова документа. Следует отметить, что эта техника использует основа мешка слов который представляет документы как неупорядоченный набор слов, не учитывая грамматику и порядок слов. Это упрощенное представление обычно используется при обработке естественного языка и поиске информации. Ниже мы представляем Графическую модель модели смеси:

Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
Рисунок 2: Графическая модель модели дирихле-полиномиальной смеси

Конкретная модель использует Полиномиальное Дискретное распределение для генеративного распределения и распределения Дирихле для априорных. ℓ - это размер наших активных кластеров, n - общее количество документов, β - априори ожидаемое количество кластеров, а α - количество слов, назначенных каждому кластеру. Для оценки вероятностей, которые требуются Свернутый образец Гиббса мы используем следующее уравнение:

Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
Кластеризация документов и гауссовских данных с помощью моделей смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.
Уравнение 5: Вероятности, используемые Гиббсом Сэмплером для DMMM

Где Γ - гамма-функция, zi это кластерное назначение документа хi, Икс1: п полный набор данных, z-i это набор назначений кластера без одного из яth документ, х-i полный набор данных, исключая Ith документ, Nk(z-i) - количество наблюдений, назначенных кластеру k, исключая ith документ, Nz=k(x-i) - вектор с суммами отсчетов для каждого слова для всех документов, назначенных для кластера k, кроме ith документ и N (хi) - разреженный вектор с количеством каждого слова в документе xi, Наконец, как мы можем видеть выше, с помощью свернутого образца Гиббса с китайским рестораномjk переменная, которая хранит вероятность слова j в теме k, может быть интегрирована.

Отметка времени:

Больше от Датумбокс