Модель смеси процессов Дирихле PlatoBlockchain Data Intelligence. Вертикальный поиск. Ай.

Модель смеси процесса Дирихле

Этот пост является четвертой частью серии на Кластеризация с моделями смеси процесса Дирихле, В предыдущих статьях мы обсуждали модели конечных смесей Дирихле, и мы взяли предел их модели для бесконечных k кластеров, что привело нас к введению процессов Дирихле. Как мы видели, наша цель - создать смешанную модель, которая не требует от нас указания количества k кластеров / компонентов с самого начала. После представление различных представлений о процессах ДирихлеНастало время фактически использовать DP для построения бесконечной модели микширования, которая позволяет нам выполнять кластеризацию. Цель этой статьи - определить модели смеси процесса Дирихле и обсудить использование процессов китайского ресторана и выборки Гиббса. Если вы не читали предыдущие посты, настоятельно рекомендуется сделать это, так как эта тема является немного теоретической и требует хорошего понимания построения модели.

Обновление: среда машинного обучения Datumbox теперь с открытым исходным кодом и бесплатна для скачать, Проверьте пакет com.datumbox.framework.machinelearning.clustering, чтобы увидеть реализацию моделей процессов Дирихле в Java.

1. Определение модели смеси процесса Дирихле

Использование процессов Дирихле позволяет нам иметь смешанную модель с бесконечными компонентами, которую можно рассматривать как ограничение предельной модели от k до бесконечности. Давайте предположим, что у нас есть следующая модель:

изображение
изображение
изображение

Уравнение 1: Модель смеси процесса Дирихле

Где G определяется как изображение и изображение используется в качестве короткой записи для изображение которая является дельта-функцией, которая принимает 1, если изображение и 0 в другом месте. Θi являются параметрами кластера, которые выбираются из G. Генеративное распределение F конфигурируется параметрами кластера θi и используется для генерации хi наблюдения. Наконец, мы можем определить распределение плотности изображение что является нашим распределением смеси (счетная бесконечная смесь) с пропорциями смешивания изображение и смешивание компонентов изображение.

изображение

Рисунок 1: Графическая модель модели смеси процесса Дирихле

Выше мы видим эквивалентную графическую модель DPMM. G0 является базовым распределением DP, и его обычно выбирают как сопряженное до нашего порождающего распределения F, чтобы облегчить вычисления и использовать привлекательные математические свойства. Α является скалярным гиперпараметром процесса Дирихле и влияет на количество кластеров, которые мы получим. Чем больше значение α, тем больше кластеров; чем меньше α, тем меньше кластеров. Следует отметить, что значение α выражает сила веры в G0, Большое значение указывает на то, что большинство образцов будут различаться и иметь значения, сконцентрированные на G0, G - это случайное распределение по пространству параметров, отобранное из DP, которое присваивает вероятности параметрам. Θi является вектором параметров, который взят из распределения G и содержит параметры кластера, распределение F параметризовано с помощью θi и хi точка данных, сгенерированная генеративным распределением F.

Важно отметить, что θi являются элементами пространства параметров and, и они «конфигурируют» наши кластеры. Их также можно рассматривать как скрытые переменные на хi которые говорят нам, из какого компонента / кластера хi исходит и каковы параметры этого компонента. Таким образом, для каждого хi что мы наблюдаем, мы рисуемi из распределения G. С каждым тиражом распределение меняется в зависимости от предыдущих выборов. Как мы видели в схеме урны Blackwell-MacQueen, распределение G может быть интегрировано, и наши будущие выборы θi зависит только от G0: изображение, Оценка параметров θi из предыдущей формулы не всегда выполнима, потому что многие реализации (такие как процесс китайского ресторана) включают перечисление через экспоненциально возрастающее k компонентов, Таким образом, используются приближенные вычислительные методы, такие как выборка Гиббса. Наконец, мы должны отметить, что, хотя k кластеров бесконечны, число активных кластеров изображение, Таким образом, θi будет повторяться и проявлять эффект кластеризации.

2. Использование китайского ресторанного процесса для определения модели бесконечной смеси

Модель, определенная в предыдущем сегменте, является математически надежной, тем не менее она имеет существенный недостаток: для каждого нового xi что мы наблюдаем, мы должны выбрать новый θi с учетом предыдущих значений θ. Проблема заключается в том, что во многих случаях выборка этих параметров может быть сложной и дорогостоящей задачей.

Альтернативный подход заключается в использовании китайского ресторанного процесса для моделирования скрытых переменных.i кластерных назначений. Таким образом, вместо использования θi чтобы обозначить как параметры кластера, так и назначения кластера, мы используем скрытую переменную zi чтобы указать идентификатор кластера, а затем использовать это значение для назначения параметров кластера. В результате нам больше не нужно выбирать θ каждый раз, когда мы получаем новое наблюдение, но вместо этого мы получаем назначение кластера путем выборки zi из CRP. С этой схемой новый θ выбирается только тогда, когда нам нужно создать новый кластер. Ниже мы представляем модель этого подхода:

изображение
изображение
изображение

Уравнение 2: модель смеси с СРБ

Выше приведена генеративная модель, которая описывает, как данные хi и кластеры генерируются. Для проведения кластерного анализа мы должны использовать наблюдения хi и оценить кластерные назначения zi.

3. Вывод модели смеси и выборка Гиббса

К сожалению, поскольку процессы Дирихле непараметрически, мы не может использовать алгоритм EM оценить скрытые переменные, которые хранят кластерные назначения. Для оценки назначений мы будем использовать Свернутая выборка Гиббса.

Свернутая выборка Гиббса представляет собой простой алгоритм цепей Монте-Карло по методу Маркова. Это быстро и позволяет нам интегрировать некоторые переменные при выборке другой переменной. Тем не менее, этот алгоритм требует от нас выбрать G0 который является сопряженным предшествующим генеративному распределению F, чтобы иметь возможность аналитически решать уравнения и иметь возможность выборки непосредственно из изображение.

Шаги выборки Collapsed Gibbs, которые мы будем использовать для оценки назначений кластера, следующие:

  • Инициализировать zi кластерные назначения случайным образом
  • Повторите до схождения
    • Выберите случайно топорi
    • Держи другой гj фиксировано для каждого j ≠ i: изображение
    • Назначьте новое значение на zi вычисляя «вероятность СРБ», которая зависит от zj и хj всего j ≠ я: изображение

В следующей статье мы сосредоточимся на том, как выполнить кластерный анализ с использованием моделей Dirichlet Process Mixture. Мы определим две разные модели смеси процесса Дирихле, в которых используется процесс китайского ресторана и свернутая выборка Гиббса для кластеризации непрерывных наборов данных и документов.

Отметка времени:

Больше от Датумбокс