ディリクレ分布 PlatoBlockchain データ インテリジェンスに基づく有限混合モデル。垂直検索。あい。

ディリクレ分布に基づく有限混合モデル

このブログ投稿は、ディリクレプロセス混合モデルに関する記事シリーズの第XNUMX部です。 前の記事では、 いくつかのクラスター分析手法の概要 そして、それらを使用することによって生じる問題/制限のいくつかについて議論しました。 さらに、ディリクレプロセス混合モデルを簡単に紹介し、それらがなぜ有用であるかを説明し、それらのアプリケーションのいくつかを紹介しました。

更新:Datumbox Machine Learning Frameworkがオープンソースになり、無料で ダウンロード。 パッケージcom.datumbox.framework.machinelearning.clusteringをチェックして、Javaでのディリクレプロセス混合モデルの実装を確認してください。

ディリクレプロセス混合モデルは、多くの異なる表現を持つ無限混合モデルであるため、最初は飲み込むのが少し難しい場合があります。 幸い、主題にアプローチする良い方法は、ディリクレ分布の有限混合モデルから始めて、無限モデルに移動することです。

したがって、この記事では、私たちが必要とするいくつかの重要な分布を簡単に紹介します。それらを使用して、多項式尤度モデルによるディリクレ事前分布を構築し、次にディリクレ分布に基づく有限混合モデルに移動します。

1.ベータ配布

  ベータ分布 [0,1]の間隔で定義される連続分布のファミリーです。 これは、XNUMXつの正のパラメーターaおよびbによってパラメーター化され、その形式は、これらXNUMXつのパラメーターの選択に大きく依存します。

画像

図1:さまざまなa、bパラメ​​ーターのベータ分布

ベータ分布は一般に確率の分布をモデル化するために使用され、次の確率密度を持っています。

画像

方程式1:ベータ版PDF

ここで、Γ(x)はガンマ関数で、a、bは分布のパラメーターです。 ベータは確率値の分布として一般的に使用され、モデル化された確率が特定の値P = p0に等しい可能性を与えます。 その定義により、ベータ分布は、真または偽の値をとるバイナリ結果の確率をモデル化できます。 パラメータaとbは、それぞれ成功と失敗の疑似カウントと見なすことができます。 したがって、ベータ分布は、成功と失敗の場合の成功の確率をモデル化します。

2.ディリクレ分布

  ディリクレ分布 複数の結果に対するベータ分布の一般化です(つまり、複数の結果を持つイベントに使用されます)。 これは、k個のパラメーターaでパラメーター化されます。i ポジティブでなければなりません。 変数の数k = 2の場合、ディリクレ分布はベータ分布と等しくなります。

画像

図2:さまざまなaのディリクレ分布i パラメータ

ディリクレ分布は、一般に確率分布をモデル化するために使用され、次の確率密度を持っています。

画像

方程式2:ディリクレPDF

ここで、Γ(x)はガンマ関数、pi [0,1]とΣpの値を取るi= 1。 ディリクレ分布は、pの同時分布をモデル化しますi そしてPの可能性を与える1=p1,P2=p2、…。、Pk-1=pk-1 P付きk= 1 –ΣPi。 ベータ版の場合と同様に、ai パラメータは、各iイベントの出現の疑似カウントと見なすことができます。 ディリクレ分布は、k個のライバルイベントが発生する確率をモデル化するために使用され、しばしばディリクレ(a)として表されます。

3.多項式尤度を使用したディリクレ事前分布

先に述べたように、ディリクレ分布は確率分布上の分布と見なすことができます。 k個のイベントが発生する確率をモデル化したい場合は、ベイジアンアプローチを使用します。 多項尤度とディリクレ事前分布 .

以下に、そのようなモデルのグラフィカルモデルを示します。

画像

図3:多項尤度をもつディリクレ事前分布のグラフィカルモデル

上記のグラフィカルモデルでは、αはディリクレ事前分布のハイパーパラメーターを持つk次元ベクトル、pは確率値とxを持つk次元ベクトルです。i 発生したイベントを通知する1からkまでのスカラー値です。 最後に、Pはベクトルαでパラメーター化されたディリクレ分布に従うため、P〜Dirichlet(α)であり、xはi 変数は、確率のpベクトルでパラメーター化された離散分布(多項)に従います。 同様の階層モデルをドキュメント分類で使用して、さまざまなトピックのキーワード頻度の分布を表すことができます。

4.ディリクレ分布の有限混合モデル

ディリクレ分布を使用すると、 有限混合モデル クラスタリングの実行に使用できます。 次のモデルがあるとします。

画像

画像

画像

画像

方程式3:ディリクレ分布を伴う有限混合モデル

上記のモデルは、次のことを前提としています。n個の観測値を持つデータセットXがあり、それに対してクラスター分析を実行したいとします。 kは、使用するクラスター/コンポーネントの数を示す定数有限数です。 ci 変数は観測Xのクラスター割り当てを格納しますi、それらは1からkまでの値を取り、コンポーネントの混合確率であるパラメーターpの離散分布に従います。 FはXの生成分布であり、パラメーターでパラメーター化されています 画像 これは、各観測のクラスター割り当てによって異なります。 合計でk個の一意 画像 パラメータは、クラスタの数と同じです。 の 画像 変数は生成F分布をパラメーター化するパラメーターを格納し、ベースGに従うと仮定します0 分布。 p変数は、k個のクラスターのそれぞれの混合率を格納し、パラメーターα/ kでディリクレに従います。 最後に、αは、ディリクレ分布のハイパーパラメーター(疑似カウント)を持つk次元ベクトルです[2]。

画像

図4:ディリクレ分布を含む有限混合モデルのグラフィカルモデル

モデルを説明するためのより単純で数学的な方法は次のとおりです。 データはk個のクラスターにグループ化できると想定しています。 各クラスターには独自のパラメーターがあります 画像 これらのパラメーターは、データの生成に使用されます。 パラメータ 画像 いくつかの分布Gに従うと仮定されます0。 各観測はベクトルxで表されますi そしてACi それが属するクラスターを示す値。 したがって、ci 離散確率に従い、混合確率、つまり各クラスターの発生確率に過ぎないパラメーターpを持つ変数と見なすことができます。 問題をベイズ法で処理することを考えると、パラメーターpを定数の不明なベクトルとして扱いません。 代わりに、Pはハイパーパラメーターα/ kによってパラメーター化されるディリクレに従うと仮定します。

5.無限kクラスターの操作

以前の混合モデルでは、教師なし学習を実行でき、ベイジアンアプローチに従い、階層構造を持つように拡張できます。 それでも、事前定義された定数kのクラスターを使用するため、有限モデルです。 その結果、クラスター分析を実行する前にコンポーネントの数を定義する必要があり、ほとんどのアプリケーションで前述したように、これは不明であり、簡単に推定することはできません。

これを解決するXNUMXつの方法は、kが無限大になりがちな非常に大きな値を持つことを想像することです。 言い換えると、kが無限大になる傾向がある場合のこのモデルの限界を想像できます。 これが当てはまる場合、クラスターの数kは無限大ですが、アクティブなクラスター(少なくともXNUMXつの観測値を持つクラスター)の実際の数は、n(これはデータセット内の観測の総数)。 実際、後で見るように、アクティブなクラスターの数はnよりもかなり少なくなり、それらは 画像.

もちろん、kの制限を無限大にすることは重要です。 このような制限を受け入れることができるかどうか、このモデルはどのように見えるか、 どのように構築できますか そのようなモデルを使用します。

次の記事では、まさにこれらの質問に焦点を当てます。ディリクレプロセスを定義し、DPのさまざまな表現を提示し、最後に、ディリクレプロセスを構築する直感的で効率的な方法である中華レストランプロセスに焦点を当てます。

この投稿がお役に立てば幸いです。 もしそうなら、FacebookとTwitterで記事を共有してください。 🙂

タイムスタンプ:

より多くの データムボックス