Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی

ڈیریچلیٹ پروسیس مکسچر ماڈلز کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا

یہ مضمون اس ٹیوٹوریل کا پانچواں حصہ ہے۔ ڈی پی ایم ایم کے ساتھ کلسٹرنگ. پچھلی پوسٹس میں ہم نے طریقہ کار کے نظریاتی پس منظر کا تفصیل سے احاطہ کیا تھا اور ہم نے اس کی ریاضیاتی نمائندگی اور اسے بنانے کے طریقے بیان کیے تھے۔ اس پوسٹ میں ہم دو ماڈلز ڈی پی ایم ایم کو متعارف کروا کر تھیوری کو پریکٹس کے ساتھ جوڑنے کی کوشش کریں گے: ڈیریچلیٹ ملٹی ویریٹ نارمل مکسچر ماڈل جسے کلسٹر گاوسی ڈیٹا اور ڈیریچلیٹ-ملٹینومیل مکسچر ماڈل جو دستاویزات کو کلسٹر کرنے کے لیے استعمال کیا جاتا ہے۔

اپ ڈیٹ: ڈیٹام باکس مشین لرننگ فریم ورک اب اوپن سورس اور مفت ہے۔ ڈاؤن لوڈ، اتارنا. جاوا میں Dirichlet Process Mixture Models کے نفاذ کو دیکھنے کے لیے com.datumbox.framework.machinelearning.clustering پیکیج دیکھیں۔

1. دیریچلیٹ ملٹی ویریٹ نارمل مکسچر ماڈل

پہلا Dirichlet Process مرکب ماڈل جس کا ہم جائزہ لیں گے وہ Dirichlet Multivariate Normal Mixture Model ہے جسے مسلسل ڈیٹاسیٹس پر کلسٹرنگ کرنے کے لیے استعمال کیا جا سکتا ہے۔ مرکب ماڈل کی وضاحت اس طرح کی گئی ہے:

Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
مساوات 1: ڈیریچلیٹ ملٹی ویریٹ نارمل مکسچر ماڈل

جیسا کہ ہم اوپر دیکھ سکتے ہیں، خاص ماڈل فرض کرتا ہے کہ جنریٹو ڈسٹری بیوشن ملٹی نامی گاؤشین ڈسٹری بیوشن ہے اور چائنیز ریسٹورنٹ کے عمل کو کلسٹر اسائنمنٹس سے پہلے استعمال کرتا ہے۔ مزید یہ کہ بیس ڈسٹری بیوشن کے لیے جی0 یہ Normal-Inverse-Wishart پہلے کا استعمال کرتا ہے جو کہ ہے۔ پہلے جوڑنا نامعلوم وسط اور ہم آہنگی میٹرکس کے ساتھ ملٹی ویریٹ نارمل ڈسٹری بیوشن کا۔ ذیل میں ہم مرکب ماڈل کا گرافیکل ماڈل پیش کرتے ہیں:

Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
شکل 1: ڈیریچلیٹ ملٹی ویریٹ نارمل مکسچر ماڈل کا گرافیکل ماڈل

جیسا کہ ہم نے پہلے بات کی ہے، کلسٹر اسائنمنٹس کا اندازہ لگانے کے لیے، ہم استعمال کریں گے۔ منہدم گبز کے نمونے لینے جس کو منتخب کرنے کی ضرورت ہے۔ مناسب conjugate priors. مزید یہ کہ ہمیں دیئے گئے پیرامیٹرز کو اپ ڈیٹ کرنے کی ضرورت ہوگی۔ پیشگی اور ثبوت. ذیل میں ہم دیکھتے ہیں۔ MAP تخمینہ کلسٹرز میں سے ایک کے پیرامیٹرز میں سے:

Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
مساوات 2: کلسٹر پیرامیٹرز پر MAP تخمینہ

جہاں d ہمارے ڈیٹا کی جہت ہے اور Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی نمونہ کا مطلب ہے. مزید یہ کہ ہمارے پاس نارمل-انورس-وشارٹ کے کئی ہائپرپیرامیٹر ہیں جیسے μ0 جس کا ابتدائی مطلب ہے، κ0 اوسط حصہ ہے جو ہموار پیرامیٹر کے طور پر کام کرتا ہے، ν0 آزادی کی ڈگری ہے جو طول و عرض اور Ψ کی تعداد پر سیٹ ہے۔0 جوڑے کے لحاظ سے انحراف کا پروڈکٹ ہے جو dxd شناختی میٹرکس پر سیٹ کیا جاتا ہے جس کو ایک مستقل سے ضرب کیا جاتا ہے۔ اب سے G کے پچھلے تمام ہائپر پیرامیٹرس0 اشارے کو آسان بنانے کے لیے λ سے اشارہ کیا جائے گا۔ آخر میں مندرجہ بالا تمام چیزوں کو حاصل کر کے، ہم ان امکانات کا اندازہ لگا سکتے ہیں جن کی ضرورت Collapsed Gibbs Sampler کے لیے ہے۔ کلسٹر اسائنمنٹس، ڈیٹاسیٹ اور DP اور G کے تمام ہائپر پیرامیٹر α اور λ کو دیکھتے ہوئے مشاہدے کے i کا کلسٹر k سے تعلق رکھنے کا امکان0 ذیل میں دیا گیا ہے:

Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
مساوات 3: گِبس سیمپلر کے ذریعے MNMM کے لیے استعمال کیے جانے والے امکانات

جہاں zi مشاہدہ x کا کلسٹر تفویض ہے۔i، ایکس1:n مکمل ڈیٹا سیٹ ہے، z-i i میں سے ایک کے بغیر کلسٹر اسائنمنٹس کا سیٹ ہے۔th مشاہدہ، x-i i کو چھوڑ کر مکمل ڈیٹا سیٹ ہے۔th مشاہدہ، جk،-میں i کو چھوڑ کر کلسٹر k کو تفویض کردہ مشاہدات کی کل تعداد ہے۔th مشاہدہ کے دوران Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی اور Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی i کو چھوڑ کر کلسٹر k کا اوسط اور ہم آہنگی میٹرکس ہیں۔th مشاہدہ

2. دیریچلیٹ-کثیراتی مرکب ماڈل

Dirichlet-Multinomial Mixture Model کو دستاویزات کا کلسٹر تجزیہ کرنے کے لیے استعمال کیا جاتا ہے۔ مخصوص ماڈل میں قدرے زیادہ پیچیدہ درجہ بندی ہے کیونکہ یہ دستاویزات کے عنوانات/ زمرہ جات، ہر عنوان کے اندر الفاظ کے امکانات، کلسٹر اسائنمنٹس اور دستاویزات کی تخلیقی تقسیم کا نمونہ بناتا ہے۔ اس کا ہدف بغیر نگرانی کے سیکھنا اور دستاویزات کی فہرست کو گروپوں کو تفویض کرکے کلسٹر کرنا ہے۔ مرکب ماڈل کی وضاحت اس طرح کی گئی ہے:

Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
مساوات 4: Dirichlet-Multinomial Mixture Model

جہاں φ موضوع کے امکانات کو ماڈل کرتا ہے، zi ایک موضوع سلیکٹر ہے، θk ہر کلسٹر اور x میں لفظ امکانات ہیں۔میں ، جے دستاویز کے الفاظ کی نمائندگی کرتا ہے۔ ہمیں نوٹ کرنا چاہئے کہ یہ تکنیک استعمال کرتی ہے۔ الفاظ کا فریم ورک جو گرائمر اور الفاظ کی ترتیب کو نظر انداز کرتے ہوئے دستاویزات کو الفاظ کے غیر ترتیب شدہ مجموعہ کے طور پر پیش کرتا ہے۔ یہ آسان نمائندگی عام طور پر قدرتی زبان کی کارروائی اور معلومات کی بازیافت میں استعمال ہوتی ہے۔ ذیل میں ہم مرکب ماڈل کا گرافیکل ماڈل پیش کرتے ہیں:

Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
شکل 2: ڈیریچلیٹ-کثیراتی مرکب ماڈل کا گرافیکل ماڈل

مخصوص ماڈل استعمال کرتا ہے۔ کثیر الجہتی تقسیم جنریٹو ڈسٹری بیوشن اور ڈیریچلیٹ ڈسٹری بیوشن کے لیے۔ ℓ ہمارے فعال کلسٹرز کا سائز ہے، n دستاویزات کی کل تعداد، β کلسٹرز کی ترجیحی متوقع تعداد کو کنٹرول کرتا ہے جبکہ α ہر کلسٹر کو تفویض کردہ الفاظ کی تعداد کو کنٹرول کرتا ہے۔ ان امکانات کا اندازہ لگانے کے لیے جن کی ضرورت ہے۔ منہدم گِبس سیمپلر ہم استعمال کرتے ہیں مندرجہ ذیل مساوات:

Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
مساوات 5: گِبز سیمپلر کے ذریعے DMMM کے لیے استعمال کیے جانے والے امکانات

جہاں Γ گاما فنکشن ہے، zi دستاویز x کا کلسٹر تفویض ہے۔i، ایکس1:n مکمل ڈیٹا سیٹ ہے، z-i i میں سے ایک کے بغیر کلسٹر اسائنمنٹس کا سیٹ ہے۔th دستاویز، x-i i کو چھوڑ کر مکمل ڈیٹا سیٹ ہے۔th دستاویز، اینk(z-i) i کو چھوڑ کر کلسٹر k کو تفویض کردہ مشاہدات کی تعداد ہے۔th دستاویز، اینz=k(x-i) ایک ویکٹر ہے جس میں i کو چھوڑ کر کلسٹر k کو تفویض کردہ تمام دستاویزات کے لیے ہر لفظ کے لیے شمار کے مجموعے ہوتے ہیں۔th دستاویز اور N(xi) دستاویز x میں ہر لفظ کی گنتی کے ساتھ اسپارس ویکٹر ہے۔i. آخر کار جیسا کہ ہم اوپر دیکھ سکتے ہیں، چینی ریستوراں کے ساتھ کولپسڈ گِبس سیمپلر کا استعمال کرکے θjk متغیر جو کہ موضوع کے میں لفظ j کے امکان کو ذخیرہ کرتا ہے کو مربوط کیا جا سکتا ہے۔

ٹائم اسٹیمپ:

سے زیادہ ڈیٹا باکس