ڈیریچلیٹ پروسیس مکسچر ماڈلز کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

فالونگ: 0

یہ مضمون اس ٹیوٹوریل کا پانچواں حصہ ہے۔ ڈی پی ایم ایم کے ساتھ کلسٹرنگ. پچھلی پوسٹس میں ہم نے طریقہ کار کے نظریاتی پس منظر کا تفصیل سے احاطہ کیا تھا اور ہم نے اس کی ریاضیاتی نمائندگی اور اسے بنانے کے طریقے بیان کیے تھے۔ اس پوسٹ میں ہم دو ماڈلز ڈی پی ایم ایم کو متعارف کروا کر تھیوری کو پریکٹس کے ساتھ جوڑنے کی کوشش کریں گے: ڈیریچلیٹ ملٹی ویریٹ نارمل مکسچر ماڈل جسے کلسٹر گاوسی ڈیٹا اور ڈیریچلیٹ-ملٹینومیل مکسچر ماڈل جو دستاویزات کو کلسٹر کرنے کے لیے استعمال کیا جاتا ہے۔

اپ ڈیٹ: ڈیٹام باکس مشین لرننگ فریم ورک اب اوپن سورس اور مفت ہے۔ ڈاؤن لوڈ، اتارنا. جاوا میں Dirichlet Process Mixture Models کے نفاذ کو دیکھنے کے لیے com.datumbox.framework.machinelearning.clustering پیکیج دیکھیں۔

1. دیریچلیٹ ملٹی ویریٹ نارمل مکسچر ماڈل

پہلا Dirichlet Process مرکب ماڈل جس کا ہم جائزہ لیں گے وہ Dirichlet Multivariate Normal Mixture Model ہے جسے مسلسل ڈیٹاسیٹس پر کلسٹرنگ کرنے کے لیے استعمال کیا جا سکتا ہے۔ مرکب ماڈل کی وضاحت اس طرح کی گئی ہے:

مساوات 1: ڈیریچلیٹ ملٹی ویریٹ نارمل مکسچر ماڈل

جیسا کہ ہم اوپر دیکھ سکتے ہیں، خاص ماڈل فرض کرتا ہے کہ جنریٹو ڈسٹری بیوشن ملٹی نامی گاؤشین ڈسٹری بیوشن ہے اور چائنیز ریسٹورنٹ کے عمل کو کلسٹر اسائنمنٹس سے پہلے استعمال کرتا ہے۔ مزید یہ کہ بیس ڈسٹری بیوشن کے لیے جی₀ یہ Normal-Inverse-Wishart پہلے کا استعمال کرتا ہے جو کہ ہے۔ پہلے جوڑنا نامعلوم وسط اور ہم آہنگی میٹرکس کے ساتھ ملٹی ویریٹ نارمل ڈسٹری بیوشن کا۔ ذیل میں ہم مرکب ماڈل کا گرافیکل ماڈل پیش کرتے ہیں:

Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
شکل 1: ڈیریچلیٹ ملٹی ویریٹ نارمل مکسچر ماڈل کا گرافیکل ماڈل

جیسا کہ ہم نے پہلے بات کی ہے، کلسٹر اسائنمنٹس کا اندازہ لگانے کے لیے، ہم استعمال کریں گے۔ منہدم گبز کے نمونے لینے جس کو منتخب کرنے کی ضرورت ہے۔ مناسب conjugate priors. مزید یہ کہ ہمیں دیئے گئے پیرامیٹرز کو اپ ڈیٹ کرنے کی ضرورت ہوگی۔ پیشگی اور ثبوت. ذیل میں ہم دیکھتے ہیں۔ MAP تخمینہ کلسٹرز میں سے ایک کے پیرامیٹرز میں سے:

Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
مساوات 2: کلسٹر پیرامیٹرز پر MAP تخمینہ

جہاں d ہمارے ڈیٹا کی جہت ہے اور نمونہ کا مطلب ہے. مزید یہ کہ ہمارے پاس نارمل-انورس-وشارٹ کے کئی ہائپرپیرامیٹر ہیں جیسے μ₀ جس کا ابتدائی مطلب ہے، κ₀ اوسط حصہ ہے جو ہموار پیرامیٹر کے طور پر کام کرتا ہے، ν₀ آزادی کی ڈگری ہے جو طول و عرض اور Ψ کی تعداد پر سیٹ ہے۔₀ جوڑے کے لحاظ سے انحراف کا پروڈکٹ ہے جو dxd شناختی میٹرکس پر سیٹ کیا جاتا ہے جس کو ایک مستقل سے ضرب کیا جاتا ہے۔ اب سے G کے پچھلے تمام ہائپر پیرامیٹرس₀ اشارے کو آسان بنانے کے لیے λ سے اشارہ کیا جائے گا۔ آخر میں مندرجہ بالا تمام چیزوں کو حاصل کر کے، ہم ان امکانات کا اندازہ لگا سکتے ہیں جن کی ضرورت Collapsed Gibbs Sampler کے لیے ہے۔ کلسٹر اسائنمنٹس، ڈیٹاسیٹ اور DP اور G کے تمام ہائپر پیرامیٹر α اور λ کو دیکھتے ہوئے مشاہدے کے i کا کلسٹر k سے تعلق رکھنے کا امکان₀ذیل میں دیا گیا ہے:

Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی

مساوات 3: گِبس سیمپلر کے ذریعے MNMM کے لیے استعمال کیے جانے والے امکانات

جہاں z_i مشاہدہ x کا کلسٹر تفویض ہے۔_i، ایکس_1:n مکمل ڈیٹا سیٹ ہے، z_-i i میں سے ایک کے بغیر کلسٹر اسائنمنٹس کا سیٹ ہے۔^th مشاہدہ، x_-i i کو چھوڑ کر مکمل ڈیٹا سیٹ ہے۔^th مشاہدہ، ج_k_،-میں i کو چھوڑ کر کلسٹر k کو تفویض کردہ مشاہدات کی کل تعداد ہے۔^th مشاہدہ کے دوران اور i کو چھوڑ کر کلسٹر k کا اوسط اور ہم آہنگی میٹرکس ہیں۔^th مشاہدہ

2. دیریچلیٹ-کثیراتی مرکب ماڈل

Dirichlet-Multinomial Mixture Model کو دستاویزات کا کلسٹر تجزیہ کرنے کے لیے استعمال کیا جاتا ہے۔ مخصوص ماڈل میں قدرے زیادہ پیچیدہ درجہ بندی ہے کیونکہ یہ دستاویزات کے عنوانات/ زمرہ جات، ہر عنوان کے اندر الفاظ کے امکانات، کلسٹر اسائنمنٹس اور دستاویزات کی تخلیقی تقسیم کا نمونہ بناتا ہے۔ اس کا ہدف بغیر نگرانی کے سیکھنا اور دستاویزات کی فہرست کو گروپوں کو تفویض کرکے کلسٹر کرنا ہے۔ مرکب ماڈل کی وضاحت اس طرح کی گئی ہے:

مساوات 4: Dirichlet-Multinomial Mixture Model

جہاں φ موضوع کے امکانات کو ماڈل کرتا ہے، z_i ایک موضوع سلیکٹر ہے، θ_k ہر کلسٹر اور x میں لفظ امکانات ہیں۔_{میں ، جے} دستاویز کے الفاظ کی نمائندگی کرتا ہے۔ ہمیں نوٹ کرنا چاہئے کہ یہ تکنیک استعمال کرتی ہے۔ الفاظ کا فریم ورک جو گرائمر اور الفاظ کی ترتیب کو نظر انداز کرتے ہوئے دستاویزات کو الفاظ کے غیر ترتیب شدہ مجموعہ کے طور پر پیش کرتا ہے۔ یہ آسان نمائندگی عام طور پر قدرتی زبان کی کارروائی اور معلومات کی بازیافت میں استعمال ہوتی ہے۔ ذیل میں ہم مرکب ماڈل کا گرافیکل ماڈل پیش کرتے ہیں:

Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
شکل 2: ڈیریچلیٹ-کثیراتی مرکب ماڈل کا گرافیکل ماڈل

مخصوص ماڈل استعمال کرتا ہے۔ کثیر الجہتی تقسیم جنریٹو ڈسٹری بیوشن اور ڈیریچلیٹ ڈسٹری بیوشن کے لیے۔ ℓ ہمارے فعال کلسٹرز کا سائز ہے، n دستاویزات کی کل تعداد، β کلسٹرز کی ترجیحی متوقع تعداد کو کنٹرول کرتا ہے جبکہ α ہر کلسٹر کو تفویض کردہ الفاظ کی تعداد کو کنٹرول کرتا ہے۔ ان امکانات کا اندازہ لگانے کے لیے جن کی ضرورت ہے۔ منہدم گِبس سیمپلر ہم استعمال کرتے ہیں مندرجہ ذیل مساوات:

Dirichlet Process Mixture Models PlatoBlockchain Data Intelligence کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا۔ عمودی تلاش۔ عی
مساوات 5: گِبز سیمپلر کے ذریعے DMMM کے لیے استعمال کیے جانے والے امکانات

جہاں Γ گاما فنکشن ہے، z_i دستاویز x کا کلسٹر تفویض ہے۔_i، ایکس_1:n مکمل ڈیٹا سیٹ ہے، z_-i i میں سے ایک کے بغیر کلسٹر اسائنمنٹس کا سیٹ ہے۔^th دستاویز، x_-i i کو چھوڑ کر مکمل ڈیٹا سیٹ ہے۔^th دستاویز، این_k(z_-i) i کو چھوڑ کر کلسٹر k کو تفویض کردہ مشاہدات کی تعداد ہے۔^th دستاویز، این_z_=k(x_-i) ایک ویکٹر ہے جس میں i کو چھوڑ کر کلسٹر k کو تفویض کردہ تمام دستاویزات کے لیے ہر لفظ کے لیے شمار کے مجموعے ہوتے ہیں۔^th دستاویز اور N(x_i) دستاویز x میں ہر لفظ کی گنتی کے ساتھ اسپارس ویکٹر ہے۔_i. آخر کار جیسا کہ ہم اوپر دیکھ سکتے ہیں، چینی ریستوراں کے ساتھ کولپسڈ گِبس سیمپلر کا استعمال کرکے θ_jk متغیر جو کہ موضوع کے میں لفظ j کے امکان کو ذخیرہ کرتا ہے کو مربوط کیا جا سکتا ہے۔

ٹائم اسٹیمپ: جون 30، 2014جولائی 18، 2022

ٹائم اسٹیمپ: فروری 24، 2014

ڈیریچلیٹ پروسیس مکسچر ماڈلز کے ساتھ کلسٹرنگ دستاویزات اور گاوسی ڈیٹا

افلاطون کے ذریعہ دوبارہ شائع کیا گیا۔

1. دیریچلیٹ ملٹی ویریٹ نارمل مکسچر ماڈل

2. دیریچلیٹ-کثیراتی مرکب ماڈل

سے زیادہ ڈیٹا باکس

Ubuntu 3 پر DejaDup کے ساتھ S20.10 بیک اپ کیسے لیں۔

ڈیٹام باکس مشین لرننگ فریم ورک v0.8.2 جاری

نئی بلاگ سیریز - ٹارچ ویژن ڈویلپر کی یادداشتیں۔

لینکس پر ڈراپ باکس کی سملنک حدود کو کیسے حاصل کیا جائے۔

JAVA میں DEA کے ساتھ صفحات کی سوشل میڈیا مقبولیت کی پیمائش

کیراس کی بیچ نارملائزیشن پرت ٹوٹ گئی ہے۔

جاوا میں لکھا ہوا نیا اوپن سورس مشین لرننگ فریم ورک

JAVA میں ایک Naive Bayes Text Classifier تیار کرنا

ڈیریچلیٹ پروسیس مکسچر ماڈل

ڈیٹام باکس مشین لرننگ فریم ورک ورژن 0.8.0 جاری کر دیا گیا۔

اسپارک کے ALS سفارشی الگورتھم میں سوراخ کرنا

ڈیٹا لفافہ تجزیہ ٹیوٹوریل

ہمارے متعلق

عمودی تلاش اور Ai

پلیٹ فارم

مربوط رہو

اکاؤنٹ