Dirichlet Process Mixture Model PlatoBlockchain ڈیٹا انٹیلی جنس۔ عمودی تلاش۔ عی

ڈیریچلیٹ پروسیس مکسچر ماڈل

یہ بلاگ پوسٹ اس سلسلے کا چوتھا حصہ ہے۔ ڈیریچلیٹ پروسیس مکسچر ماڈلز کے ساتھ کلسٹرنگ. پچھلے مضامین میں ہم نے Finite Dirichlet Mixture Models پر تبادلہ خیال کیا اور ہم نے لامحدود k کلسٹرز کے لیے ان کے ماڈل کی حد لی جس کی وجہ سے ہمیں Dirichlet Processes متعارف کرایا گیا۔ جیسا کہ ہم نے دیکھا، ہمارا ہدف ایک مرکب ماڈل بنانا ہے جس کے لیے ہمیں شروع سے k کلسٹرز/اجزاء کی تعداد بتانے کی ضرورت نہیں ہے۔ کے بعد ڈیریچلیٹ پروسیس کی مختلف نمائندگییں پیش کرنا، اب وقت آگیا ہے کہ DPs کو ایک لامحدود مرکب ماڈل بنانے کے لیے استعمال کیا جائے جو ہمیں کلسٹرنگ انجام دینے کے قابل بناتا ہے۔ اس مضمون کا ہدف ڈیریچلیٹ پروسیس مکسچر ماڈلز کی وضاحت کرنا اور چائنیز ریستوراں کے عمل اور گبز سیمپلنگ کے استعمال پر بات کرنا ہے۔ اگر آپ نے پچھلی پوسٹس نہیں پڑھی ہیں تو ایسا کرنے کی انتہائی سفارش کی جاتی ہے کیونکہ موضوع قدرے نظریاتی ہے اور ماڈل کی تعمیر پر اچھی سمجھ کی ضرورت ہے۔

اپ ڈیٹ: ڈیٹام باکس مشین لرننگ فریم ورک اب اوپن سورس اور مفت ہے۔ ڈاؤن لوڈ، اتارنا. جاوا میں Dirichlet Process Mixture Models کے نفاذ کو دیکھنے کے لیے com.datumbox.framework.machinelearning.clustering پیکیج دیکھیں۔

1. ڈیریچلیٹ پروسیس مکسچر ماڈل کی تعریف

Dirichlet Processes کا استعمال ہمیں لامحدود اجزاء کے ساتھ ایک مرکب ماڈل حاصل کرنے کی اجازت دیتا ہے جس کے بارے میں سوچا جا سکتا ہے کہ k سے لامحدودیت تک محدود ماڈل کی حد کو لے جانا۔ آئیے فرض کریں کہ ہمارے پاس مندرجہ ذیل ماڈل ہے:

تصویر
تصویر
تصویر

مساوات 1: ڈیریچلیٹ پروسیس مکسچر ماڈل

جہاں G کی تعریف کی گئی ہے۔ تصویر اور تصویر کے لیے ایک مختصر اشارے کے طور پر استعمال کیا جاتا ہے۔ تصویر جو ایک ڈیلٹا فنکشن ہے جو 1 if لیتا ہے۔ تصویر اور 0 کہیں اور۔ θi کلسٹر پیرامیٹرز ہیں جن کا نمونہ G سے لیا گیا ہے۔ جنریٹو ڈسٹری بیوشن F کو کلسٹر پیرامیٹرز θ کے ذریعے ترتیب دیا گیا ہے۔i اور ایکس پیدا کرنے کے لیے استعمال کیا جاتا ہے۔i مشاہدات آخر میں ہم کثافت کی تقسیم کی وضاحت کر سکتے ہیں۔ تصویر جو کہ اختلاط کے تناسب کے ساتھ ہماری مرکب تقسیم (قابل گنتی لامحدود مرکب) ہے۔ تصویر اور مرکب اجزاء تصویر.

تصویر

شکل 1: ڈیریچلیٹ پروسیس مکسچر ماڈل کا گرافیکل ماڈل

اوپر ہم ڈی پی ایم ایم کے مساوی گرافیکل ماڈل دیکھ سکتے ہیں۔ جی0 DP کی بنیادی تقسیم ہے اور اسے عام طور پر ہمارے جنریٹو ڈسٹری بیوشن F سے پہلے جوڑنے کے لیے منتخب کیا جاتا ہے تاکہ حساب کو آسان بنایا جا سکے اور ریاضی کی دلکش خصوصیات کا استعمال کیا جا سکے۔ α ڈیریچلیٹ پروسیس کا اسکیلر ہائپر پیرامیٹر ہے اور کلسٹرز کی تعداد کو متاثر کرتا ہے جو ہمیں حاصل ہوں گے۔ α کی قدر جتنی بڑی ہوگی، کلسٹرز اتنے ہی زیادہ ہوں گے۔ جتنے چھوٹے α اتنے کم کلسٹرز۔ ہمیں نوٹ کرنا چاہیے کہ α کی قدر ظاہر کرتی ہے۔ یقین کی طاقت جی میں0. ایک بڑی قدر بتاتی ہے کہ زیادہ تر نمونے الگ الگ ہوں گے اور ان کی قدریں G پر مرکوز ہوں گی۔0. G DP سے نمونہ کردہ Θ پیرامیٹر اسپیس پر ایک بے ترتیب تقسیم ہے جو پیرامیٹر کو امکانات تفویض کرتی ہے۔ θi ایک پیرامیٹر ویکٹر ہے جو G ڈسٹری بیوشن سے اخذ کیا گیا ہے اور کلسٹر کے پیرامیٹرز پر مشتمل ہے، F ڈسٹری بیوشن کو پیرامیٹرائز کیا جاتا ہے θi اور xi جنریٹو ڈسٹری بیوشن F کے ذریعے تیار کردہ ڈیٹا پوائنٹ ہے۔

یہ نوٹ کرنا ضروری ہے کہ θi Θ پیرامیٹر اسپیس کے عناصر ہیں اور وہ ہمارے کلسٹرز کو "کنفیگر" کرتے ہیں۔ انہیں x پر اویکت متغیر کے طور پر بھی دیکھا جا سکتا ہے۔i جو ہمیں بتاتا ہے کہ ایکس کس جز/کلسٹر سے ہے۔i سے آتا ہے اور اس جزو کے پیرامیٹرز کیا ہیں۔ اس طرح ہر ایکس کے لیےi کہ ہم مشاہدہ کرتے ہیں، ہم ایک θ کھینچتے ہیں۔i جی کی تقسیم سے۔ ہر قرعہ اندازی کے ساتھ پچھلے انتخاب کے لحاظ سے تقسیم میں تبدیلی آتی ہے۔ جیسا کہ ہم نے Blackwell-MacQueen urn اسکیم میں دیکھا کہ G کی تقسیم کو مربوط کیا جا سکتا ہے اور θ کے ہمارے مستقبل کے انتخابi صرف جی پر منحصر ہے0: تصویر. پچھلے فارمولے سے پیرامیٹرز θi کا تخمینہ لگانا ہمیشہ ممکن نہیں ہوتا ہے کیونکہ بہت سے نفاذ (جیسے چینی ریستوراں کا عمل) کے ذریعے گنتی شامل ہوتی ہے۔ k اجزاء میں تیزی سے اضافہ. اس طرح تخمینی کمپیوٹیشنل طریقے استعمال کیے جاتے ہیں جیسے گِبس سیمپلنگ۔ آخر میں ہمیں نوٹ کرنا چاہیے کہ اگرچہ k کلسٹرز لامحدود ہیں، فعال کلسٹرز کی تعداد تصویر. اس طرح θi دہرائے گا اور کلسٹرنگ اثر کا مظاہرہ کرے گا۔

2. ایک لامحدود مرکب ماڈل کی وضاحت کے لیے چینی ریستوراں کے عمل کا استعمال

پچھلے حصے میں بیان کردہ ماڈل ریاضی کے لحاظ سے ٹھوس ہے، اس کے باوجود اس میں ایک بڑی خرابی ہے: ہر نئے ایکس کے لیےi جس کا ہم مشاہدہ کرتے ہیں، ہمیں ایک نیا θ نمونہ کرنا چاہیے۔i θ کی پچھلی قدروں کو مدنظر رکھتے ہوئے مسئلہ یہ ہے کہ بہت سے معاملات میں، ان پیرامیٹرز کا نمونہ لینا ایک مشکل اور حسابی طور پر مہنگا کام ہوسکتا ہے۔

ایک متبادل نقطہ نظر یہ ہے کہ چائنیز ریسٹورنٹ پروسیس کو استعمال کرتے ہوئے پوشیدہ متغیرات z کو ماڈل بنایا جائے۔i کلسٹر اسائنمنٹس کا۔ θ استعمال کرنے کے بجائے اس طرحi کلسٹر پیرامیٹرز اور کلسٹر اسائنمنٹس دونوں کو ظاہر کرنے کے لیے، ہم اویکت متغیر z استعمال کرتے ہیںi کلسٹر آئی ڈی کی نشاندہی کرنے کے لیے اور پھر کلسٹر پیرامیٹرز کو تفویض کرنے کے لیے اس قدر کا استعمال کریں۔ نتیجے کے طور پر، ہمیں ہر بار جب بھی کوئی نیا مشاہدہ ملتا ہے تو ہمیں θ کا نمونہ لینے کی ضرورت نہیں ہوتی، بلکہ اس کے بجائے ہم نمونے لے کر z کو کلسٹر اسائنمنٹ حاصل کرتے ہیں۔i CRP سے اس اسکیم کے ساتھ ایک نیا θ صرف اس وقت لیا جاتا ہے جب ہمیں ایک نیا کلسٹر بنانے کی ضرورت ہوتی ہے۔ ذیل میں ہم اس نقطہ نظر کا ماڈل پیش کرتے ہیں:

تصویر
تصویر
تصویر

مساوات 2: CRP کے ساتھ مرکب ماڈل

مندرجہ بالا ایک تخلیقی ماڈل ہے جو بیان کرتا ہے کہ ڈیٹا ایکس کیسے ہوتا ہے۔i اور کلسٹرز پیدا ہوتے ہیں۔ کلسٹر تجزیہ کرنے کے لیے ہمیں مشاہدات x کا استعمال کرنا چاہیے۔i اور کلسٹر اسائنمنٹس کا تخمینہ لگائیں۔i.

3. مکسچر ماڈل انفرنس اور گبز سیمپلنگ

بدقسمتی سے چونکہ ڈیریچلیٹ پروسیسز نان پیرامیٹرک ہیں، ہم EM الگورتھم استعمال نہیں کر سکتے پوشیدہ متغیرات کا اندازہ لگانے کے لیے جو کلسٹر اسائنمنٹس کو اسٹور کرتے ہیں۔ اسائنمنٹس کا اندازہ لگانے کے لیے ہم استعمال کریں گے۔ منہدم گبس سیمپلنگ.

کولپسڈ گبز سیمپلنگ ایک سادہ مارکوف چین مونٹی کارلو (MCMC) الگورتھم ہے۔ یہ تیز ہے اور ہمیں دوسرے متغیر کا نمونہ لیتے ہوئے کچھ متغیرات کو ضم کرنے کے قابل بناتا ہے۔ اس کے باوجود یہ الگورتھم ہمیں ایک G منتخب کرنے کا تقاضا کرتا ہے۔0 جو کہ F جنریٹو ڈسٹری بیوشن سے پہلے کا ایک جوڑ ہے تاکہ تجزیاتی طور پر مساوات کو حل کرنے کے قابل ہو اور اس سے براہ راست نمونہ لینے کے قابل ہو تصویر.

کولپسڈ گبز سیمپلنگ کے وہ مراحل جنہیں ہم کلسٹر اسائنمنٹس کا تخمینہ لگانے کے لیے استعمال کریں گے وہ درج ذیل ہیں:

  • z کو شروع کریں۔i تصادفی طور پر کلسٹر اسائنمنٹس
  • ہم آہنگی تک دہرائیں۔
    • بے ترتیب کلہاڑی کو منتخب کریں۔i
    • دوسرے z کو رکھیںj ہر j≠i کے لیے مقرر: تصویر
    • z پر ایک نئی قدر تفویض کریں۔i "CRP امکان" کا حساب لگا کر جو z پر منحصر ہے۔j اور xj تمام j≠i میں سے: تصویر

اگلے مضمون میں ہم اس بات پر توجہ مرکوز کریں گے کہ ڈیریچلیٹ پروسیس مکسچر ماڈلز کا استعمال کرکے کلسٹر تجزیہ کیسے کیا جائے۔ ہم دو مختلف Dirichlet Process Mixture Models کی وضاحت کریں گے جو چائنیز ریسٹورنٹ پروسیس اور Collapsed Gibbs Sampling کا استعمال کرتے ہیں تاکہ مسلسل ڈیٹا سیٹس اور دستاویزات پر کلسٹرنگ کی جا سکے۔

ٹائم اسٹیمپ:

سے زیادہ ڈیٹا باکس