خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.

خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های مخلوط فرآیند دیریکله

این مقاله قسمت پنجم از آموزش در مورد خوشه بندی با DPMM. در پست های قبلی به طور مفصل به پیشینه نظری روش پرداختیم و بازنمایی های ریاضی آن و راه های ساخت آن را شرح دادیم. در این پست سعی می کنیم با معرفی دو مدل DPMM، این نظریه را با عمل پیوند دهیم: مدل مخلوط نرمال چند متغیره دیریکله که می تواند برای خوشه بندی داده های گاوسی استفاده شود و مدل مخلوط دیریکله-چند جمله ای که برای خوشه بندی اسناد استفاده می شود.

به روز رسانی: چارچوب یادگیری ماشین Datumbox اکنون منبع باز و رایگان است دانلود. برای مشاهده اجرای مدل‌های مخلوط فرآیند دیریکله در جاوا، بسته com.datumbox.framework.machinelearning.clustering را بررسی کنید.

1. مدل مخلوط نرمال چند متغیره دیریکله

اولین مدل مخلوط فرآیند دیریکله که ما بررسی خواهیم کرد، مدل مخلوط نرمال چند متغیره دیریکله است که می تواند برای انجام خوشه بندی بر روی مجموعه داده های پیوسته استفاده شود. مدل مخلوط به صورت زیر تعریف می شود:

خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
معادله 1: مدل مخلوط نرمال چند متغیره دیریکله

همانطور که در بالا می بینیم، مدل خاص فرض می کند که توزیع مولد، توزیع گاوسی چندجمله ای است و از فرآیند رستوران چینی به عنوان قبلی برای انتساب های خوشه ای استفاده می کند. علاوه بر این برای توزیع پایه G0 از Normal-Inverse-Wishart قبلی استفاده می کند مزدوج قبل توزیع نرمال چند متغیره با میانگین مجهول و ماتریس کوواریانس. در زیر مدل گرافیکی مدل مخلوط را ارائه می دهیم:

خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
شکل 1: مدل گرافیکی مدل مخلوط نرمال چند متغیره دیریکله

همانطور که قبلاً بحث کردیم، برای اینکه بتوانیم تکالیف خوشه را تخمین بزنیم، از آن استفاده خواهیم کرد نمونه برداری گیبس فرو ریخت که نیاز به انتخاب دارد پیشین های مزدوج مناسب. علاوه بر این، ما باید پارامترهای داده شده قبلی را به روز کنیم قبلی و شواهد. در زیر می بینیم برآورد نقشه از پارامترهای یکی از خوشه ها:

خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
معادله 2: برآورد MAP بر روی پارامترهای خوشه

جایی که d ابعاد داده های ما و خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai. میانگین نمونه است. علاوه بر این، ما چندین فراپارامتر از Normal-Inverse-Wishart مانند μ داریم0 که میانگین اولیه، κ0 کسر میانگینی است که به عنوان پارامتر هموارسازی کار می کند، ν0 درجات آزادی است که به تعداد ابعاد و Ψ تنظیم می شود0 حاصل ضرب انحراف زوجی است که روی ماتریس هویت dxd ضرب در یک ثابت تنظیم می شود. از این پس تمام هایپرپارامترهای قبلی G0 برای ساده کردن نماد با λ نشان داده می شود. در نهایت با داشتن تمام موارد فوق، می‌توانیم احتمالاتی را که برای نمونه‌گیر گیبس جمع‌شده مورد نیاز است، تخمین بزنیم. احتمال تعلق مشاهده i به خوشه k با توجه به انتساب های خوشه، مجموعه داده و همه فراپارامترهای α و λ DP و G0 در زیر آورده شده است:

خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
معادله 3: احتمالات استفاده شده توسط Gibbs Sampler برای MNMM

جایی که zi تخصیص خوشه ای مشاهده x استi، ایکس1: n مجموعه داده کامل، z است-i مجموعه ای از تخصیص خوشه بدون یکی از i استth مشاهده، x-i مجموعه داده کامل به استثنای i استth مشاهده، جk،-من تعداد کل مشاهدات اختصاص داده شده به خوشه k بدون احتساب i استth مشاهده در حالی که خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai. و خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai. ماتریس میانگین و کوواریانس خوشه k به استثنای i هستندth مشاهده

2. مدل مخلوط دیریکله-چند جمله ای

مدل مخلوط دیریکله-چند جمله ای برای انجام تحلیل خوشه ای اسناد استفاده می شود. مدل خاص سلسله مراتب کمی پیچیده تری دارد زیرا موضوعات/دسته های اسناد، احتمالات کلمه در هر موضوع، انتساب های خوشه ای و توزیع مولد اسناد را مدل می کند. هدف آن انجام یادگیری بدون نظارت و خوشه‌بندی فهرستی از اسناد با اختصاص آنها به گروه‌ها است. مدل مخلوط به صورت زیر تعریف می شود:

خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
معادله 4: مدل مخلوط دیریکله-چند جمله ای

جایی که φ احتمالات موضوع را مدل می کند، zi انتخابگر موضوع است، θk احتمالات کلمه در هر خوشه و x هستندمن ، ج بیانگر کلمات سند است. باید توجه داشته باشیم که این تکنیک از چارچوب کیسه ای از کلمات که اسناد را به عنوان مجموعه ای نامرتب از کلمات، بدون توجه به دستور زبان و ترتیب کلمات نشان می دهد. این نمایش ساده معمولاً در پردازش زبان طبیعی و بازیابی اطلاعات استفاده می شود. در زیر مدل گرافیکی مدل مخلوط را ارائه می دهیم:

خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
شکل 2: مدل گرافیکی مدل مخلوط دیریکله-چند جمله ای

مدل خاص استفاده می کند توزیع گسسته چند جمله ای برای توزیع مولد و توزیع دیریکله برای پیشینیان. ℓ اندازه خوشه های فعال ما، n تعداد کل اسناد است، β تعداد مورد انتظار پیشینی خوشه ها را کنترل می کند در حالی که α تعداد کلمات اختصاص داده شده به هر خوشه را کنترل می کند. برای برآورد احتمالات مورد نیاز توسط گیبس سمپلر فرو ریخت ما از معادله زیر:

خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
معادله 5: احتمالات استفاده شده توسط Gibbs Sampler برای DMMM

جایی که Γ تابع گاما، z استi تخصیص خوشه سند x استi، ایکس1: n مجموعه داده کامل، z است-i مجموعه ای از تخصیص خوشه بدون یکی از i استth سند، x-i مجموعه داده کامل به استثنای i استth سند، نk(z-i) تعداد مشاهداتی است که به خوشه k به استثنای i اختصاص داده شده استth سند، نz=k(x-i) یک بردار با مجموع تعداد برای هر کلمه برای تمام اسناد اختصاص داده شده به خوشه k به استثنای i است.th سند و N(xi) بردار پراکنده با تعداد هر کلمه در سند x استi. در نهایت همانطور که در بالا می بینیم، با استفاده از Collapsed Gibbs Sampler با فرآیند رستوران چینی، θjk متغیری که احتمال کلمه j را در مبحث k ذخیره می کند می تواند ادغام شود.

تمبر زمان:

بیشتر از Datumbox