Clustering Documents And Gaussian Data With Dirichlet Process Mixture Models

بازنشر افلاطون

دنبال: 0

این مقاله قسمت پنجم از آموزش در مورد خوشه بندی با DPMM. در پست های قبلی به طور مفصل به پیشینه نظری روش پرداختیم و بازنمایی های ریاضی آن و راه های ساخت آن را شرح دادیم. در این پست سعی می کنیم با معرفی دو مدل DPMM، این نظریه را با عمل پیوند دهیم: مدل مخلوط نرمال چند متغیره دیریکله که می تواند برای خوشه بندی داده های گاوسی استفاده شود و مدل مخلوط دیریکله-چند جمله ای که برای خوشه بندی اسناد استفاده می شود.

به روز رسانی: چارچوب یادگیری ماشین Datumbox اکنون منبع باز و رایگان است دانلود. برای مشاهده اجرای مدل‌های مخلوط فرآیند دیریکله در جاوا، بسته com.datumbox.framework.machinelearning.clustering را بررسی کنید.

1. مدل مخلوط نرمال چند متغیره دیریکله

اولین مدل مخلوط فرآیند دیریکله که ما بررسی خواهیم کرد، مدل مخلوط نرمال چند متغیره دیریکله است که می تواند برای انجام خوشه بندی بر روی مجموعه داده های پیوسته استفاده شود. مدل مخلوط به صورت زیر تعریف می شود:

معادله 1: مدل مخلوط نرمال چند متغیره دیریکله

همانطور که در بالا می بینیم، مدل خاص فرض می کند که توزیع مولد، توزیع گاوسی چندجمله ای است و از فرآیند رستوران چینی به عنوان قبلی برای انتساب های خوشه ای استفاده می کند. علاوه بر این برای توزیع پایه G₀ از Normal-Inverse-Wishart قبلی استفاده می کند مزدوج قبل توزیع نرمال چند متغیره با میانگین مجهول و ماتریس کوواریانس. در زیر مدل گرافیکی مدل مخلوط را ارائه می دهیم:

خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
شکل 1: مدل گرافیکی مدل مخلوط نرمال چند متغیره دیریکله

همانطور که قبلاً بحث کردیم، برای اینکه بتوانیم تکالیف خوشه را تخمین بزنیم، از آن استفاده خواهیم کرد نمونه برداری گیبس فرو ریخت که نیاز به انتخاب دارد پیشین های مزدوج مناسب. علاوه بر این، ما باید پارامترهای داده شده قبلی را به روز کنیم قبلی و شواهد. در زیر می بینیم برآورد نقشه از پارامترهای یکی از خوشه ها:

خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
معادله 2: برآورد MAP بر روی پارامترهای خوشه

جایی که d ابعاد داده های ما و میانگین نمونه است. علاوه بر این، ما چندین فراپارامتر از Normal-Inverse-Wishart مانند μ داریم₀ که میانگین اولیه، κ₀ کسر میانگینی است که به عنوان پارامتر هموارسازی کار می کند، ν₀ درجات آزادی است که به تعداد ابعاد و Ψ تنظیم می شود₀ حاصل ضرب انحراف زوجی است که روی ماتریس هویت dxd ضرب در یک ثابت تنظیم می شود. از این پس تمام هایپرپارامترهای قبلی G₀ برای ساده کردن نماد با λ نشان داده می شود. در نهایت با داشتن تمام موارد فوق، می‌توانیم احتمالاتی را که برای نمونه‌گیر گیبس جمع‌شده مورد نیاز است، تخمین بزنیم. احتمال تعلق مشاهده i به خوشه k با توجه به انتساب های خوشه، مجموعه داده و همه فراپارامترهای α و λ DP و G₀در زیر آورده شده است:

خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.

معادله 3: احتمالات استفاده شده توسط Gibbs Sampler برای MNMM

جایی که z_i تخصیص خوشه ای مشاهده x است_i، ایکس_{1: n} مجموعه داده کامل، z است_-i مجموعه ای از تخصیص خوشه بدون یکی از i است^th مشاهده، x_-i مجموعه داده کامل به استثنای i است^th مشاهده، ج_k_،-من تعداد کل مشاهدات اختصاص داده شده به خوشه k بدون احتساب i است^th مشاهده در حالی که و ماتریس میانگین و کوواریانس خوشه k به استثنای i هستند^th مشاهده

2. مدل مخلوط دیریکله-چند جمله ای

مدل مخلوط دیریکله-چند جمله ای برای انجام تحلیل خوشه ای اسناد استفاده می شود. مدل خاص سلسله مراتب کمی پیچیده تری دارد زیرا موضوعات/دسته های اسناد، احتمالات کلمه در هر موضوع، انتساب های خوشه ای و توزیع مولد اسناد را مدل می کند. هدف آن انجام یادگیری بدون نظارت و خوشه‌بندی فهرستی از اسناد با اختصاص آنها به گروه‌ها است. مدل مخلوط به صورت زیر تعریف می شود:

معادله 4: مدل مخلوط دیریکله-چند جمله ای

جایی که φ احتمالات موضوع را مدل می کند، z_i انتخابگر موضوع است، θ_k احتمالات کلمه در هر خوشه و x هستند_{من ، ج} بیانگر کلمات سند است. باید توجه داشته باشیم که این تکنیک از چارچوب کیسه ای از کلمات که اسناد را به عنوان مجموعه ای نامرتب از کلمات، بدون توجه به دستور زبان و ترتیب کلمات نشان می دهد. این نمایش ساده معمولاً در پردازش زبان طبیعی و بازیابی اطلاعات استفاده می شود. در زیر مدل گرافیکی مدل مخلوط را ارائه می دهیم:

خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
شکل 2: مدل گرافیکی مدل مخلوط دیریکله-چند جمله ای

مدل خاص استفاده می کند توزیع گسسته چند جمله ای برای توزیع مولد و توزیع دیریکله برای پیشینیان. ℓ اندازه خوشه های فعال ما، n تعداد کل اسناد است، β تعداد مورد انتظار پیشینی خوشه ها را کنترل می کند در حالی که α تعداد کلمات اختصاص داده شده به هر خوشه را کنترل می کند. برای برآورد احتمالات مورد نیاز توسط گیبس سمپلر فرو ریخت ما از معادله زیر:

خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های ترکیبی فرآیند دیریکله، هوش داده پلاتو بلاک چین. جستجوی عمودی Ai.
معادله 5: احتمالات استفاده شده توسط Gibbs Sampler برای DMMM

جایی که Γ تابع گاما، z است_i تخصیص خوشه سند x است_i، ایکس_{1: n} مجموعه داده کامل، z است_-i مجموعه ای از تخصیص خوشه بدون یکی از i است^th سند، x_-i مجموعه داده کامل به استثنای i است^th سند، ن_k(z_-i) تعداد مشاهداتی است که به خوشه k به استثنای i اختصاص داده شده است^th سند، ن_z_=k(x_-i) یک بردار با مجموع تعداد برای هر کلمه برای تمام اسناد اختصاص داده شده به خوشه k به استثنای i است.^th سند و N(x_i) بردار پراکنده با تعداد هر کلمه در سند x است_i. در نهایت همانطور که در بالا می بینیم، با استفاده از Collapsed Gibbs Sampler با فرآیند رستوران چینی، θ_jk متغیری که احتمال کلمه j را در مبحث k ذخیره می کند می تواند ادغام شود.

تمبر زمان: ژوئن 30، 2014ژوئیه 18، 2022

تمبر زمان: ژان 27، 2014

خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های مخلوط فرآیند دیریکله

بازنشر افلاطون

1. مدل مخلوط نرمال چند متغیره دیریکله

2. مدل مخلوط دیریکله-چند جمله ای

بیشتر از Datumbox

چارچوب یادگیری ماشین Datumbox 0.6.0 منتشر شد

استفاده از هوش مصنوعی برای حل بازی 2048 (کد جاوا)

مدل مخلوط محدود بر اساس توزیع Dirichlet

چارچوب یادگیری ماشین منبع باز جدید که در جاوا نوشته شده است

Datumbox Machine Learning Framework نسخه 0.8.2 منتشر شد

چگونه ابزار تحلیل احساسات فیس بوک خود را بسازید

استفاده از GPU کارت های NVIDIA با ابزار Linux dstat

لایه عادی سازی دسته ای Keras شکسته شده است

نحوه نصب و استفاده از Datumbox Machine Learning Framework

فرآیند دیریکله فرآیند رستوران چینی و سایر نمایندگی ها

نحوه دور زدن محدودیت‌های پیوند نمادین Dropbox در لینوکس

توسعه یک طبقه بندی متن ساده بیز در جاوا

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب