مدل مخلوط محدود بر اساس توزیع دیریکله

بازنشر افلاطون

دنبال: 0

ممکن است 12، 2014
واسیلیس ورینیوتس
. 4 نظر

این پست وبلاگ قسمت دوم از مجموعه مقالات در مورد مدل های مخلوط فرآیند دیریکله است. در مقاله قبلی ما یک مروری بر چندین تکنیک تحلیل خوشه ای و ما در مورد برخی از مشکلات/محدودیت هایی که با استفاده از آنها به وجود می آیند بحث کردیم. علاوه بر این، مدل‌های مخلوط فرآیند دیریکله را به اختصار ارائه کردیم، در مورد دلیل مفید بودن آنها صحبت کردیم و برخی از کاربردهای آنها را ارائه کردیم.

به روز رسانی: چارچوب یادگیری ماشین Datumbox اکنون منبع باز و رایگان است دانلود. برای مشاهده اجرای مدل‌های مخلوط فرآیند دیریکله در جاوا، بسته com.datumbox.framework.machinelearning.clustering را بررسی کنید.

قورت دادن مدل‌های مخلوط فرآیند دیریکله در ابتدا ممکن است کمی سخت باشد، زیرا آنها مدل‌های مخلوط بی‌نهایت با نمایش‌های مختلف هستند. خوشبختانه یک راه خوب برای نزدیک شدن به موضوع، شروع از مدل‌های مخلوط محدود با توزیع دیریکله و سپس حرکت به مدل‌های نامحدود است.

در نتیجه در این مقاله به طور خلاصه چند توزیع مهم را که به آنها نیاز خواهیم داشت، ارائه می‌دهم، از آنها برای ساختن پیشین دیریکله با مدل درستنمایی چندجمله‌ای استفاده می‌کنیم و سپس به مدل مخلوط محدود بر اساس توزیع دیریکله می‌رویم.

1. توزیع بتا

La توزیع بتا خانواده ای از توزیع های پیوسته است که در بازه [0,1،XNUMX] تعریف می شود. با دو پارامتر مثبت a و b پارامتر می شود و شکل آن به شدت به انتخاب آن دو پارامتر بستگی دارد.

شکل 1: توزیع بتا برای پارامترهای مختلف a، b

توزیع بتا معمولاً برای مدل‌سازی توزیع بر روی احتمالات استفاده می‌شود و چگالی احتمال زیر را دارد:

معادله 1: بتا PDF

جایی که Γ(x) تابع گاما و a، b پارامترهای توزیع است. بتا معمولاً به‌عنوان توزیع مقادیر احتمال استفاده می‌شود و این احتمال را به ما می‌دهد که احتمال مدل‌سازی شده برابر با یک مقدار خاص P = p0 باشد. طبق تعریف خود، توزیع بتا قادر است احتمال نتایج باینری را که مقادیر درست یا نادرست می گیرند، مدل کند. پارامترهای a و b را می توان به ترتیب شبه شمارش موفقیت و شکست در نظر گرفت. بنابراین توزیع بتا احتمال موفقیت را با توجه به موفقیت ها و b شکست ها مدل می کند.

2. توزیع دیریکله

La توزیع دیریکله تعمیم توزیع بتا برای پیامدهای چندگانه است (یا به عبارت دیگر برای رویدادهایی با پیامدهای متعدد استفاده می شود). با k پارامتر a پارامتر می شود_i که باید مثبت باشد هنگامی که تعداد متغیرها k = 2 باشد، توزیع دیریکله با توزیع بتا برابر است.

شکل 2: توزیع دیریکله برای انواع الف_i پارامترهای

توزیع دیریکله معمولاً برای مدل‌سازی توزیع بر روی احتمالات استفاده می‌شود و چگالی احتمال زیر را دارد:

معادله 2: دیریکله PDF

جایی که Γ(x) تابع گاما است، p_i مقادیر [0,1] و Σp را بگیرید_i=1. توزیع دیریکله توزیع مشترک p را مدل می کند_i و احتمال P را می دهد₁=p₁,P₂=p₂،….،پ_k-1=p_k-1 با پ_k=1 – ΣP_i. همانطور که در مورد بتا، a_i پارامترها را می توان به عنوان شبه شماری از ظاهر هر رویداد i در نظر گرفت. توزیع دیریکله برای مدل سازی احتمال وقوع k رویدادهای رقیب استفاده می شود و اغلب به عنوان دیریکله (a) نشان داده می شود.

3. دیریکله پیشین با احتمال چندجمله ای

همانطور که قبلا ذکر شد، توزیع دیریکله را می توان به عنوان توزیعی بر توزیع های احتمالی دید. در مواردی که می خواهیم احتمال وقوع k رویداد را مدل کنیم، از یک رویکرد بیزی استفاده می شود احتمال چند جمله ای و پیشینیان دیریکله .

در زیر می توانیم مدل گرافیکی چنین مدلی را مشاهده کنیم.

شکل 3: مدل گرافیکی دیریکله پیشین ها با احتمال چندجمله ای

در مدل گرافیکی فوق، α بردار بعدی ak با پیش پارامترهای دیریکله، p بردار بعدی ak با مقادیر احتمال و x است._i یک مقدار اسکالر از 1 تا k است که به ما می گوید کدام رویداد رخ داده است. در نهایت باید توجه داشته باشیم که P از توزیع دیریکله با بردار α و بنابراین P~ دیریکله (α) پیروی می کند، در حالی که x_i متغیرها از توزیع گسسته (چند جمله ای) با بردار p احتمالات پیروی می کنند. مدل‌های سلسله مراتبی مشابهی را می‌توان در طبقه‌بندی اسناد به کار برد تا توزیع‌های فراوانی کلمات کلیدی را برای موضوعات مختلف نشان دهد.

4. مدل مخلوط محدود با توزیع دیریکله

با استفاده از توزیع دیریکله می توانیم a را بسازیم مدل مخلوط محدود که می توان از آن برای انجام خوشه بندی استفاده کرد. بیایید فرض کنیم که مدل زیر را داریم:

معادله 3: مدل مخلوط محدود با توزیع دیریکله

مدل فوق موارد زیر را فرض می کند: ما یک مجموعه داده X با n مشاهدات داریم و می خواهیم تجزیه و تحلیل خوشه ای را روی آن انجام دهیم. k یک عدد محدود ثابت است که تعداد خوشه‌ها/مولفه‌هایی را که ما استفاده خواهیم کرد را نشان می‌دهد. ج_i متغیرها انتساب خوشه مشاهده X را ذخیره می کنند_i، مقادیر از 1 تا k را می گیرند و از توزیع گسسته با پارامتر p پیروی می کنند که احتمالات مخلوط اجزاء است. F توزیع مولد X ما است و با یک پارامتر پارامتر می شود که به انتساب خوشه هر مشاهده بستگی دارد. در کل ما k منحصر به فرد داریم پارامترهایی برابر با تعداد خوشه های ما است. در متغیر پارامترهایی را ذخیره می کند که توزیع F مولد را پارامتر می کنند و ما فرض می کنیم که از پایه G پیروی می کند.₀ توزیع متغیر p درصدهای مخلوط را برای هر یک از خوشه‌های k ذخیره می‌کند و دیریکله را با پارامترهای α/k دنبال می‌کند. در نهایت α بردار بعدی ak با فراپارامترهای (شبه شمار) توزیع دیریکله است [2].

شکل 4: مدل گرافیکی مدل مخلوط محدود با توزیع دیریکله

یک روش ساده تر و کم ریاضی برای توضیح مدل به شرح زیر است. ما فرض می کنیم که داده های ما را می توان در k خوشه گروه بندی کرد. هر خوشه پارامترهای خاص خود را دارد و از آن پارامترها برای تولید داده های ما استفاده می شود. پارامترها فرض بر این است که از توزیع G پیروی می کنند₀. هر مشاهده با بردار x نشان داده می شود_i و ac_i مقداری که نشان دهنده خوشه ای است که به آن تعلق دارد. در نتیجه ج_i را می توان به عنوان متغیری که از توزیع گسسته پیروی می کند با یک پارامتر p که چیزی جز احتمالات مخلوط، یعنی احتمال وقوع هر خوشه نیست، دیده می شود. با توجه به اینکه مشکل خود را به روش بیزی حل می کنیم، پارامتر p را به عنوان یک بردار مجهول ثابت در نظر نمی گیریم. در عوض فرض می‌کنیم که P از دیریکله پیروی می‌کند که با فراپارامترهای α/k پارامتر می‌شود.

5. کار با k خوشه های بی نهایت

مدل مخلوط قبلی به ما اجازه می‌دهد تا یادگیری بدون نظارت را انجام دهیم، از رویکرد بیزی پیروی می‌کند و می‌تواند برای داشتن یک ساختار سلسله مراتبی گسترش یابد. با این وجود این یک مدل محدود است زیرا از یک عدد k از پیش تعریف شده ثابت از خوشه ها استفاده می کند. در نتیجه ما را ملزم می‌کند که قبل از انجام تحلیل خوشه‌ای، تعداد مؤلفه‌ها را تعریف کنیم و همانطور که قبلاً در بیشتر برنامه‌ها بحث کردیم، این ناشناخته است و نمی‌توان به راحتی تخمین زد.

یکی از راه‌های حل این مسئله این است که تصور کنید k مقدار بسیار زیادی دارد که به سمت بی‌نهایت می‌رود. به عبارت دیگر می توانیم حد این مدل را زمانی تصور کنیم که k به بی نهایت تمایل دارد. اگر اینطور باشد، می‌توانیم ببینیم که علیرغم اینکه تعداد خوشه‌های k بی‌نهایت است، تعداد واقعی خوشه‌هایی که فعال هستند (آنهایی که حداقل یک مشاهده دارند) نمی‌تواند بزرگ‌تر از n باشد. تعداد کل مشاهدات در مجموعه داده ما). در واقع همانطور که بعدا خواهیم دید، تعداد خوشه های فعال به طور قابل توجهی کمتر از n خواهد بود و متناسب با .

البته در نظر گرفتن حد k تا بی نهایت امری بی اهمیت است. چندین سوال مطرح می شود از جمله اینکه آیا می توان چنین محدودیتی را در نظر گرفت، این مدل چگونه به نظر می رسد و چگونه می توانیم بسازیم و از چنین مدلی استفاده کنید.

در مقاله بعدی دقیقاً بر روی این سؤالات تمرکز خواهیم کرد: فرآیند دیریکله را تعریف می کنیم، بازنمایی های مختلف DP را ارائه می دهیم و در نهایت بر فرآیند رستوران چینی تمرکز خواهیم کرد که روشی بصری و کارآمد برای ساختن فرآیند دیریکله است.

امیدوارم این مطلب برای شما مفید باشد. اگر این کار را کردید، لطفا چند لحظه وقت بگذارید و مقاله را در فیس بوک و توییتر به اشتراک بگذارید. 🙂

تمبر زمان: ممکن است 12، 2014ژوئیه 17، 2022

تمبر زمان: نوامبر 9، 2014

مدل مخلوط محدود بر اساس توزیع Dirichlet

بازنشر افلاطون

1. توزیع بتا

2. توزیع دیریکله

3. دیریکله پیشین با احتمال چندجمله ای

4. مدل مخلوط محدود با توزیع دیریکله

5. کار با k خوشه های بی نهایت

بیشتر از Datumbox

چارچوب یادگیری ماشین منبع باز جدید که در جاوا نوشته شده است

Datumbox Machine Learning Framework نسخه 0.8.2 منتشر شد

استفاده از GPU کارت های NVIDIA با ابزار Linux dstat

فرآیند دیریکله فرآیند رستوران چینی و سایر نمایندگی ها

نحوه بک آپ گرفتن از S3 با DejaDup در اوبونتو 20.10

آموزش تحلیل پوششی داده ها

استفاده از روش‌های انتخاب ویژگی در طبقه‌بندی متن

خوشه‌بندی اسناد و داده‌های گاوسی با مدل‌های مخلوط فرآیند دیریکله

لایه عادی سازی دسته ای Keras شکسته شده است

5 نکته برای آموزش چند GPU با Keras

Datumbox Machine Learning Framework نسخه 0.8.0 منتشر شد

نحوه نصب و استفاده از Datumbox Machine Learning Framework

درباره‌ ما

جستجوی عمودی و هوش مصنوعی

سکو

همیشه در ارتباط ماندن

حساب