مدل مخلوط محدود بر اساس هوش داده پلاتو بلاک چین توزیع دیریکله. جستجوی عمودی Ai.

مدل مخلوط محدود بر اساس توزیع Dirichlet

این پست وبلاگ قسمت دوم از مجموعه مقالات در مورد مدل های مخلوط فرآیند دیریکله است. در مقاله قبلی ما یک مروری بر چندین تکنیک تحلیل خوشه ای و ما در مورد برخی از مشکلات/محدودیت هایی که با استفاده از آنها به وجود می آیند بحث کردیم. علاوه بر این، مدل‌های مخلوط فرآیند دیریکله را به اختصار ارائه کردیم، در مورد دلیل مفید بودن آنها صحبت کردیم و برخی از کاربردهای آنها را ارائه کردیم.

به روز رسانی: چارچوب یادگیری ماشین Datumbox اکنون منبع باز و رایگان است دانلود. برای مشاهده اجرای مدل‌های مخلوط فرآیند دیریکله در جاوا، بسته com.datumbox.framework.machinelearning.clustering را بررسی کنید.

قورت دادن مدل‌های مخلوط فرآیند دیریکله در ابتدا ممکن است کمی سخت باشد، زیرا آنها مدل‌های مخلوط بی‌نهایت با نمایش‌های مختلف هستند. خوشبختانه یک راه خوب برای نزدیک شدن به موضوع، شروع از مدل‌های مخلوط محدود با توزیع دیریکله و سپس حرکت به مدل‌های نامحدود است.

در نتیجه در این مقاله به طور خلاصه چند توزیع مهم را که به آنها نیاز خواهیم داشت، ارائه می‌دهم، از آنها برای ساختن پیشین دیریکله با مدل درستنمایی چندجمله‌ای استفاده می‌کنیم و سپس به مدل مخلوط محدود بر اساس توزیع دیریکله می‌رویم.

1. توزیع بتا

La توزیع بتا خانواده ای از توزیع های پیوسته است که در بازه [0,1،XNUMX] تعریف می شود. با دو پارامتر مثبت a و b پارامتر می شود و شکل آن به شدت به انتخاب آن دو پارامتر بستگی دارد.

تصویر

شکل 1: توزیع بتا برای پارامترهای مختلف a، b

توزیع بتا معمولاً برای مدل‌سازی توزیع بر روی احتمالات استفاده می‌شود و چگالی احتمال زیر را دارد:

تصویر

معادله 1: بتا PDF

جایی که Γ(x) تابع گاما و a، b پارامترهای توزیع است. بتا معمولاً به‌عنوان توزیع مقادیر احتمال استفاده می‌شود و این احتمال را به ما می‌دهد که احتمال مدل‌سازی شده برابر با یک مقدار خاص P = p0 باشد. طبق تعریف خود، توزیع بتا قادر است احتمال نتایج باینری را که مقادیر درست یا نادرست می گیرند، مدل کند. پارامترهای a و b را می توان به ترتیب شبه شمارش موفقیت و شکست در نظر گرفت. بنابراین توزیع بتا احتمال موفقیت را با توجه به موفقیت ها و b شکست ها مدل می کند.

2. توزیع دیریکله

La توزیع دیریکله تعمیم توزیع بتا برای پیامدهای چندگانه است (یا به عبارت دیگر برای رویدادهایی با پیامدهای متعدد استفاده می شود). با k پارامتر a پارامتر می شودi که باید مثبت باشد هنگامی که تعداد متغیرها k = 2 باشد، توزیع دیریکله با توزیع بتا برابر است.

تصویر

شکل 2: توزیع دیریکله برای انواع الفi پارامترهای

توزیع دیریکله معمولاً برای مدل‌سازی توزیع بر روی احتمالات استفاده می‌شود و چگالی احتمال زیر را دارد:

تصویر

معادله 2: دیریکله PDF

جایی که Γ(x) تابع گاما است، pi مقادیر [0,1] و Σp را بگیریدi=1. توزیع دیریکله توزیع مشترک p را مدل می کندi و احتمال P را می دهد1=p1,P2=p2،….،پk-1=pk-1 با پk=1 – ΣPi. همانطور که در مورد بتا، ai پارامترها را می توان به عنوان شبه شماری از ظاهر هر رویداد i در نظر گرفت. توزیع دیریکله برای مدل سازی احتمال وقوع k رویدادهای رقیب استفاده می شود و اغلب به عنوان دیریکله (a) نشان داده می شود.

3. دیریکله پیشین با احتمال چندجمله ای

همانطور که قبلا ذکر شد، توزیع دیریکله را می توان به عنوان توزیعی بر توزیع های احتمالی دید. در مواردی که می خواهیم احتمال وقوع k رویداد را مدل کنیم، از یک رویکرد بیزی استفاده می شود احتمال چند جمله ای و پیشینیان دیریکله .

در زیر می توانیم مدل گرافیکی چنین مدلی را مشاهده کنیم.

تصویر

شکل 3: مدل گرافیکی دیریکله پیشین ها با احتمال چندجمله ای

در مدل گرافیکی فوق، α بردار بعدی ak با پیش پارامترهای دیریکله، p بردار بعدی ak با مقادیر احتمال و x است.i یک مقدار اسکالر از 1 تا k است که به ما می گوید کدام رویداد رخ داده است. در نهایت باید توجه داشته باشیم که P از توزیع دیریکله با بردار α و بنابراین P~ دیریکله (α) پیروی می کند، در حالی که xi متغیرها از توزیع گسسته (چند جمله ای) با بردار p احتمالات پیروی می کنند. مدل‌های سلسله مراتبی مشابهی را می‌توان در طبقه‌بندی اسناد به کار برد تا توزیع‌های فراوانی کلمات کلیدی را برای موضوعات مختلف نشان دهد.

4. مدل مخلوط محدود با توزیع دیریکله

با استفاده از توزیع دیریکله می توانیم a را بسازیم مدل مخلوط محدود که می توان از آن برای انجام خوشه بندی استفاده کرد. بیایید فرض کنیم که مدل زیر را داریم:

تصویر

تصویر

تصویر

تصویر

معادله 3: مدل مخلوط محدود با توزیع دیریکله

مدل فوق موارد زیر را فرض می کند: ما یک مجموعه داده X با n مشاهدات داریم و می خواهیم تجزیه و تحلیل خوشه ای را روی آن انجام دهیم. k یک عدد محدود ثابت است که تعداد خوشه‌ها/مولفه‌هایی را که ما استفاده خواهیم کرد را نشان می‌دهد. جi متغیرها انتساب خوشه مشاهده X را ذخیره می کنندi، مقادیر از 1 تا k را می گیرند و از توزیع گسسته با پارامتر p پیروی می کنند که احتمالات مخلوط اجزاء است. F توزیع مولد X ما است و با یک پارامتر پارامتر می شود تصویر که به انتساب خوشه هر مشاهده بستگی دارد. در کل ما k منحصر به فرد داریم تصویر پارامترهایی برابر با تعداد خوشه های ما است. در تصویر متغیر پارامترهایی را ذخیره می کند که توزیع F مولد را پارامتر می کنند و ما فرض می کنیم که از پایه G پیروی می کند.0 توزیع متغیر p درصدهای مخلوط را برای هر یک از خوشه‌های k ذخیره می‌کند و دیریکله را با پارامترهای α/k دنبال می‌کند. در نهایت α بردار بعدی ak با فراپارامترهای (شبه شمار) توزیع دیریکله است [2].

تصویر

شکل 4: مدل گرافیکی مدل مخلوط محدود با توزیع دیریکله

یک روش ساده تر و کم ریاضی برای توضیح مدل به شرح زیر است. ما فرض می کنیم که داده های ما را می توان در k خوشه گروه بندی کرد. هر خوشه پارامترهای خاص خود را دارد تصویر و از آن پارامترها برای تولید داده های ما استفاده می شود. پارامترها تصویر فرض بر این است که از توزیع G پیروی می کنند0. هر مشاهده با بردار x نشان داده می شودi و aci مقداری که نشان دهنده خوشه ای است که به آن تعلق دارد. در نتیجه جi را می توان به عنوان متغیری که از توزیع گسسته پیروی می کند با یک پارامتر p که چیزی جز احتمالات مخلوط، یعنی احتمال وقوع هر خوشه نیست، دیده می شود. با توجه به اینکه مشکل خود را به روش بیزی حل می کنیم، پارامتر p را به عنوان یک بردار مجهول ثابت در نظر نمی گیریم. در عوض فرض می‌کنیم که P از دیریکله پیروی می‌کند که با فراپارامترهای α/k پارامتر می‌شود.

5. کار با k خوشه های بی نهایت

مدل مخلوط قبلی به ما اجازه می‌دهد تا یادگیری بدون نظارت را انجام دهیم، از رویکرد بیزی پیروی می‌کند و می‌تواند برای داشتن یک ساختار سلسله مراتبی گسترش یابد. با این وجود این یک مدل محدود است زیرا از یک عدد k از پیش تعریف شده ثابت از خوشه ها استفاده می کند. در نتیجه ما را ملزم می‌کند که قبل از انجام تحلیل خوشه‌ای، تعداد مؤلفه‌ها را تعریف کنیم و همانطور که قبلاً در بیشتر برنامه‌ها بحث کردیم، این ناشناخته است و نمی‌توان به راحتی تخمین زد.

یکی از راه‌های حل این مسئله این است که تصور کنید k مقدار بسیار زیادی دارد که به سمت بی‌نهایت می‌رود. به عبارت دیگر می توانیم حد این مدل را زمانی تصور کنیم که k به بی نهایت تمایل دارد. اگر اینطور باشد، می‌توانیم ببینیم که علیرغم اینکه تعداد خوشه‌های k بی‌نهایت است، تعداد واقعی خوشه‌هایی که فعال هستند (آنهایی که حداقل یک مشاهده دارند) نمی‌تواند بزرگ‌تر از n باشد. تعداد کل مشاهدات در مجموعه داده ما). در واقع همانطور که بعدا خواهیم دید، تعداد خوشه های فعال به طور قابل توجهی کمتر از n خواهد بود و متناسب با تصویر.

البته در نظر گرفتن حد k تا بی نهایت امری بی اهمیت است. چندین سوال مطرح می شود از جمله اینکه آیا می توان چنین محدودیتی را در نظر گرفت، این مدل چگونه به نظر می رسد و چگونه می توانیم بسازیم و از چنین مدلی استفاده کنید.

در مقاله بعدی دقیقاً بر روی این سؤالات تمرکز خواهیم کرد: فرآیند دیریکله را تعریف می کنیم، بازنمایی های مختلف DP را ارائه می دهیم و در نهایت بر فرآیند رستوران چینی تمرکز خواهیم کرد که روشی بصری و کارآمد برای ساختن فرآیند دیریکله است.

امیدوارم این مطلب برای شما مفید باشد. اگر این کار را کردید، لطفا چند لحظه وقت بگذارید و مقاله را در فیس بوک و توییتر به اشتراک بگذارید. 🙂

تمبر زمان:

بیشتر از Datumbox