نموذج الخليط المحدود القائم على ذكاء بيانات توزيع Dirichlet PlatoBlockchain. البحث العمودي. منظمة العفو الدولية.

نموذج الخلط المحدود على أساس توزيع Dirichlet

منشور المدونة هذا هو الجزء الثاني من سلسلة مقالات حول نماذج خليط Dirichlet Process. في المقالة السابقة كان لدينا ملف نظرة عامة على العديد من تقنيات التحليل العنقودي وناقشنا بعض المشاكل / القيود التي تنشأ عن استخدامها. علاوة على ذلك ، قدمنا ​​بإيجاز نماذج Dirichlet Process Mixture ، وتحدثنا عن سبب فائدتها وقدمنا ​​بعض تطبيقاتها.

تحديث: أصبح Datumbox Machine Learning Framework مفتوح المصدر ومجانيًا الآن بإمكانك تحميله. تحقق من الحزمة com.datumbox.framework.machinelearning.clustering لرؤية تنفيذ نماذج Dirichlet Process Mixture Models في Java.

قد يكون من الصعب بعض الشيء ابتلاع نماذج Dirichlet Process Mixture في البداية لأنها نماذج خليط لانهائية مع العديد من التمثيلات المختلفة. لحسن الحظ ، هناك طريقة جيدة للتعامل مع الموضوع وهي البدء من نماذج المزيج المحدود مع توزيع Dirichlet ثم الانتقال إلى النماذج اللانهائية.

وبالتالي في هذه المقالة سأقدم بإيجاز بعض التوزيعات المهمة التي سنحتاجها ، وسوف نستخدمها لبناء Dirichlet Prior مع نموذج احتمال متعدد الحدود ثم ننتقل إلى نموذج الخلطة المحدودة استنادًا إلى توزيع Dirichlet.

1. توزيع بيتا

توزيع بيتا هي عائلة من التوزيعات المستمرة التي يتم تحديدها في الفترة [0,1،XNUMX]. يتم تحديد معلماتها بواسطة معلمتين موجبتين أ و ب ويعتمد شكلها بشكل كبير على اختيار هاتين المعلمتين.

صورة

الشكل 1: توزيع بيتا لمعلمات مختلفة أ ، ب

يتم استخدام توزيع بيتا بشكل شائع لنمذجة التوزيع على الاحتمالات وله كثافة الاحتمال التالية:

صورة

المعادلة 1: Beta PDF

حيث Γ (x) هي دالة جاما و a ، b معلمات التوزيع. يتم استخدام بيتا بشكل شائع كتوزيع لقيم الاحتمال ويعطينا احتمال أن يكون الاحتمال النموذجي مساويًا لقيمة معينة P = p0. من خلال تعريفه ، فإن توزيع بيتا قادر على نمذجة احتمالية النتائج الثنائية التي تأخذ قيمًا صحيحة أو خاطئة. يمكن اعتبار المعلمات a و b بمثابة عدد زائف للنجاح والفشل على التوالي. وبالتالي ، فإن توزيع بيتا يصور احتمالية النجاح في ضوء النجاحات والفشل.

2. توزيع ديريتشليت

توزيع ديريتشليت هو تعميم توزيع بيتا لنتائج متعددة (أو بعبارة أخرى يتم استخدامه للأحداث ذات النتائج المتعددة). يتم تحديد المعلمات باستخدام معلمات k أi التي يجب أن تكون إيجابية. توزيع Dirichlet يساوي توزيع بيتا عندما يكون عدد المتغيرات k = 2.

صورة

الشكل 2: توزيع Dirichlet لمختلف أi المعلمات

يتم استخدام توزيع Dirichlet بشكل شائع لنمذجة التوزيع على الاحتمالات وله كثافة الاحتمال التالية:

صورة

المعادلة 2: Dirichlet PDF

حيث Γ (x) هي دالة جاما ، فإن pi تأخذ القيم في [0,1،XNUMX] و Σpi= 1. نماذج توزيع Dirichlet التوزيع المشترك لـ pi ويعطي احتمالية الإصابة بـ P.1=p1,P2=p2، ... ، صك-1=pك-1 مع فk= 1 - ΣPi. كما في حالة Beta ، فإن ملف ai يمكن اعتبار المعلمات تعدادًا زائفًا لظهور كل حدث. يتم استخدام توزيع Dirichlet لنمذجة احتمالية حدوث أحداث متنافسة k وغالبًا ما يشار إليها باسم Dirichlet (أ).

3. Dirichlet Prior مع احتمال متعدد الحدود

كما ذكرنا سابقًا ، يمكن اعتبار توزيع Dirichlet كتوزيع على التوزيعات الاحتمالية. في الحالات التي نريد فيها نمذجة احتمالية وقوع أحداث k ، فإن نهج Bayesian سيكون للاستخدام احتمالية متعددة الحدود وديريتشليت بريورز .

أدناه يمكننا رؤية النموذج الرسومي لمثل هذا النموذج.

صورة

الشكل 3: نموذج رسومي لديريتشليت بريورز مع احتمال متعدد الحدود

في النموذج الرسومي أعلاه ، α هو متجه الأبعاد ak مع المعلمات الفائقة لـ Dirichlet priors ، p ak متجه الأبعاد مع قيم الاحتمال و xi هي قيمة عددية من 1 إلى k تخبرنا عن الحدث الذي حدث. أخيرًا ، يجب أن نلاحظ أن P يتبع معلمات توزيع Dirichlet مع المتجه α وبالتالي P ~ Dirichlet (α) ، في حين أن xi تتبع المتغيرات التوزيع المنفصل (متعدد الحدود) المحدد مع متجه p للاحتمالات. يمكن استخدام نماذج هرمية مماثلة في تصنيف الوثائق لتمثيل توزيعات ترددات الكلمات الرئيسية في موضوعات مختلفة.

4. نموذج الخلط المحدود مع توزيع ديريتشليت

باستخدام توزيع Dirichlet يمكننا إنشاء ملف نموذج الخلط المحدود والتي يمكن استخدامها لأداء التجميع. لنفترض أن لدينا النموذج التالي:

صورة

صورة

صورة

صورة

المعادلة 3: نموذج الخليط المحدود مع توزيع ديريتشليت

يفترض النموذج أعلاه ما يلي: لدينا مجموعة بيانات X مع عدد n من الملاحظات ونريد إجراء تحليل الكتلة عليها. k هو رقم محدد ثابت يوضح عدد المجموعات / المكونات التي سنستخدمها. جi المتغيرات تخزن تخصيص المجموعة للملاحظة Xi، يأخذون القيم من 1 إلى k ويتبعون التوزيع المنفصل مع المعلمة p وهي احتمالات خليط المكونات. F هو التوزيع التوليدي لـ X الخاص بنا ويتم تحديد معلماته باستخدام معلمة صورة الذي يعتمد على تخصيص الكتلة لكل ملاحظة. في المجموع لدينا ك فريد صورة المعلمات تساوي عدد مجموعاتنا. ال صورة متغير يخزن المعلمات التي تحدد توزيع F التوليد ونفترض أنه يتبع القاعدة G0 توزيع. يخزن المتغير p النسب المئوية للخليط لكل مجموعة من مجموعات k ويتبع Dirichlet مع المعلمات α / k. أخيرًا ، فإن α هو متجه الأبعاد مع المعلمات الفائقة (العد الكاذب) لتوزيع Dirichlet [2].

صورة

الشكل 4: نموذج رسومي لنموذج الخلط المحدود مع توزيع ديريتشليت

طريقة أبسط وأقل رياضية لشرح النموذج هي التالية. نفترض أنه يمكن تجميع بياناتنا في مجموعات k. كل مجموعة لها معاييرها الخاصة صورة وتستخدم هذه المعلمات لتوليد بياناتنا. المعلمات صورة يفترض أن تتبع بعض التوزيع G0. يتم تمثيل كل ملاحظة بمتجه xi و aci القيمة التي تشير إلى الكتلة التي تنتمي إليها. وبالتالي فإن جi يمكن اعتباره متغيرًا يتبع التوزيع المنفصل مع معامل p وهو ليس سوى احتمالات الخليط ، أي احتمال حدوث كل مجموعة. نظرًا لأننا نتعامل مع مشكلتنا بطريقة بايزية ، فإننا لا نتعامل مع المعلمة p على أنها متجه ثابت غير معروف. بدلاً من ذلك ، نفترض أن P يتبع Dirichlet الذي يتم تحديد معلماته بواسطة المعلمات الفائقة α / k.

5. العمل مع مجموعات k لانهائية

يسمح لنا نموذج الخليط السابق بأداء التعلم غير الخاضع للرقابة ، ويتبع نهج بايز ويمكن توسيعه ليكون له هيكل هرمي. ومع ذلك فهو نموذج محدود لأنه يستخدم عددًا ثابتًا محددًا مسبقًا من المجموعات. نتيجة لذلك ، يتطلب منا تحديد عدد المكونات قبل إجراء تحليل الكتلة وكما ناقشنا سابقًا في معظم التطبيقات ، هذا غير معروف ولا يمكن تقديره بسهولة.

طريقة واحدة لحل هذا هو تخيل أن k لها قيمة كبيرة جدًا تميل إلى اللانهاية. بعبارة أخرى ، يمكننا تخيل نهاية هذا النموذج عندما تميل k إلى اللانهاية. إذا كانت هذه هي الحالة ، فيمكننا أن نرى أنه على الرغم من أن عدد المجموعات k لا نهائي ، فإن العدد الفعلي للمجموعات النشطة (تلك التي تحتوي على ملاحظة واحدة على الأقل) ، لا يمكن أن يكون أكبر من n (وهو العدد الإجمالي للملاحظات في مجموعة البيانات الخاصة بنا). في الواقع كما سنرى لاحقًا ، سيكون عدد المجموعات النشطة أقل بكثير من n وستكون متناسبة مع صورة.

بطبيعة الحال ، فإن أخذ حد k إلى ما لا نهاية هو أمر غير مهم. تظهر عدة أسئلة مثل ما إذا كان من الممكن اتخاذ مثل هذا الحد ، وكيف سيبدو هذا النموذج و كيف يمكننا البناء واستخدام مثل هذا النموذج.

في المقالة التالية سوف نركز على هذه الأسئلة بالضبط: سنحدد عملية Dirichlet ، وسوف نقدم التمثيلات المختلفة لموانئ دبي ، وأخيراً سنركز على عملية المطعم الصيني وهي طريقة بديهية وفعالة لبناء عملية ديريتشليت.

أتمنى أن تكون قد وجدت هذا المنشور مفيدًا. إذا قمت بذلك ، فيرجى أخذ لحظة لمشاركة المقال على Facebook و Twitter. 🙂

الطابع الزمني:

اكثر من داتومبوكس