डिरिचलेट प्रोसेस मिक्सचर मॉडल प्लेटोब्लॉकचैन डेटा इंटेलिजेंस। लंबवत खोज। ऐ.

Dirichlet प्रक्रिया मिश्रण मॉडल

यह ब्लॉग पोस्ट इस श्रृंखला का चौथा भाग है Dirichlet प्रक्रिया मिश्रण मॉडल के साथ क्लस्टरिंग. पिछले लेखों में हमने परिमित डिरिचलेट मिश्रण मॉडल पर चर्चा की और हमने अनंत k समूहों के लिए उनके मॉडल की सीमा ली, जिसके कारण हमें डिरिचलेट प्रक्रियाओं की शुरुआत हुई। जैसा कि हमने देखा, हमारा लक्ष्य एक मिश्रण मॉडल बनाना है जिसके लिए हमें शुरुआत से k क्लस्टर/घटकों की संख्या निर्दिष्ट करने की आवश्यकता नहीं है। बाद डिरिचलेट प्रक्रियाओं के विभिन्न अभ्यावेदन प्रस्तुत करना, अब समय आ गया है कि वास्तव में डीपी का उपयोग करके एक अनंत मिक्सचर मॉडल बनाया जाए जो हमें क्लस्टरिंग करने में सक्षम बनाता है। इस लेख का लक्ष्य डिरिचलेट प्रक्रिया मिश्रण मॉडल को परिभाषित करना और चीनी रेस्तरां प्रक्रिया और गिब्स नमूनाकरण के उपयोग पर चर्चा करना है। यदि आपने पिछली पोस्ट नहीं पढ़ी हैं, तो ऐसा करने की अत्यधिक अनुशंसा की जाती है क्योंकि विषय थोड़ा सैद्धांतिक है और मॉडल के निर्माण पर अच्छी समझ की आवश्यकता है।

अद्यतन: डाटंबॉक्स मशीन लर्निंग फ्रेमवर्क अब खुला-स्रोत और मुफ्त है डाउनलोड। Java में Dirichlet Process Mixture मॉडल के कार्यान्वयन को देखने के लिए पैकेज com.datumbox.framework.machinelearning.clustering देखें।

1. डिरिचलेट प्रक्रिया मिश्रण मॉडल की परिभाषा

डिरिचलेट प्रक्रियाओं का उपयोग करने से हमें अनंत घटकों के साथ एक मिश्रण मॉडल प्राप्त करने की अनुमति मिलती है जिसे k के लिए परिमित मॉडल की सीमा को अनंत तक ले जाने के रूप में सोचा जा सकता है। आइए मान लें कि हमारे पास निम्न मॉडल है:

की छवि
की छवि
की छवि

समीकरण 1: डिरिचलेट प्रक्रिया मिश्रण मॉडल

जहाँ G को इस प्रकार परिभाषित किया गया है की छवि और की छवि के लिए एक संक्षिप्त संकेतन के रूप में उपयोग किया जाता है की छवि एक डेल्टा फंक्शन है जो 1 इफ़ेक्ट लेता है की छवि और 0 कहीं और। दi क्लस्टर पैरामीटर हैं जिन्हें जी से नमूना लिया गया है। जेनरेटिव वितरण एफ क्लस्टर पैरामीटर द्वारा कॉन्फ़िगर किया गया है θi और x . उत्पन्न करने के लिए प्रयोग किया जाता हैi अवलोकन। अंत में हम घनत्व वितरण को परिभाषित कर सकते हैं की छवि जो मिश्रण अनुपात के साथ हमारा मिश्रण वितरण (गणनीय अनंत मिश्रण) है की छवि और मिश्रण घटकों की छवि.

की छवि

चित्र 1: डिरिचलेट प्रक्रिया मिश्रण मॉडल का चित्रमय मॉडल

ऊपर हम DPMM के समकक्ष ग्राफिकल मॉडल देख सकते हैं। जी0 डीपी का आधार वितरण है और गणनाओं को आसान बनाने और आकर्षक गणितीय गुणों का उपयोग करने के लिए इसे आमतौर पर हमारे जेनरेटिव वितरण एफ से पहले संयुग्मित होने के लिए चुना जाता है। α डिरिचलेट प्रक्रिया का अदिश हाइपरपैरामीटर है और हमें मिलने वाले क्लस्टरों की संख्या को प्रभावित करता है। α का मान जितना बड़ा होगा, क्लस्टर उतने ही अधिक होंगे; α जितना छोटा होगा, क्लस्टर उतने ही कम होंगे। हमें ध्यान देना चाहिए कि α का मान व्यक्त करता है विश्वास की ताकत जी में0. एक बड़ा मान इंगित करता है कि अधिकांश नमूने अलग होंगे और उनके मान G . पर केंद्रित होंगे0. G, DP से लिए गए पैरामीटर स्थान पर एक यादृच्छिक वितरण है जो मापदंडों को प्रायिकता प्रदान करता है। दi एक पैरामीटर वेक्टर है जो जी वितरण से तैयार किया गया है और इसमें क्लस्टर के पैरामीटर शामिल हैं, एफ वितरण θ . द्वारा पैरामीटर किया गया हैi और एक्सi जनरेटिव डिस्ट्रीब्यूशन एफ द्वारा उत्पन्न डेटा बिंदु है।

यह ध्यान रखना महत्वपूर्ण है किi पैरामीटर स्थान के तत्व हैं और वे हमारे समूहों को "कॉन्फ़िगर" करते हैं। उन्हें x . पर गुप्त चर के रूप में भी देखा जा सकता हैi जो हमें बताता है कि किस घटक/क्लस्टर से xi से आता है और इस घटक के पैरामीटर क्या हैं। इस प्रकार प्रत्येक x . के लिएi जिसे हम देखते हैं, हम एक . बनाते हैंi जी वितरण से प्रत्येक ड्रा के साथ पिछले चयनों के आधार पर वितरण में परिवर्तन होता है। जैसा कि हमने ब्लैकवेल-मैकक्वीन कलश योजना में देखा था कि जी वितरण को एकीकृत किया जा सकता है और हमारे भविष्य के चयनi केवल G . पर निर्भर0: की छवि. पिछले फॉर्मूले से पैरामीटर i का अनुमान लगाना हमेशा संभव नहीं होता है क्योंकि कई कार्यान्वयन (जैसे चीनी रेस्तरां प्रक्रिया) के माध्यम से गणना करना शामिल है घातीय रूप से बढ़ रहे k घटक. इस प्रकार अनुमानित कम्प्यूटेशनल विधियों का उपयोग किया जाता है जैसे गिब्स नमूनाकरण। अंत में हमें ध्यान देना चाहिए कि k क्लस्टर अनंत होने के बावजूद, सक्रिय समूहों की संख्या है की छवि. इस प्रकारi दोहराएगा और क्लस्टरिंग प्रभाव प्रदर्शित करेगा।

2. एक अनंत मिश्रण मॉडल को परिभाषित करने के लिए चीनी रेस्तरां प्रक्रिया का उपयोग करना

पिछले खंड में परिभाषित मॉडल गणितीय रूप से ठोस है, फिर भी इसमें एक बड़ी खामी है: प्रत्येक नए x . के लिएi जो हम देखते हैं, हमें एक नए . का नमूना लेना चाहिएi के पिछले मूल्यों को ध्यान में रखते हुए। समस्या यह है कि कई मामलों में, इन मापदंडों का नमूना लेना एक कठिन और कम्प्यूटेशनल रूप से महंगा काम हो सकता है।

अव्यक्त चर z . को मॉडल करने के लिए चीनी रेस्तरां प्रक्रिया का उपयोग करने के लिए एक वैकल्पिक दृष्टिकोण हैi क्लस्टर असाइनमेंट का। इस तरह . का उपयोग करने के बजायi क्लस्टर पैरामीटर और क्लस्टर असाइनमेंट दोनों को निरूपित करने के लिए, हम अव्यक्त चर z . का उपयोग करते हैंi क्लस्टर आईडी इंगित करने के लिए और फिर क्लस्टर पैरामीटर असाइन करने के लिए इस मान का उपयोग करें। नतीजतन, हमें अब हर बार एक नया अवलोकन प्राप्त करने के लिए का नमूना लेने की आवश्यकता नहीं है, बल्कि इसके बजाय हम नमूना z द्वारा क्लस्टर असाइनमेंट प्राप्त करते हैंi सीआरपी से। इस योजना के साथ एक नए का नमूना तभी लिया जाता है जब हमें एक नया क्लस्टर बनाने की आवश्यकता होती है। नीचे हम इस दृष्टिकोण का मॉडल प्रस्तुत करते हैं:

की छवि
की छवि
की छवि

समीकरण 2: सीआरपी के साथ मिक्सचर मॉडल

ऊपर एक जनरेटिव मॉडल है जो बताता है कि डेटा कैसे xi और कलस्टर उत्पन्न होते हैं। क्लस्टर विश्लेषण करने के लिए हमें प्रेक्षणों का उपयोग करना चाहिए xi और क्लस्टर असाइनमेंट z . का अनुमान लगाएंi.

3. मिश्रण मॉडल अनुमान और गिब्स नमूनाकरण

दुर्भाग्य से चूंकि डिरिचलेट प्रक्रियाएं गैर-पैरामीट्रिक हैं, हम EM एल्गोरिथम का उपयोग नहीं कर सकते क्लस्टर असाइनमेंट को स्टोर करने वाले गुप्त चर का अनुमान लगाने के लिए। असाइनमेंट का अनुमान लगाने के लिए हम उपयोग करेंगे संक्षिप्त गिब्स नमूनाकरण.

संक्षिप्त गिब्स नमूनाकरण एक साधारण मार्कोव चेन मोंटे कार्लो (एमसीएमसी) एल्गोरिदम है। यह तेज़ है और हमें दूसरे चर का नमूना लेते समय कुछ चरों को एकीकृत करने में सक्षम बनाता है। फिर भी इस एल्गोरिथम के लिए हमें एक G . का चयन करना होगा0 जो विश्लेषणात्मक रूप से समीकरणों को हल करने में सक्षम होने और सीधे से नमूना लेने में सक्षम होने के लिए एफ जनरेटिव वितरण से पहले एक संयुग्म है की छवि.

संकुचित गिब्स नमूनाकरण के चरण जिनका उपयोग हम क्लस्टर असाइनमेंट का अनुमान लगाने के लिए करेंगे, वे निम्नलिखित हैं:

  • z . को प्रारंभ करेंi क्लस्टर असाइनमेंट बेतरतीब ढंग से
  • अभिसरण तक दोहराएं
    • बेतरतीब ढंग से कुल्हाड़ी चुनेंi
    • अन्य z . रखेंj हर जी के लिए तय: की छवि
    • z . पर एक नया मान निर्दिष्ट करेंi "सीआरपी संभावना" की गणना करके जो z . पर निर्भर करता हैj और एक्सj सभी जी की: की छवि

अगले लेख में हम इस बात पर ध्यान देंगे कि डिरिचलेट प्रोसेस मिक्सचर मॉडल का उपयोग करके क्लस्टर विश्लेषण कैसे करें। हम दो अलग-अलग डिरिचलेट प्रोसेस मिक्सचर मॉडल को परिभाषित करेंगे जो निरंतर डेटासेट और दस्तावेज़ों पर क्लस्टरिंग करने के लिए चीनी रेस्तरां प्रक्रिया और संक्षिप्त गिब्स नमूनाकरण का उपयोग करते हैं।

समय टिकट:

से अधिक दातुनॉक्स