डिरिचलेट वितरण प्लेटोब्लॉकचैन डेटा इंटेलिजेंस पर आधारित परिमित मिश्रण मॉडल। लंबवत खोज। ऐ.

डिरिचलेट डिस्ट्रीब्यूशन के आधार पर परिमित मिश्रण मॉडल

यह ब्लॉग पोस्ट Dirichlet Process मिश्रण मॉडल पर एक लेख श्रृंखला का दूसरा भाग है। पिछले लेख में हमने ए कई क्लस्टर विश्लेषण तकनीकों का अवलोकन और हमने कुछ समस्याओं / सीमाओं पर चर्चा की, जिनका उपयोग करने से वे बढ़ती हैं। इसके अलावा हमने संक्षिप्त रूप से डिरिचलेट प्रोसेस मिक्सचर मॉडल प्रस्तुत किया, हमने इस बारे में बात की कि वे क्यों उपयोगी हैं और हमने उनके कुछ अनुप्रयोगों को प्रस्तुत किया है।

अद्यतन: डाटंबॉक्स मशीन लर्निंग फ्रेमवर्क अब खुला-स्रोत और मुफ्त है डाउनलोड। Java में Dirichlet Process Mixture मॉडल के कार्यान्वयन को देखने के लिए पैकेज com.datumbox.framework.machinelearning.clustering देखें।

डिरिचलेट प्रोसेस मिक्सचर मॉडल मुख्य रूप से शुरुआत में निगलने के लिए थोड़ा मुश्किल हो सकता है क्योंकि वे कई अलग-अलग अभ्यावेदन के साथ अनंत मिश्रण मॉडल हैं। सौभाग्य से विषय को एप्रोच करने का एक अच्छा तरीका ड्यूरिचलेट डिस्ट्रीब्यूशन के साथ फ़ाइनाइट मिक्सचर मॉडल्स से शुरू होकर अनंत तक जाना है।

इस लेख में नतीजतन, मैं कुछ महत्वपूर्ण वितरण प्रस्तुत करूंगा, जिनकी हमें आवश्यकता होगी, हम उनका उपयोग मल्टिनोमियल लिक्लिएलहुड मॉडल के साथ डिरिचलेट प्रायर के निर्माण के लिए करेंगे और फिर हम ड्यूरेटलेट वितरण के आधार पर परिमित मिश्रण मॉडल की ओर बढ़ेंगे।

1. बीटा वितरण

RSI बीटा वितरण निरंतर वितरण का एक परिवार है जिसे [0,1] के अंतराल में परिभाषित किया गया है। इसे दो सकारात्मक मापदंडों द्वारा ए और बी में वर्गीकृत किया जाता है और इसका रूप उन दो मापदंडों के चयन पर बहुत अधिक निर्भर करता है।

की छवि

चित्र 1: विभिन्न ए, बी मापदंडों के लिए बीटा वितरण

बीटा वितरण का उपयोग आमतौर पर प्रायिकताओं पर वितरण को मॉडल बनाने के लिए किया जाता है और इसमें निम्नलिखित संभावना घनत्व होता है:

की छवि

समीकरण 1: बीटा पीडीएफ

जहां Where (x) गामा फ़ंक्शन और a है, वितरण के मापदंडों को बी। बीटा आमतौर पर प्रायिकता मानों के वितरण के रूप में उपयोग किया जाता है और हमें संभावना देता है कि मॉडल की गई संभाव्यता एक विशेष मान P = p0 के बराबर होती है। इसकी परिभाषा से बीटा वितरण द्विआधारी परिणामों की संभावना को मॉडल करने में सक्षम है जो मूल्यों को सही या गलत मानते हैं। पैरामीटर और बी को क्रमशः सफलता और विफलता का छद्म रूप माना जा सकता है। इस प्रकार बीटा डिस्ट्रीब्यूशन ने सफलता की संभावना को सफल होने और बी विफलताओं का मॉडल दिया।

2. डिरिचलेट वितरण

RSI डिरिचलेट वितरण एकाधिक परिणामों के लिए बीटा वितरण का सामान्यीकरण है (या दूसरे शब्दों में इसका उपयोग कई परिणामों वाली घटनाओं के लिए किया जाता है)। यह k मापदंडों के साथ पैरामीटरित हैi जो सकारात्मक होना चाहिए। डिरिचलेट वितरण बीटा वितरण के बराबर होता है जब चर k = 2 की संख्या।

की छवि

चित्र 2: विभिन्न के लिए डिरिचलेट वितरणi पैरामीटर

डिरिचलेट वितरण का उपयोग आमतौर पर प्रायिकताओं पर वितरण को मॉडल बनाने के लिए किया जाता है और इसमें निम्नलिखित संभावना घनत्व होता है:

की छवि

समीकरण 2: डिरिचलेट पीडीएफ

जहां Where (x) गामा फ़ंक्शन है, पीi [0,1] और Σp में मान लेंi= 1। Dirichlet वितरण मॉडल p का संयुक्त वितरण करता हैi और पी की संभावना देता है1=p1,P2=p2...।, पीk-1=pk-1 पी के साथk= 1 - ΣPi। बीटा के मामले में, एi मापदंडों को प्रत्येक i घटना के दिखावे के छद्म गणना के रूप में माना जा सकता है। डिरिचलेट वितरण का उपयोग k प्रतिद्वंद्वी घटनाओं के होने की संभावना को मॉडल करने के लिए किया जाता है और इसे अक्सर डिरिक्लेट (a) के रूप में दर्शाया जाता है।

3. मल्टीचोमियल लाइकेलिहुड के साथ डिरिचलेट प्रायर

जैसा कि पहले उल्लेख किया गया है कि डिरिचलेट वितरण को प्रायिकता वितरण पर वितरण के रूप में देखा जा सकता है। ऐसे मामलों में जहां हम कश्मीर घटनाओं की संभावना को मॉडल करना चाहते हैं, एक बायेसियन दृष्टिकोण का उपयोग करना होगा मल्टिनोमियल लाइकैलिटी एंड ड्यूरिचलेट प्राइज़ .

नीचे हम ऐसे मॉडल के चित्रमय मॉडल को देख सकते हैं।

की छवि

चित्रा 3: बहुराष्ट्रीय संभावना के साथ डिरिचलेट पुरस्कार के चित्रमय मॉडल

उपरोक्त चित्रमय मॉडल में, α डिरिक्लेट पुजारियों के हाइपरपैरेटर्स के साथ एक आयामी डायमेंशनल वेक्टर है, p ak डायमेंशनल वेक्टर है जिसकी प्रायिकता मान और x हैi 1 से k का स्केलर मान है जो हमें बताता है कि कौन सी घटना घटी है। अंत में हमें ध्यान देना चाहिए कि पी वेक्टर α के साथ मानकीकृत डिरिचलेट वितरण का अनुसरण करता है और इस तरह एक्स ~ पी ~ डिरिचलेट (α), जबकि xi चर असतत वितरण (बहुराष्ट्रीय) को संभावनाओं के p वेक्टर से परिचालित करते हैं। इसी तरह के पदानुक्रमित मॉडल को विभिन्न विषयों के लिए कीवर्ड आवृत्तियों के वितरण का प्रतिनिधित्व करने के लिए दस्तावेज़ वर्गीकरण में उपयोग किया जा सकता है।

4. Dirichlet वितरण के साथ परिमित मिश्रण मॉडल

डिरिचलेट वितरण का उपयोग करके हम निर्माण कर सकते हैं परिमित मिश्रण मॉडल जिसका उपयोग क्लस्टरिंग करने के लिए किया जा सकता है। मान लेते हैं कि हमारे पास निम्नलिखित मॉडल हैं:

की छवि

की छवि

की छवि

की छवि

समीकरण 3: डिरिचलेट वितरण के साथ परिमित मिश्रण मॉडल

उपरोक्त मॉडल निम्नलिखित मानता है: हमारे पास n टिप्पणियों के साथ एक डेटासेट X है और हम उस पर क्लस्टर विश्लेषण करना चाहते हैं। K एक निरंतर परिमित संख्या है जो समूहों / घटकों की संख्या दर्शाती है जिनका हम उपयोग करेंगे। सीi चर अवलोकन एक्स के क्लस्टर असाइनमेंट को स्टोर करते हैंi, वे 1 से k तक मान लेते हैं और पैरामीटर p के साथ असतत वितरण का पालन करते हैं जो घटकों की मिश्रण संभावनाएं हैं। एफ हमारे एक्स का जेनेरिक डिस्ट्रीब्यूशन है और इसे एक पैरामीटर के साथ रखा जाता है की छवि जो प्रत्येक अवलोकन के क्लस्टर असाइनमेंट पर निर्भर करता है। कुल में हमारे पास k अद्वितीय है की छवि हमारे समूहों की संख्या के बराबर पैरामीटर। की छवि वैरिएबल उन मापदंडों को संग्रहीत करता है जो जेनेरेटरी एफ वितरण को मापता है और हम मानते हैं कि यह बेस G का अनुसरण करता है0 वितरण। पी चर कश्मीर समूहों में से हर एक के लिए मिश्रण प्रतिशत संग्रहीत करता है और पैरामीटर α / k के साथ डिरिचलेट का अनुसरण करता है। अंत में α ड्यूरिचलेट वितरण के हाइपरपरमेटर्स (स्यूडोकॉट्स) के साथ एक आयामी वेक्टर है [2]।

की छवि

चित्र 4: डिरिचलेट वितरण के साथ परिमित मिश्रण मॉडल का ग्राफिकल मॉडल

मॉडल को समझाने का एक सरल और कम गणितीय तरीका निम्नलिखित है। हम मानते हैं कि हमारे डेटा को k समूहों में वर्गीकृत किया जा सकता है। प्रत्येक क्लस्टर के अपने पैरामीटर हैं की छवि और उन मापदंडों का उपयोग हमारे डेटा को उत्पन्न करने के लिए किया जाता है। मापदंडों की छवि कुछ वितरण जी का पालन करने के लिए माना जाता है0। प्रत्येक अवलोकन को वेक्टर x के साथ दर्शाया गया हैi और एसीi मान जो इंगित करता है कि यह किस क्लस्टर से संबंधित है। नतीजतन सीi एक चर के रूप में देखा जा सकता है जो एक पैरामीटर p के साथ असतत वितरण का अनुसरण करता है जो कि मिश्रण की संभावनाओं के अलावा और कुछ नहीं है, अर्थात प्रत्येक क्लस्टर की घटना की संभावना। यह देखते हुए कि हम अपनी समस्या को बायेसियन तरीके से संभालते हैं, हम पैरामीटर पी को एक निरंतर अज्ञात वेक्टर के रूप में नहीं मानते हैं। इसके बजाय हम मानते हैं कि पी डिरिचलेट का अनुसरण करता है जो हाइपरपरमेटर्स α / k द्वारा संचालित होता है।

5. अनंत कश्मीर समूहों के साथ काम करना

पिछला मिश्रण मॉडल हमें एक अप्रचलित सीखने का प्रदर्शन करने की अनुमति देता है, एक बायेसियन दृष्टिकोण का अनुसरण करता है और एक पदानुक्रमित संरचना के लिए बढ़ाया जा सकता है। फिर भी यह एक परिमित मॉडल है क्योंकि यह एक निरंतर पूर्वनिर्धारित कश्मीर संख्याओं का उपयोग करता है। परिणामस्वरूप हमें क्लस्टर विश्लेषण करने से पहले घटकों की संख्या को परिभाषित करने की आवश्यकता होती है और जैसा कि हमने पहले अधिकांश अनुप्रयोगों में चर्चा की थी यह अज्ञात है और आसानी से अनुमान नहीं लगाया जा सकता है।

इसे हल करने का एक तरीका यह कल्पना करना है कि k का एक बहुत बड़ा मूल्य है जो अनंत तक जाता है। दूसरे शब्दों में, हम इस मॉडल की सीमा की कल्पना कर सकते हैं जब k अनंत में जाता है। यदि यह मामला है, तो हम देख सकते हैं कि इसके बावजूद क्लस्टर k की संख्या अनंत है, सक्रिय क्लस्टर की वास्तविक संख्या (जिनके पास कम से कम एक अवलोकन है), n से बड़ा नहीं हो सकता (जो हमारे डेटासेट में टिप्पणियों की कुल संख्या)। वास्तव में जैसा कि हम बाद में देखेंगे, सक्रिय समूहों की संख्या n की तुलना में काफी कम होगी और वे आनुपातिक होंगे की छवि.

बेशक k की सीमा को अनंत तक ले जाना गैर-तुच्छ है। कई सवाल उठते हैं कि क्या इस तरह की सीमा लेना संभव है, यह मॉडल कैसा दिखेगा और हम कैसे निर्माण कर सकते हैं और इस तरह के एक मॉडल का उपयोग करें।

अगले लेख में हम इन प्रश्नों पर ध्यान केंद्रित करेंगे: हम डिरिक्लेट प्रक्रिया को परिभाषित करेंगे, हम DP के विभिन्न अभ्यावेदन प्रस्तुत करेंगे और अंत में हम चाइनीज़ रेस्तरां प्रक्रिया पर ध्यान केंद्रित करेंगे जो एक Dirichlet प्रक्रिया के निर्माण का एक सहज और कुशल तरीका है।

मुझे उम्मीद है कि आपको यह पोस्ट उपयोगी लगी होगी। यदि आपने कृपया फेसबुक और ट्विटर पर लेख को साझा करने के लिए एक क्षण लिया। 🙂

समय टिकट:

से अधिक दातुनॉक्स