10 में आपको 2023 अद्भुत मशीन लर्निंग विज़ुअलाइज़ेशन के बारे में पता होना चाहिए

कम कोड के साथ मशीन लर्निंग प्लॉट बनाने के लिए येलोब्रिक

द्वारा फोटो डेविड पिसनॉय on Unsplash

मशीन लर्निंग में डेटा विज़ुअलाइज़ेशन एक महत्वपूर्ण भूमिका निभाता है।

मशीन लर्निंग में डेटा विज़ुअलाइज़ेशन उपयोग के मामलों में शामिल हैं:

  • हाइपरपरमीटर ट्यूनिंग
  • मॉडल प्रदर्शन मूल्यांकन
  • मॉडल मान्यताओं को मान्य करना
  • आउटलेर्स ढूँढना
  • सबसे महत्वपूर्ण विशेषताओं का चयन करना
  • सुविधाओं के बीच पैटर्न और सहसंबंध की पहचान करना

वे विज़ुअलाइज़ेशन जो मशीन लर्निंग में उपरोक्त प्रमुख चीज़ों से सीधे संबंधित होते हैं, कहलाते हैं मशीन लर्निंग विज़ुअलाइज़ेशन.

मशीन लर्निंग विज़ुअलाइज़ेशन बनाना कभी-कभी एक जटिल प्रक्रिया होती है क्योंकि इसे पायथन में भी लिखने के लिए बहुत सारे कोड की आवश्यकता होती है। लेकिन, पायथन के ओपन-सोर्स को धन्यवाद पीली ईंट लाइब्रेरी, यहां तक ​​कि जटिल मशीन लर्निंग विज़ुअलाइज़ेशन भी कम कोड के साथ बनाया जा सकता है। वह लाइब्रेरी स्किकिट-लर्न एपीआई का विस्तार करती है और विज़ुअल डायग्नोस्टिक्स के लिए उच्च-स्तरीय फ़ंक्शन प्रदान करती है जो स्किकिट-लर्न द्वारा प्रदान नहीं किए जाते हैं।

आज, मैं निम्नलिखित प्रकार के मशीन लर्निंग विज़ुअलाइज़ेशन, उनके उपयोग के मामलों और येलोब्रिक कार्यान्वयन पर विस्तार से चर्चा करूंगा।

येलोब्रिक एमएल विज़ुअलाइज़ेशन
-----------------------------
01. प्रिंसिपल कंपोनेंट प्लॉट
02. सत्यापन वक्र
03. सीखने की अवस्था
04. कोहनी का प्लॉट
05. सिल्हूट प्लॉट
06. वर्ग असंतुलन प्लॉट
07. अवशिष्ट प्लॉट
08. भविष्यवाणी त्रुटि प्लॉट
09. कुक की दूरी का प्लॉट
10. फ़ीचर महत्व प्लॉट

स्थापना

येलोब्रिक की स्थापना निम्नलिखित आदेशों में से किसी एक को चलाकर की जा सकती है।

  • रंज पैकेज संस्थापक:
पिप येलोब्रिक स्थापित करें
  • कोंडा पैकेज संस्थापक:
कोंडा इंस्टाल -सी डिस्ट्रिक्टडेटलैब्स येलोब्रिक

येलोब्रिक का उपयोग करना

येलोब्रिक विज़ुअलाइज़र में स्किकिट-लर्न-जैसा सिंटैक्स होता है। विज़ुअलाइज़र एक ऑब्जेक्ट है जो विज़ुअलाइज़ेशन उत्पन्न करने के लिए डेटा से सीखता है। इसका उपयोग अक्सर स्किकिट-लर्न अनुमानक के साथ किया जाता है। विज़ुअलाइज़र को प्रशिक्षित करने के लिए, हम इसकी फिट() विधि कहते हैं।

कथानक सहेजा जा रहा है

येलोब्रिक विज़ुअलाइज़र का उपयोग करके बनाए गए प्लॉट को सहेजने के लिए, हम शो() विधि को निम्नानुसार कहते हैं। यह प्लॉट को डिस्क पर पीएनजी फ़ाइल के रूप में सहेजेगा।

विज़ुअलाइज़र.शो (आउटपाथ = "name_of_the_plot.png")

प्रयोग

प्रमुख घटक प्लॉट 2डी या 3डी स्कैटर प्लॉट में उच्च-आयामी डेटा की कल्पना करता है। इसलिए, यह प्लॉट उच्च-आयामी डेटा में महत्वपूर्ण पैटर्न की पहचान करने के लिए बेहद उपयोगी है।

येलोब्रिक कार्यान्वयन

इस कथानक को पारंपरिक पद्धति से बनाना जटिल और समय लेने वाला है। हमें पहले डेटासेट पर पीसीए लागू करना होगा और फिर स्कैटर प्लॉट बनाने के लिए मैटप्लोटलिब लाइब्रेरी का उपयोग करना होगा।

इसके बजाय, हम समान कार्यक्षमता प्राप्त करने के लिए येलोब्रिक के पीसीए विज़ुअलाइज़र क्लास का उपयोग कर सकते हैं। यह प्रमुख घटक विश्लेषण पद्धति का उपयोग करता है, डेटासेट की आयामीता को कम करता है और कोड की 2 या 3 पंक्तियों के साथ स्कैटर प्लॉट बनाता है! हमें बस PCA() वर्ग में कुछ कीवर्ड तर्क निर्दिष्ट करने की आवश्यकता है।

आइए इसे और समझने के लिए एक उदाहरण लेते हैं। यहां, हम इसका उपयोग करते हैं स्तन कैंसर डेटासेट (देखें) उद्धरण अंत में) जिसमें 30 विशेषताएँ और दो वर्गों के 569 नमूने हैं (घातक और सौम्य). डेटा में उच्च आयामीता (30 विशेषताएं) के कारण, मूल डेटा को 2डी या 3डी स्कैटर प्लॉट में प्लॉट करना असंभव है जब तक कि हम डेटासेट पर पीसीए लागू नहीं करते।

निम्नलिखित कोड बताता है कि हम 2-आयामी डेटासेट का 30डी स्कैटर प्लॉट बनाने के लिए येलोब्रिक के पीसीए विज़ुअलाइज़र का उपयोग कैसे कर सकते हैं।

(लेखक द्वारा कोड)
प्रधान घटक प्लॉट - 2डी (छवि लेखक द्वारा)

हम सेटिंग करके 3डी स्कैटर प्लॉट भी बना सकते हैं projection=3पीसीए() वर्ग में।

(लेखक द्वारा कोड)
प्रधान घटक प्लॉट - 3डी (छवि लेखक द्वारा)

पीसीए विज़ुअलाइज़र के सबसे महत्वपूर्ण मापदंडों में शामिल हैं:

  • पैमाने: बूल, डिफ़ॉल्ट True. यह इंगित करता है कि डेटा को स्केल किया जाना चाहिए या नहीं। हमें पीसीए चलाने से पहले डेटा स्केल करना चाहिए। बारे में और सीखो यहाँ उत्पन्न करें.
  • प्रक्षेपण: int, डिफ़ॉल्ट 2 है। कब projection=2, एक 2डी स्कैटर प्लॉट बनाया जाता है। कब projection=3, एक 3डी स्कैटर प्लॉट बनाया जाता है।
  • कक्षाएं: सूची, डिफ़ॉल्ट None. यह y में प्रत्येक वर्ग के लिए वर्ग लेबल को इंगित करता है। कक्षा के नाम किंवदंती के लेबल होंगे।

प्रयोग

सत्यापन वक्र a के प्रभाव को दर्शाता है एक ट्रेन और सत्यापन सेट पर हाइपरपैरामीटर। वक्र को देखकर, हम दिए गए हाइपरपैरामीटर के निर्दिष्ट मानों के लिए मॉडल की ओवरफिटिंग, अंडरफिटिंग और बिल्कुल सही स्थिति निर्धारित कर सकते हैं। जब एक साथ ट्यून करने के लिए कई हाइपरपैरामीटर होते हैं, तो सत्यापन वक्र का उपयोग नहीं किया जा सकता है। प्रेरित होकर, आप ग्रिड खोज या यादृच्छिक खोज का उपयोग कर सकते हैं।

येलोब्रिक कार्यान्वयन

पारंपरिक पद्धति से सत्यापन वक्र बनाना जटिल और समय लेने वाला है। इसके बजाय, हम येलोब्रिक के वैलिडेशनकर्व विज़ुअलाइज़र का उपयोग कर सकते हैं।

येलोबिर्क में एक सत्यापन वक्र बनाने के लिए, हम उसी का उपयोग करके एक यादृच्छिक वन वर्गीकरणकर्ता का निर्माण करेंगे स्तन कैंसर डेटासेट (देखें) उद्धरण अंत में)। हम के प्रभाव की साजिश रचेंगे अधिकतम गहराई यादृच्छिक वन मॉडल में हाइपरपैरामीटर।

निम्नलिखित कोड बताता है कि हम येलोब्रिक के वैलिडेशनकर्व विज़ुअलाइज़र का उपयोग करके एक सत्यापन वक्र कैसे बना सकते हैं स्तन कैंसर डाटासेट।

(लेखक द्वारा कोड)
सत्यापन वक्र (छवि लेखक द्वारा)

के बाद मॉडल ओवरफिट होना शुरू हो जाता है अधिकतम गहराई का मान 6. कब max_depth=6, मॉडल प्रशिक्षण डेटा को बहुत अच्छी तरह से फिट करता है और नए अनदेखे डेटा पर भी अच्छी तरह से सामान्यीकरण करता है।

वैलिडेशनकर्व विज़ुअलाइज़र के सबसे महत्वपूर्ण मापदंडों में शामिल हैं:

  • अनुमानक: यह कोई भी स्किकिट-लर्न एमएल मॉडल हो सकता है जैसे निर्णय वृक्ष, रैंडम फ़ॉरेस्ट, सपोर्ट वेक्टर मशीन, आदि।
  • परम_नाम: यह उस हाइपरपैरामीटर का नाम है जिसे हम मॉनिटर करना चाहते हैं।
  • परम_श्रेणी: इसमें संभावित मान शामिल हैं परम_नाम.
  • सीवी: int, क्रॉस-वैलिडेशन के लिए फ़ोल्ड की संख्या को परिभाषित करता है।
  • स्कोरिंग: स्ट्रिंग, इसमें मॉडल की स्कोरिंग की विधि शामिल है। वर्गीकरण के लिए, शुद्धता पसंद है।

प्रयोग

सीखने की अवस्था युगों की संख्या या प्रशिक्षण उदाहरणों की संख्या के विरुद्ध प्रशिक्षण और सत्यापन त्रुटियों या सटीकता को प्लॉट करती है। आप सोच सकते हैं कि सीखना और सत्यापन वक्र दोनों समान दिखाई देते हैं, लेकिन पुनरावृत्तियों की संख्या सीखने के वक्र के एक्स-अक्ष में प्लॉट की जाती है जबकि हाइपरपैरामीटर के मान सत्यापन वक्र के एक्स-अक्ष में प्लॉट किए जाते हैं।

सीखने की अवस्था के उपयोगों में शामिल हैं:

  • पता लगाने के लिए सीखने की अवस्था का उपयोग किया जाता है अंडरफिटिंग, ओवरफिटिंग और बस सही मॉडल की शर्तें.
  • सीखने की अवस्था का उपयोग पहचानने के लिए किया जाता है sकम अभिसरण, दोलन, विचलन के साथ दोलन कर रहा है और उचित अभिसरण तंत्रिका नेटवर्क या एमएल मॉडल की इष्टतम सीखने की दर का पता लगाते समय परिदृश्य।
  • सीखने की अवस्था का उपयोग यह देखने के लिए किया जाता है कि अधिक प्रशिक्षण डेटा जोड़ने से हमारे मॉडल को कितना लाभ होता है। जब इस तरह से उपयोग किया जाता है, तो एक्स-अक्ष प्रशिक्षण उदाहरणों की संख्या दिखाता है।

येलोब्रिक कार्यान्वयन

पारंपरिक पद्धति से सीखने की अवस्था बनाना जटिल और समय लेने वाला है। इसके बजाय, हम येलोब्रिक के लर्निंगकर्व विज़ुअलाइज़र का उपयोग कर सकते हैं।

येलोबिर्क में एक सीखने की अवस्था तैयार करने के लिए, हम इसका उपयोग करके एक सपोर्ट वेक्टर क्लासिफायरियर बनाएंगे स्तन कैंसर डेटासेट (देखें) उद्धरण अंत में)।

निम्नलिखित कोड बताता है कि हम सत्यापन वक्र बनाने के लिए येलोब्रिक के लर्निंगकर्व विज़ुअलाइज़र का उपयोग कैसे कर सकते हैं स्तन कैंसर डाटासेट।

(लेखक द्वारा कोड)
सीखने की अवस्था (छवि लेखक द्वारा)

अधिक प्रशिक्षण उदाहरण जोड़ने से मॉडल को कोई लाभ नहीं होगा। मॉडल को पहले ही 569 प्रशिक्षण उदाहरणों के साथ प्रशिक्षित किया जा चुका है। 175 प्रशिक्षण उदाहरणों के बाद सत्यापन सटीकता में सुधार नहीं हो रहा है।

लर्निंगकर्व विज़ुअलाइज़र के सबसे महत्वपूर्ण मापदंडों में शामिल हैं:

  • अनुमानक: यह कोई भी स्किकिट-लर्न एमएल मॉडल हो सकता है जैसे निर्णय वृक्ष, रैंडम फ़ॉरेस्ट, सपोर्ट वेक्टर मशीन, आदि।
  • सीवी: int, क्रॉस-वैलिडेशन के लिए फ़ोल्ड की संख्या को परिभाषित करता है।
  • स्कोरिंग: स्ट्रिंग, इसमें मॉडल की स्कोरिंग की विधि शामिल है। वर्गीकरण के लिए, शुद्धता पसंद है।

प्रयोग

एल्बो प्लॉट का उपयोग के-मीन्स क्लस्टरिंग में क्लस्टर की इष्टतम संख्या का चयन करने के लिए किया जाता है। मॉडल उस बिंदु पर सबसे अच्छा फिट बैठता है जहां लाइन चार्ट में कोहनी होती है। कोहनी चार्ट पर विभक्ति का बिंदु है।

येलोब्रिक कार्यान्वयन

पारंपरिक विधि से एल्बो प्लॉट बनाना जटिल और समय लेने वाला है। इसके बजाय, हम येलोब्रिक के केल्बोविज़ुअलाइज़र का उपयोग कर सकते हैं।

येलोबिर्क में एक सीखने की अवस्था तैयार करने के लिए, हम इसका उपयोग करके एक K-मीन्स क्लस्टरिंग मॉडल बनाएंगे ईरिस डेटासेट (देखें) उद्धरण अंत में)।

निम्नलिखित कोड बताता है कि हम एल्बो प्लॉट बनाने के लिए येलोब्रिक के केल्बोविज़ुअलाइज़र का उपयोग कैसे कर सकते हैं ईरिस डाटासेट।

(लेखक द्वारा कोड)
कोहनी का प्लॉट (छवि लेखक द्वारा)

RSI कोहनी k=4 पर होता है (एक धराशायी रेखा के साथ एनोटेट किया गया)। कथानक इंगित करता है कि मॉडल के लिए क्लस्टर की इष्टतम संख्या 4 है। दूसरे शब्दों में, मॉडल 4 क्लस्टर के साथ अच्छी तरह से फिट है।

KElbowVisualizer के सबसे महत्वपूर्ण मापदंडों में शामिल हैं:

  • अनुमानक: के-मीन्स मॉडल उदाहरण
  • k: int या टुपल. यदि एक पूर्णांक है, तो यह (2, k) की सीमा में समूहों के लिए स्कोर की गणना करेगा। यदि एक टुपल है, तो यह दी गई सीमा में समूहों के लिए स्कोर की गणना करेगा, उदाहरण के लिए, (3, 11)।

प्रयोग

सिल्हूट प्लॉट का उपयोग के-मीन्स क्लस्टरिंग में क्लस्टर की इष्टतम संख्या का चयन करने और क्लस्टर असंतुलन का पता लगाने के लिए भी किया जाता है। यह प्लॉट एल्बो प्लॉट की तुलना में बहुत सटीक परिणाम प्रदान करता है।

येलोब्रिक कार्यान्वयन

पारंपरिक विधि से सिल्हूट प्लॉट बनाना जटिल और समय लेने वाला है। इसके बजाय, हम येलोब्रिक के सिल्हूटविज़ुअलाइज़र का उपयोग कर सकते हैं।

येलोबिर्क में एक सिल्हूट प्लॉट बनाने के लिए, हम इसका उपयोग करके एक K-मीन्स क्लस्टरिंग मॉडल बनाएंगे ईरिस डेटासेट (देखें) उद्धरण अंत में)।

निम्नलिखित कोड ब्लॉक बताते हैं कि हम सिल्हूट प्लॉट बनाने के लिए येलोब्रिक के सिल्हूट विज़ुअलाइज़र का उपयोग कैसे कर सकते हैं ईरिस विभिन्न k (क्लस्टरों की संख्या) मानों वाला डेटासेट।

कश्मीर = 2

(लेखक द्वारा कोड)
2 क्लस्टर के साथ सिल्हूट प्लॉट (k=2), (छवि लेखक द्वारा)

KMeans() वर्ग में समूहों की संख्या को बदलकर, हम k=3, k=4 और k=5 होने पर सिल्हूट प्लॉट बनाने के लिए उपरोक्त कोड को अलग-अलग समय पर निष्पादित कर सकते हैं।

कश्मीर = 3

3 क्लस्टर के साथ सिल्हूट प्लॉट (k=3), (छवि लेखक द्वारा)

कश्मीर = 4

4 क्लस्टर के साथ सिल्हूट प्लॉट (k=4), (छवि लेखक द्वारा)

कश्मीर = 5

4 क्लस्टर के साथ सिल्हूट प्लॉट (k=5), (छवि लेखक द्वारा)

सिल्हूट प्लॉट में प्रति क्लस्टर एक चाकू का आकार होता है। प्रत्येक चाकू का आकार सलाखों द्वारा बनाया जाता है जो क्लस्टर में सभी डेटा बिंदुओं का प्रतिनिधित्व करता है। तो, चाकू के आकार की चौड़ाई क्लस्टर में सभी उदाहरणों की संख्या का प्रतिनिधित्व करती है। बार की लंबाई प्रत्येक उदाहरण के लिए सिल्हूट गुणांक का प्रतिनिधित्व करती है। धराशायी रेखा सिल्हूट स्कोर को इंगित करती है - स्रोत: हैंड्स-ऑन के-मीन्स क्लस्टरिंग (मेरे द्वारा लिखित).

चाकू के आकार की लगभग समान चौड़ाई वाला एक प्लॉट हमें बताता है कि क्लस्टर अच्छी तरह से संतुलित हैं और प्रत्येक क्लस्टर के भीतर लगभग समान संख्या में उदाहरण हैं - के-मीन्स क्लस्टरिंग में सबसे महत्वपूर्ण धारणाओं में से एक।

जब चाकू के आकार की सलाखें धराशायी रेखा का विस्तार करती हैं, तो क्लस्टर अच्छी तरह से अलग हो जाते हैं - के-मीन्स क्लस्टरिंग में एक और महत्वपूर्ण धारणा।

जब k=3, क्लस्टर अच्छी तरह से संतुलित और अच्छी तरह से अलग होते हैं। तो, हमारे उदाहरण में क्लस्टर की इष्टतम संख्या 3 है।

सिल्हूटविज़ुअलाइज़र के सबसे महत्वपूर्ण मापदंडों में शामिल हैं:

  • अनुमानक: के-मीन्स मॉडल उदाहरण
  • रंग की: स्ट्रिंग, प्रत्येक चाकू के आकार के लिए उपयोग किए जाने वाले रंगों का एक संग्रह। 'येलोब्रिक' या मैटप्लोटलिब कलर मैप स्ट्रिंग्स में से एक जैसे 'एक्सेंट', 'सेट1', आदि।

प्रयोग

वर्ग असंतुलन प्लॉट वर्गीकरण डेटासेट में लक्ष्य कॉलम में वर्गों के असंतुलन का पता लगाता है।

वर्ग असंतुलन तब होता है जब एक वर्ग में दूसरे वर्ग की तुलना में काफी अधिक उदाहरण होते हैं। उदाहरण के लिए, स्पैम ईमेल पहचान से संबंधित डेटासेट में "स्पैम नहीं" श्रेणी के लिए 9900 उदाहरण और "स्पैम" श्रेणी के लिए केवल 100 उदाहरण हैं। यह मॉडल अल्पसंख्यक वर्ग को पकड़ने में विफल रहेगा स्पैम वर्ग)। इसके परिणामस्वरूप, वर्ग असंतुलन होने पर मॉडल अल्पसंख्यक वर्ग की भविष्यवाणी करने में सटीक नहीं होगा - स्रोत: शीर्ष 20 मशीन लर्निंग और डीप लर्निंग गलतियाँ जो पर्दे के पीछे गुप्त रूप से होती हैं (मेरे द्वारा लिखित).

येलोब्रिक कार्यान्वयन

पारंपरिक पद्धति से वर्ग असंतुलन की साजिश बनाना जटिल और समय लेने वाला है। इसके बजाय, हम येलोब्रिक के क्लासबैलेंस विज़ुअलाइज़र का उपयोग कर सकते हैं।

येलोबिर्क में वर्ग असंतुलन की साजिश रचने के लिए, हम इसका उपयोग करेंगे स्तन कैंसर डेटासेट (वर्गीकरण डेटासेट, देखें उद्धरण अंत में)।

निम्नलिखित कोड बताता है कि हम क्लास असंतुलन प्लॉट बनाने के लिए येलोब्रिक के क्लासबैलेंस विज़ुअलाइज़र का उपयोग कैसे कर सकते हैं स्तन कैंसर डाटासेट।

(लेखक द्वारा कोड)
वर्ग असंतुलन प्लॉट (छवि लेखक द्वारा)

इसमें 200 से अधिक उदाहरण हैं घातक कक्षा और 350 से अधिक उदाहरण सौम्य कक्षा। इसलिए, हम यहां बहुत अधिक वर्ग असंतुलन नहीं देख सकते हैं, हालांकि उदाहरण दोनों वर्गों के बीच समान रूप से वितरित नहीं हैं।

क्लासबैलेंस विज़ुअलाइज़र के सबसे महत्वपूर्ण मापदंडों में शामिल हैं:

  • लेबल: सूची, लक्ष्य कॉलम में अद्वितीय वर्गों के नाम।

प्रयोग

रैखिक प्रतिगमन में अवशिष्ट प्लॉट का उपयोग प्रतिगमन मॉडल में त्रुटियों के विचरण का विश्लेषण करके यह निर्धारित करने के लिए किया जाता है कि क्या अवशिष्ट (अवलोकित मूल्य-अनुमानित मूल्य) असंबद्ध (स्वतंत्र) हैं।

अवशिष्ट कथानक भविष्यवाणियों के विरुद्ध अवशिष्टों को आलेखित करके बनाया जाता है। यदि पूर्वानुमानों और अवशेषों के बीच किसी प्रकार का पैटर्न है, तो यह पुष्टि करता है कि फिट किया गया प्रतिगमन मॉडल सही नहीं है। यदि बिंदु x-अक्ष के चारों ओर बेतरतीब ढंग से फैले हुए हैं, तो प्रतिगमन मॉडल डेटा के साथ अच्छी तरह फिट बैठता है।

येलोब्रिक कार्यान्वयन

पारंपरिक विधि से अवशिष्ट प्लॉट बनाना जटिल और समय लेने वाला है। इसके बजाय, हम येलोब्रिक के रेसिडुअल्सप्लॉट विज़ुअलाइज़र का उपयोग कर सकते हैं।

येलोबिर्क में अवशिष्ट प्लॉट बनाने के लिए, हम इसका उपयोग करेंगे विज्ञापन (विज्ञापन.सीएसवीदेखते हैं, उद्धरण अंत में) डेटासेट।

निम्नलिखित कोड बताता है कि कैसे हम येलोब्रिक के रेसिडुअल्सप्लॉट विज़ुअलाइज़र का उपयोग करके एक अवशिष्ट प्लॉट बना सकते हैं विज्ञापन डाटासेट।

(लेखक द्वारा कोड)
अवशिष्ट प्लॉट (छवि लेखक द्वारा)

हम अवशिष्ट कथानक में भविष्यवाणियों और अवशिष्टों के बीच किसी प्रकार का गैर-रेखीय पैटर्न स्पष्ट रूप से देख सकते हैं। फिटेड रिग्रेशन मॉडल सही नहीं है, लेकिन यह काफी अच्छा है।

ResidualsPlot विज़ुअलाइज़र के सबसे महत्वपूर्ण मापदंडों में शामिल हैं:

  • अनुमानक: यह कोई भी स्किकिट-लर्न रिग्रेसर हो सकता है।
  • इतिहास: बूल, डिफ़ॉल्ट True. क्या अवशेषों का हिस्टोग्राम प्लॉट करना है, जिसका उपयोग किसी अन्य धारणा की जांच करने के लिए किया जाता है - अवशेषों को लगभग सामान्य रूप से माध्य 0 और एक निश्चित मानक विचलन के साथ वितरित किया जाता है।

प्रयोग

रैखिक प्रतिगमन में भविष्यवाणी त्रुटि प्लॉट एक ग्राफिकल विधि है जिसका उपयोग प्रतिगमन मॉडल का मूल्यांकन करने के लिए किया जाता है।

पूर्वानुमान त्रुटि प्लॉट वास्तविक लक्ष्य मानों के विरुद्ध पूर्वानुमानों को प्लॉट करके बनाया जाता है।

यदि मॉडल बहुत सटीक भविष्यवाणी करता है, तो बिंदु 45-डिग्री रेखा पर होने चाहिए। अन्यथा, बिंदु उस रेखा के चारों ओर बिखरे हुए हैं।

येलोब्रिक कार्यान्वयन

पारंपरिक पद्धति से भविष्यवाणी त्रुटि प्लॉट बनाना जटिल और समय लेने वाला है। इसके बजाय, हम येलोब्रिक के PredictionError विज़ुअलाइज़र का उपयोग कर सकते हैं।

येलोबिर्क में एक भविष्यवाणी त्रुटि प्लॉट तैयार करने के लिए, हम इसका उपयोग करेंगे विज्ञापन (विज्ञापन.सीएसवीदेखते हैं, उद्धरण अंत में) डेटासेट।

निम्नलिखित कोड बताता है कि हम येलोब्रिक के प्रेडिक्शन एरर विज़ुअलाइज़र का उपयोग करके अवशिष्ट प्लॉट बनाने के लिए कैसे उपयोग कर सकते हैं विज्ञापन डाटासेट।

(लेखक द्वारा कोड)
भविष्यवाणी त्रुटि प्लॉट (छवि लेखक द्वारा)

बिंदु बिल्कुल 45-डिग्री रेखा पर नहीं हैं, लेकिन मॉडल काफी अच्छा है।

PredictionError विज़ुअलाइज़र के सबसे महत्वपूर्ण मापदंडों में शामिल हैं:

  • अनुमानक: यह कोई भी स्किकिट-लर्न रिग्रेसर हो सकता है।
  • पहचान: बूल, डिफ़ॉल्ट True. 45 डिग्री की रेखा खींचनी है या नहीं.

प्रयोग

कुक की दूरी रैखिक प्रतिगमन पर उदाहरणों के प्रभाव को मापती है। बड़े प्रभाव वाले उदाहरणों को आउटलेयर माना जाता है। बड़ी संख्या में आउटलेर्स वाला डेटासेट प्रीप्रोसेसिंग के बिना रैखिक प्रतिगमन के लिए उपयुक्त नहीं है। बस, कुक की दूरी प्लॉट का उपयोग डेटासेट में आउटलेर्स का पता लगाने के लिए किया जाता है।

येलोब्रिक कार्यान्वयन

पारंपरिक विधि से कुक की दूरी का प्लॉट बनाना जटिल और समय लेने वाला है। इसके बजाय, हम येलोब्रिक के कुक्सडिस्टेंस विज़ुअलाइज़र का उपयोग कर सकते हैं।

येलोबिर्क में कुक की दूरी का प्लॉट बनाने के लिए, हम इसका उपयोग करेंगे विज्ञापन (विज्ञापन.सीएसवीदेखते हैं, उद्धरण अंत में) डेटासेट।

निम्नलिखित कोड बताता है कि कैसे हम कुक की दूरी का प्लॉट बनाने के लिए येलोब्रिक के कुक्सडिस्टेंस विज़ुअलाइज़र का उपयोग कर सकते हैं विज्ञापन डाटासेट।

(लेखक द्वारा कोड)
कुक की दूरी का प्लॉट (छवि लेखक द्वारा)

कुछ अवलोकन हैं जो दहलीज (क्षैतिज लाल) रेखा का विस्तार करते हैं। वे आउटलेयर हैं. इसलिए, हमें कोई भी प्रतिगमन मॉडल बनाने से पहले डेटा तैयार करना चाहिए।

कुक्सडिस्टेंस विज़ुअलाइज़र के सबसे महत्वपूर्ण मापदंडों में शामिल हैं:

  • ड्रा_थ्रेसहोल्ड: बूल, डिफ़ॉल्ट True. क्या दहलीज रेखा खींचनी है.

प्रयोग

एमएल मॉडल तैयार करने के लिए न्यूनतम आवश्यक महत्वपूर्ण विशेषताओं का चयन करने के लिए फीचर महत्व प्लॉट का उपयोग किया जाता है। चूँकि सभी सुविधाएँ मॉडल में समान योगदान नहीं देती हैं, इसलिए हम मॉडल से कम महत्वपूर्ण सुविधाएँ हटा सकते हैं। इससे मॉडल की जटिलता कम हो जाएगी. सरल मॉडलों को प्रशिक्षित करना और व्याख्या करना आसान होता है।

फीचर महत्व कथानक प्रत्येक फीचर के सापेक्ष महत्व की कल्पना करता है।

येलोब्रिक कार्यान्वयन

पारंपरिक पद्धति से फीचर महत्व का प्लॉट बनाना जटिल और समय लेने वाला है। इसके बजाय, हम येलोब्रिक के फ़ीचरइम्पोर्टेंस विज़ुअलाइज़र का उपयोग कर सकते हैं।

येलोबिर्क में एक फीचर महत्व प्लॉट तैयार करने के लिए, हम इसका उपयोग करेंगे स्तन कैंसर डेटासेट (देखें) उद्धरण अंत में) जिसमें 30 विशेषताएं हैं।

निम्नलिखित कोड बताता है कि हम फीचर महत्व प्लॉट बनाने के लिए येलोब्रिक के फ़ीचरइम्पोर्टेंस विज़ुअलाइज़र का उपयोग कैसे कर सकते हैं स्तन कैंसर डाटासेट।

(लेखक द्वारा कोड)
फ़ीचर महत्व प्लॉट (छवि लेखक द्वारा)

डेटासेट की सभी 30 विशेषताओं का मॉडल में बहुत अधिक योगदान नहीं है। हम डेटासेट से छोटी पट्टियों वाली सुविधाओं को हटा सकते हैं और चयनित सुविधाओं के साथ मॉडल को दोबारा फिट कर सकते हैं।

फ़ीचरइम्पोर्टेंस विज़ुअलाइज़र के सबसे महत्वपूर्ण मापदंडों में शामिल हैं:

  • अनुमानक: कोई स्किकिट-लर्न अनुमानक जो दोनों का समर्थन करता है feature_importances_ विशेषता या coef_ विशेषता।
  • रिश्तेदार: बूल, डिफ़ॉल्ट True. क्या सापेक्ष महत्व को प्रतिशत के रूप में आलेखित किया जाना चाहिए। अगर False, सुविधा महत्व का कच्चा संख्यात्मक स्कोर दिखाया गया है।
  • शुद्ध: बूल, डिफ़ॉल्ट False. क्या ऋणात्मक चिह्नों से बचकर केवल गुणांकों के परिमाण पर विचार किया जाए।
  1. प्रमुख घटक प्लॉट: पीसीए(), उपयोग - 2डी या 3डी स्कैटर प्लॉट में उच्च-आयामी डेटा को विज़ुअलाइज़ करता है जिसका उपयोग उच्च-आयामी डेटा में महत्वपूर्ण पैटर्न की पहचान करने के लिए किया जा सकता है।
  2. सत्यापन वक्र: प्रमाणीकरणवक्र(), उपयोग - ए का प्रभाव प्लॉट करता है एक ट्रेन और सत्यापन सेट पर हाइपरपैरामीटर।
  3. सीखने की अवस्था: सीखने की अवस्था(), उपयोग - पता लगाता है अंडरफिटिंग, ओवरफिटिंग और बस सही एक मॉडल की स्थितियाँ, पहचानती है sकम अभिसरण, दोलन, विचलन के साथ दोलन कर रहा है और उचित अभिसरण तंत्रिका नेटवर्क की इष्टतम सीखने की दर का पता लगाते समय परिदृश्य, दिखाता है कि अधिक प्रशिक्षण डेटा जोड़ने से हमारे मॉडल को कितना लाभ होता है।
  4. कोहनी का प्लॉट: केल्बोविज़ुअलाइज़र(), उपयोग - के-मीन्स क्लस्टरिंग में क्लस्टर की इष्टतम संख्या का चयन करता है।
  5. सिल्हूट प्लॉट: सिल्हूटविज़ुअलाइज़र(), उपयोग - के-मीन्स क्लस्टरिंग में क्लस्टर की इष्टतम संख्या का चयन करता है, के-मीन्स क्लस्टरिंग में क्लस्टर असंतुलन का पता लगाता है।
  6. वर्ग असंतुलन प्लॉट: क्लासबैलेंस(), उपयोग - वर्गीकरण डेटासेट में लक्ष्य कॉलम में कक्षाओं के असंतुलन का पता लगाता है।
  7. अवशिष्ट प्लॉट: अवशिष्ट प्लॉट(), उपयोग - एक प्रतिगमन मॉडल में त्रुटियों के विचरण का विश्लेषण करके यह निर्धारित करता है कि क्या अवशेष (अवलोकित मूल्य-अनुमानित मूल्य) असंबद्ध (स्वतंत्र) हैं।
  8. भविष्यवाणी त्रुटि प्लॉट: भविष्यवाणीत्रुटि(), उपयोग - एक ग्राफिकल विधि जिसका उपयोग प्रतिगमन मॉडल का मूल्यांकन करने के लिए किया जाता है।
  9. कुक की दूरी का प्लॉट: कुक्सडिस्टेंस(), उपयोग - कुक के उदाहरणों की दूरी के आधार पर डेटासेट में आउटलेर्स का पता लगाता है।
  10. फ़ीचर महत्व प्लॉट: फ़ीचरमहत्व(), उपयोग - एमएल मॉडल तैयार करने के लिए प्रत्येक सुविधा के सापेक्ष महत्व के आधार पर न्यूनतम आवश्यक महत्वपूर्ण सुविधाओं का चयन करता है।

यह आज की पोस्ट का अंत है.

यदि आपका कोई प्रश्न या प्रतिक्रिया है तो कृपया मुझे बताएं।

आगे पढ़ें (अनुशंसित)

  • कोड की एक पंक्ति का उपयोग करके सुविधाओं के महत्व को देखने के लिए येलोब्रिक
  • सत्यापन वक्र की व्याख्या - एकल हाइपरपैरामीटर के प्रभाव को प्लॉट करें
  • तंत्रिका नेटवर्क के प्रशिक्षण प्रदर्शन का विश्लेषण करने के लिए सीखने की अवस्था को प्लॉट करना
  • हैंड्स-ऑन के-मीन्स क्लस्टरिंग

एक लेखक के रूप में मेरा समर्थन करें

मुझे आशा है कि आपको यह लेख पढ़कर आनंद आया होगा। यदि आप एक लेखक के रूप में मेरा समर्थन करना चाहते हैं, तो कृपया विचार करें सदस्यता के लिए साइन अप करना माध्यम तक असीमित पहुंच प्राप्त करने के लिए। इसकी लागत केवल $5 प्रति माह है और मुझे आपकी सदस्यता शुल्क का एक हिस्सा मिलेगा।

आपके निरंतर समर्थन के लिए बहुत बहुत धन्यवाद! अगले लेख में मिलते हैं. सभी को सीखने की शुभकामनाएँ!

स्तन कैंसर डेटासेट जानकारी

  • प्रशस्ति पत्र: दुआ, डी। और ग्रेफ, सी। (2019)। यूसीआई मशीन लर्निंग रिपोजिटरी [http://archive.ics.uci.edu/ml]। इरविन, सीए: यूनिवर्सिटी ऑफ कैलिफोर्निया, स्कूल ऑफ इंफॉर्मेशन एंड कंप्यूटर साइंस।
  • स्रोत: https://archive.ics.uci.edu/ml/datasets/breast+cancer+wisconsin+(diagnostic)
  • लाइसेंस: डॉ. विलियम एच. वोल्बर्ग (सामान्य सर्जरी विभाग)
    विस्कॉन्सिन विश्वविद्यालय), डब्ल्यू निक स्ट्रीट (कंप्यूटर विज्ञान विभाग)
    विस्कॉन्सिन विश्वविद्यालय) और ओलवी एल. मंगसेरियन (कंप्यूटर विज्ञान विभाग, विस्कॉन्सिन विश्वविद्यालय) के पास इस डेटासेट का कॉपीराइट है। निक स्ट्रीट ने इस डेटासेट को जनता के लिए दान कर दिया क्रिएटिव कॉमन्स एट्रिब्यूशन 4.0 इंटरनेशनल लाइसेंस (सीसी द्वारा 4.0). आप विभिन्न डेटासेट लाइसेंस प्रकारों के बारे में अधिक जान सकते हैं यहाँ उत्पन्न करें.

आईरिस डेटासेट जानकारी

  • प्रशस्ति पत्र: दुआ, डी। और ग्रेफ, सी। (2019)। यूसीआई मशीन लर्निंग रिपोजिटरी [http://archive.ics.uci.edu/ml]। इरविन, सीए: यूनिवर्सिटी ऑफ कैलिफोर्निया, स्कूल ऑफ इंफॉर्मेशन एंड कंप्यूटर साइंस।
  • स्रोत: https://archive.ics.uci.edu/ml/datasets/iris
  • लाइसेंस: आरए फिशर इस डेटासेट का कॉपीराइट रखता है। माइकल मार्शल ने इस डेटासेट को जनता के लिए दान कर दिया क्रिएटिव कॉमन्स पब्लिक डोमेन डेडिकेशन लाइसेंस (CC0). आप विभिन्न डेटासेट लाइसेंस प्रकारों के बारे में अधिक जान सकते हैं यहाँ उत्पन्न करें.

विज्ञापन डेटासेट जानकारी

संदर्भ

10 अद्भुत मशीन लर्निंग विज़ुअलाइज़ेशन जो आपको 2023 में जानना चाहिए, स्रोत से पुनर्प्रकाशित https://towardsdatascience.com/10-amazing-machine-learning-visualizations-you-should-know-in-2023-528282940582?source=rss—-7f60cf5620c9— 4 https://towardsdatascience.com/feed के माध्यम से

<!–

->

समय टिकट:

से अधिक ब्लॉकचेन कंसल्टेंट्स

प्राइमेक्स फाइनेंस ने अपना बीटा संस्करण लॉन्च किया, जिससे उपयोगकर्ता इसके क्रॉस-डेक्स ट्रेडिंग सुविधाओं का अनुभव कर सकें

स्रोत नोड: 1723358
समय टिकट: अक्टूबर 13, 2022