शुरुआती लोगों के लिए क्रुस्कल वालिस टेस्ट

क्रुस्कल वालिस टेस्ट: उद्देश्य, दायरा, धारणाएं, उदाहरण, पायथन कार्यान्वयन

द्वारा फोटो रोमन मैगर on Unsplash

क्रुस्कल वालिस यह मूल्यांकन करने के लिए एक गैर-पैरामीट्रिक विधि है कि क्या नमूने समान वितरण से आते हैं। इसका उपयोग दो से अधिक स्वतंत्र या असंबंधित नमूनों की तुलना में किया जाता है। विचरण का एक-तरफ़ा विश्लेषण (एनोवा) क्रुस्कल-वालिस परीक्षण का पैरामीट्रिक तुल्यता है।

1.1 एक अच्छा व्यावसायिक उपयोग मामला क्या होगा?

आइए एक नई लॉन्च की गई दवा पर फार्मा कंपनी द्वारा चलाए गए अभियान के प्रभाव को मापें, जहां हमारे पास 1,550 लक्ष्य और 500 होल्डआउट हैं। हमने प्रिस्क्रिप्शन व्यवहार वितरण को देखा और इसे गैर-सामान्य (तिरछा) पाया, लेकिन प्रत्येक समूह (लक्ष्य और होल्डआउट) के लिए समान रूप से आकार दिया। हम एनोवा प्रदर्शन नहीं कर सकते; इसलिए हम एक गैर-पैरामीट्रिक परीक्षण, क्रुस्कल-वालिस लागू करते हैं।

चूंकि क्रुस्कल वालिस एक गैर-पैरामीट्रिक परीक्षण है, इसलिए ऐसी कोई धारणा नहीं है कि डेटा सामान्य रूप से वितरित किया जाता है (एनोवा के विपरीत)।

  1. तथ्यात्मक शून्य परिकल्पना यह है कि जिन आबादी से नमूने उत्पन्न होते हैं उनकी माध्यिका समान होती है।
  2. क्रुस्कल-वालिस परीक्षण का सबसे अधिक उपयोग तब किया जाता है जब एक विशेषता चर और एक माप चर होता है, और माप चर एनोवा (सामान्यता और समरूपता) की मान्यताओं को पूरा नहीं करता है।
  3. अधिकांश गैर-पैरामीट्रिक परीक्षणों की तरह, यह रैंक किए गए डेटा पर किया जाता है, इसलिए माप अवलोकनों को समग्र डेटा सेट का उपयोग करके उनके रैंक में परिवर्तित किया जाता है: सबसे छोटे या सबसे कम मान को 1 का रैंक मिलता है, अगले सबसे छोटे को 2 का रैंक मिलता है, निम्नलिखित 3 की रैंक, इत्यादि। टाई के मामले में, औसत रैंक पर विचार किया जाता है।
  4. मूल मूल्यों के लिए रैंकों को प्रतिस्थापित करने में जानकारी का नुकसान इसे एनोवा की तुलना में कम शक्तिशाली परीक्षण बनाता है, इसलिए यदि डेटा मान्यताओं को पूरा करता है तो एनोवा का उपयोग किया जाना चाहिए.

क्रुस्कल-वालिस परीक्षण की शून्य परिकल्पना को कभी-कभी यह कहा जाता है कि समूह माध्यिकाएँ बराबर हैं। हालाँकि, यह तभी सटीक है जब आप मानते हैं कि प्रत्येक समूह की वितरणात्मक विशेषताएँ समान हैं। भले ही माध्यिकाएँ समान हों, यदि वितरण भिन्न हो तो क्रुस्कल-वालिस परीक्षण शून्य परिकल्पना को अस्वीकार कर सकता है।

क्रुस्कल-वालिस सांख्यिकी का उपयोग करके विभिन्न आकारों के समूहों की जांच की जा सकती है। क्रुस्कल-वालिस परीक्षण, विचरण के तुलनीय एक-तरफ़ा विश्लेषण के विपरीत, सामान्य वितरण नहीं मानता क्योंकि यह एक गैर-पैरामीट्रिक प्रक्रिया है। हालाँकि, परीक्षण यह मानता है कि मध्यस्थों में किसी भी भिन्नता को छोड़कर, प्रत्येक समूह का वितरण समान रूप से आकार और स्केल किया गया है।

क्रुस्कल वालिस का उपयोग यह विश्लेषण करने के लिए किया जा सकता है कि क्या परीक्षण और नियंत्रण ने अलग-अलग प्रदर्शन किया है। जब डेटा विषम (गैर-सामान्य वितरण) होता है, तो परीक्षण बिना किसी कारण स्थापित किए बताएगा कि क्या दोनों समूह अलग-अलग हैं। यह व्यवहार में अंतर का कारण नहीं बताएगा।

4.1 परीक्षण कैसे काम करता है?

क्रुस्कल वालिस 1 (सबसे मामूली) से शुरू करके सभी अवलोकनों को रैंकिंग देकर काम करता है। रैंकिंग सभी डेटा बिंदुओं के लिए की जाती है, चाहे वे किसी भी समूह से संबंधित हों। बंधे हुए मूल्यों को वह औसत रैंक प्राप्त होती है जो उन्हें प्राप्त होती यदि वे बंधे नहीं होते।

जब सभी अवलोकनों को विश्लेषण चर (निर्धारित नुस्खों की संख्या) के आधार पर एक हस्ताक्षरित रैंक दी गई है, तो उन्हें उनके लक्ष्य/होल्डआउट स्थिति के आधार पर समूहों में विभेदित/विभाजित किया जाता है। उसके बाद, प्रत्येक समूह की औसत रैंक की गणना की जाती है और तुलना की जाती है।

इस समूह के लिए पहल या प्रचार प्रयास शुरू होने के बाद से लक्ष्य को होल्डआउट्स की तुलना में उच्च औसत रैंक की उम्मीद है। महत्वपूर्ण पी-वैल्यू के साथ, टारगेट होल्डआउट्स से बेहतर प्रदर्शन कर रहा है। यहां चुनौती यह है कि लक्ष्य समूह की औसत रैंक आउटलेर्स की उपस्थिति में अधिक हो सकती है, यानी, कुछ डॉक्टर दूसरों की तुलना में अधिक स्क्रिप्ट लिखते हैं। इसलिए, हम अपनी परिकल्पना को मान्य/खंडन करने के लिए हमेशा क्रुस्कल वालिस द्वारा प्राप्त अंकगणितीय माध्यिका और परिणामी पी-मूल्य को देखते हैं।

मान लीजिए कि Ni (i = 1, 2, 3, 4,…, g) डेटा में प्रत्येक g समूह (यानी, नमूने या, इस मामले में, डॉक्टरों की संख्या) के लिए नमूना आकार का प्रतिनिधित्व करता है। ri समूह I के लिए रैंकों का योग है, जिसमें ri' समूह i की औसत रैंक है। फिर क्रुस्कल वालिस परीक्षण सांख्यिकी की गणना इस प्रकार की जाती है:

फ़ॉर्मूला 1 परीक्षण आँकड़ों की गणना के लिए सूत्र का वर्णन करता है। मार्कडाउन और लेटेक्स का उपयोग करके लेखक द्वारा तैयार की गई छवि।

यदि परीक्षण आँकड़ा थ्रेशोल्ड ची-स्क्वायर मान से अधिक है तो समान जनसंख्या माध्यिकाओं की शून्य परिकल्पना खारिज कर दी जाती है। जब समान जनसंख्या की शून्य परिकल्पना सत्य होती है, तो इस आँकड़े में k-1 डिग्री की स्वतंत्रता होती है और यह काई-वर्ग वितरण का अनुमान लगाता है। सन्निकटन के सटीक होने के लिए इसमें कम से कम 5 (अर्थात्, एक समूह में कम से कम पाँच अवलोकन) के ni होने चाहिए।

फ़ॉर्मूला 2 परीक्षण के लिए पी-मान सन्निकटन के सूत्र को दर्शाता है। मार्कडाउन और लेटेक्स का उपयोग करके लेखक द्वारा तैयार की गई छवि।

ची-वर्ग संभाव्यता वितरण तालिका का उपयोग करके, हम स्वतंत्रता के जी-1 डिग्री और वांछित महत्व स्तर पर महत्वपूर्ण ची-वर्ग मान प्राप्त कर सकते हैं। वैकल्पिक रूप से, हम परिणामों के महत्व पर टिप्पणी करने के लिए पी-वैल्यू की जांच कर सकते हैं।

4.2 एच टेस्ट को हाथ से चलाएं

आइए मान लें कि एक फार्मा कंपनी यह समझना चाहती है कि क्या डॉक्टर सेगमेंट के तीन समूहों में अलग-अलग मरीज़ हैं (स्टेफ़नी ग्लेन, एनडी) उदाहरण के लिए,

प्रमुख राय नेता/केओएल (एक माह में मरीजों की संख्या): 23, 42, 55, 66, 78

विशेषज्ञ/एसपीई (एक माह में रोगी संख्या): 45, 56, 60, 70, 72

सामान्य चिकित्सक/जीपी (एक माह में मरीजों की संख्या): 18, 30, 34, 41, 44

4.2.1 डेटा को एक सेट में संयोजित करने के बाद आरोही क्रम में व्यवस्थित करें

18 23 24 30 41 42 44 एक्सएक्सएक्स 45 55 56 60 66 70 72

4.2.2 क्रमबद्ध डेटा बिंदुओं को रैंक करें। संबंधों की स्थिति में औसत का प्रयोग करें

मान: 18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

रैंक: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

4.2.3 प्रत्येक समूह के लिए रैंकों के योग की गणना करें

चित्रा 1। प्रत्येक समूह के लिए रैंकों का योग दर्शाता है। छवि क्रेडिट - लेखक द्वारा तैयार किया गया।

4.2.4 फॉर्मूला 1 और चित्र 1 से संख्याओं का उपयोग करके एच सांख्यिकी की गणना करें

फ़ॉर्मूला 3 हमारे प्रिस्क्राइबर समूह के लिए एच आँकड़ों की गणना के लिए सूत्र का वर्णन करता है। मार्कडाउन और लेटेक्स का उपयोग करके लेखक द्वारा तैयार की गई छवि।

एच = एक्सएनयूएमएक्स

4.2.5 स्वतंत्रता की जी-1 डिग्री के लिए महत्वपूर्ण ची-स्क्वायर मान की पहचान करें
एक α=0.05 जो हमारी समस्या के लिए (3-1=2 स्वतंत्रता की डिग्री) 5.99 होना चाहिए। नीचे दी गई तालिका देखें.

4.2.6 4.2.4 से एच मान की तुलना 4.2.5 से महत्वपूर्ण मान से करें

शून्य परिकल्पना जिसमें कहा गया है कि तीन अलग-अलग समूहों में औसत रोगी की मात्रा बराबर है, को अस्वीकार कर दिया जाना चाहिए यदि महत्वपूर्ण ची-स्क्वायर मान एच सांख्यिकी से छोटा है। चूँकि 5.99 (महत्वपूर्ण मान) <6.72, हम शून्य परिकल्पना को अस्वीकार कर सकते हैं।

यह अनुमान लगाने के लिए और अधिक साक्ष्य की आवश्यकता है कि यदि ची-स्क्वायर मान ऊपर गणना की गई एच सांख्यिकी से कम नहीं है, तो माध्यिकाएं असमान हैं।

शून्य परिकल्पना कि सभी समूहों की जनसंख्या माध्यिकाएँ समान हैं, क्रुस्कल-वालिस एच-परीक्षण का उपयोग करके परीक्षण किया गया है। यह एक एनोवा संस्करण है जो गैर-पैरामीट्रिक है। परीक्षण विभिन्न आकारों के दो या अधिक स्वतंत्र नमूनों का उपयोग करता है। ध्यान दें कि शून्य परिकल्पना का खंडन करने से यह पता नहीं चलता कि समूह कैसे भिन्न हैं। यह पहचानने के लिए कि कौन से समूह भिन्न हैं, समूहों के बीच पोस्ट हॉक तुलना आवश्यक है।

scipy आयात आँकड़ों से
एक्स = [1, 3, 5, 8, 9, 12, 17]
y = [2, 6, 6, 8, 10, 15, 20, 22]
आँकड़े.क्रुस्कल(x, y)
KruskalResult(सांख्यिकी=0.7560483870967752, pvalue=0.3845680059797648)प्रिंट(np.median(x))
प्रिंट(np.median(y))
8.0
9.0
प्रिंट(np.mean(x))
प्रिंट(np.mean(y))
7.86
11.12

पायथन द्वारा उत्पन्न आउटपुट ऊपर दिखाया गया है। यह ध्यान दिया जाना चाहिए कि यद्यपि दोनों श्रेणियों में मूल्यों के माध्य में एक उल्लेखनीय अंतर देखा गया है, मध्यिका को ध्यान में रखते समय यह अंतर महत्वहीन है क्योंकि पी-मूल्य 5% से कहीं अधिक है।

क्रुस्कल वालिस परीक्षण विशेष रूप से तिरछे नमूनों से निपटने में सहायक होता है। अभियान रोलआउट के दौरान या यहां तक ​​कि ए/बी परीक्षण करते समय परीक्षण नियंत्रण समूह के लिए इसका व्यापक रूप से उपयोग किया जा सकता है। यह अधिकांश उद्योग उपयोग के मामलों पर लागू होता है क्योंकि खुदरा क्षेत्र में ग्राहकों या फार्मास्युटिकल परिदृश्य में डॉक्टरों के साथ व्यवहार करते समय प्रत्येक ग्राहक का व्यवहार अलग-अलग होता है। जब हम टोकरी के आकार या रोगी की मात्रा को देखते हैं, तो कुछ ग्राहक अधिक खरीदते हैं, जबकि कुछ डॉक्टरों के पास अधिक रोगी होते हैं। इसलिए इस तरह के विषम वितरण के लिए, यह जांचने के लिए क्रुस्कल वालिस परीक्षण करना महत्वपूर्ण है कि क्या व्यवहार समान हैं।

स्टेफ़नी ग्लेन. "क्रुस्कल वालिस एच टेस्ट: परिभाषा, उदाहरण, धारणाएं, एसपीएसएस" से सांख्यिकीHowTo.com: हममें से बाकी लोगों के लिए प्राथमिक आँकड़े! https://www.statisticshowto.com/probability-and-statistics/statistics-definitions/kruskal-wallis/

शुरुआती लोगों के लिए क्रुस्कल वालिस टेस्ट स्रोत से पुनर्प्रकाशित https://towardsdatascience.com/kruskal-wallis-test-for-beginners-4fe9b0333b31?source=rss—-7f60cf5620c9—4 https://towardsdatascience.com/feed के माध्यम से

<!–

->

समय टिकट:

से अधिक ब्लॉकचेन कंसल्टेंट्स