ए/बी टेस्टिंग में पी-वैल्यू का विकल्प

कुल भिन्नता दूरी पर उच्च-संभाव्यता निचली सीमाएं (एचपीएलबी) ए/बी परीक्षण में एक एकीकृत आकर्षक परीक्षण आंकड़े को कैसे जन्म दे सकती हैं

चित्र 1: मूल पेपर से चित्र (लेखकों द्वारा)

योगदानकर्ता: लोरिस मिशेल, जेफ़री नैफ़

सामान्य ए/बी परीक्षण के शास्त्रीय चरण, यानी यह तय करना कि क्या अवलोकनों के दो समूह अलग-अलग वितरण (जैसे पी और क्यू) से आते हैं, ये हैं:

  • एक शून्य और एक वैकल्पिक परिकल्पना मान लें (यहाँ क्रमशः, P=Q और P≠Q);
  • महत्व अल्फा के स्तर को परिभाषित करें;
  • एक सांख्यिकीय परीक्षण का निर्माण करें (एक द्विआधारी निर्णय जो शून्य या नहीं को अस्वीकार करता है);
  • एक परीक्षण आँकड़ा प्राप्त करें टी;
  • टी के अनुमानित/स्पर्शोन्मुख/सटीक शून्य वितरण से एक पी-मान प्राप्त करें।

हालाँकि, जब ऐसा परीक्षण शून्य को अस्वीकार कर देता है, अर्थात जब पी-मान महत्वपूर्ण होता है (किसी दिए गए स्तर पर) तब भी हमारे पास यह मापने का अभाव होता है कि पी और क्यू के बीच अंतर कितना मजबूत है। वास्तव में, किसी परीक्षण की अस्वीकृति स्थिति आधुनिक अनुप्रयोगों (जटिल डेटा) में बेकार जानकारी बन सकती है क्योंकि पर्याप्त नमूना आकार (एक निश्चित स्तर और शक्ति मानते हुए) के साथ कोई भी परीक्षण शून्य को अस्वीकार कर देगा (क्योंकि यह शायद ही कभी सटीक होता है) सत्य)। उदाहरण के लिए, यह जानना दिलचस्प हो सकता है कि कितने डेटा बिंदु वितरण अंतर का समर्थन कर रहे हैं।

इसलिए, P और Q के परिमित नमूनों के आधार पर, "क्या P, Q से भिन्न है?" से बेहतर प्रश्न है। इसे इस प्रकार कहा जा सकता है "अवलोकनों के अंश पर एक संभाव्य निचली सीमा क्या है λ वास्तव में पी और क्यू के बीच वितरण में अंतर का समर्थन करती है?"। यह औपचारिक रूप से उच्च संभावना (जैसे 1-अल्फा) के साथ λˆ ≤ λ को संतुष्ट करने वाले अनुमान λˆ के निर्माण में तब्दील हो जाएगा। हम ऐसे अनुमान को नाम देते हैं उच्च संभावना निचली सीमा (एचपीएलबी) λ पर।

इस कहानी में हम ए/बी परीक्षण में एचपीएलबी के उपयोग को प्रेरित करना चाहते हैं और एक तर्क देना चाहते हैं कि λ के लिए सही धारणा क्यों है कुल भिन्नता दूरी पी और क्यू के बीच, यानी टीवी (पी, क्यू)। हम ऐसे एचपीएलबी के निर्माण के बारे में स्पष्टीकरण और विवरण किसी अन्य लेख में रखेंगे। आप हमेशा हमारी जाँच कर सकते हैं पेपr अधिक जानकारी के लिए.

कुल भिन्नता दूरी क्यों?

कुल भिन्नता दूरी संभावनाओं के लिए एक मजबूत (ठीक) मीट्रिक है। इसका मतलब यह है कि यदि दो संभाव्यता वितरण भिन्न हैं तो उनकी कुल भिन्नता दूरी गैर-शून्य होगी। इसे आमतौर पर सेट पर संभावनाओं की अधिकतम असहमति के रूप में परिभाषित किया जाता है। हालाँकि, यह संभावनाओं P और Q के बीच माप के एक अलग परिवहन के रूप में अधिक सहज प्रतिनिधित्व का आनंद लेता है (चित्र 2 देखें):

संभाव्यता माप पी और क्यू के बीच कुल भिन्नता दूरी संभाव्यता द्रव्यमान का वह अंश है जिसे संभाव्यता माप क्यू (या इसके विपरीत) प्राप्त करने के लिए पी से बदलने/स्थानांतरित करने की आवश्यकता होगी।

व्यावहारिक रूप से कुल भिन्नता दूरी उन बिंदुओं के अंश को दर्शाती है जो P और Q के बीच भिन्न हैं, जो λ के लिए बिल्कुल सही धारणा है।

चित्र 2: संभवतः द्रव्यमान में अंतर के रूप में टीवी (पी, क्यू) का ऊपरी बाएँ प्रतिनिधित्व। शीर्ष दाईं ओर टीवी (पी, क्यू) की सामान्य परिभाषा अधिकतम संभाव्यता असहमति (सिग्मा-बीजगणित पर) के रूप में है। पी और क्यू (लेखकों द्वारा) से भिन्न द्रव्यमान के अंश के रूप में असतत इष्टतम परिवहन सूत्रीकरण के नीचे।

एचपीएलबी का उपयोग कैसे करें और इसका लाभ क्या है?

अनुमान λˆ ए/बी परीक्षण के लिए आकर्षक है क्योंकि इस एकल संख्या में दोनों शामिल हैं आंकड़ों की महत्ता (जैसा कि पी-वैल्यू करता है) और प्रभावी आकार अनुमान। इसका उपयोग इस प्रकार किया जा सकता है:

  • आत्मविश्वास स्तर (1-अल्फा) परिभाषित करें;
  • दो नमूनों के आधार पर एचपीएलबी λˆ का निर्माण करें;
  • यदि λˆ शून्य है तो शून्य को अस्वीकार न करें, अन्यथा यदि λˆ > 0 है, तो शून्य को अस्वीकार करें और निष्कर्ष निकालें कि λ (विभिन्न भिन्न) प्रायिकता 1-अल्फा के साथ कम से कम λˆ है।

बेशक भुगतान करने की कीमत यह है कि λˆ का मूल्य चुने गए आत्मविश्वास स्तर (1-अल्फा) पर निर्भर करता है जबकि पी-मूल्य इससे स्वतंत्र है। फिर भी, व्यवहार में आत्मविश्वास का स्तर बहुत अधिक भिन्न नहीं होता (आमतौर पर 95% पर सेट होता है)।

चिकित्सा में प्रभाव के आकार के उदाहरण पर विचार करें। एक नई दवा का प्रयोगात्मक समूह में महत्वपूर्ण प्रभाव होना आवश्यक है, प्लेसबो समूह की तुलना में, जिसे दवा नहीं मिली। लेकिन यह भी मायने रखता है कि असर कितना बड़ा है. इस प्रकार, किसी को केवल पी-वैल्यू के बारे में बात नहीं करनी चाहिए, बल्कि प्रभाव आकार का कुछ माप भी देना चाहिए। यह अब अच्छे चिकित्सा अनुसंधान में व्यापक रूप से मान्यता प्राप्त है। दरअसल, उपचार और नियंत्रण समूहों के बीच अंतर का वर्णन करने के लिए टीवी (पी, क्यू) की गणना करने के लिए अधिक सहज दृष्टिकोण का उपयोग करने वाले दृष्टिकोण का उपयोग यूनीवेरिएट सेटिंग में किया गया है। हमारा एचपीएलबी दृष्टिकोण महत्व के साथ-साथ प्रभाव आकार दोनों प्रदान करता है। आइए इसे एक उदाहरण से स्पष्ट करें:

चलिए एक उदाहरण बनाते हैं

हम दो आयामों में दो वितरण P और Q का अनुकरण करते हैं। इस प्रकार P केवल एक बहुभिन्नरूपी सामान्य होगा, जबकि Q एक है मिश्रण पी और स्थानांतरित माध्य के साथ एक बहुभिन्नरूपी सामान्य के बीच।

पुस्तकालय(एमवीटीनॉर्म)
पुस्तकालय(एचपीएलबी)
सेट.बीज(1)
n<-2000
पी<-2
#बड़ा डेल्टा -> P और Q के बीच अधिक अंतर
#छोटा डेल्टा -> P और Q के बीच कम अंतर
डेल्टा<-0
# दिए गए डेल्टा के लिए X~P और Y~Q का अनुकरण करें
यू<-रूनिफ(एन)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=delta)*rmvnorm(n=n, माध्य=rep(2,p), sig=diag(p))+ (1-(U <=delta))*rmvnorm(n=n, sig=diag(p))
प्लॉट(Y, cex=0.8, col='डार्कब्लू'')
अंक(एक्स, सीईएक्स=0.8, कॉल='लाल'')

मिश्रण भार डेल्टा यह नियंत्रित करता है कि दोनों वितरण कितने मजबूत हैं। डेल्टा को 0 से 0.9 तक बदलते हुए यह इस प्रकार दिखता है:

डेल्टा=0 (ऊपर दाएँ), डेल्टा=0.05, (ऊपर बाएँ), डेल्टा=0.3 (नीचे दाएँ) और डेल्टा=0.8 (नीचे बाएँ) के साथ डेटा अनुकरण करें। स्रोत: लेखक

फिर हम इनमें से प्रत्येक परिदृश्य के लिए एचपीएलबी की गणना कर सकते हैं:

#प्रत्येक मामले के लिए एचपीएलबी का अनुमान लगाएं (डेल्टा बदलें और कोड दोबारा चलाएं)
t.ट्रेन<- c(प्रतिनिधि(0,n/2), प्रतिनिधि(1,n/2) )
xy.train <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.परीक्षण<- c(प्रतिनिधि(0,n/2), प्रतिनिधि(1,n/2) )
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
आरएफ <- रेंजर::रेंजर(t~., data.frame(t=t.train,x=xy.train))
rho <- भविष्यवाणी(आरएफ, डेटा.फ्रेम(t=t.test,x=xy.test))$भविष्यवाणियां
टीवीहैट <- एचपीएलबी(टी = टी.परीक्षण, आरएचओ = आरएचओ, अनुमानक.प्रकार = "अनुकूलन")
tvwhat

यदि हम ऊपर दिए गए बीज के साथ ऐसा करते हैं, तो हम

विभिन्न डेल्टाओं के लिए अनुमानित मान।

इस प्रकार एचपीएलबी (i) यह पता लगाने में सफल होता है कि वास्तव में दो वितरणों में कोई बदलाव नहीं हुआ है, यानी जब डेल्टा शून्य होता है तो यह शून्य होता है, (ii) जब डेल्टा केवल 0.05 होता है तो पहले से ही बेहद छोटे अंतर का पता लगाता है और (iii) यह पता लगाता है कि डेल्टा शून्य है अंतर जितना बड़ा होगा डेल्टा उतना ही बड़ा होगा। फिर से इन मूल्यों के बारे में याद रखने वाली महत्वपूर्ण बात यह है कि उनका वास्तव में कुछ मतलब है - मान 0.64 उच्च संभावना वाले सच्चे टीवी के लिए निचली सीमा होगी। विशेष रूप से, प्रत्येक संख्या जो बड़ी शून्य है, का मतलब एक परीक्षण है कि P=Q को 5% स्तर पर अस्वीकार कर दिया गया है।

निष्कर्ष:

जब ए/बी परीक्षण (दो-नमूना परीक्षण) की बात आती है तो ध्यान अक्सर सांख्यिकीय परीक्षण की अस्वीकृति स्थिति पर होता है। जब कोई परीक्षण शून्य वितरण को अस्वीकार करता है, तो व्यवहार में वितरण अंतर की तीव्रता मापना उपयोगी होता है। कुल भिन्नता दूरी पर उच्च-संभावना वाली निचली सीमा के निर्माण के माध्यम से, हम अलग-अलग होने की उम्मीद वाले अवलोकनों के अंश पर निचली सीमा का निर्माण कर सकते हैं और इस प्रकार वितरण में अंतर और बदलाव की तीव्रता का एक एकीकृत उत्तर प्रदान कर सकते हैं। .

अस्वीकरण और संसाधन: हम जानते हैं कि हमने कई विवरण (दक्षता, एचपीएलबी का निर्माण, बिजली अध्ययन, ...) छोड़ दिए हैं, लेकिन उम्मीद है कि सोच का एक क्षितिज खुला रहेगा। Mअयस्क विवरण और मौजूदा परीक्षणों की तुलना हमारे यहां पाई जा सकती है पेपr और सीआरएएन पर आर-पैकेज एचपीएलबी देखें।

ए/बी परीक्षण में पी-वैल्यू का एक विकल्प स्रोत https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 से https के माध्यम से पुनर्प्रकाशित ://towardsdatascience.com/feed

<!–

->

समय टिकट:

से अधिक ब्लॉकचेन कंसल्टेंट्स