A/B পরীক্ষায় P-মানগুলির একটি বিকল্প৷

প্লেটো দ্বারা প্রকাশিত

অনুসরণকারী: 0

মোট বৈচিত্র্য দূরত্বের উচ্চ-সম্ভাব্যতা নিম্ন সীমা (HPLBs) কিভাবে A/B পরীক্ষায় একটি সমন্বিত আবেদনময় পরীক্ষার পরিসংখ্যানের দিকে নিয়ে যেতে পারে

চিত্র 1: মূল কাগজ থেকে চিত্র (লেখকদের দ্বারা)

একটি সাধারণ A/B পরীক্ষার শাস্ত্রীয় ধাপ, অর্থাৎ পর্যবেক্ষণের দুটি গ্রুপ বিভিন্ন বিতরণ থেকে এসেছে কিনা তা নির্ধারণ করা (বলুন P এবং Q), হল:

একটি নাল এবং একটি বিকল্প হাইপোথিসিস অনুমান করুন (এখানে যথাক্রমে, P=Q এবং P≠Q);
তাত্পর্য আলফা একটি স্তর সংজ্ঞায়িত;
একটি পরিসংখ্যান পরীক্ষা তৈরি করুন (একটি বাইনারি সিদ্ধান্ত বাতিল বা না প্রত্যাখ্যান);
একটি পরীক্ষার পরিসংখ্যান T আহরণ করুন;
T-এর আনুমানিক/অ্যাসিম্পোটিক/সঠিক নাল ডিস্ট্রিবিউশন থেকে একটি পি-মান পান।

যাইহোক, যখন এই ধরনের পরীক্ষা নালকে প্রত্যাখ্যান করে, অর্থাৎ যখন p-মান গুরুত্বপূর্ণ (একটি প্রদত্ত স্তরে) তখনও P এবং Q-এর মধ্যে পার্থক্য কতটা শক্তিশালী তার পরিমাপের অভাব আমাদের কাছে থাকে। প্রকৃতপক্ষে, একটি পরীক্ষার প্রত্যাখ্যানের স্থিতি আধুনিক অ্যাপ্লিকেশনগুলিতে (জটিল ডেটা) অকেজো তথ্য হিসাবে পরিণত হতে পারে কারণ পর্যাপ্ত নমুনার আকার (একটি নির্দিষ্ট স্তর এবং শক্তি ধরে নেওয়া) সহ যে কোনও পরীক্ষা নালকে প্রত্যাখ্যান করার প্রবণতা রাখে (যেহেতু এটি খুব কমই সঠিক হয়) সত্য)। উদাহরণস্বরূপ, কতগুলি ডেটা পয়েন্ট একটি বন্টনগত পার্থক্যকে সমর্থন করছে সে সম্পর্কে ধারণা থাকা আকর্ষণীয় হতে পারে।

অতএব, P এবং Q থেকে সসীম নমুনার উপর ভিত্তি করে, "P কি Q থেকে আলাদা?" এর চেয়ে একটি সূক্ষ্ম প্রশ্ন। হিসাবে বলা যেতে পারে "পরীক্ষণের ভগ্নাংশের উপর একটি সম্ভাব্য নিম্ন সীমা কি λ আসলে P এবং Q এর মধ্যে বন্টনের পার্থক্যকে সমর্থন করে?"। এটি আনুষ্ঠানিকভাবে উচ্চ সম্ভাবনা সহ একটি অনুমান λˆ সন্তোষজনক λˆ ≤ λ নির্মাণে অনুবাদ করবে (বলুন 1-আলফা)। আমরা যেমন একটি অনুমান একটি নাম উচ্চ সম্ভাবনা নিম্ন আবদ্ধ (HPLB) λ.

এই গল্পে আমরা A/B পরীক্ষায় HPLB-এর ব্যবহারকে অনুপ্রাণিত করতে চাই এবং একটি যুক্তি দিতে চাই কেন λ এর জন্য সঠিক ধারণা মোট বৈচিত্র দূরত্ব P এবং Q এর মধ্যে, অর্থাৎ TV(P, Q)। আমরা অন্য একটি নিবন্ধের জন্য এই ধরনের একটি HPLB নির্মাণ সম্পর্কে ব্যাখ্যা এবং বিবরণ রাখব। আপনি সবসময় আমাদের চেক করতে পারেন Paper আরো বিস্তারিত জানার জন্য.

কেন মোট তারতম্য দূরত্ব?

সম্ভাব্যতার জন্য মোট বৈচিত্র্য দূরত্ব একটি শক্তিশালী (সূক্ষ্ম) মেট্রিক। এর মানে হল যদি দুটি সম্ভাব্যতা বণ্টন ভিন্ন হয় তাহলে তাদের মোট প্রকরণ দূরত্ব হবে অ-শূন্য। এটি সাধারণত সেটে সম্ভাব্যতার সর্বাধিক মতানৈক্য হিসাবে সংজ্ঞায়িত করা হয়। যাইহোক, এটি সম্ভাব্যতা P এবং Q এর মধ্যে পরিমাপের একটি পৃথক পরিবহন হিসাবে আরও স্বজ্ঞাত উপস্থাপনা উপভোগ করে (চিত্র 2 দেখুন):

সম্ভাব্যতা পরিমাপ P এবং Q এর মধ্যে মোট বৈচিত্র্য দূরত্ব হল সম্ভাব্য ভরের ভগ্নাংশ যেটি সম্ভাব্যতা পরিমাপ Q (বা বিপরীত) পেতে P থেকে পরিবর্তন/সরানো প্রয়োজন।

ব্যবহারিক পরিভাষায় মোট প্রকরণ দূরত্ব P এবং Q-এর মধ্যে পার্থক্যকারী বিন্দুর ভগ্নাংশকে প্রতিনিধিত্ব করে, যা λ-এর জন্য সঠিক ধারণা।

চিত্র 2: সম্ভবত ভরের পার্থক্য হিসাবে TV(P, Q) এর উপরের বাম উপস্থাপনা। উপরে ডানদিকে স্বাভাবিক সংজ্ঞা TV(P, Q) হিসাবে সর্বাধিক সম্ভাব্যতা মতানৈক্য (একটি সিগমা-বীজগণিতের উপরে)। P এবং Q (লেখকদের দ্বারা) থেকে পৃথক ভরের ভগ্নাংশ হিসাবে বিচ্ছিন্ন সর্বোত্তম পরিবহন সূত্রের নীচে।

কিভাবে একটি HPLB ব্যবহার করবেন এবং এর সুবিধা?

অনুমান λˆ A/B পরীক্ষার জন্য আবেদন করছে কারণ এই একক সংখ্যা উভয়ই অন্তর্ভুক্ত করে পরিসংখ্যানিক গুরুত্ব (p-মান যেমন করে) এবং প্রভাব আকার অনুমান এটি নিম্নরূপ ব্যবহার করা যেতে পারে:

একটি আত্মবিশ্বাসের স্তর সংজ্ঞায়িত করুন (1-আলফা);
দুটি নমুনার উপর ভিত্তি করে HPLB λˆ তৈরি করুন;
যদি λˆ শূন্য হয় তবে নালটিকে প্রত্যাখ্যান করবেন না, অন্যথায় যদি λˆ > 0, নালটিকে প্রত্যাখ্যান করে এবং উপসংহারে পৌঁছান যে λ (ভিন্ন ভগ্নাংশ) সম্ভাব্যতা 1-আলফা সহ কমপক্ষে λˆ।

অবশ্যই যে মূল্য দিতে হবে তা হল λˆ এর মান নির্বাচিত আত্মবিশ্বাসের স্তরের (1-আলফা) উপর নির্ভর করে যেখানে একটি p-মান এটি থেকে স্বাধীন। তবুও, অনুশীলনে আত্মবিশ্বাসের মাত্রা খুব বেশি পরিবর্তিত হয় না (সাধারণত 95% সেট)।

ওষুধে প্রভাব আকারের উদাহরণ বিবেচনা করুন। একটি নতুন ওষুধের পরীক্ষামূলক গোষ্ঠীতে একটি উল্লেখযোগ্য প্রভাব থাকা দরকার, একটি প্লাসিবো গ্রুপের তুলনায়, যা ওষুধ গ্রহণ করেনি। তবে প্রভাব কতটা বড় তাও গুরুত্বপূর্ণ। যেমন, একজনকে কেবল পি-মান সম্পর্কে কথা বলা উচিত নয়, তবে প্রভাবের আকারের কিছু পরিমাপও দেওয়া উচিত। এটি এখন ভাল চিকিৎসা গবেষণায় ব্যাপকভাবে স্বীকৃত। প্রকৃতপক্ষে, টিভি(P,Q) গণনা করার জন্য একটি আরও স্বজ্ঞাত পদ্ধতি ব্যবহার করে একটি পদ্ধতি ব্যবহার করা হয়েছে চিকিত্সা এবং নিয়ন্ত্রণ গ্রুপের মধ্যে পার্থক্য বর্ণনা করার জন্য একক সেটিংয়ে। আমাদের এইচপিএলবি পদ্ধতি তাত্পর্যের পরিমাপের পাশাপাশি প্রভাবের আকার উভয়ই প্রদান করে। আসুন একটি উদাহরণে এটি ব্যাখ্যা করি:

এর একটি উদাহরণ করা যাক

আমরা দুটি ডিস্ট্রিবিউশন P এবং Q দুটি মাত্রায় অনুকরণ করি। P এর ফলে একটি মাল্টিভেরিয়েট স্বাভাবিক হবে, যখন Q হল a মিশ্রণ স্থানান্তরিত গড় সহ P এবং একটি মাল্টিভেরিয়েট স্বাভাবিকের মধ্যে।

লাইব্রেরি(mvtnorm)
গ্রন্থাগার (HPLB)set.seed(1)
n<-2000
p<-2# বড় ডেল্টা -> P এবং Q-এর মধ্যে আরও পার্থক্য
# ছোট ডেল্টা -> P এবং Q এর মধ্যে কম পার্থক্য
ডেল্টা <-0# প্রদত্ত ডেল্টার জন্য X~P এবং Y~Q অনুকরণ করুন
U<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=ডেল্টা)*rmvnorm(n=n, mean=rep(2,p), sig=diag(p))+ (1-(U <=ডেল্টা))*rmvnorm(n=n, sig=diag(p))প্লট(Y, cex=0.8, col="darkblue")
পয়েন্ট (X, cex=0.8, col="red")

মিশ্রণের ওজন ব-দ্বীপ নিয়ন্ত্রণ করে কতটা শক্তিশালী দুটি ডিস্ট্রিবিউশন আলাদা। 0 থেকে 0.9 পর্যন্ত পরিবর্তিত ডেল্টা এটির মত দেখাচ্ছে:

ডেল্টা=0 (উপরে ডানে), ডেল্টা=0.05, (উপরে বাম), ডেল্টা=0.3 (নীচে ডানদিকে) এবং ডেল্টা=0.8 (নীচে বাম) দিয়ে ডেটা অনুকরণ করুন। সূত্র: লেখক

তারপরে আমরা এই প্রতিটি পরিস্থিতির জন্য HPLB গণনা করতে পারি:

# প্রতিটি ক্ষেত্রে এইচপিএলবি অনুমান করুন (ডেল্টা পরিবর্তন করুন এবং কোড পুনরায় চালান)
t.train<- c(rep(0,n/2), rep(1,n/2) )
xy.train <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(rep(0,n/2), rep(1,n/2) )
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- ranger::ranger(t~., data.frame(t=t.train,x=xy.train))
rho <- predict(rf, data.frame(t=t.test,x=xy.test))$ predictionstvhat <- HPLB(t = t.test, rho = rho, estimator.type = "অ্যাডাপ্ট")
tvhat

যদি আমরা উপরে সেট করা বীজ দিয়ে তা করি

এইভাবে এইচপিএলবি (i) সনাক্ত করতে পরিচালনা করে যখন দুটি বিতরণে প্রকৃতপক্ষে কোন পরিবর্তন হয় না, অর্থাৎ ডেল্টা শূন্য হলে এটি শূন্য হয়, (ii) ডেল্টা মাত্র 0.05 হলে ইতিমধ্যেই অত্যন্ত ছোট পার্থক্য সনাক্ত করে এবং (iii) সনাক্ত করে যে পার্থক্য বৃহত্তর বদ্বীপ. আবার এই মানগুলি সম্পর্কে মনে রাখা গুরুত্বপূর্ণ বিষয় হল যে তারা সত্যিই কিছু বোঝায় — মান 0.64 উচ্চ সম্ভাবনা সহ সত্যিকারের টিভির জন্য একটি নিম্ন আবদ্ধ হবে। বিশেষ করে, শূন্যের চেয়ে বড় প্রতিটি সংখ্যার অর্থ হল একটি পরীক্ষা যা P=Q 5% স্তরে প্রত্যাখ্যাত হয়েছে।

উপসংহার:

যখন এটি A/B পরীক্ষার (দুই-নমুনা পরীক্ষা) আসে তখন ফোকাস প্রায়শই একটি পরিসংখ্যানগত পরীক্ষার প্রত্যাখ্যান অবস্থার উপর থাকে। যখন একটি পরীক্ষা নাল বন্টন প্রত্যাখ্যান করে, তবে বন্টনগত পার্থক্যের তীব্রতা পরিমাপ করা অনুশীলনে কার্যকর। মোট বৈচিত্র্যের দূরত্বে উচ্চ-সম্ভাব্যতা নিম্ন সীমানা নির্মাণের মাধ্যমে, আমরা পর্যবেক্ষণের ভগ্নাংশের উপর একটি নিম্ন-বাউন্ড তৈরি করতে পারি যা ভিন্ন হতে পারে এবং এইভাবে বন্টনের পার্থক্য এবং স্থানান্তরের তীব্রতার একটি সমন্বিত উত্তর প্রদান করতে পারি। .

দাবিত্যাগ এবং সম্পদ: আমরা সচেতন যে আমরা অনেক বিবরণ (দক্ষতা, এইচপিএলবি নির্মাণ, পাওয়ার স্টাডিজ, …) বাদ দিয়েছি কিন্তু চিন্তার দিগন্ত উন্মুক্ত করার আশা করছি। Mআকরিক বিবরণ এবং বিদ্যমান পরীক্ষার তুলনা আমাদের পাওয়া যাবে Paper এবং CRAN-এ আর-প্যাকেজ HPLB চেক করুন।

A/B পরীক্ষায় p-মানগুলির একটি বিকল্প উৎস থেকে পুনঃপ্রকাশিত https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 https এর মাধ্যমে ://towardsdatascience.com/feed

<!–

সময় স্ট্যাম্প: নভেম্বর 10, 2022নভেম্বর 11, 2022