بديل لقيم p في اختبار A / B

كيف يمكن أن تؤدي الحدود المنخفضة ذات الاحتمالية العالية (HPLBs) على مسافة التباين الإجمالية إلى إحصائية اختبار جذابة متكاملة في اختبار A / B

الشكل 1: الشكل من الورقة الأصلية (بواسطة المؤلفين)

المساهمين: لوريس ميشيل, جيفري ناف

الخطوات الكلاسيكية لاختبار A / B العام ، أي تحديد ما إذا كانت مجموعتان من الملاحظات تأتيان من توزيعات مختلفة (مثل P و Q) ، هي:

  • افترض فرضية فارغة وبديلة (هنا على التوالي ، P = Q و P Q) ؛
  • تحديد مستوى الأهمية ألفا ؛
  • بناء اختبار إحصائي (قرار ثنائي يرفض الصفري أو لا) ؛
  • اشتقاق إحصاء اختبار T ؛
  • احصل على قيمة p من التوزيع الفارغ التقريبي / المقارب / الدقيق لـ T.

ومع ذلك ، عندما يرفض مثل هذا الاختبار القيمة الصفرية ، أي عندما تكون القيمة p مهمة (عند مستوى معين) ، فإننا لا نزال نفتقر إلى مقياس لمدى قوة الفرق بين P و Q. في الواقع ، يمكن أن تتحول حالة الرفض للاختبار إلى معلومات عديمة الفائدة في التطبيقات الحديثة (البيانات المعقدة) لأنه مع وجود حجم عينة كافٍ (بافتراض مستوى ثابت وقوة) ، فإن أي اختبار يميل إلى رفض الصفري (لأنه نادرًا ما يكون بالضبط حقيقي). على سبيل المثال ، قد يكون من المثير للاهتمام الحصول على فكرة عن عدد نقاط البيانات التي تدعم اختلاف التوزيع.

لذلك ، بناءً على عينات محدودة من P و Q ، فإن السؤال الدقيق هو "هل P يختلف عن Q؟" يمكن ذكرها على أنها "ما هو الحد الأدنى الاحتمالي على جزء الملاحظات - يدعم فعليًا اختلافًا في التوزيع بين P و Q؟". هذا من شأنه أن يُترجم رسميًا إلى بناء تقدير مُرضٍ λˆ ≤ λ مع احتمال كبير (لنقل 1-alpha). نحن نطلق على هذا التقدير اسم احتمالية عالية الحد الأدنى (HPLB) على λ.

في هذه القصة نريد تحفيز استخدام HPLBs في اختبار A / B وإعطاء حجة لماذا الفكرة الصحيحة لـ λ هي مسافة الاختلاف الكلي بين P و Q ، أي TV (P ، Q). سنحتفظ بالشرح والتفاصيل حول إنشاء مثل هذا HPLB لمقال آخر. يمكنك دائما التحقق من بيبr لمزيد من التفاصيل.

لماذا إجمالي مسافة التغيير؟

مسافة التباين الإجمالية هي مقياس قوي (دقيق) للاحتمالات. هذا يعني أنه إذا كان توزيعان احتماليان مختلفان ، فإن مسافة التباين الإجمالية بينهما ستكون غير صفرية. عادة ما يتم تعريفه على أنه أقصى اختلاف في الاحتمالات في المجموعات. ومع ذلك ، فإنه يتمتع بتمثيل أكثر سهولة باعتباره وسيلة نقل منفصلة للقياس بين الاحتمالات P و Q (انظر الشكل 2):

مسافة التباين الإجمالية بين مقاييس الاحتمال P و Q هي جزء الكتلة الاحتمالية التي يحتاجها المرء لتغيير / الانتقال من P للحصول على مقياس الاحتمال Q (أو العكس).

من الناحية العملية ، تمثل مسافة التباين الإجمالية جزء النقاط الذي يختلف بين P و Q ، وهو بالضبط المفهوم الصحيح لـ λ.

الشكل 2: التمثيل الأيسر العلوي للتلفزيون (P ، Q) كاختلاف في الكتلة على الأرجح. أعلى اليمين ، التعريف المعتاد مثل التلفاز (P ، Q) باعتباره الاختلاف الاحتمالي الأقصى (على جبر سيغما). أسفل صيغة النقل المثلى المنفصلة ككسر من الكتلة يختلف عن P و Q (بواسطة المؤلفين).

كيفية استخدام HPLB وميزته؟

التقدير λˆ جذاب لاختبار A / B لأن هذا الرقم الفردي يستلزم كلا من دلالة إحصائية (كما تفعل القيمة p) و حجم التأثير تقدير. يمكن استخدامه على النحو التالي:

  • تحديد مستوى الثقة (1-alpha) ؛
  • بناء HPLB على أساس العينتين ؛
  • إذا كانت λˆ تساوي صفرًا ، فلا ترفض الصفري ، وإلا إذا كانت λˆ> 0 ، ترفض القيمة الصفرية وتستنتج أن λ (الكسر المختلف) هي على الأقل λˆ مع احتمال 1-alpha.

بالطبع الثمن الذي يجب دفعه هو أن قيمة تعتمد على مستوى الثقة المختار (1-alpha) بينما القيمة p مستقلة عنها. ومع ذلك ، من الناحية العملية ، لا يختلف مستوى الثقة كثيرًا (عادةً ما يتم تعيينه على 95٪).

ضع في اعتبارك مثال حجم التأثير في الطب. يجب أن يكون للدواء الجديد تأثير كبير في المجموعة التجريبية ، مقارنة بمجموعة الدواء الوهمي ، التي لم تتلق الدواء. لكن من المهم أيضًا مدى حجم التأثير. على هذا النحو ، لا ينبغي للمرء أن يتحدث فقط عن قيم p ، ولكن أيضًا يعطي بعض قياس حجم التأثير. هذا معترف به الآن على نطاق واسع في البحوث الطبية الجيدة. في الواقع ، تم استخدام نهج يستخدم نهجًا أكثر سهولة لحساب التلفزيون (P ، Q) في الإعداد أحادي المتغير لوصف الفرق بين مجموعات العلاج ومجموعة المراقبة. يوفر نهج HPLB الخاص بنا مقياسًا للأهمية بالإضافة إلى حجم التأثير. دعونا نوضح هذا في مثال:

لنجعل مثالا

نقوم بمحاكاة توزيعين P و Q في بعدين. وبالتالي ، ستكون P مجرد متغيرات عادية ، بينما Q هي a مزيج بين P وعادي متعدد المتغيرات بمتوسط ​​متحرك.

مكتبة (mvtnorm)
مكتبة (HPLB)
set.seed (1)
ن <-2000
ف <-2
# دلتا أكبر -> مزيد من الاختلاف بين P و Q
# دلتا أصغر -> فرق أقل بين P و Q
دلتا <-0
# محاكاة X ~ P و Y ~ Q لدلتا معينة
U <-runif (ن)
X <-rmvnorm (n = n، sig = diag (p))
Y <- (U <= دلتا) * rmvnorm (n = n ، المتوسط ​​= rep (2 ، p) ، sig = diag (p)) + (1- (U <= delta)) * rmvnorm (n = n ، سيج = دياج (ع))
قطعة أرض (Y، cex = 0.8، col = "darkblue")
النقاط (X، cex = 0.8، col = "red")

تتحكم دلتا وزن الخليط في مدى قوة التوزيعين المختلفين. تتنوع دلتا من 0 إلى 0.9 وهذا يبدو كالتالي:

محاكاة البيانات مع دلتا = 0 (أعلى اليمين) ، دلتا = 0.05 ، (أعلى اليسار) ، دلتا = 0.3 (أسفل اليمين) ودلتا = 0.8 (أسفل اليسار). المصدر: المؤلف

يمكننا بعد ذلك حساب HPLB لكل من هذه السيناريوهات:

#Estimate HPLB لكل حالة (قم بتغيير دلتا وأعد تشغيل الكود)
تدريب <- ج (مندوب (0 ، ن / 2) ، مندوب (1 ، ن / 2))
xy.train <-rbind (X [1: (n / 2)،]، Y [1: (n / 2)،])
t. الاختبار <- ج (مندوب (0 ، ن / 2) ، مندوب (1 ، ن / 2))
xy.test <-rbind (X [(n / 2 + 1): n،]، Y [(n / 2 + 1): n،])
rf <- الحارس :: الحارس (t ~. ، data.frame (t = t.train ، x = xy.train))
rho <- توقع (rf، data.frame (t = t.test، x = xy.test)) تنبؤات $
tvhat <- HPLB (t = t.test، rho = rho، Estimator.type = "adapt")
tvhat

إذا فعلنا ذلك بالبذور المحددة أعلاه ، فإننا

القيم المقدرة لمختلف دلتا.

وبالتالي ، فإن HPLB يدير (0.05) اكتشاف عدم وجود أي تغيير بالفعل في التوزيعين ، أي أنه صفر عندما تكون دلتا صفرًا ، (0.64) اكتشاف الفرق الصغير للغاية بالفعل عندما تكون دلتا 5 فقط و (XNUMX) اكتشاف أن الفرق أكبر كلما كانت دلتا أكبر. مرة أخرى ، الشيء المهم الذي يجب تذكره حول هذه القيم هو أنها تعني شيئًا ما حقًا - ستكون القيمة XNUMX هي الحد الأدنى للتلفزيون الحقيقي ذي الاحتمالية العالية. على وجه الخصوص ، يعني كل رقم من الأرقام الأكبر من الصفر اختبارًا تم رفض P = Q على مستوى XNUMX ٪.

الخلاصة:

عندما يتعلق الأمر باختبار A / B (اختبار من عينتين) ، غالبًا ما يكون التركيز على حالة الرفض للاختبار الإحصائي. عندما يرفض الاختبار التوزيع الصفري ، فإنه من المفيد عمليًا أن يكون هناك مقياس شدة لاختلاف التوزيع. من خلال إنشاء حدود منخفضة ذات احتمالية عالية على مسافة التباين الإجمالية ، يمكننا إنشاء حد أدنى على جزء الملاحظات المتوقع أن يكون مختلفًا وبالتالي توفير إجابة متكاملة للاختلاف في التوزيع وشدة التحول .

إخلاء المسؤولية والموارد: نحن ندرك أننا تركنا الكثير من التفاصيل (الكفاءة ، بناء HPLBs ، دراسات الطاقة ، ...) لكننا نأمل أن نفتح أفقًا للتفكير. Mيمكن العثور على تفاصيل خام ومقارنتها بالاختبارات الحالية في موقعنا بيبr وتحقق من R-package HPLB على CRAN.

بديل للقيم p في اختبار A / B المعاد نشره من المصدر https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-44f1406d3f91؟source=rss—-7f60cf5620c9—4 عبر https : //towardsdatascience.com/feed

<!–

->

الطابع الزمني:

اكثر من مستشارو Blockchain