جایگزینی برای مقادیر p در تست A/B

چگونه کران‌های پایین با احتمال زیاد (HPLBs) در فاصله کل تغییرات می‌توانند به یک آمار آزمون جذاب یکپارچه در تست A/B منجر شوند.

شکل 1: شکل از مقاله اصلی (توسط نویسندگان)

کانون: لوریس میشل, جفری ناف

مراحل کلاسیک یک آزمون عمومی A/B، یعنی تصمیم گیری در مورد اینکه آیا دو گروه از مشاهدات از توزیع های مختلف (مثلاً P و Q) آمده اند یا خیر، عبارتند از:

  • فرضیه صفر و جایگزین را فرض کنید (به ترتیب P=Q و P≠Q).
  • سطح اهمیت آلفا را تعریف کنید.
  • یک آزمون آماری بسازید (تصمیم دودویی که عدد صفر را رد می کند یا خیر).
  • استخراج آمار آزمون T;
  • یک مقدار p را از توزیع تقریبی / مجانبی / صفر دقیق T بدست آورید.

با این حال، هنگامی که چنین آزمونی عدد صفر را رد می کند، یعنی زمانی که مقدار p قابل توجه است (در یک سطح معین)، ما هنوز معیاری نداریم که تفاوت بین P و Q چقدر قوی است. در واقع، وضعیت رد یک آزمون می‌تواند اطلاعاتی بی‌فایده در برنامه‌های کاربردی مدرن (داده‌های پیچیده) باشد، زیرا با حجم نمونه کافی (با فرض یک سطح و توان ثابت) هر آزمونی تمایل به رد کردن null دارد (زیرا به ندرت دقیقاً درست است). برای مثال، داشتن ایده ای در مورد اینکه چند نقطه داده از یک تفاوت توزیعی پشتیبانی می کنند، می تواند جالب باشد.

بنابراین، بر اساس نمونه های محدود از P و Q، یک سوال دقیق تر از "آیا P با Q متفاوت است؟" می‌توان اینگونه بیان کرد: «کران پایین احتمالی در کسری از مشاهدات λ که در واقع از تفاوت توزیع بین P و Q پشتیبانی می‌کند چقدر است؟». این به طور رسمی به ساخت تخمین λˆ رضایت بخش λˆ ≤ λ با احتمال بالا (مثلاً 1-آلفا) ترجمه می شود. ما چنین تخمینی را a کران پایین با احتمال زیاد (HPLB) روی λ.

در این داستان می خواهیم انگیزه استفاده از HPLB ها را در تست A/B ایجاد کنیم و استدلال کنیم که چرا مفهوم درست λ است. فاصله تغییرات کل بین P و Q، یعنی تلویزیون (P، Q). توضیحات و جزئیات مربوط به ساخت چنین HPLB را برای مقاله ای دیگر حفظ خواهیم کرد. شما همیشه می توانید ما را بررسی کنید پاپr برای جزئیات بیشتر.

چرا فاصله تغییرات کل؟

فاصله کل تغییرات یک متریک قوی (ریز) برای احتمالات است. این بدان معنی است که اگر دو توزیع احتمال متفاوت باشند، فاصله کل تغییرات آنها غیر صفر خواهد بود. معمولاً به عنوان حداکثر اختلاف احتمالات در مجموعه ها تعریف می شود. با این حال، از نمایش شهودی تری به عنوان انتقال اندازه گیری گسسته بین احتمالات P و Q برخوردار است (شکل 2 را ببینید):

فاصله تغییرات کل بین اندازه‌های احتمال P و Q کسری از جرم احتمالی است که برای به دست آوردن اندازه‌گیری احتمال Q (یا برعکس) باید از P تغییر یا حرکت کرد.

از نظر عملی، فاصله تغییرات کل نشان دهنده کسری از نقاطی است که بین P و Q متفاوت است، که دقیقاً تصور درستی برای λ است.

شکل 2: نمایش سمت چپ بالای تلویزیون (P، Q) به عنوان تفاوت در جرم احتمالا. بالا سمت راست، تعریف معمول به عنوان تلویزیون (P، Q) به عنوان اختلاف احتمال حداکثر (در یک سیگما-جبر). در پایین فرمول انتقال بهینه گسسته به عنوان کسری از جرم متفاوت از P و Q (توسط نویسندگان).

نحوه استفاده از HPLB و مزیت آن؟

تخمین λˆ برای تست A/B جذاب است زیرا این عدد واحد هر دو را شامل می شود اهمیت آماری (همانطور که مقدار p انجام می دهد) و اندازه اثر برآورد کردن. می توان از آن به صورت زیر استفاده کرد:

  • سطح اطمینان (1-alpha) را تعریف کنید.
  • HPLB λˆ را بر اساس دو نمونه بسازید.
  • اگر λˆ صفر باشد، عدد تهی را رد نکنید، در غیر این صورت اگر λˆ > 0، صفر را رد کنید و نتیجه بگیرید که λ (کسر متفاوت) حداقل λˆ با احتمال 1-آلفا است.

البته هزینه پرداخت این است که مقدار λˆ به سطح اطمینان انتخاب شده (1-alpha) بستگی دارد در حالی که یک مقدار p مستقل از آن است. با این وجود، در عمل سطح اطمینان زیاد تغییر نمی کند (معمولاً روی 95٪ تنظیم می شود).

به مثال اندازه اثر در پزشکی توجه کنید. یک داروی جدید باید در گروه آزمایش اثر قابل توجهی داشته باشد، در مقایسه با گروه دارونما که دارو را دریافت نکردند. اما این نیز مهم است که تأثیر آن چقدر است. به این ترتیب، نباید فقط در مورد مقادیر p صحبت کرد، بلکه باید مقداری اندازه اثر را نیز ارائه کرد. این در حال حاضر به طور گسترده در تحقیقات پزشکی خوب شناخته شده است. در واقع، یک رویکرد با استفاده از یک رویکرد بصری تر برای محاسبه TV (P،Q) در تنظیمات تک متغیره برای توصیف تفاوت بین گروه های درمان و کنترل استفاده شده است. رویکرد HPLB ما هم اندازه‌گیری اهمیت و هم اندازه اثر را ارائه می‌کند. اجازه دهید این را با یک مثال توضیح دهیم:

بیایید یک مثال بزنیم

دو توزیع P و Q را در دو بعد شبیه سازی می کنیم. بنابراین P فقط یک نرمال چند متغیره خواهد بود، در حالی که Q a است مخلوط بین P و نرمال چند متغیره با میانگین جابجا شده.

کتابخانه (mvtnorm)
کتابخانه (HPLB)
set.seed (1)
n<-2000
p<-2
#دلتای بزرگتر -> تفاوت بیشتر بین P و Q
#دلتای کوچکتر -> تفاوت کمتر بین P و Q
دلتا<-0
# X~P و Y~Q را برای دلتای داده شده شبیه سازی کنید
U<-runif(n)
X<-rmvnorm(n=n، sig=diag(p))
Y<- (U <=دلتا)*rmvnorm(n=n، mean=rep(2,p)، sig=diag(p))+ (1-(U <=delta))*rmvnorm(n=n، sig=diag(p))
نمودار (Y، cex=0.8، رنگ "آبی تیره")
امتیاز (X، cex=0.8، col="red")

دلتای وزن مخلوط، قدرت متفاوت بودن دو توزیع را کنترل می کند. تغییر دلتا از 0 تا 0.9 به این صورت است:

داده ها را با دلتا=0 (بالا سمت راست)، دلتا=0.05، (بالا سمت چپ)، دلتا=0.3 (پایین سمت راست) و دلتا=0.8 (پایین سمت چپ) شبیه سازی کنید. منبع: نویسنده

سپس می‌توانیم HPLB را برای هر یک از این سناریوها محاسبه کنیم:

#تخمین HPLB برای هر مورد (دلتا را تغییر دهید و کد را دوباره اجرا کنید)
t.train<- c(rep(0,n/2), rep(1,n/2))
xy.train <-rbind(X[1:(n/2)،]، Y[1:(n/2)،])
t.test<- c(rep(0,n/2), rep(1,n/2))
xy.test <-rbind(X[(n/2+1):n،]، Y[(n/2+1):n،])
rf <- ranger::ranger(t~., data.frame(t=t.train,x=xy.train))
rho <- پیش بینی (rf، data.frame(t=t.test،x=xy.test))$predictions
tvhat <- HPLB(t = t.test، rho = rho، estimator.type = "Adapt")
tvhat

اگر این کار را با مجموعه دانه بالا انجام دهیم، ما

مقادیر تخمینی برای دلتاهای مختلف.

بنابراین HPLB می‌تواند (i) تشخیص دهد که واقعاً هیچ تغییری در دو توزیع وجود ندارد، یعنی زمانی که دلتا صفر است، صفر است، (ii) زمانی که دلتا فقط 0.05 است تفاوت بسیار کوچک را تشخیص دهد و (iii) تشخیص دهد که اختلاف بزرگ‌تر است، دلتای بزرگ‌تر است. باز هم نکته مهمی که باید در مورد این مقادیر به خاطر بسپارید این است که آنها واقعاً معنایی دارند - مقدار 0.64 یک کران پایین تر برای تلویزیون واقعی با احتمال بالا خواهد بود. به طور خاص، هر یک از اعدادی که صفر بزرگتر هستند به معنای آزمونی است که P=Q در سطح 5٪ رد شده است.

نتیجه:

وقتی نوبت به تست A/B (تست دو نمونه ای) می رسد، تمرکز اغلب روی وضعیت رد یک آزمون آماری است. هنگامی که یک آزمون توزیع صفر را رد می کند، در عمل داشتن یک اندازه گیری شدت تفاوت توزیعی مفید است. از طریق ساخت کران‌های پایین‌تر با احتمال بالا روی فاصله تغییرات کل، می‌توانیم یک کران پایین‌تر را بر روی کسری از مشاهداتی که انتظار می‌رود متفاوت باشند بسازیم و بنابراین پاسخی یکپارچه به تفاوت توزیع و شدت جابجایی ارائه کنیم.

سلب مسئولیت و منابع: ما می دانیم که بسیاری از جزئیات (کارایی، ساخت HPLB ها، مطالعات قدرت، ...) را کنار گذاشته ایم، اما امیدواریم که افق فکری باز شود. Mجزئیات سنگ معدن و مقایسه با آزمایش های موجود را می توان در ما یافت پاپr و R-package HPLB را در CRAN بررسی کنید.

جایگزینی برای p-values ​​در تست A/B از منبع https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 از طریق https://towardsdatascience.com/an-alternative-to-p-values-XNUMXfXNUMXdXNUMXfXNUMX?source=rss—-XNUMXfXNUMXcfXNUMXcXNUMX—XNUMX بازنشر شده است.

<!–

->

تمبر زمان:

بیشتر از مشاوران بلاک چین