چگونه کرانهای پایین با احتمال زیاد (HPLBs) در فاصله کل تغییرات میتوانند به یک آمار آزمون جذاب یکپارچه در تست A/B منجر شوند.
کانون: لوریس میشل, جفری ناف
مراحل کلاسیک یک آزمون عمومی A/B، یعنی تصمیم گیری در مورد اینکه آیا دو گروه از مشاهدات از توزیع های مختلف (مثلاً P و Q) آمده اند یا خیر، عبارتند از:
- فرضیه صفر و جایگزین را فرض کنید (به ترتیب P=Q و P≠Q).
- سطح اهمیت آلفا را تعریف کنید.
- یک آزمون آماری بسازید (تصمیم دودویی که عدد صفر را رد می کند یا خیر).
- استخراج آمار آزمون T;
- یک مقدار p را از توزیع تقریبی / مجانبی / صفر دقیق T بدست آورید.
با این حال، هنگامی که چنین آزمونی عدد صفر را رد می کند، یعنی زمانی که مقدار p قابل توجه است (در یک سطح معین)، ما هنوز معیاری نداریم که تفاوت بین P و Q چقدر قوی است. در واقع، وضعیت رد یک آزمون میتواند اطلاعاتی بیفایده در برنامههای کاربردی مدرن (دادههای پیچیده) باشد، زیرا با حجم نمونه کافی (با فرض یک سطح و توان ثابت) هر آزمونی تمایل به رد کردن null دارد (زیرا به ندرت دقیقاً درست است). برای مثال، داشتن ایده ای در مورد اینکه چند نقطه داده از یک تفاوت توزیعی پشتیبانی می کنند، می تواند جالب باشد.
بنابراین، بر اساس نمونه های محدود از P و Q، یک سوال دقیق تر از "آیا P با Q متفاوت است؟" میتوان اینگونه بیان کرد: «کران پایین احتمالی در کسری از مشاهدات λ که در واقع از تفاوت توزیع بین P و Q پشتیبانی میکند چقدر است؟». این به طور رسمی به ساخت تخمین λˆ رضایت بخش λˆ ≤ λ با احتمال بالا (مثلاً 1-آلفا) ترجمه می شود. ما چنین تخمینی را a کران پایین با احتمال زیاد (HPLB) روی λ.
در این داستان می خواهیم انگیزه استفاده از HPLB ها را در تست A/B ایجاد کنیم و استدلال کنیم که چرا مفهوم درست λ است. فاصله تغییرات کل بین P و Q، یعنی تلویزیون (P، Q). توضیحات و جزئیات مربوط به ساخت چنین HPLB را برای مقاله ای دیگر حفظ خواهیم کرد. شما همیشه می توانید ما را بررسی کنید پاپr برای جزئیات بیشتر.
چرا فاصله تغییرات کل؟
فاصله کل تغییرات یک متریک قوی (ریز) برای احتمالات است. این بدان معنی است که اگر دو توزیع احتمال متفاوت باشند، فاصله کل تغییرات آنها غیر صفر خواهد بود. معمولاً به عنوان حداکثر اختلاف احتمالات در مجموعه ها تعریف می شود. با این حال، از نمایش شهودی تری به عنوان انتقال اندازه گیری گسسته بین احتمالات P و Q برخوردار است (شکل 2 را ببینید):
فاصله تغییرات کل بین اندازههای احتمال P و Q کسری از جرم احتمالی است که برای به دست آوردن اندازهگیری احتمال Q (یا برعکس) باید از P تغییر یا حرکت کرد.
از نظر عملی، فاصله تغییرات کل نشان دهنده کسری از نقاطی است که بین P و Q متفاوت است، که دقیقاً تصور درستی برای λ است.
نحوه استفاده از HPLB و مزیت آن؟
تخمین λˆ برای تست A/B جذاب است زیرا این عدد واحد هر دو را شامل می شود اهمیت آماری (همانطور که مقدار p انجام می دهد) و اندازه اثر برآورد کردن. می توان از آن به صورت زیر استفاده کرد:
- سطح اطمینان (1-alpha) را تعریف کنید.
- HPLB λˆ را بر اساس دو نمونه بسازید.
- اگر λˆ صفر باشد، عدد تهی را رد نکنید، در غیر این صورت اگر λˆ > 0، صفر را رد کنید و نتیجه بگیرید که λ (کسر متفاوت) حداقل λˆ با احتمال 1-آلفا است.
البته هزینه پرداخت این است که مقدار λˆ به سطح اطمینان انتخاب شده (1-alpha) بستگی دارد در حالی که یک مقدار p مستقل از آن است. با این وجود، در عمل سطح اطمینان زیاد تغییر نمی کند (معمولاً روی 95٪ تنظیم می شود).
به مثال اندازه اثر در پزشکی توجه کنید. یک داروی جدید باید در گروه آزمایش اثر قابل توجهی داشته باشد، در مقایسه با گروه دارونما که دارو را دریافت نکردند. اما این نیز مهم است که تأثیر آن چقدر است. به این ترتیب، نباید فقط در مورد مقادیر p صحبت کرد، بلکه باید مقداری اندازه اثر را نیز ارائه کرد. این در حال حاضر به طور گسترده در تحقیقات پزشکی خوب شناخته شده است. در واقع، یک رویکرد با استفاده از یک رویکرد بصری تر برای محاسبه TV (P،Q) در تنظیمات تک متغیره برای توصیف تفاوت بین گروه های درمان و کنترل استفاده شده است. رویکرد HPLB ما هم اندازهگیری اهمیت و هم اندازه اثر را ارائه میکند. اجازه دهید این را با یک مثال توضیح دهیم:
بیایید یک مثال بزنیم
دو توزیع P و Q را در دو بعد شبیه سازی می کنیم. بنابراین P فقط یک نرمال چند متغیره خواهد بود، در حالی که Q a است مخلوط بین P و نرمال چند متغیره با میانگین جابجا شده.
کتابخانه (mvtnorm)
کتابخانه (HPLB)set.seed (1)
n<-2000
p<-2#دلتای بزرگتر -> تفاوت بیشتر بین P و Q
#دلتای کوچکتر -> تفاوت کمتر بین P و Q
دلتا<-0# X~P و Y~Q را برای دلتای داده شده شبیه سازی کنید
U<-runif(n)
X<-rmvnorm(n=n، sig=diag(p))
Y<- (U <=دلتا)*rmvnorm(n=n، mean=rep(2,p)، sig=diag(p))+ (1-(U <=delta))*rmvnorm(n=n، sig=diag(p))نمودار (Y، cex=0.8، رنگ "آبی تیره")
امتیاز (X، cex=0.8، col="red")
دلتای وزن مخلوط، قدرت متفاوت بودن دو توزیع را کنترل می کند. تغییر دلتا از 0 تا 0.9 به این صورت است:
سپس میتوانیم HPLB را برای هر یک از این سناریوها محاسبه کنیم:
#تخمین HPLB برای هر مورد (دلتا را تغییر دهید و کد را دوباره اجرا کنید)
t.train<- c(rep(0,n/2), rep(1,n/2))
xy.train <-rbind(X[1:(n/2)،]، Y[1:(n/2)،])
t.test<- c(rep(0,n/2), rep(1,n/2))
xy.test <-rbind(X[(n/2+1):n،]، Y[(n/2+1):n،])
rf <- ranger::ranger(t~., data.frame(t=t.train,x=xy.train))
rho <- پیش بینی (rf، data.frame(t=t.test،x=xy.test))$predictionstvhat <- HPLB(t = t.test، rho = rho، estimator.type = "Adapt")
tvhat
اگر این کار را با مجموعه دانه بالا انجام دهیم، ما
بنابراین HPLB میتواند (i) تشخیص دهد که واقعاً هیچ تغییری در دو توزیع وجود ندارد، یعنی زمانی که دلتا صفر است، صفر است، (ii) زمانی که دلتا فقط 0.05 است تفاوت بسیار کوچک را تشخیص دهد و (iii) تشخیص دهد که اختلاف بزرگتر است، دلتای بزرگتر است. باز هم نکته مهمی که باید در مورد این مقادیر به خاطر بسپارید این است که آنها واقعاً معنایی دارند - مقدار 0.64 یک کران پایین تر برای تلویزیون واقعی با احتمال بالا خواهد بود. به طور خاص، هر یک از اعدادی که صفر بزرگتر هستند به معنای آزمونی است که P=Q در سطح 5٪ رد شده است.
نتیجه:
وقتی نوبت به تست A/B (تست دو نمونه ای) می رسد، تمرکز اغلب روی وضعیت رد یک آزمون آماری است. هنگامی که یک آزمون توزیع صفر را رد می کند، در عمل داشتن یک اندازه گیری شدت تفاوت توزیعی مفید است. از طریق ساخت کرانهای پایینتر با احتمال بالا روی فاصله تغییرات کل، میتوانیم یک کران پایینتر را بر روی کسری از مشاهداتی که انتظار میرود متفاوت باشند بسازیم و بنابراین پاسخی یکپارچه به تفاوت توزیع و شدت جابجایی ارائه کنیم.
سلب مسئولیت و منابع: ما می دانیم که بسیاری از جزئیات (کارایی، ساخت HPLB ها، مطالعات قدرت، ...) را کنار گذاشته ایم، اما امیدواریم که افق فکری باز شود. Mجزئیات سنگ معدن و مقایسه با آزمایش های موجود را می توان در ما یافت پاپr و R-package HPLB را در CRAN بررسی کنید.
جایگزینی برای p-values در تست A/B از منبع https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 از طریق https://towardsdatascience.com/an-alternative-to-p-values-XNUMXfXNUMXdXNUMXfXNUMX?source=rss—-XNUMXfXNUMXcfXNUMXcXNUMX—XNUMX بازنشر شده است.
<!–
->
- بیت کوین
- bizbuildermike
- بلاکچین
- انطباق با بلاک چین
- کنفرانس بلاکچین
- مشاوران بلاک چین
- coinbase
- coingenius
- اجماع
- کنفرانس رمزنگاری
- معدنکاری رمز گشایی
- کریپتو کارنسی (رمز ارزها )
- غیر متمرکز
- DEFI
- دارایی های دیجیتال
- ethereum
- فراگیری ماشین
- رمز غیر قابل شستشو
- افلاطون
- افلاطون آی
- هوش داده افلاطون
- پلاتوبلاک چین
- PlatoData
- بازی پلاتو
- چند ضلعی
- اثبات سهام
- W3
- زفیرنت