Альтернатива p-значенням у тестуванні A/B

Як нижні межі високої ймовірності (HPLBs) на загальній відстані варіації можуть призвести до інтегрованої привабливої ​​тестової статистики в тестуванні A/B

Рисунок 1: малюнок з оригінальної статті (за авторами)

Автори: Лоріс Мішель, Джеффрі Наф

Класичними кроками загального тесту A/B, тобто визначення того, чи походять дві групи спостережень із різних розподілів (скажімо, P і Q), є:

  • Припустимо нульову та альтернативну гіпотезу (тут відповідно P=Q та P≠Q);
  • Визначити рівень значущості альфа;
  • Побудуйте статистичний тест (бінарне рішення, що відхиляє нуль чи ні);
  • Отримайте тестову статистику T;
  • Отримайте p-значення з наближеного/асимптотичного/точного нульового розподілу T.

Однак, коли такий тест відхиляє нуль, тобто коли p-значення є значущим (на даному рівні), нам все одно бракує вимірювання того, наскільки сильною є різниця між P і Q. Насправді статус відхилення тесту може виявитися марною інформацією в сучасних програмах (складні дані), тому що за достатнього розміру вибірки (припускаючи фіксований рівень і потужність) будь-який тест, як правило, відхиляє нуль (оскільки це рідко правда). Наприклад, може бути цікаво дізнатися, скільки точок даних підтримують різницю в розподілі.

Таким чином, на основі кінцевих вибірок з P і Q, більш тонке запитання, ніж «чи P відрізняється від Q?» можна сформулювати як «Яка імовірнісна нижня межа частки спостережень λ фактично підтверджує різницю в розподілі між P і Q?». Формально це означає побудову оцінки λˆ, що задовольняє λˆ ≤ λ з високою ймовірністю (скажімо, 1-альфа). Назвемо таку оцінку an нижня межа високої ймовірності (HPLB) на λ.

У цій історії ми хочемо мотивувати використання HPLB у тестуванні A/B і навести аргумент, чому правильним поняттям для λ є загальна варіаційна відстань між P і Q, тобто TV(P, Q). Пояснення та подробиці побудови такого HPLB залишимо для іншої статті. Ви завжди можете перевірити наш Папіr для більш докладної інформації.

Чому загальна відстань варіації?

Загальна варіаційна відстань є сильною (точною) метрикою ймовірностей. Це означає, що якщо два розподіли ймовірностей різні, то їх загальна відстань варіації буде відмінною від нуля. Зазвичай це визначається як максимальна розбіжність ймовірностей на множинах. Однак він користується більш інтуїтивно зрозумілим представленням як дискретне переміщення міри між ймовірностями P і Q (див. Малюнок 2):

Загальна відстань варіації між ймовірнісними мірами P і Q — це частка ймовірнісної маси, яку потрібно було б змінити/перемістити з P, щоб отримати ймовірнісну міру Q (або навпаки).

На практиці загальна відстань варіації являє собою частку точок, які відрізняються між P і Q, що є правильним поняттям для λ.

Малюнок 2: Верхнє ліве зображення TV(P, Q) як різниці ймовірної маси. Угорі праворуч звичайне визначення як TV(P, Q) як розбіжність максимальної ймовірності (над сигма-алгеброю). Внизу дискретне формулювання оптимального транспорту як частка маси, що відрізняється від P і Q (за авторами).

Як використовувати HPLB і його переваги?

Оцінка λˆ є привабливою для тестування A/B, оскільки це єдине число включає обидва статистичне значення (як р-значення) і розмір ефекту оцінка. Його можна використовувати наступним чином:

  • Визначте рівень достовірності (1-альфа);
  • Побудуйте HPLB λˆ на основі двох зразків;
  • Якщо λˆ дорівнює нулю, тоді не відхиляйте нуль, інакше, якщо λˆ > 0, відхиляйте нуль і дійдіть висновку, що λ (відмінна частка) є принаймні λˆ з ймовірністю 1-альфа.

Звичайно, ціна полягає в тому, що значення λˆ залежить від вибраного рівня довіри (1-альфа), тоді як значення p не залежить від нього. Тим не менш, на практиці рівень довіри не сильно змінюється (зазвичай встановлюється на 95%).

Розглянемо приклад розміру ефекту в медицині. Новий препарат повинен мати значний ефект в експериментальній групі порівняно з групою плацебо, яка не отримувала ліки. Але також має значення, наскільки великий ефект. Таким чином, слід не просто говорити про p-значення, а й дати певну міру розміру ефекту. Зараз це широко визнано в хороших медичних дослідженнях. Дійсно, підхід, що використовує більш інтуїтивний підхід для розрахунку TV(P,Q), використовувався в однофакторних умовах для опису різниці між лікувальною та контрольною групами. Наш підхід HPLB забезпечує як міру значущості, так і розмір ефекту. Проілюструємо це на прикладі:

Наведемо приклад

Ми моделюємо два розподіли P і Q у двох вимірах. Таким чином, P буде просто багатовимірною нормаллю, тоді як Q є a суміш між P і багатофакторною нормаллю зі зміщеним середнім.

бібліотека (mvtnorm)
бібліотека (HPLB)
set.seed(1)
n<-2000
p<-2
#Більша дельта -> більша різниця між P і Q
#Менша дельта -> Менша різниця між P і Q
дельта<-0
# Симулювати X~P та Y~Q для заданої дельти
U<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=дельта)*rmvnorm(n=n, середнє=rep(2,p), sig=diag(p))+ (1-(U <=delta))*rmvnorm(n=n, sig=diag(p))
plot(Y, cex=0.8, col="darkblue")
точки (X, cex=0.8, col="red")

Дельта ваги суміші контролює, наскільки сильно відрізняються два розподіли. Зміна дельти від 0 до 0.9 виглядає так:

Змоделюйте дані з дельта=0 (верхній правий), дельта=0.05 (верхній лівий), дельта=0.3 (нижній правий) і дельта=0.8 (нижній лівий). Джерело: автор

Потім ми можемо розрахувати HPLB для кожного з цих сценаріїв:

#Оцініть HPLB для кожного випадку (змініть дельту та повторно запустіть код)
t.train<- c(rep(0,n/2), rep(1,n/2) )
xy.train <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(rep(0,n/2), rep(1,n/2) )
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- ranger::ranger(t~., data.frame(t=t.train,x=xy.train))
rho <- predict(rf, data.frame(t=t.test,x=xy.test))$predictions
tvhat <- HPLB(t = t.test, rho = rho, estimator.type = "adapt")
tvhat

Якщо ми зробимо це з початковим набором вище, ми

Розрахункові значення для різних дельт.

Таким чином, HPLB вдається (i) виявити, коли дійсно немає жодних змін у двох розподілах, тобто воно дорівнює нулю, коли дельта дорівнює нулю, (ii) уже виявити надзвичайно малу різницю, коли дельта становить лише 0.05, і (iii) виявити, що різниця тим більша, чим більша дельта. І знову важливо пам’ятати про ці значення, що вони дійсно щось означають — значення 0.64 буде нижньою межею для справжнього телебачення з високою ймовірністю. Зокрема, кожне з чисел, яке більше за нуль, означає тест, який P=Q було відхилено на рівні 5%.

Висновок:

Коли справа доходить до A/B-тестування (тестування двома вибірками), увага часто зосереджується на статусі відхилення статистичного тесту. Коли тест відхиляє нульовий розподіл, на практиці корисно мати міру інтенсивності різниці розподілу. Завдяки побудові високоімовірних нижніх меж загальної варіаційної відстані ми можемо побудувати нижню межу частки спостережень, які, як очікується, будуть різними, і, таким чином, дати інтегровану відповідь на різницю в розподілі та інтенсивності зсуву .

застереження та ресурси: Ми усвідомлюємо, що залишили поза увагою багато деталей (ефективність, побудова HPLB, дослідження потужності, …), але сподіваємося відкрити горизонт мислення. Mдеталі руди та порівняння з існуючими випробуваннями можна знайти в нашому Папіr і перевірте R-пакет HPLB на CRAN.

Альтернатива p-значенням у тестуванні A/B Опубліковано з джерела https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 через https ://towardsdatascience.com/feed

<!–

->

Часова мітка:

Більше від Консультанти з блокчейнів