Альтернатива p-значениям в A/B-тестировании

Как нижние границы с высокой вероятностью (HPLB) для общего расстояния вариации могут привести к интегрированной привлекательной тестовой статистике в A/B-тестировании.

Рисунок 1: рисунок из оригинальной статьи (авторы)

Авторы: Лорис Мишель, Джеффри Нэф

Классические этапы общего A/B-теста, т. е. определение того, получены ли две группы наблюдений из разных распределений (скажем, P и Q), таковы:

  • Предположим нулевую и альтернативную гипотезу (здесь соответственно P=Q и P≠Q);
  • Определить уровень значимости альфа;
  • Построить статистический тест (бинарное решение, отклоняющее нуль или нет);
  • Получить тестовую статистику T;
  • Получите p-значение из приближенного/асимптотического/точного нулевого распределения T.

Однако, когда такой тест отклоняет нулевое значение, т. е. когда значение p значимо (на данном уровне), нам все еще не хватает меры того, насколько сильно различие между P и Q. На самом деле статус отклонения теста может оказаться бесполезной информацией в современных приложениях (сложные данные), потому что при достаточном размере выборки (при условии фиксированного уровня и мощности) любой тест будет склонен отклонять нулевое значение (поскольку он редко бывает точным). истинный). Например, может быть интересно получить представление о том, сколько точек данных поддерживает разницу в распределении.

Поэтому, основываясь на конечных выборках из P и Q, более тонкий вопрос, чем «отличается ли P от Q?» можно сформулировать так: «Какова вероятностная нижняя граница доли наблюдений λ, фактически поддерживающих разницу в распределении между P и Q?». Формально это переводится в построение оценки λˆ, удовлетворяющей λˆ ≤ λ с высокой вероятностью (скажем, 1-альфа). Назовем такую ​​оценку нижняя граница высокой вероятности (HPLB) на λ.

В этой истории мы хотим мотивировать использование HPLB в A/B-тестировании и привести аргумент, почему правильным понятием для λ является общая вариационная дистанция между P и Q, т. е. TV(P, Q). Мы сохраним пояснения и подробности о конструкции такого HPLB для другой статьи. Вы всегда можете проверить наш папаr Больше подробностей.

Почему общая вариационная дистанция?

Полное расстояние вариации — это сильная (точная) метрика вероятностей. Это означает, что если два распределения вероятностей различны, то их общее расстояние вариации будет ненулевым. Обычно его определяют как максимальное расхождение вероятностей на множествах. Однако он имеет более интуитивное представление в виде дискретного переноса меры между вероятностями P и Q (см. рис. 2):

Полное вариационное расстояние между вероятностными мерами P и Q — это доля вероятностной массы, которую нужно изменить/переместить от P, чтобы получить вероятностную меру Q (или наоборот).

С практической точки зрения общее расстояние вариации представляет собой долю точек, которые различаются между P и Q, что как раз и является правильным понятием для λ.

Рисунок 2: Верхнее левое представление TV(P, Q) как разницы вероятной массы. Вверху справа обычное определение как TV (P, Q) как максимальное несогласие вероятности (над сигма-алгеброй). Внизу дискретная формулировка оптимального транспорта как доля массы, отличающаяся от P и Q (авторы).

Как использовать HPLB и его преимущества?

Оценка λˆ привлекательна для A/B-тестирования, потому что это единственное число влечет за собой как Статистическая значимость (как и значение p) и размер эффекта оценка. Его можно использовать следующим образом:

  • Определите уровень достоверности (1-альфа);
  • Построить HPLB λˆ на основе двух образцов;
  • Если λˆ равно нулю, то не отклоняйте нулевое значение, иначе, если λˆ > 0, отбрасывает нулевое значение и делает вывод, что λ (отличающаяся дробь) равно как минимум λˆ с вероятностью 1-альфа.

Конечно, расплатой является то, что значение λˆ зависит от выбранного уровня достоверности (1-альфа), тогда как p-значение от него не зависит. Тем не менее, на практике уровень достоверности не сильно различается (обычно устанавливается на уровне 95%).

Рассмотрим пример величины эффекта в медицине. Новое лекарство должно иметь значительный эффект в экспериментальной группе по сравнению с группой плацебо, которая не получала лекарство. Но также имеет значение, насколько велик эффект. Таким образом, следует не только говорить о p-значениях, но и давать некоторую меру размера эффекта. В настоящее время это широко признано в хороших медицинских исследованиях. Действительно, подход, использующий более интуитивный подход к расчету TV(P,Q), использовался в однофакторной настройке для описания различий между экспериментальной и контрольной группами. Наш подход HPLB обеспечивает как меру значимости, так и размер эффекта. Проиллюстрируем это на примере:

Давайте сделаем пример

Мы моделируем два распределения P и Q в двух измерениях. Таким образом, P будет просто многомерной нормой, а Q — смесь между P и многомерной нормой со смещенным средним значением.

библиотека(мвтнорм)
библиотека (HPLB)
сет.сид(1)
п<-2000
р<-2
#Большая дельта -> больше разница между P и Q
# Меньшая дельта -> Меньшая разница между P и Q
дельта<-0
# Моделирование X~P и Y~Q для заданной дельты
U<-руниф(п)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=дельта)*rmvnorm(n=n, среднее=rep(2,p), sig=diag(p))+ (1-(U <=delta))*rmvnorm(n=n, сигнал = диаг. (р))
график (Y, cex = 0.8, col = "темно-синий")
точки (X, cex = 0.8, col = "красный")

Дельта веса смеси контролирует, насколько сильно различаются два распределения. При изменении дельты от 0 до 0.9 это выглядит так:

Моделируйте данные с дельтой = 0 (вверху справа), дельтой = 0.05 (вверху слева), дельтой = 0.3 (внизу справа) и дельтой = 0.8 (внизу слева). Источник: автор

Затем мы можем рассчитать HPLB для каждого из этих сценариев:

#Оценить HPLB для каждого случая (изменить дельту и перезапустить код)
t.train<- c(rep(0,n/2), rep(1,n/2))
xy.train <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(rep(0,n/2), rep(1,n/2))
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- ranger::ranger(t~., data.frame(t=t.train,x=xy.train))
ро <- предсказать (rf, data.frame (t = t.test, x = xy.test)) $ предсказания
tvhat <- HPLB(t = t.test, rho = rho, estimator.type = "адаптировать")
твчто

Если мы сделаем это с указанным выше семенем, мы

Расчетные значения для различных дельт.

Таким образом, HPLB удается (i) обнаружить, когда в двух распределениях действительно нет изменений, т. е. оно равно нулю, когда дельта равна нулю, (ii) обнаружить уже чрезвычайно малую разницу, когда дельта составляет всего 0.05, и (iii) обнаружить, что разница тем больше, чем больше дельта. Опять же, важно помнить об этих значениях: они действительно что-то значат — значение 0.64 будет нижней границей истинного ТВ с высокой вероятностью. В частности, каждое из чисел, большее нуля, означает, что проверка P=Q была отклонена на уровне 5%.

Вывод:

Когда дело доходит до A/B-тестирования (тестирование с двумя выборками), основное внимание часто уделяется статусу отклонения статистического теста. Когда тест отклоняет нулевое распределение, на практике, тем не менее, полезно иметь меру интенсивности различия в распределении. Путем построения высоковероятностных нижних границ общего расстояния вариации мы можем построить нижнюю границу доли наблюдений, которые, как ожидается, будут отличаться, и, таким образом, дать интегрированный ответ на разницу в распределении и интенсивности сдвига. .

отказ от ответственности и ресурсы: Мы осознаем, что упустили многие детали (эффективность, конструкция HPLB, исследования мощности и т. д.), но надеемся открыть горизонт для размышлений. Mподробности о руде и сравнение с существующими тестами можно найти в нашем папаr и проверьте R-пакет HPLB на CRAN.

Альтернатива p-значениям в A/B-тестировании. ://towardsdatascience.com/feed

<!–

->

Отметка времени:

Больше от Блокчейн-консультанты