A/B 测试中 p 值的替代方法

总变异距离的高概率下界 (HPLB) 如何在 A/B 测试中产生综合的有吸引力的测试统计数据

图 1:原始论文中的图(作者)

参与专家: 洛里斯·米歇尔, 杰弗里·纳夫

一般 A/B 测试的经典步骤,即确定两组观察是否来自不同的分布(比如 P 和 Q),是:

  • 假设零假设和备择假设(此处分别为 P=Q 和 P≠Q);
  • 定义显着性水平 alpha;
  • 构建统计测试(拒绝或不拒绝空值的二元决策);
  • 导出检验统计量 T;
  • 从 T 的近似/渐近/精确零分布中获取 p 值。

然而,当这样的测试拒绝零时,即当 p 值显着(在给定水平)时,我们仍然缺乏对 P 和 Q 之间差异有多强的度量。 事实上,测试的拒绝状态在现代应用程序(复杂数据)中可能是无用的信息,因为如果样本量足够大(假设水平和功效固定),任何测试都倾向于拒绝空值(因为它很少完全准确真的)。 例如,了解有多少数据点支持分布差异可能会很有趣。

因此,基于来自 P 和 Q 的有限样本,一个比“P 与 Q 不同吗?”更好的问题可以表述为“实际支持 P 和 Q 之间分布差异的观测值 λ 的概率下界是多少?”。 这将正式转化为以高概率(比如 1-alpha)满足 λ^ ≤ λ 的估计 λ^ 的构造。 我们将这样的估计命名为 高概率下界 (HPLB) 在​​ λ 上。

在这个故事中,我们想鼓励在 A/B 测试中使用 HPLB,并论证为什么 λ 的正确概念是 全变异距离 P和Q之间,即TV(P, Q)。 我们将在另一篇文章中保留有关构建此类 HPLB 的解释和细节。 您可以随时查看我们的 帕普r 以获得更多细节。

为什么总变异距离?

总变异距离是概率的强(精细)度量。 这意味着如果两个概率分布不同,那么它们的总变异距离将不为零。 它通常被定义为集合上概率的最大不一致。 但是,它更直观地表示为概率 P 和 Q 之间的离散度量传输(见图 2):

概率测度 P 和 Q 之间的总变异距离是概率质量的分数,人们需要从 P 改变/移动以获得概率测度 Q(或反之亦然)。

实际上,总变异距离表示 P 和 Q 之间不同的点的分数,这正是 λ 的正确概念。

图 2:TV(P, Q) 的左上图表示为可能质量的差异。 右上角通常定义为 TV(P, Q) 作为最大概率分歧(在西格玛代数上)。 底部离散最优传输公式作为不同于 P 和 Q 的质量分数(作者)。

如何使用 HPLB 及其优势?

估计值 λ^ 对 A/B 测试很有吸引力,因为这个数字同时包含 统计学意义 (与 p 值一样)和 规模效应 估计。 它可以按如下方式使用:

  • 定义置信水平(1-alpha);
  • 基于这两个样本构建 HPLB λ^;
  • 如果 λ^ 为零,则不拒绝零值,否则如果 λ^ > 0,则拒绝零值并得出 λ(微分)至少为 λ^ 且概率为 1-alpha 的结论。

当然,要付出的代价是 λ^ 的值取决于所选的置信水平 (1-alpha),而 p 值与其无关。 然而,在实践中,置信水平变化不大(通常设置为 95%)。

考虑医学中效应量的例子。 与未接受药物治疗的安慰剂组相比,新药物需要对实验组产生显着影响。 但影响有多大也很重要。 因此,人们不应该只谈论 p 值,还应该给出一些效果大小的衡量标准。 现在,这在良好的医学研究中得到广泛认可。 事实上,在单变量设置中使用了一种使用更直观的方法来计算 TV(P,Q) 的方法来描述治疗组和对照组之间的差异。 我们的 HPLB 方法提供了显着性度量和效果大小。 让我们用一个例子来说明这一点:

让我们举个例子

我们在二维中模拟两个分布 P 和 Q。 P 将因此只是一个多元正态分布,而 Q 是一个 混合物 P 和均值偏移的多元正态分布之间。

库(mvtnorm)
图书馆(HPLB)
设置种子(1)
n<-2000
p<-2
#Larger delta -> P 和 Q 之间的差异更大
#Smaller delta -> P 和 Q 之间的差异较小
增量<-0
# 为给定的增量模拟 X~P 和 Y~Q
U<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=delta)*rmvnorm(n=n, mean=rep(2,p), sig=diag(p))+ (1-(U <=delta))*rmvnorm(n=n,信号=诊断(p))
plot(Y, cex=0.8, col="深蓝")
点(X,cex = 0.8,col =“红色”)

混合权重增量控制两个分布的不同程度。 从 0 到 0.9 的 delta 变化如下所示:

使用 delta=0(右上)、delta=0.05(左上)、delta=0.3(右下)和 delta=0.8(左下)模拟数据。 来源:作者

然后我们可以计算每个场景的 HPLB:

#Estimate HPLB for each case(改变增量并重新运行代码)
t.train<- c(rep(0,n/2), rep(1,n/2) )
xy.train <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(rep(0,n/2), rep(1,n/2) )
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- ranger::ranger(t~., data.frame(t=t.train,x=xy.train))
rho <-预测(rf,data.frame(t=t.test,x=xy.test))$预测
tvhat <- HPLB(t = t.test, rho = rho, estimator.type = "adapt")
帽子

如果我们用上面的种子集来做,我们

不同增量的估计值。

因此,HPLB 设法 (i) 检测到两个分布何时确实没有变化,即当 delta 为零时它为零,(ii) 当 delta 仅为 0.05 时已经检测到极小的差异,并且 (iii) 检测到差值越大,delta 越大。 同样,要记住这些值的关键是它们确实有意义——值 0.64 很可能是真实电视的下限。 特别是,每个大于零的数字表示 P=Q 在 5% 水平上被拒绝的测试。

总结

当谈到 A/B 测试(双样本测试)时,重点通常是统计测试的拒绝状态。 然而,当测试拒绝零分布时,在实践中对分布差异进行强度测量是有用的。 通过构建总变异距离的高概率下界,我们可以构建预期不同的观察分数的下界,从而为分布差异和偏移强度提供综合答案.

免责声明和资源: 我们知道我们遗漏了许多细节(效率、HPLB 的构造、功率研究……),但希望开阔思路。 M矿石详细信息和与现有测试的比较可以在我们的网站上找到 帕普r 并查看 CRAN 上的 R 包 HPLB。

A/B 测试中 p 值的替代方法从源 https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 通过 https 重新发布://towardsdatascience.com/feed

–>

时间戳记:

更多来自 区块链顾问