A/B 테스트에서 p-값의 대안

총 변형 거리에 대한 HPLB(High-probability Lower Bounds)가 A/B 테스트에서 통합된 매력적인 테스트 통계로 이어질 수 있는 방법

그림 1: 원본 논문의 그림(저자별)

도움을 주신 분들 : 로리스 미셸, 제프리 네프

일반 A/B 테스트의 고전적인 단계, 즉 두 개의 관찰 그룹이 서로 다른 분포(예: P 및 Q)에서 오는지 여부를 결정하는 단계는 다음과 같습니다.

  • 귀무가설과 대립가설을 가정합니다(여기서는 각각 P=Q 및 P≠Q).
  • 유의 수준 알파를 정의합니다.
  • 통계 테스트 구성(null을 거부하는지 여부를 결정하는 이진 결정)
  • 검정 통계량 T를 유도하고;
  • T의 근사/점근/정확한 null 분포에서 p-값을 얻습니다.

그러나 이러한 테스트에서 null을 거부하는 경우, 즉 p-값이 유의한 경우(주어진 수준에서) 여전히 P와 Q의 차이가 얼마나 강한지 측정할 수 없습니다. 실제로 테스트의 거부 상태는 샘플 크기가 충분하면(고정된 수준과 검정력을 가정) 모든 테스트가 null을 거부하는 경향이 있기 때문에 현대 응용 프로그램(복잡한 데이터)에서 쓸모없는 정보로 판명될 수 있습니다(정확한 경우는 거의 없기 때문입니다). 진실). 예를 들어 분포 차이를 지원하는 데이터 포인트 수를 파악하는 것이 흥미로울 수 있습니다.

따라서 P와 Q의 유한 샘플을 기반으로 "P는 Q와 다른가요?"보다 더 미세한 질문입니다. "P와 Q 사이의 분포 차이를 실제로 지원하는 관측치 λ의 확률적 하한은 무엇입니까?"라고 말할 수 있습니다. 이것은 공식적으로 높은 확률(예: 1-알파)로 λˆ ≤ λ를 만족하는 추정치 λˆ의 구성으로 변환됩니다. 우리는 그러한 추정을 높은 확률 하한 (HPLB)는 λ에 있습니다.

이 이야기에서 우리는 A/B 테스트에서 HPLB를 사용하도록 동기를 부여하고 왜 λ에 대한 올바른 개념이 총 변동 거리 P와 Q 사이, 즉 TV(P, Q). 이러한 HPLB 구성에 대한 설명과 세부 사항은 다른 기사에서 계속 설명하겠습니다. 당신은 항상 우리를 확인할 수 있습니다 파페r 자세한 내용은.

총 변동 거리가 필요한 이유는 무엇입니까?

총 변동 거리는 확률에 대한 강력한(정밀한) 메트릭입니다. 이는 두 확률 분포가 다른 경우 총 변동 거리가 2이 아님을 의미합니다. 일반적으로 집합에 대한 확률의 최대 불일치로 정의됩니다. 그러나 확률 P와 Q 사이의 이산 측정 전송으로 보다 직관적인 표현을 즐깁니다(그림 XNUMX 참조).

확률 측정 P와 Q 사이의 총 변동 거리는 확률 측정 Q를 얻기 위해 P에서 변경/이동해야 하는 확률 질량의 일부입니다(또는 그 반대).

실질적으로 전체 변동 거리는 P와 Q 사이에서 차이가 나는 점의 비율을 나타내며, 이는 λ에 대한 정확한 개념입니다.

그림 2: 아마도 질량의 차이로 TV(P, Q)의 왼쪽 상단 표시. 오른쪽 상단은 TV(P, Q)와 같은 일반적인 정의를 최대 확률 불일치(시그마 대수에 대해)로 나타냅니다. P 및 Q와 다른 질량 분율로 불연속 최적 수송 공식을 바닥에 놓습니다(저자에 의해).

HPLB를 사용하는 방법과 장점은 무엇입니까?

추정치 λˆ는 A/B 테스트에 매력적입니다. 통계 학적으로 유의 (p-값이 하는 것처럼) 및 효과 크기 견적. 다음과 같이 사용할 수 있습니다.

  • 신뢰 수준(1-알파)을 정의합니다.
  • 두 샘플을 기반으로 HPLB λˆ를 구성합니다.
  • λˆ가 0이면 null을 기각하지 않고, 그렇지 않으면 λˆ > 1이면 null을 기각하고 λ(다른 분수)가 XNUMX-알파 확률로 λˆ 이상이라고 결론을 내립니다.

물론 지불해야 할 대가는 λˆ의 값이 선택한 신뢰 수준(1-알파)에 따라 달라지는 반면 p-값은 신뢰 수준과 무관하다는 것입니다. 그럼에도 불구하고 실제로 신뢰 수준은 크게 다르지 않습니다(보통 95%로 설정).

의학에서 효과 크기의 예를 고려하십시오. 새로운 약물은 약물을 투여받지 않은 위약군에 비해 실험군에서 유의미한 효과를 나타내야 합니다. 하지만 효과가 얼마나 큰지도 중요합니다. 따라서 p-값에 대해서만 이야기할 것이 아니라 효과 크기에 대한 척도도 제공해야 합니다. 이것은 현재 좋은 의학 연구에서 널리 인정받고 있습니다. 실제로 TV(P,Q)를 계산하기 위해 보다 직관적인 접근 방식을 사용하는 접근 방식이 치료군과 대조군 간의 차이를 설명하기 위해 단변량 설정에서 사용되었습니다. 우리의 HPLB 접근 방식은 유의성 측정과 효과 크기를 모두 제공합니다. 예를 들어 설명하겠습니다.

예를 들어보자

우리는 두 분포 P와 Q를 XNUMX차원으로 시뮬레이션합니다. 따라서 P는 다변량 법선일 뿐이고 Q는 혼합물 P와 평균이 이동된 다변량 법선 사이.

라이브러리(mvtnorm)
라이브러리(HPLB)
set.seed(1)
n<-2000
p<-2
#더 큰 델타 -> P와 Q 사이의 더 많은 차이
#Smaller delta -> P와 Q의 차이가 적음
델타<-0
# 주어진 델타에 대해 X~P 및 Y~Q 시뮬레이션
U<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=델타)*rmvnorm(n=n, 평균=rep(2,p), sig=diag(p))+ (1-(U <=델타))*rmvnorm(n=n, 시그=진단(p))
플롯(Y, cex=0.8, col="darkblue")
점(X, cex=0.8, col="빨간색")

혼합 가중치 델타는 두 분포가 얼마나 다른지 제어합니다. 0에서 0.9까지의 가변 델타는 다음과 같습니다.

delta=0(오른쪽 위), delta=0.05,(왼쪽 위), delta=0.3(오른쪽 아래) 및 delta=0.8(왼쪽 아래)로 데이터를 시뮬레이션합니다. 출처: 저자

그런 다음 각 시나리오에 대한 HPLB를 계산할 수 있습니다.

# 각 경우에 대한 HPLB 추정(델타를 변경하고 코드를 다시 실행)
t.train<- c(rep(0,n/2), rep(1,n/2) )
xy.train <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(rep(0,n/2), rep(1,n/2) )
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- ranger::ranger(t~., data.frame(t=t.train,x=xy.train))
rho <- 예측(rf, data.frame(t=t.test,x=xy.test))$예측
tvhat <- HPLB(t = t.test, rho = rho, estimator.type = "적응")
tvhat

위의 시드 세트로 그렇게 하면

다양한 델타에 대한 예상 값입니다.

따라서 HPLB는 (i) 두 분포에 실제로 변화가 없을 때, 즉 델타가 0.05일 때 0.64일 때 감지하고, (ii) 델타가 5일 때 매우 작은 차이를 이미 감지하고, (iii) 델타가 클수록 차이가 커집니다. 다시 이 값에 대해 기억해야 할 중요한 점은 값이 실제로 의미가 있다는 것입니다. 값 XNUMX는 높은 확률로 실제 TV에 대한 하한선이 됩니다. 특히 XNUMX보다 큰 각 숫자는 P=Q 테스트가 XNUMX% 수준에서 거부되었음을 의미합니다.

결론 :

A/B 테스트(XNUMX샘플 테스트)의 경우 통계 테스트의 거부 상태에 중점을 두는 경우가 많습니다. 테스트에서 null 분포를 거부하는 경우 분포 차이의 강도 측정을 갖는 것이 실제로 유용합니다. 총 변동 거리에 대한 확률이 높은 하한의 구성을 통해 다를 것으로 예상되는 관측 부분에 대한 하한을 구성할 수 있으므로 분포의 차이와 이동 강도에 대한 통합된 답변을 제공할 수 있습니다. .

고지 사항 및 리소스: 우리는 많은 세부 사항(효율성, HPLB 구성, 전력 연구 등)을 빠뜨렸다는 것을 알고 있지만 사고의 지평을 열 수 있기를 바랍니다. M광석 세부 정보 및 기존 테스트와의 비교는 당사에서 찾을 수 있습니다. 파페r CRAN에서 R-패키지 HPLB를 확인하십시오.

https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-XNUMXfXNUMXdXNUMXfXNUMX?source=rss—-XNUMXfXNUMXcfXNUMXcXNUMX—XNUMX에서 A/B 테스트의 p-값에 대한 대안 ://towardsdatascience.com/feed

<!–

–>

타임 스탬프 :

더보기 블록 체인 컨설턴트