Ett alternativ till p-värden i A/B-testning

Hur hög sannolikhet lägre gränser (HPLB) på det totala variationsavståndet kan leda till en integrerad tilltalande teststatistik i A/B-testning

Figur 1: figur från originaltidningen (av författare)

Medverkande: Loris Michel, Jeffrey Näf

De klassiska stegen i ett allmänt A/B-test, dvs att avgöra om två grupper av observationer kommer från olika fördelningar (säg P och Q), är:

  • Antag en noll och en alternativ hypotes (här P=Q respektive P≠Q);
  • Definiera en signifikansnivå alfa;
  • Konstruera ett statistiskt test (ett binärt beslut som avvisar noll eller inte);
  • Härled en teststatistik T;
  • Få ett p-värde från den ungefärliga/asymptotiska/exakta nollfördelningen av T.

Men när ett sådant test förkastar noll, dvs när p-värdet är signifikant (på en given nivå) saknar vi fortfarande ett mått på hur stor skillnaden mellan P och Q är. Faktum är att avvisningsstatusen för ett test kan visa sig vara värdelös information i moderna applikationer (komplexa data) eftersom med tillräckligt stor urvalsstorlek (förutsatt att en fast nivå och effekt) kommer varje test att tendera att avvisa nollvärdet (eftersom det sällan är exakt Sann). Det kan till exempel vara intressant att ha en uppfattning om hur många datapunkter som stödjer en fördelningsskillnad.

Därför, baserat på finita sampel från P och Q, en finare fråga än "är P annorlunda än Q?" skulle kunna uttryckas som "Vad är en probabilistisk nedre gräns för den bråkdel av observationer λ som faktiskt stöder en skillnad i fördelning mellan P och Q?". Detta skulle formellt översättas till konstruktionen av en uppskattning λˆ som uppfyller λˆ ≤ λ med hög sannolikhet (säg 1-alfa). Vi namnger en sådan uppskattning en hög sannolikhet nedre gräns (HPLB) på λ.

I den här berättelsen vill vi motivera användningen av HPLB i A/B-testning och ge ett argument för varför den rätta uppfattningen för λ är totalt variationsavstånd mellan P och Q, dvs TV(P, Q). Vi kommer att behålla förklaringen och detaljerna om konstruktionen av en sådan HPLB för en annan artikel. Du kan alltid kolla vår Paper för mer detaljer.

Varför den totala variationsdistansen?

Det totala variationsavståndet är ett starkt (fint) mått för sannolikheter. Detta betyder att om två sannolikhetsfördelningar är olika så kommer deras totala variationsavstånd att vara likt noll. Det definieras vanligtvis som den maximala oenigheten av sannolikheter på uppsättningar. Den har dock en mer intuitiv representation som en diskret transport av mått mellan sannolikheterna P och Q (se figur 2):

Det totala variationsavståndet mellan sannolikhetsmåtten P och Q är den del av sannolikhetsmassan som man skulle behöva ändra/flytta från P för att erhålla sannolikhetsmåttet Q (eller vice versa).

Rent praktiskt representerar det totala variationsavståndet den del av punkter som skiljer sig mellan P och Q, vilket är exakt den rätta uppfattningen för λ.

Figur 2: Överst till vänster representation av TV(P, Q) som skillnaden i sannolikt massa. Överst till höger den vanliga definitionen som TV(P, Q) som oenighet om maximal sannolikhet (över en sigma-algebra). Längst ner den diskreta optimala transportformuleringen som en del av massan som skiljer sig från P och Q (av författare).

Hur använder man en HPLB och dess fördel?

Uppskattningen λˆ är tilltalande för A/B-testning eftersom detta enda nummer innebär både statistisk signifikans (som p-värdet gör) och effektstorlek uppskattning. Den kan användas enligt följande:

  • Definiera en konfidensnivå (1-alfa);
  • Konstruera HPLB λˆ baserat på de två proverna;
  • Om λˆ är noll, förkasta inte nollvärdet, annars förkastar λˆ > 0 nollvärdet och drar slutsatsen att λ (den avvikande bråkdelen) är åtminstone λˆ med sannolikheten 1-alfa.

Naturligtvis är priset att betala att värdet på λˆ beror på den valda konfidensnivån (1-alfa) medan ett p-värde är oberoende av det. I praktiken varierar dock inte konfidensnivån mycket (vanligtvis satt till 95%).

Betrakta exemplet med effektstorlek inom medicin. Ett nytt läkemedel behöver ha en signifikant effekt i experimentgruppen, jämfört med en placebogrupp som inte fått medicinen. Men det spelar också roll hur stor effekten blir. Som sådan bör man inte bara tala om p-värden, utan också ge ett mått på effektstorlek. Detta är nu allmänt erkänt inom bra medicinsk forskning. Faktum är att ett tillvägagångssätt som använder ett mer intuitivt tillvägagångssätt för att beräkna TV(P,Q) har använts i den univariata miljön för att beskriva skillnaden mellan behandlings- och kontrollgrupper. Vår HPLB-metod ger både ett mått på signifikans och en effektstorlek. Låt oss illustrera detta med ett exempel:

Låt oss ta ett exempel

Vi simulerar två fördelningar P och Q i två dimensioner. P blir därmed bara en multivariat normal, medan Q är a blandning mellan P och en multivariat normal med förskjutet medelvärde.

bibliotek (mvtnorm)
bibliotek (HPLB)
set.seed(1)
n<-2000
p<-2
#Större delta -> mer skillnad mellan P och Q
#Mindre delta -> Mindre skillnad mellan P och Q
delta<-0
# Simulera X~P och Y~Q för givet delta
U<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=delta)*rmvnorm(n=n, medel=rep(2,p), sig=diag(p))+ (1-(U <=delta))*rmvnorm(n=n, sig=diag(p))
plot(Y, cex=0.8, col="mörkblå")
points(X, cex=0.8, col="red")

Blandningens viktdelta styr hur starka de två fördelningarna är olika. Om du varierar delta från 0 till 0.9 ser det ut så här:

Simulera data med delta=0 (överst till höger), delta=0.05, (överst till vänster), delta=0.3 (nederst till höger) och delta=0.8 (nederst till vänster). Källa: författare

Vi kan sedan beräkna HPLB för vart och ett av dessa scenarier:

#Uppskatta HPLB för varje fall (variera delta och kör koden igen)
t.train<- c(rep(0,n/2), rep(1,n/2) )
xy.train <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(rep(0,n/2), rep(1,n/2) )
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- ranger::ranger(t~., data.frame(t=t.train,x=xy.train))
rho <- predict(rf, data.frame(t=t.test,x=xy.test))$predictions
tvhat <- HPLB(t = t.test, rho = rho, estimator.type = "adapt")
tvhat

Om vi ​​gör det med fröset ovan, vi

Uppskattade värden för olika delta.

Således lyckas HPLB:en (i) detektera när det verkligen inte finns någon förändring i de två fördelningarna, dvs den är noll när delta är noll, (ii) redan detektera den extremt lilla skillnaden när delta bara är 0.05 och (iii) detektera att skillnaden är större ju större delta är. Återigen är det avgörande att komma ihåg om dessa värden att de verkligen betyder något - värdet 0.64 kommer att vara en nedre gräns för den sanna TV:n med hög sannolikhet. I synnerhet betyder vart och ett av siffrorna som är större noll ett test som P=Q fick avslag på 5%-nivån.

Slutsats:

När det gäller A/B-testning (tvåprovstestning) ligger fokus ofta på avvisningsstatusen för ett statistiskt test. När ett test förkastar nollfördelningen är det dock användbart i praktiken att ha ett intensitetsmått på fördelningsskillnaden. Genom konstruktionen av högsannolikt lägre gränser på det totala variationsavståndet kan vi konstruera en nedre gräns på den bråkdel av observationer som förväntas vara olika och därmed ge ett integrerat svar på skillnaden i fördelning och intensiteten i skiftet .

ansvarsfriskrivning och resurser: Vi är medvetna om att vi har utelämnat många detaljer (effektivitet, konstruktion av HPLBs, maktstudier, ...) men hoppas att ha en öppen horisont för tänkande. Mmalmdetaljer och jämförelse med befintliga tester finns i vår Paper och kolla in R-paket HPLB på CRAN.

Ett alternativ till p-värden i A/B-testning Återpublicerad från källa https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 via https ://towardsdatascience.com/feed

<!–

->

Tidsstämpel:

Mer från Blockchain-konsulter