Et alternativ til p-værdier i A/B-test

Hvordan High-probability Lower bounds (HPLB'er) på den totale variationsafstand kan føre til en integreret tiltalende teststatistik i A/B-testning

Figur 1: figur fra det originale papir (af forfattere)

Bidragydere: Loris Michel, Jeffrey Näf

De klassiske trin i en generel A/B-test, dvs. at beslutte om to grupper af observationer kommer fra forskellige fordelinger (f.eks. P og Q), er:

  • Antag en nul- og en alternativ hypotese (her henholdsvis P=Q og P≠Q);
  • Definer et betydningsniveau alfa;
  • Konstruer en statistisk test (en binær beslutning, der afviser null eller ej);
  • Udled en teststatistik T;
  • Få en p-værdi fra den omtrentlige/asymptotiske/nøjagtige nulfordeling af T.

Men når en sådan test afviser nul, altså når p-værdien er signifikant (på et givet niveau), mangler vi stadig et mål for, hvor stærk forskellen mellem P og Q er. Faktisk kan afvisningsstatussen for en test vise sig at være ubrugelig information i moderne applikationer (komplekse data), fordi med nok stikprøvestørrelse (forudsat et fast niveau og effekt) vil enhver test have en tendens til at afvise nul (da det sjældent er nøjagtigt rigtigt). Det kunne for eksempel være interessant at have en idé om, hvor mange datapunkter der understøtter en fordelingsforskel.

Derfor, baseret på endelige prøver fra P og Q, et finere spørgsmål end "er P forskellig fra Q?" kunne angives som "Hvad er en probabilistisk nedre grænse for den brøkdel af observationer λ, der faktisk understøtter en forskel i fordeling mellem P og Q?". Dette ville formelt oversættes til konstruktionen af ​​et estimat λˆ, der opfylder λˆ ≤ λ med høj sandsynlighed (f.eks. 1-alfa). Vi navngiver et sådant skøn et høj sandsynlighed nedre grænse (HPLB) på λ.

I denne historie ønsker vi at motivere brugen af ​​HPLB'er i A/B-testning og give et argument for, hvorfor den rigtige forestilling for λ er total variationsafstand mellem P og Q, dvs. TV(P, Q). Vi vil beholde forklaringen og detaljerne om konstruktionen af ​​en sådan HPLB til en anden artikel. Du kan altid tjekke vores Paper for flere detaljer.

Hvorfor den totale variationsafstand?

Den samlede variationsafstand er en stærk (fin) metrik for sandsynligheder. Dette betyder, at hvis to sandsynlighedsfordelinger er forskellige, vil deres samlede variationsafstand være ikke-nul. Det er normalt defineret som den maksimale uenighed om sandsynligheder på sæt. Det har imidlertid en mere intuitiv repræsentation som en diskret transport af mål mellem sandsynligheden P og Q (se figur 2):

Den totale variationsafstand mellem sandsynlighedsmålene P og Q er den brøkdel af sandsynlighedsmassen, som man skal ændre/flytte fra P for at opnå sandsynlighedsmålene Q (eller omvendt).

Rent praktisk repræsenterer den totale variationsafstand den brøkdel af punkter, der adskiller sig mellem P og Q, hvilket er præcis den rigtige forestilling for λ.

Figur 2: Øverst venstre repræsentation af TV(P, Q) som forskellen i sandsynligvis masse. Øverst til højre den sædvanlige definition som TV(P, Q) som uenighed om maksimal sandsynlighed (over en sigma-algebra). Nederst den diskrete optimale transportformulering som fraktion af masse, der adskiller sig fra P og Q (af forfattere).

Hvordan bruger man en HPLB og dens fordel?

Estimatet λˆ er tiltalende for A/B-testning, fordi dette enkelte tal medfører både statistisk betydning (som p-værdien gør) og effektstørrelse skøn. Det kan bruges som følger:

  • Definer et konfidensniveau (1-alfa);
  • Konstruer HPLB λˆ baseret på de to prøver;
  • Hvis λˆ er nul, så afvis ikke nul, ellers hvis λˆ > 0, forkaster nullen og konkluderer, at λ (den forskellige brøk) er mindst λˆ med sandsynlighed 1-alfa.

Selvfølgelig er prisen at betale, at værdien af ​​λˆ afhænger af det valgte konfidensniveau (1-alfa), mens en p-værdi er uafhængig af det. Ikke desto mindre varierer konfidensniveauet i praksis ikke meget (normalt sat til 95%).

Overvej eksemplet med effektstørrelse i medicin. En ny medicin skal have en signifikant effekt i forsøgsgruppen sammenlignet med en placebogruppe, der ikke fik medicinen. Men det har også betydning, hvor stor effekten er. Som sådan skal man ikke bare tale om p-værdier, men også give et vist mål for effektstørrelse. Dette er nu bredt anerkendt i god medicinsk forskning. Faktisk er en tilgang, der bruger en mere intuitiv tilgang til at beregne TV(P,Q) blevet brugt i den univariate indstilling til at beskrive forskellen mellem behandlings- og kontrolgrupper. Vores HPLB-tilgang giver både et mål for betydning såvel som en effektstørrelse. Lad os illustrere dette med et eksempel:

Lad os lave et eksempel

Vi simulerer to fordelinger P og Q i to dimensioner. P vil derved blot være en multivariat normal, mens Q er en blanding mellem P og en multivariat normal med forskudt middelværdi.

bibliotek (mvtnorm)
bibliotek (HPLB)
set.seed(1)
n<-2000
p<-2
#Større delta -> mere forskel mellem P og Q
#Mindre delta -> Mindre forskel mellem P og Q
delta<-0
# Simuler X~P og Y~Q for givet delta
U<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=delta)*rmvnorm(n=n, middel=rep(2,p), sig=diag(p))+ (1-(U <=delta))*rmvnorm(n=n, sig=diag(p))
plot(Y, cex=0.8, col="mørkeblå")
points(X, cex=0.8, col="red")

Blandingsvægtdeltaet styrer, hvor stærke de to fordelinger er forskellige. Ved at variere delta fra 0 til 0.9 ser dette sådan ud:

Simuler data med delta=0 (øverst til højre), delta=0.05, (øverst til venstre), delta=0.3 (nederst til højre) og delta=0.8 (nederst til venstre). Kilde: forfatter

Vi kan derefter beregne HPLB for hvert af disse scenarier:

#Estimer HPLB for hvert tilfælde (varier delta og kør koden igen)
t.train<- c(rep(0,n/2), rep(1,n/2) )
xy.train <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(rep(0,n/2), rep(1,n/2) )
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- ranger::ranger(t~., data.frame(t=t.train,x=xy.train))
rho <- predict(rf, data.frame(t=t.test,x=xy.test))$forudsigelser
tvhat <- HPLB(t = t.test, rho = rho, estimator.type = "tilpas")
tvhat

Hvis vi gør det med frøsættet ovenfor, vi

Anslåede værdier for forskellige deltaer.

HPLB'en formår således at (i) detektere, hvornår der faktisk ikke er nogen ændring i de to fordelinger, dvs. den er nul, når delta er nul, (ii) allerede detektere den ekstremt lille forskel, når delta kun er 0.05 og (iii) detektere, at forskellen er større, jo større delta er. Igen er det afgørende at huske om disse værdier, at de virkelig betyder noget - værdien 0.64 vil være en nedre grænse for det sande TV med høj sandsynlighed. Især betyder hvert af tallene, der er større nul, en test, som P=Q fik afvist på 5 %-niveauet.

konklusion:

Når det kommer til A/B-test (to-sample test) er fokus ofte på afvisningsstatus for en statistisk test. Når en test afviser nulfordelingen, er det dog nyttigt i praksis at have et intensitetsmål for fordelingsforskellen. Gennem konstruktion af højsandsynlige nedre grænser på den totale variationsafstand kan vi konstruere en nedre grænse på den fraktion af observationer, der forventes at være forskellige og dermed give et integreret svar på forskellen i fordeling og intensiteten af ​​skiftet .

ansvarsfraskrivelse og ressourcer: Vi er klar over, at vi har udeladt mange detaljer (effektivitet, konstruktion af HPLB'er, magtstudier, …), men håber at have en åben tænkehorisont. Mmalmdetaljer og sammenligning med eksisterende tests kan findes i vores Paper og tjek R-pakke HPLB på CRAN.

Et alternativ til p-værdier i A/B-test Genudgivet fra kilde https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 via https ://towardsdatascience.com/feed

<!–

->

Tidsstempel:

Mere fra Blockchain-konsulenter