Et alternativ til p-verdier i A/B-testing

Hvordan høysannsynlige nedre grenser (HPLBs) på den totale variasjonsavstanden kan føre til en integrert tiltalende teststatistikk i A/B-testing

Figur 1: figur fra originaloppgaven (av forfattere)

Bidragsytere: Loris Michel, Jeffrey Näf

De klassiske trinnene i en generell A/B-test, dvs. å bestemme om to grupper av observasjoner kommer fra forskjellige fordelinger (si P og Q), er:

  • Anta en null og en alternativ hypotese (her henholdsvis P=Q og P≠Q);
  • Definer et betydningsnivå alfa;
  • Konstruer en statistisk test (en binær avgjørelse som avviser null eller ikke);
  • Utled en teststatistikk T;
  • Få en p-verdi fra den omtrentlige/asymptotiske/nøyaktige nullfordelingen av T.

Men når en slik test avviser null, dvs. når p-verdien er signifikant (på et gitt nivå) mangler vi fortsatt et mål på hvor sterk forskjellen mellom P og Q er. Faktisk kan avvisningsstatusen til en test vise seg å være ubrukelig informasjon i moderne applikasjoner (komplekse data) fordi med nok prøvestørrelse (forutsatt et fast nivå og kraft) vil enhver test ha en tendens til å avvise null (siden det sjelden er nøyaktig ekte). For eksempel kan det være interessant å ha en idé om hvor mange datapunkter som støtter en fordelingsforskjell.

Derfor, basert på endelige prøver fra P og Q, et finere spørsmål enn "er P forskjellig fra Q?" kan oppgis som "Hva er en sannsynlig nedre grense for brøkdelen av observasjoner λ som faktisk støtter en forskjell i distribusjon mellom P og Q?". Dette vil formelt oversettes til konstruksjonen av et estimat λˆ som tilfredsstiller λˆ ≤ λ med høy sannsynlighet (si 1-alfa). Vi kaller et slikt anslag an høy sannsynlighet nedre grense (HPLB) på λ.

I denne historien ønsker vi å motivere bruken av HPLB-er i A/B-testing og gi et argument for hvorfor den rette forestillingen for λ er total variasjonsavstand mellom P og Q, dvs. TV(P, Q). Vi vil beholde forklaringen og detaljene om konstruksjonen av en slik HPLB for en annen artikkel. Du kan alltid sjekke vår paper for mer informasjon.

Hvorfor den totale variasjonsdistansen?

Den totale variasjonsavstanden er en sterk (fin) beregning for sannsynligheter. Dette betyr at hvis to sannsynlighetsfordelinger er forskjellige, vil deres totale variasjonsavstand være lik null. Det er vanligvis definert som maksimal uenighet om sannsynligheter på sett. Imidlertid har den en mer intuitiv representasjon som en diskret transport av mål mellom sannsynlighetene P og Q (se figur 2):

Den totale variasjonsavstanden mellom sannsynlighetsmålene P og Q er brøkdelen av sannsynlighetsmassen som man trenger å endre/flytte fra P for å oppnå sannsynlighetsmålet Q (eller omvendt).

Rent praktisk representerer den totale variasjonsavstanden brøkdelen av punkter som er forskjellig mellom P og Q, som er nøyaktig den rette oppfatningen for λ.

Figur 2: Øverst til venstre representasjon av TV(P, Q) som forskjellen i sannsynligvis masse. Øverst til høyre den vanlige definisjonen som TV(P, Q) som maksimal sannsynlighetsuenighet (over en sigma-algebra). Nederst den diskrete optimale transportformuleringen som brøkdel av massen som er forskjellig fra P og Q (av forfattere).

Hvordan bruke en HPLB og dens fordel?

Estimatet λˆ er tiltalende for A/B-testing fordi dette enkelttallet innebærer både Statistisk signifikant (som p-verdien gjør) og effektstørrelse anslag. Den kan brukes som følger:

  • Definer et konfidensnivå (1-alfa);
  • Konstruer HPLB λˆ basert på de to prøvene;
  • Hvis λˆ er null, så ikke avvis null, ellers hvis λˆ > 0, avviser null og konkluderer med at λ (den forskjellige brøken) er minst λˆ med sannsynlighet 1-alfa.

Selvfølgelig er prisen å betale at verdien av λˆ avhenger av det valgte konfidensnivået (1-alfa), mens en p-verdi er uavhengig av det. Ikke desto mindre varierer ikke konfidensnivået mye i praksis (vanligvis satt til 95%).

Tenk på eksempelet på effektstørrelse i medisin. Et nytt medikament må ha signifikant effekt i forsøksgruppen, sammenlignet med en placebogruppe som ikke mottok medisinen. Men det har også betydning hvor stor effekten er. Som sådan bør man ikke bare snakke om p-verdier, men også gi et mål på effektstørrelse. Dette er nå allment anerkjent i god medisinsk forskning. Faktisk har en tilnærming som bruker en mer intuitiv tilnærming for å beregne TV(P,Q) blitt brukt i den univariate innstillingen for å beskrive forskjellen mellom behandlings- og kontrollgrupper. Vår HPLB-tilnærming gir både et mål på betydning så vel som en effektstørrelse. La oss illustrere dette med et eksempel:

La oss lage et eksempel

Vi simulerer to fordelinger P og Q i to dimensjoner. P vil dermed bare være en multivariat normal, mens Q er en blanding mellom P og en multivariat normal med forskjøvet gjennomsnitt.

bibliotek (mvtnorm)
bibliotek (HPLB)
set.seed(1)
n<-2000
p<-2
#Større delta -> mer forskjell mellom P og Q
#Mindre delta -> Mindre forskjell mellom P og Q
delta<-0
# Simuler X~P og Y~Q for gitt delta
U<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=delta)*rmvnorm(n=n, gjennomsnitt=rep(2,p), sig=diag(p))+ (1-(U <=delta))*rmvnorm(n=n, sig=diag(p))
plot(Y, cex=0.8, col="mørkeblå")
points(X, cex=0.8, col="red")

Blandingsvektens delta kontrollerer hvor sterke de to fordelingene er forskjellige. Ved å variere delta fra 0 til 0.9 ser dette slik ut:

Simuler data med delta=0 (øverst til høyre), delta=0.05, (øverst til venstre), delta=0.3 (nederst til høyre) og delta=0.8 (nederst til venstre). Kilde: forfatter

Vi kan deretter beregne HPLB for hvert av disse scenariene:

#Estimer HPLB for hvert tilfelle (varier delta og kjør koden på nytt)
t.train<- c(rep(0,n/2), rep(1,n/2) )
xy.train <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(rep(0,n/2), rep(1,n/2) )
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- ranger::ranger(t~., data.frame(t=t.train,x=xy.train))
rho <- predict(rf, data.frame(t=t.test,x=xy.test))$prediksjoner
tvhat <- HPLB(t = t.test, rho = rho, estimator.type = "tilpasse")
tvhat

Hvis vi gjør det med frøsettet ovenfor, vi

Estimerte verdier for ulike deltaer.

Dermed klarer HPLB å (i) oppdage når det faktisk ikke er noen endring i de to distribusjonene, dvs. den er null når delta er null, (ii) oppdage allerede den ekstremt lille forskjellen når delta bare er 0.05 og (iii) oppdage at forskjellen er større jo større deltaet er. Igjen er det avgjørende å huske om disse verdiene at de virkelig betyr noe - verdien 0.64 vil være en nedre grense for ekte TV med høy sannsynlighet. Spesielt betyr hvert av tallene som er større null en test som P=Q ble avvist på 5%-nivået.

Konklusjon:

Når det gjelder A/B-testing (to-sample testing) er fokuset ofte på avvisningsstatusen til en statistisk test. Når en test avviser nullfordelingen, er det imidlertid nyttig i praksis å ha et intensitetsmål på fordelingsforskjellen. Gjennom konstruksjon av høysannsynlige nedre grenser på den totale variasjonsavstanden, kan vi konstruere en nedre grense på brøkdelen av observasjoner som forventes å være forskjellige og dermed gi et integrert svar på forskjellen i distribusjon og intensiteten av skiftet. .

ansvarsfraskrivelse og ressurser: Vi er klar over at vi utelot mange detaljer (effektivitet, konstruksjon av HPLB-er, kraftstudier, ...), men håper å ha åpnet en tenkehorisont. Mmalmdetaljer og sammenligning med eksisterende tester finner du i vår paper og sjekk ut R-pakken HPLB på CRAN.

Et alternativ til p-verdier i A/B-testing Gjenpublisert fra kilde https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 via https ://towardsdatascience.com/feed

<!–

->

Tidstempel:

Mer fra Blockchain-konsulenter