Alternatiiv p-väärtustele A/B testimisel

Kuidas suure tõenäosusega alumised piirid (HPLB) kogu variatsioonikaugusel võivad viia integreeritud ahvatleva testistatistikani A/B testimisel

Joonis 1: joonis originaalpaberilt (autorite poolt)

Kaasautorid: Loris Michel, Jeffrey Näf

Üldise A/B testi klassikalised etapid, st otsustamine, kas kaks vaatlusrühma pärinevad erinevatest jaotustest (näiteks P ja Q), on järgmised:

  • Oletame null- ja alternatiivhüpoteesi (siinkohal vastavalt P=Q ja P≠Q);
  • Määratlege olulisuse tase alfa;
  • Koostage statistiline test (binaarne otsus, mis lükkab nulli tagasi või mitte);
  • Tuletage teststatistika T;
  • Saate p-väärtuse T ligikaudse/asümptootilise/täpse nulljaotuse põhjal.

Kui aga selline test lükkab nulli tagasi, st kui p-väärtus on oluline (antud tasemel), puudub meil ikkagi mõõt, kui tugev on erinevus P ja Q vahel. Tegelikult võib testi tagasilükkamise olek tänapäevastes rakendustes osutuda kasutuks teabeks (keerulised andmed), sest piisava valimi suuruse korral (eeldusel, et tase ja võimsus on fikseeritud) kipub iga test nulli tagasi lükkama (kuna see on harva täpselt tõsi). Näiteks võib olla huvitav omada ettekujutust sellest, kui palju andmepunkte toetab jaotuserinevust.

Seetõttu on P ja Q lõplike valimite põhjal peenem küsimus kui "kas P erineb Q-st?" võib öelda järgmiselt: "Mis on tõenäosuslik alumine piir vaatluste λ murdosale, mis tegelikult toetab erinevust P ja Q vahel?". See tähendaks formaalselt hinnangu λˆ konstrueerimist, mis rahuldaks suure tõenäosusega λˆ ≤ λ (ütleme 1-alfa). Nimetame sellise hinnangu an suure tõenäosusega alumine piir (HPLB) λ-l.

Selles loos tahame motiveerida HPLB-de kasutamist A/B testimisel ja anda argumendi, miks λ õige mõiste on kogu variatsioonikaugus P ja Q vahel, st TV(P, Q). Jätame selgituse ja üksikasjad sellise HPLB ehitamise kohta mõne teise artikli jaoks. Saate alati meiega tutvuda Paper rohkem üksikasju.

Miks kogu variatsiooni kaugus?

Kogu variatsioonikaugus on tõenäosuste tugev (peen) mõõdik. See tähendab, et kui kaks tõenäosusjaotust on erinevad, on nende kogu variatsioonikaugus nullist erinev. Tavaliselt määratletakse seda kui kogumite tõenäosuste maksimaalset lahknevust. Siiski on sellel intuitiivsem esitus kui mõõtude diskreetne transport tõenäosuste P ja Q vahel (vt joonis 2):

Tõenäosusmõõtude P ja Q vaheline koguvariatsioonikaugus on tõenäosusmassi osa, mida oleks vaja P-st muuta/liikuda, et saada tõenäosusmõõtu Q (või vastupidi).

Praktikas esindab kogu variatsioonikaugus P ja Q vahel erinevate punktide osa, mis on täpselt λ jaoks õige mõiste.

Joonis 2: TV(P, Q) ülemine vasakpoolne esitus tõenäolise massi erinevusena. Üleval paremal tavaline määratlus TV(P, Q) kui maksimaalse tõenäosusega lahkarvamus (sigma-algebra üle). Allpool on diskreetne optimaalne transpordikoostis P-st ja Q-st erineva massi osana (autorite poolt).

Kuidas kasutada HPLB-d ja selle eeliseid?

Hinnang λˆ on A/B-testimise jaoks ahvatlev, kuna see üks arv sisaldab mõlemat statistiline olulisus (nagu teeb p-väärtus) ja mõju suurus hinnang. Seda saab kasutada järgmiselt:

  • Määratlege usaldustase (1-alfa);
  • Kahe näidise põhjal koostage HPLB λˆ;
  • Kui λˆ on null, siis ära nulli tagasi lükka, vastasel juhul kui λˆ > 0, lükkab nulli tagasi ja järeldab, et λ (erinev murd) on vähemalt λˆ tõenäosusega 1-alfa.

Loomulikult tuleb maksta selle eest, et λˆ väärtus sõltub valitud usaldustasemest (1-alfa), samas kui p-väärtus on sellest sõltumatu. Sellegipoolest ei varieeru usaldustase praktikas palju (tavaliselt seatakse see 95%).

Mõelge mõju suuruse näitele meditsiinis. Uuel ravimil peab katserühmas olema märkimisväärne mõju, võrreldes platseeborühmaga, kes seda ravimit ei saanud. Kuid oluline on ka see, kui suur on mõju. Sellisena ei tohiks rääkida ainult p-väärtustest, vaid anda ka mõningane mõju suuruse mõõt. Seda tunnustatakse nüüd laialdaselt heades meditsiiniuuringutes. Tõepoolest, ühemõõtmelises seadistuses on ravi- ja kontrollrühmade erinevuse kirjeldamiseks kasutatud lähenemist, mis kasutab TV (P, Q) arvutamiseks intuitiivsemat lähenemisviisi. Meie HPLB-lähenemine annab nii olulisuse kui ka efekti suuruse. Illustreerime seda näitega:

Toome näite

Simuleerime kahte jaotust P ja Q kahes mõõtmes. P on seega lihtsalt mitme muutujaga normaal, samas kui Q on a segu P ja mitme muutujaga normaalse nihutatud keskmise vahel.

raamatukogu (mvtnorm)
raamatukogu (HPLB)
set.seed(1)
n<-2000
p<-2
#Suurem delta -> suurem erinevus P ja Q vahel
#Väiksem delta -> väiksem erinevus P ja Q vahel
delta<-0
# Simuleerige X~P ja Y~Q antud delta jaoks
U<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=delta)*rmvnorm(n=n, keskmine=rep(2,p), sig=diag(p))+ (1-(U <=delta))*rmvnorm(n=n, sig=diag(p))
plot (Y, cex=0.8, col="tumesinine")
punktid (X, cex=0.8, col="punane")

Segu kaalu delta määrab, kui tugevad need kaks jaotust erinevad. Muutes deltat vahemikus 0 kuni 0.9, näeb see välja järgmine:

Simuleerige andmeid: delta = 0 (paremal ülaosas), delta = 0.05, (vasakul ülaosas), delta = 0.3 (all paremal) ja delta = 0.8 (all vasakul). Allikas: autor

Seejärel saame arvutada HPLB iga järgmise stsenaariumi jaoks:

#Estimate HPLB iga juhtumi jaoks (muutke deltat ja käivitage kood uuesti)
t.train<- c(rep(0,n/2), rep(1,n/2) )
xy.train <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(rep(0,n/2), rep(1,n/2) )
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- ranger::ranger(t~., data.frame(t=t.train,x=xy.train))
rho <- ennusta(rf, data.frame(t=t.test,x=xy.test))$predictions
tvhat <- HPLB(t = t.test, rho = rho, estimator.type = "adapt")
tvhat

Kui teeme seda ülaltoodud seemnekomplektiga, siis me

Erinevate deltade hinnangulised väärtused.

Seega suudab HPLB (i) tuvastada, kui kahes jaotuses tõepoolest muutusi ei ole, st see on null, kui delta on null, (ii) tuvastada juba väga väike erinevus, kui delta on ainult 0.05 ja (iii) tuvastada, et erinevus on seda suurem, mida suurem on delta. Jällegi on oluline nende väärtuste puhul meeles pidada, et need tõesti tähendavad midagi – väärtus 0.64 on tõelise teleri jaoks suure tõenäosusega madalam piir. Eelkõige tähendab iga nullist suurem arv testi, mille P=Q lükati tagasi 5% tasemel.

Järeldus:

A/B testimise (kahe valimiga testimise) puhul keskendutakse sageli statistilise testi tagasilükkamise olekule. Kui test lükkab nulljaotuse tagasi, on praktikas siiski kasulik kasutada jaotuserinevuste intensiivsust. Kogu variatsioonikauguse suure tõenäosusega alumiste piiride konstrueerimise abil saame konstrueerida alampiiri nende vaatluste murdosa kohta, mis eeldatavasti on erinevad ja seega anda integreeritud vastuse erinevusele jaotuses ja nihke intensiivsuses. .

lahtiütlus ja ressursid: Oleme teadlikud, et jätsime välja palju üksikasju (tõhusus, HPLB-de ehitus, võimsusuuringud jne), kuid loodame avada mõtlemishorisondi. Mmaagi üksikasjad ja võrdlus olemasolevate testidega leiate meie lehelt Paper ja vaadake R-paketi HPLB-d saidil CRAN.

Alternatiiv p-väärtustele A/B testimisel Avaldatud uuesti allikast https://towardsdatascience.com/an-alternative-to-p-values-in-a-b-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 https://towardsdatascience.com/an-alternative-to-p-values-in-a-b-testing-XNUMXfXNUMXdXNUMXfXNUMX?source=rss—-XNUMXfXNUMXcfXNUMXcXNUMX—XNUMX kaudu ://towardsdatascience.com/feed

<!–

->

Ajatempel:

Veel alates Blockchaini konsultandid