Vaihtoehto p-arvoille A/B-testauksessa

Kuinka suuren todennäköisyyden alarajat (HPLB:t) kokonaisvaihteluetäisyydelle voivat johtaa integroituun houkuttelevaan testitilastoon A/B-testauksessa

Kuva 1: kuva alkuperäisestä paperista (tekijöiden mukaan)

Osallistujat: Loris Michel, Jeffrey Näf

Yleisen A/B-testin klassiset vaiheet, eli sen päättäminen, tulevatko kaksi havaintoryhmää eri jakaumista (esimerkiksi P ja Q), ovat:

  • Oletetaan nollahypoteesi ja vaihtoehtoinen hypoteesi (tässä P=Q ja P≠Q);
  • Määritä alfa-merkittävyystaso;
  • Rakenna tilastollinen testi (binaarinen päätös, joka hylkää nollan tai ei);
  • Johda testitilasto T;
  • Hanki p-arvo T:n likimääräisestä/asymptoottisesta/tarkasta nollajakaumasta.

Kuitenkin, kun tällainen testi hylkää nollan, eli kun p-arvo on merkitsevä (tietyllä tasolla), meiltä puuttuu vielä mitta siitä, kuinka suuri ero P:n ja Q:n välillä on. Itse asiassa testin hylkäystila voi osoittautua hyödyttömäksi tiedoksi nykyaikaisissa sovelluksissa (monimutkaiset tiedot), koska riittävällä otoskoolla (olettaen kiinteän tason ja tehon) mikä tahansa testi pyrkii hylkäämään nollan (koska se on harvoin täsmälleen totta). Voisi esimerkiksi olla mielenkiintoista saada käsitys siitä, kuinka monta datapistettä tukee jakautumaeroa.

Siksi P:n ja Q:n äärellisiin näytteisiin perustuen hienompi kysymys kuin "eroittaako P Q:sta?" voitaisiin ilmaista seuraavasti: "Mikä on todennäköisyyspohjainen alaraja havaintojen λ-osuudelle, joka todella tukee eroa P:n ja Q:n välillä?". Tämä muuttaisi muodollisesti estimaatin λˆ, joka tyydyttää λˆ ≤ λ suurella todennäköisyydellä (sanotaan 1-alfa). Nimeämme tällaisen arvion an suuren todennäköisyyden alaraja (HPLB) on λ.

Tässä tarinassa haluamme motivoida HPLB:n käyttöä A/B-testauksessa ja perustella, miksi oikea käsite λ:lle on kokonaismuutosetäisyys P:n ja Q:n välillä, eli TV(P, Q). Säilytämme selityksen ja yksityiskohdat tällaisen HPLB:n rakentamisesta toista artikkelia varten. Voit aina tarkistaa meidän Paper lisätietoja.

Miksi kokonaisvaihteluetäisyys?

Kokonaisvaihteluetäisyys on vahva (hieno) todennäköisyyksien mitta. Tämä tarkoittaa, että jos kaksi todennäköisyysjakaumaa ovat erilaisia, niiden kokonaisvaihteluetäisyys on nollasta poikkeava. Se määritellään yleensä joukkojen todennäköisyyksien maksimaaliseksi erimielisyydeksi. Sillä on kuitenkin intuitiivisempi esitys diskreettinä mittauksen siirtona todennäköisyyksien P ja Q välillä (katso kuva 2):

Todennäköisyysmittojen P ja Q välinen kokonaisvaihteluetäisyys on se todennäköisyysmassan murto-osa, joka pitäisi muuttaa/siirtyä P:stä todennäköisyysmitan Q saamiseksi (tai päinvastoin).

Käytännössä kokonaisvaihteluetäisyys edustaa P:n ja Q:n välisten pisteiden murto-osaa, mikä on täsmälleen oikea käsite λ:lle.

Kuva 2: Ylävasen esitys TV:stä(P, Q) todennäköisen massan erona. Ylhäällä oikealla tavallinen määritelmä TV(P, Q) maksimaalisen todennäköisyyden erimielisyyteen (sigma-algebran yli). Alla diskreetti optimaalinen kuljetusformulaatio P:stä ja Q:sta eroavana massaosuutena (tekijöiden mukaan).

Kuinka käyttää HPLB:tä ja sen etuja?

Arvio λˆ on houkutteleva A/B-testaukseen, koska tämä yksittäinen luku sisältää molemmat tilastollinen merkitsevyys (kuten p-arvo tekee) ja vaikutus arvio. Sitä voidaan käyttää seuraavasti:

  • Määritä luottamustaso (1-alfa);
  • Muodosta HPLB λˆ näiden kahden näytteen perusteella;
  • Jos λˆ on nolla, älä hylkää nollaa, muuten jos λˆ > 0, hylkää nollan ja päättelee, että λ (eroava murtoluku) on vähintään λˆ todennäköisyydellä 1-alfa.

Tietenkin maksettava hinta on, että λˆ:n arvo riippuu valitusta luottamustasosta (1-alfa), kun taas p-arvo on siitä riippumaton. Käytännössä luottamustaso ei kuitenkaan vaihtele paljon (yleensä asetettu 95 prosenttiin).

Harkitse esimerkkiä vaikutuksen koosta lääketieteessä. Uudella lääkkeellä tulee olla merkittävä vaikutus koeryhmään verrattuna lumelääkeryhmään, joka ei saanut lääkettä. Mutta sillä on myös merkitystä, kuinka suuri vaikutus on. Sellaisenaan ei pitäisi puhua vain p-arvoista, vaan myös antaa jonkin verran vaikutusten suuruutta. Tämä tunnustetaan nyt laajasti hyvässä lääketieteellisessä tutkimuksessa. Yksimuuttuja-asetuksissa onkin käytetty lähestymistapaa, joka käyttää intuitiivisempaa lähestymistapaa TV(P,Q):n laskemiseen, kuvaamaan eroa hoito- ja kontrolliryhmien välillä. HPLB-lähestymistapamme tarjoaa sekä merkittävyyden mittarin että vaikutuksen koon. Havainnollistetaan tätä esimerkillä:

Tehdään esimerkki

Simuloimme kahta jakautumaa P ja Q kahdessa ulottuvuudessa. P on siten vain monimuuttujanormaali, kun taas Q on a seos P:n ja monimuuttujanormaalin välillä siirretyllä keskiarvolla.

kirjasto (mvtnorm)
kirjasto (HPLB)
set.seed(1)
n <-2000
p<-2
#Suurempi delta -> enemmän eroa P:n ja Q:n välillä
#Pienempi delta -> Pienempi ero P:n ja Q:n välillä
delta<-0
# Simuloi X~P ja Y~Q tietylle deltalle
U<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=delta)*rmvnorm(n=n, keskiarvo=rep(2,p), sig=diag(p))+ (1-(U <=delta))*rmvnorm(n=n, sig=diag(p))
plot(Y, cex=0.8, col="tummansininen")
pisteet (X, cex=0.8, col="punainen")

Seoksen painon delta määrää, kuinka vahvat nämä kaksi jakautumista ovat erilaisia. Vaihtelemalla deltaa 0 - 0.9, tämä näyttää tältä:

Simuloi tietoja delta = 0 (ylhäällä oikea), delta = 0.05, (ylhäällä vasen), delta = 0.3 (alhaalla oikealla) ja delta = 0.8 (alhaalla vasen). Lähde: kirjoittaja

Voimme sitten laskea HPLB:n kullekin näistä skenaarioista:

#Estimate HPLB kussakin tapauksessa (vaihtele deltaa ja suorita koodi uudelleen)
t.train<- c(rep(0,n/2), rep(1,n/2) )
xy.train <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(rep(0,n/2), rep(1,n/2) )
xy.testi <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- ranger::ranger(t~., data.frame(t=t.train,x=xy.train))
rho <- ennusta(rf, data.frame(t=t.test,x=xy.test))$predictions
tvhat <- HPLB(t = t.testi, rho = rho, estimator.type = "sopeuta")
tvhat

Jos teemme sen yllä olevan siemensarjan kanssa, me

Arvioidut arvot eri deltaille.

Siten HPLB onnistuu (i) havaitsemaan, milloin näissä kahdessa jakaumassa ei todellakaan ole muutosta, eli se on nolla, kun delta on nolla, (ii) havaitsemaan jo erittäin pienen eron, kun delta on vain 0.05 ja (iii) havaitsemaan, että ero on suurempi mitä suurempi delta on. Jälleen olennaista muistaa näistä arvoista on, että ne todella merkitsevät jotain – arvo 0.64 on suurella todennäköisyydellä todellisen television alaraja. Erityisesti jokainen luku, joka on suurempi nolla, tarkoittaa testiä, jonka P=Q hylättiin 5 %:n tasolla.

Johtopäätös:

A/B-testauksessa (kahden otoksen testaus) keskitytään usein tilastollisen testin hylkäystilaan. Kun testi hylkää nollajakauman, käytännössä on kuitenkin hyödyllistä saada jakaumaeron intensiteettimitta. Rakentamalla suuren todennäköisyyden alarajat kokonaisvaihteluetäisyydelle voimme rakentaa alarajan havaintojen osalle, joiden odotetaan olevan erilaisia, ja siten tarjota integroidun vastauksen eroon jakautumisessa ja siirtymän intensiteetissä. .

vastuuvapauslauseke ja resurssit: Tiedämme, että jätimme pois monia yksityiskohtia (tehokkuus, HPLB:n rakenne, tehotutkimukset jne.), mutta toivomme, että meillä on avoin ajatteluhorisontti. Mmalmin yksityiskohdat ja vertailu olemassa oleviin testeihin löytyvät sivuiltamme Paper ja tutustu R-paketin HPLB:hen CRANissa.

Vaihtoehto p-arvoille A/B-testauksessa Julkaistu uudelleen lähteestä https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 ://towardsdatascience.com/feed

<!-

->

Aikaleima:

Lisää aiheesta Blockchain-konsultit