Een alternatief voor p-waarden bij A/B-testen

Hoe Hoge waarschijnlijkheid ondergrenzen (HPLB's) op de totale variatieafstand kunnen leiden tot een geïntegreerde aansprekende teststatistiek in A/B-testen

Figuur 1: figuur uit het originele artikel (door auteurs)

Medewerkers: Loris Michel, Jeffrey Naf

De klassieke stappen van een algemene A/B-test, dwz bepalen of twee groepen waarnemingen uit verschillende distributies komen (bijvoorbeeld P en Q), zijn:

  • Ga uit van een nulhypothese en een alternatieve hypothese (hier respectievelijk P=Q en P≠Q);
  • Definieer een significantieniveau alfa;
  • Construeer een statistische test (een binaire beslissing die de nul verwerpt of niet);
  • Leid een toetsingsgrootheid T af;
  • Verkrijg een p-waarde uit de benaderde/asymptotische/exacte nulverdeling van T.

Wanneer zo'n test echter de nul verwerpt, dwz wanneer de p-waarde significant is (op een bepaald niveau), missen we nog steeds een maatstaf voor hoe sterk het verschil tussen P en Q is. In feite kan de afwijzingsstatus van een test nutteloze informatie blijken te zijn in moderne toepassingen (complexe gegevens), omdat bij voldoende steekproefomvang (uitgaande van een vast niveau en vast vermogen) elke test de neiging zal hebben om de nul te verwerpen (aangezien het zelden exact is). WAAR). Het kan bijvoorbeeld interessant zijn om een ​​idee te hebben van hoeveel gegevenspunten een verdelingsverschil ondersteunen.

Daarom, op basis van eindige steekproeven van P en Q, een fijnere vraag dan "is P anders dan Q?" zou kunnen worden gesteld als "Wat is een probabilistische ondergrens voor de fractie van waarnemingen λ die daadwerkelijk een verschil in verdeling tussen P en Q ondersteunt?". Dit zou zich formeel vertalen in de constructie van een schatting λˆ die met grote waarschijnlijkheid voldoet aan λˆ ≤ λ (zeg 1-alfa). We noemen zo'n schatting an hoge waarschijnlijkheid ondergrens (HPLB) op λ.

In dit verhaal willen we het gebruik van HPLB's in A/B-testen motiveren en een argument geven waarom de juiste notie voor λ de totale variatieafstand tussen P en Q, dwz TV(P, Q). De uitleg en details over de constructie van zo'n HPLB bewaren we voor een ander artikel. Je kunt altijd bij ons kijken Paper voor meer details.

Waarom de totale variatieafstand?

De totale variatieafstand is een sterke (fijne) maatstaf voor kansen. Dit betekent dat als twee kansverdelingen verschillend zijn, hun totale variatieafstand niet nul zal zijn. Het wordt meestal gedefinieerd als de maximale onenigheid van kansen op sets. Het heeft echter een meer intuïtieve weergave als een discreet maattransport tussen de kansen P en Q (zie figuur 2):

De totale variatieafstand tussen de waarschijnlijkheidsmetingen P en Q is de fractie van de waarschijnlijkheidsmassa die men nodig zou hebben om van P te veranderen/verplaatsen om de waarschijnlijkheidsmaat Q te verkrijgen (of vice versa).

In praktische termen vertegenwoordigt de totale variatieafstand de fractie punten die verschillen tussen P en Q, wat precies de juiste notie is voor λ.

Figuur 2: Weergave linksboven van TV(P, Q) als het verschil in waarschijnlijke massa. Rechtsboven de gebruikelijke definitie als TV(P, Q) als maximale kansonenigheid (over een sigma-algebra). Onderaan de discrete optimale transportformulering als massafractie die verschilt van P en Q (door auteurs).

Hoe een HPLB te gebruiken en de voordelen ervan?

De schatting λˆ is aantrekkelijk voor A/B-testen omdat dit enkele getal zowel de statistische significantie (zoals de p-waarde doet) en de effectgrootte schatting. Het kan als volgt worden gebruikt:

  • Definieer een betrouwbaarheidsniveau (1-alfa);
  • Construeer de HPLB λˆ op basis van de twee monsters;
  • Als λˆ nul is, verwerp dan de nul niet, anders als λˆ > 0, verwerp dan de nul en concludeer dat λ (de verschillende breuk) ten minste λˆ is met waarschijnlijkheid 1-alfa.

Natuurlijk is de prijs die betaald moet worden dat de waarde van λˆ afhangt van het gekozen betrouwbaarheidsniveau (1-alpha), terwijl een p-waarde daarvan onafhankelijk is. Desalniettemin varieert het betrouwbaarheidsniveau in de praktijk niet veel (meestal ingesteld op 95%).

Neem het voorbeeld van effectgrootte in de geneeskunde. Een nieuw medicijn moet een significant effect hebben in de experimentele groep, in vergelijking met een placebogroep die het medicijn niet heeft gekregen. Maar het maakt ook uit hoe groot het effect is. Daarom moet men niet alleen over p-waarden praten, maar ook een maat voor de effectgrootte geven. Dit wordt nu algemeen erkend in goed medisch onderzoek. Er is inderdaad een benadering gebruikt die een meer intuïtieve benadering gebruikt om TV(P,Q) te berekenen in de univariate setting om het verschil tussen behandelings- en controlegroepen te beschrijven. Onze HPLB-benadering biedt zowel een maatstaf voor significantie als een effectgrootte. Laten we dit illustreren aan de hand van een voorbeeld:

Laten we een voorbeeld nemen

We simuleren twee verdelingen P en Q in twee dimensies. P zal daarbij slechts een multivariate normaal zijn, terwijl Q a is mengsel tussen P en een multivariate normaal met verschoven gemiddelde.

bibliotheek(mvtnorm)
bibliotheek (HPLB)
set.zaad(1)
n<-2000
p<-2
#Grotere delta -> meer verschil tussen P en Q
#Kleinere delta -> Minder verschil tussen P en Q
delta<-0
# Simuleer X~P en Y~Q voor gegeven delta
U<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=delta)*rmvnorm(n=n, gemiddelde=rep(2,p), sig=diag(p))+ (1-(U <=delta))*rmvnorm(n=n, sig=diag(p))
plot(Y, cex=0.8, col="donkerblauw")
punten(X, cex=0.8, col="rood")

De gewichtsdelta van het mengsel bepaalt hoe sterk de twee verdelingen verschillen. Varierende delta van 0 tot 0.9 ziet er zo uit:

Simuleer gegevens met delta=0 (rechtsboven), delta=0.05, (linksboven), delta=0.3 (rechtsonder) en delta=0.8 (linksonder). Bron: auteur

We kunnen dan de HPLB berekenen voor elk van deze scenario's:

#Schat HPLB voor elk geval (varieer delta en voer de code opnieuw uit)
t.train<- c(rep(0,n/2), rep(1,n/2) )
xy.trein <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(rep(0,n/2), rep(1,n/2) )
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- ranger::ranger(t~., data.frame(t=t.train,x=xy.train))
rho <- predict(rf, data.frame(t=t.test,x=xy.test))$predictions
tvhat <- HPLB(t = t.test, rho = rho, estimator.type = "adapt")
tvhoed

Als we dat doen met het bovenstaande zaad, kunnen we

Geschatte waarden voor verschillende delta's.

Zo slaagt de HPLB erin om (i) te detecteren wanneer er inderdaad geen verandering is in de twee verdelingen, dwz het is nul als delta nul is, (ii) al het extreem kleine verschil te detecteren wanneer delta slechts 0.05 is en (iii) te detecteren dat de het verschil is groter naarmate de delta groter is. Nogmaals, het cruciale om te onthouden over deze waarden is dat ze echt iets betekenen - de waarde 0.64 zal met grote waarschijnlijkheid een ondergrens zijn voor de echte tv. In het bijzonder betekent elk van de nummers die groter is dan nul een test die P=Q werd afgewezen op het 5%-niveau.

Conclusie:

Bij A/B-testen (two-sample testing) ligt de focus vaak op de afwijzingsstatus van een statistische test. Wanneer een test de nulverdeling verwerpt, is het in de praktijk echter nuttig om een ​​intensiteitsmaat van het verdelingsverschil te hebben. Door de constructie van zeer waarschijnlijke ondergrenzen op de totale variatieafstand, kunnen we een ondergrens construeren voor de fractie waarnemingen die naar verwachting verschillend zullen zijn en zo een geïntegreerd antwoord geven op het verschil in verdeling en de intensiteit van de verschuiving .

disclaimer en bronnen: We zijn ons ervan bewust dat we veel details hebben weggelaten (efficiëntie, constructie van HPLB's, vermogensstudies, ...) maar hopen een denkhorizon te hebben. Mertsdetails en vergelijking met bestaande tests zijn te vinden in onze Paper en bekijk R-pakket HPLB op CRAN.

Een alternatief voor p-waarden bij A/B-testen Heruitgegeven vanuit de bron https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 via https ://towardsdatascience.com/feed

<!–

->

Tijdstempel:

Meer van Blockchain-adviseurs