Eine Alternative zu p-Werten in A/B-Tests

Wie High-Probability Lower Bounds (HPLBs) für die Gesamtvariationsdistanz zu einer integrierten, ansprechenden Teststatistik beim A/B-Testen führen können

Abbildung 1: Abbildung aus der Originalarbeit (von Autoren)

Anbieter: Loris Michel, Jeffrey Näf

Die klassischen Schritte eines allgemeinen A/B-Tests, also die Entscheidung, ob zwei Gruppen von Beobachtungen aus unterschiedlichen Verteilungen stammen (z. B. P und Q), sind:

  • Nehmen Sie eine Null- und eine Alternativhypothese an (hier jeweils P=Q und P≠Q);
  • Definieren Sie ein Signifikanzniveau Alpha;
  • Konstruieren Sie einen statistischen Test (eine binäre Entscheidung, ob die Null abgelehnt wird oder nicht);
  • Leiten Sie eine Teststatistik T ab;
  • Erhalten Sie einen p-Wert aus der ungefähren/asymptotischen/exakten Nullverteilung von T.

Wenn ein solcher Test jedoch die Null ablehnt, also wenn der p-Wert (auf einem bestimmten Niveau) signifikant ist, fehlt uns immer noch ein Maß dafür, wie stark der Unterschied zwischen P und Q ist. Tatsächlich könnte sich der Ablehnungsstatus eines Tests in modernen Anwendungen (komplexe Daten) als nutzlose Information herausstellen, da jeder Test bei ausreichender Stichprobengröße (unter der Annahme eines festen Niveaus und einer festen Aussagekraft) dazu neigt, die Null abzulehnen (da sie selten genau ist). WAHR). Beispielsweise könnte es interessant sein, eine Vorstellung davon zu haben, wie viele Datenpunkte einen Verteilungsunterschied unterstützen.

Basierend auf endlichen Stichproben von P und Q stellt sich daher eine feinere Frage als „Unterscheidet sich P von Q?“ könnte wie folgt formuliert werden: „Was ist eine probabilistische Untergrenze für den Beobachtungsanteil λ, der tatsächlich einen Unterschied in der Verteilung zwischen P und Q unterstützt?“ Dies würde sich formal in der Konstruktion einer Schätzung λˆ niederschlagen, die mit hoher Wahrscheinlichkeit λˆ ≤ λ erfüllt (z. B. 1-Alpha). Eine solche Schätzung nennen wir an Untergrenze mit hoher Wahrscheinlichkeit (HPLB) auf λ.

In dieser Geschichte möchten wir den Einsatz von HPLBs in A/B-Tests motivieren und ein Argument liefern, warum die richtige Vorstellung für λ ist Gesamtvariationsabstand zwischen P und Q, also TV(P, Q). Die Erklärung und Details zum Aufbau eines solchen HPLB werden wir für einen anderen Artikel aufheben. Sie können jederzeit unsere überprüfen paper für weitere Informationen an.

Warum die Gesamtvariationsdistanz?

Der Gesamtvariationsabstand ist eine starke (feine) Metrik für Wahrscheinlichkeiten. Das heißt, wenn zwei Wahrscheinlichkeitsverteilungen unterschiedlich sind, ist ihr Gesamtvariationsabstand ungleich Null. Sie wird üblicherweise als die maximale Abweichung von Wahrscheinlichkeiten auf Mengen definiert. Es lässt sich jedoch intuitiver als diskreter Maßtransport zwischen den Wahrscheinlichkeiten P und Q darstellen (siehe Abbildung 2):

Der Gesamtvariationsabstand zwischen den Wahrscheinlichkeitsmaßen P und Q ist der Bruchteil der Wahrscheinlichkeitsmasse, den man von P ändern/verschieben müsste, um das Wahrscheinlichkeitsmaß Q zu erhalten (oder umgekehrt).

In der Praxis stellt die Gesamtvariationsdistanz den Bruchteil der Punkte dar, die zwischen P und Q abweichen, was genau die richtige Vorstellung für λ ist.

Abbildung 2: Darstellung von TV(P, Q) oben links als Differenz der wahrscheinlichen Masse. Oben rechts die übliche Definition als TV(P, Q) als maximale Wahrscheinlichkeitsübereinstimmung (über eine Sigma-Algebra). Unten die diskrete optimale Transportformulierung als Massenanteil, der sich von P und Q unterscheidet (von den Autoren).

Wie nutzt man ein HPLB und welche Vorteile hat es?

Die Schätzung λˆ ist für A/B-Tests attraktiv, da diese einzelne Zahl beides beinhaltet statistische Signifikanz (wie der p-Wert) und die Effektgröße Einschätzung. Es kann wie folgt verwendet werden:

  • Definieren Sie ein Konfidenzniveau (1-Alpha);
  • Konstruieren Sie den HPLB λˆ basierend auf den beiden Proben;
  • Wenn λˆ Null ist, lehnen Sie die Null nicht ab, andernfalls, wenn λˆ > 0, lehnen Sie die Null ab und schließen daraus, dass λ (der abweichende Bruch) mindestens λˆ mit einer Wahrscheinlichkeit von 1-Alpha ist.

Der zu zahlende Preis besteht natürlich darin, dass der Wert von λˆ vom gewählten Konfidenzniveau (1-Alpha) abhängt, während ein p-Wert davon unabhängig ist. Dennoch schwankt das Konfidenzniveau in der Praxis kaum (normalerweise liegt es bei 95 %).

Betrachten Sie das Beispiel der Effektgröße in der Medizin. Ein neues Medikament muss in der Versuchsgruppe im Vergleich zu einer Placebogruppe, die das Medikament nicht erhielt, eine signifikante Wirkung haben. Es kommt aber auch darauf an, wie groß der Effekt ist. Daher sollte man nicht nur über p-Werte sprechen, sondern auch ein Maß für die Effektgröße angeben. Dies ist mittlerweile in der guten medizinischen Forschung weithin anerkannt. Tatsächlich wurde in der univariaten Umgebung ein Ansatz verwendet, der einen intuitiveren Ansatz zur Berechnung von TV(P,Q) verwendet, um den Unterschied zwischen Behandlungs- und Kontrollgruppen zu beschreiben. Unser HPLB-Ansatz liefert sowohl ein Maß für die Signifikanz als auch eine Effektgröße. Lassen Sie uns dies an einem Beispiel veranschaulichen:

Machen wir ein Beispiel

Wir simulieren zwei Verteilungen P und Q in zwei Dimensionen. P wird dadurch nur eine multivariate Normalität sein, während Q a ist Mischung zwischen P und einer multivariaten Normalität mit verschobenem Mittelwert.

Bibliothek(mvtnorm)
Bibliothek (HPLB)
set.seed(1)
n<-2000
p<-2
#Größeres Delta -> mehr Unterschied zwischen P und Q
#Kleineres Delta -> Geringerer Unterschied zwischen P und Q
Delta<-0
# Simulieren Sie X~P und Y~Q für gegebenes Delta
U<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=delta)*rmvnorm(n=n, mean=rep(2,p), sig=diag(p))+ (1-(U <=delta))*rmvnorm(n=n, sig=diag(p))
plot(Y, cex=0.8, col="darkblue")
Punkte(X, cex=0.8, col="red")

Das Mischungsgewichtsdelta steuert, wie stark sich die beiden Verteilungen unterscheiden. Variiert man Delta von 0 bis 0.9, sieht das so aus:

Simulieren Sie Daten mit Delta=0 (oben rechts), Delta=0.05 (oben links), Delta=0.3 (unten rechts) und Delta=0.8 (unten links). Quelle: Autor

Anschließend können wir den HPLB für jedes dieser Szenarios berechnen:

#HPLB für jeden Fall schätzen (Delta variieren und Code erneut ausführen)
t.train<- c(rep(0,n/2), rep(1,n/2) )
xy.train <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(rep(0,n/2), rep(1,n/2) )
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- ranger::ranger(t~., data.frame(t=t.train,x=xy.train))
rho <- predictions(rf, data.frame(t=t.test,x=xy.test))$predictions
tvhat <- HPLB(t = t.test, rho = rho, estimator.type = "adapt")
tvhat

Wenn wir das mit dem oben gesetzten Saatgut machen, werden wir

Geschätzte Werte für verschiedene Deltas.

Somit gelingt es dem HPLB, (i) zu erkennen, wann tatsächlich keine Änderung in den beiden Verteilungen vorliegt, d. h. es ist Null, wenn Delta Null ist, (ii) bereits den extrem kleinen Unterschied zu erkennen, wenn Delta nur 0.05 beträgt, und (iii) zu erkennen, dass die Der Unterschied ist umso größer, je größer Delta ist. Auch hier ist es wichtig, dass man sich bei diesen Werten vor Augen hält, dass sie wirklich etwas bedeuten – der Wert 0.64 wird mit hoher Wahrscheinlichkeit eine Untergrenze für den wahren TV darstellen. Insbesondere bedeutet jede Zahl, die größer als Null ist, einen Test, bei dem P=Q auf dem 5 %-Niveau abgelehnt wurde.

Fazit:

Bei A/B-Tests (Zwei-Stichproben-Tests) liegt der Fokus häufig auf dem Ablehnungsstatus eines statistischen Tests. Wenn ein Test die Nullverteilung ablehnt, ist es in der Praxis jedoch nützlich, ein Intensitätsmaß für den Verteilungsunterschied zu haben. Durch die Konstruktion von Untergrenzen mit hoher Wahrscheinlichkeit für die gesamte Variationsentfernung können wir eine Untergrenze für den Anteil der Beobachtungen konstruieren, von denen erwartet wird, dass sie unterschiedlich sind, und so eine integrierte Antwort auf den Unterschied in der Verteilung und die Intensität der Verschiebung liefern .

Haftungsausschluss und Ressourcen: Wir sind uns bewusst, dass wir viele Details ausgelassen haben (Effizienz, Aufbau von HPLBs, Leistungsstudien, …), hoffen aber, einen Denkhorizont zu eröffnen. MWeitere Details und einen Vergleich zu bestehenden Tests finden Sie in unserem paper und schauen Sie sich das R-Paket HPLB auf CRAN an.

Eine Alternative zu p-Werten in A/B-Tests. Neu veröffentlicht von der Quelle https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 über https ://towardsdatascience.com/feed

<!–

->

Zeitstempel:

Mehr von Blockchain-Berater