Alternatywa dla wartości p w testach A/B

W jaki sposób dolne granice wysokiego prawdopodobieństwa (HPLB) całkowitej odległości zmienności mogą prowadzić do zintegrowanej atrakcyjnej statystyki testowej w testach A/B

Rysunek 1: rysunek z oryginalnej pracy (autorzy)

Współautor: Lorisa Michela, Jeffrey Näf

Klasyczne etapy ogólnego testu A/B, tj. decydowanie, czy dwie grupy obserwacji pochodzą z różnych rozkładów (powiedzmy P i Q), są następujące:

  • Załóż hipotezę zerową i alternatywną (tutaj odpowiednio P=Q i P≠Q);
  • Zdefiniuj poziom istotności alfa;
  • Skonstruować test statystyczny (decyzja binarna odrzucająca zero lub nie);
  • Wyprowadź statystykę testową T;
  • Uzyskaj wartość p z przybliżonego/asymptotycznego/dokładnie zerowego rozkładu T.

Jednak gdy taki test odrzuca zero, tj. gdy wartość p jest znacząca (na danym poziomie), nadal brakuje nam miary tego, jak silna jest różnica między P i Q. W rzeczywistości stan odrzucenia testu może okazać się bezużyteczną informacją w nowoczesnych aplikacjach (złożone dane), ponieważ przy wystarczającej wielkości próby (zakładając stały poziom i moc) każdy test będzie miał tendencję do odrzucania wartości zerowej (ponieważ rzadko jest dokładnie PRAWDA). Na przykład interesujące może być wyobrażenie o tym, ile punktów danych wspiera różnicę dystrybucji.

Dlatego, w oparciu o skończone próbki z P i Q, lepsze pytanie niż „czy P różni się od Q?” można określić jako „Jaka jest probabilistyczna dolna granica ułamka obserwacji λ faktycznie potwierdzającego różnicę w rozkładzie między P i Q?”. Formalnie przełożyłoby się to na konstrukcję oszacowania λˆ spełniającego λˆ ≤ λ z dużym prawdopodobieństwem (powiedzmy 1-alfa). Nazywamy takie oszacowanie an dolna granica wysokiego prawdopodobieństwa (HPLB) na λ.

W tej historii chcemy umotywować użycie HPLB w testach A/B i przedstawić argument, dlaczego właściwym pojęciem dla λ jest całkowity dystans zmienności między P i Q, tj. TV(P, Q). Wyjaśnienie i szczegóły dotyczące budowy takiego HPLB zachowamy na inny artykuł. Zawsze możesz sprawdzić nasze Paper by uzyskać więcej szczegółów.

Dlaczego odległość całkowitej zmiany?

Całkowita odległość zmienności jest silną (precyzyjną) miarą prawdopodobieństw. Oznacza to, że jeśli dwa rozkłady prawdopodobieństwa są różne, to ich całkowita odległość zmienności będzie niezerowa. Jest to zwykle definiowane jako maksymalna niezgodność prawdopodobieństw na zbiorach. Jednak cieszy się bardziej intuicyjną reprezentacją jako dyskretny transport miary między prawdopodobieństwami P i Q (patrz rysunek 2):

Całkowita odległość zmienności między miarami prawdopodobieństwa P i Q to ułamek masy prawdopodobieństwa, który należałoby zmienić/przesunąć od P, aby uzyskać miarę prawdopodobieństwa Q (lub odwrotnie).

W praktyce całkowita odległość zmienności reprezentuje ułamek punktów, które różnią się między P i Q, co jest dokładnie właściwym pojęciem dla λ.

Rysunek 2: Lewa górna reprezentacja TV(P, Q) jako prawdopodobnie różnica masy. W prawym górnym rogu zwykła definicja jako TV (P, Q) jako niezgodność maksymalnego prawdopodobieństwa (w sigma-algebrze). Dolne dyskretne sformułowanie optymalnego transportu jako ułamek masy różniący się od P i Q (autorzy).

Jak korzystać z HPLB i jego zalet?

Oszacowanie λˆ jest atrakcyjne dla testów A/B, ponieważ ta pojedyncza liczba pociąga za sobą zarówno znaczenie statystyczne (podobnie jak wartość p) i rozmiar efektu oszacowanie. Można go używać w następujący sposób:

  • Zdefiniuj poziom ufności (1-alfa);
  • Skonstruuj HPLB λˆ na podstawie dwóch próbek;
  • Jeśli λˆ wynosi zero, nie odrzucaj wartości zerowej, w przeciwnym razie, jeśli λˆ > 0, odrzucaj wartość zerową i wnioskuj, że λ (ułamek różnicujący) wynosi co najmniej λˆ z prawdopodobieństwem 1-alfa.

Oczywiście ceną do zapłacenia jest to, że wartość λˆ zależy od wybranego poziomu ufności (1-alfa), podczas gdy wartość p jest od niego niezależna. Niemniej jednak w praktyce poziom ufności nie różni się zbytnio (zwykle wynosi 95%).

Rozważmy przykład wielkości efektu w medycynie. Nowy lek musi mieć znaczący wpływ na grupę eksperymentalną w porównaniu z grupą placebo, która nie otrzymała leku. Ale ważne jest również, jak duży jest efekt. W związku z tym nie należy mówić tylko o wartościach p, ale także podać miarę wielkości efektu. Jest to obecnie powszechnie uznawane w dobrych badaniach medycznych. Rzeczywiście, podejście wykorzystujące bardziej intuicyjne podejście do obliczania TV (P, Q) zostało zastosowane w ustawieniu jednowymiarowym, aby opisać różnicę między grupami leczonymi i kontrolnymi. Nasze podejście HPLB zapewnia zarówno miarę istotności, jak i wielkość efektu. Zilustrujmy to na przykładzie:

Zróbmy przykład

Symulujemy dwa rozkłady P i Q w dwóch wymiarach. P będzie zatem po prostu wielowymiarową normalną, podczas gdy Q jest a mieszanina między P a wielowymiarową normalną z przesuniętą średnią.

biblioteka (mvtnorm)
biblioteka (HPLB)
ziarno(1)
n<-2000
p<-2
#Większa delta -> większa różnica między P i Q
#Mniejsza delta -> Mniejsza różnica między P i Q
delta<-0
# Symulacja X~P i Y~Q dla danej delty
U<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=delta)*rmvnorm(n=n, średnia=rep(2,p), sig=diag(p))+ (1-(U <=delta))*rmvnorm(n=n, znak=diag(p))
plot(Y, cex=0.8, col="ciemnoniebieski")
points(X, cex=0.8, col="red")

Delta wagi mieszanki kontroluje, jak silne są różne rozkłady. Zmieniająca się delta od 0 do 0.9 wygląda to tak:

Symuluj dane z delta=0 (prawy górny róg), delta=0.05, (lewy górny róg), delta=0.3 (prawy dolny róg) i delta=0.8 (lewy dolny róg). Źródło: autor

Następnie możemy obliczyć HPLB dla każdego z tych scenariuszy:

#Oszacuj HPLB dla każdego przypadku (zmień delta i ponownie uruchom kod)
t.pociąg<- c(rep(0,n/2), rep(1,n/2) )
xy.pociąg <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(rep(0,n/2), rep(1,n/2) )
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- ranger::ranger(t~., data.frame(t=t.pociąg,x=xy.pociąg))
rho <- predykcja(rf, data.frame(t=t.test,x=xy.test))$przewidywania
tvhat <- HPLB(t = t.test, rho = rho, estymator.typ = "adapt")
telewizja

Jeśli zrobimy to z materiałem siewnym ustawionym powyżej, my

Szacunkowe wartości dla różnych delt.

W ten sposób HPLB udaje się (i) wykryć, kiedy rzeczywiście nie ma zmian w dwóch rozkładach, tj. jest zero, gdy delta wynosi zero, (ii) wykryć już bardzo małą różnicę, gdy delta wynosi tylko 0.05 oraz (iii) wykryć, że różnica jest tym większa, im większa jest delta. Ponownie, najważniejszą rzeczą do zapamiętania na temat tych wartości jest to, że naprawdę coś znaczą — wartość 0.64 będzie z dużym prawdopodobieństwem dolną granicą dla prawdziwego telewizora. W szczególności każda z liczb większa od zera oznacza test, który P=Q został odrzucony na poziomie 5%.

Wnioski:

Jeśli chodzi o testy A/B (testy na dwóch próbach), często koncentruje się na statusie odrzucenia testu statystycznego. Gdy test odrzuca rozkład zerowy, w praktyce przydatne jest jednak posiadanie miary intensywności różnicy rozkładu. Konstruując dolne granice o wysokim prawdopodobieństwie całkowitej odległości zmienności, możemy skonstruować dolną granicę dla ułamka obserwacji, które mają być różne, a tym samym zapewnić zintegrowaną odpowiedź na różnicę w rozkładzie i intensywność przesunięcia .

zrzeczenie się odpowiedzialności i zasoby: Jesteśmy świadomi, że pominęliśmy wiele szczegółów (wydajność, budowa HPLB, badania mocy, …), ale mamy nadzieję, że otworzymy horyzont myślenia. Mszczegóły rudy i porównanie z istniejącymi testami można znaleźć w naszym Paper i sprawdź pakiet R HPLB na CRAN.

Alternatywa dla wartości p w testach A/B Opublikowano ponownie ze źródła https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 przez https ://towardsdatascience.com/feed

<!–

->

Znak czasu:

Więcej z Konsultanci Blockchain