O alternativă la valorile p în testarea A/B

Cum limitele inferioare cu probabilitate ridicată (HPLB) pe distanța totală de variație pot duce la o statistică de test atrăgătoare integrată în testarea A/B

Figura 1: figura din lucrarea originală (de către autori)

Au contribuit: Loris Michel, Jeffrey Näf

Etapele clasice ale unui test general A/B, adică a decide dacă două grupuri de observații provin din distribuții diferite (să spunem P și Q), sunt:

  • Presupunem o ipoteză nulă și una alternativă (aici, respectiv, P=Q și P≠Q);
  • Definiți un nivel de semnificație alfa;
  • Construiți un test statistic (o decizie binară care respinge nulul sau nu);
  • Deduceți o statistică de test T;
  • Obțineți o valoare p din distribuția nulă aproximativă/asimptotică/exactă a lui T.

Cu toate acestea, atunci când un astfel de test respinge nulul, adică atunci când valoarea p este semnificativă (la un nivel dat), încă ne lipsește o măsură a cât de puternică este diferența dintre P și Q. De fapt, starea de respingere a unui test s-ar putea dovedi a fi o informație inutilă în aplicațiile moderne (date complexe), deoarece cu o dimensiune suficientă a eșantionului (presupunând un nivel și o putere fixe) orice test va tinde să respingă nulul (deoarece este rareori exact exact). Adevărat). De exemplu, ar putea fi interesant să aveți o idee despre câte puncte de date susțin o diferență de distribuție.

Prin urmare, pe baza eșantioanelor finite din P și Q, o întrebare mai fină decât „este P diferit de Q?” ar putea fi afirmat ca „Ce este o limită inferioară probabilistică a fracțiunii de observații λ care susține de fapt o diferență de distribuție între P și Q?”. Acest lucru s-ar traduce în mod formal în construirea unei estimări λˆ care să satisfacă λˆ ≤ λ cu probabilitate mare (să zicem 1-alfa). Numim o astfel de estimare an limita inferioară de mare probabilitate (HPLB) pe λ.

În această poveste dorim să motivăm utilizarea HPLB-urilor în testarea A/B și să oferim un argument de ce noțiunea corectă pentru λ este distanța totală de variație între P și Q, adică TV(P, Q). Vom păstra explicația și detaliile despre construcția unui astfel de HPLB pentru un alt articol. Puteți oricând să ne verificați papăr pentru mai multe detalii.

De ce distanța totală de variație?

Distanța totală de variație este o metrică puternică (fină) pentru probabilități. Aceasta înseamnă că, dacă două distribuții de probabilitate sunt diferite, atunci distanța lor totală de variație va fi diferită de zero. De obicei, este definită ca dezacordul maxim al probabilităților pe mulțimi. Cu toate acestea, se bucură de o reprezentare mai intuitivă ca un transport discret de măsură între probabilitățile P și Q (vezi Figura 2):

Distanța de variație totală dintre măsurile de probabilitate P și Q este fracțiunea masei probabilității pe care ar trebui să o schimbi/deplasăm de la P pentru a obține măsura probabilității Q (sau invers).

În termeni practici, distanța totală de variație reprezintă fracția de puncte care diferă între P și Q, care este exact noțiunea corectă pentru λ.

Figura 2: Reprezentarea din stânga sus a TV(P, Q) ca diferență de masă probabilă. Sus, dreapta, definiția obișnuită ca TV(P, Q) ca dezacord cu probabilitatea maximă (peste o sigma-algebră). De jos formularea discretă de transport optim ca fracție de masă care diferă de P și Q (de către autori).

Cum se folosește un HPLB și avantajele acestuia?

Estimarea λˆ este atrăgătoare pentru testarea A/B, deoarece acest număr unic implică atât semnificație statistică (cum face valoarea p) și dimensiunea efectului estimare. Poate fi folosit după cum urmează:

  • Definiți un nivel de încredere (1-alfa);
  • Construiți HPLB λˆ pe baza celor două eșantioane;
  • Dacă λˆ este zero, atunci nu se respinge nul, altfel dacă λˆ > 0, se respinge nul și se ajunge la concluzia că λ (fracția diferită) este cel puțin λˆ cu probabilitatea 1-alfa.

Desigur, prețul de plătit este că valoarea lui λˆ depinde de nivelul de încredere ales (1-alfa), în timp ce o valoare p este independentă de acesta. Cu toate acestea, în practică, nivelul de încredere nu variază foarte mult (de obicei, setat la 95%).

Luați în considerare exemplul mărimii efectului în medicină. Un nou medicament trebuie să aibă un efect semnificativ în grupul experimental, comparativ cu un grup placebo, care nu a primit medicamentul. Dar contează și cât de mare este efectul. Ca atare, nu ar trebui să vorbim doar despre valorile p, ci și să dea o anumită măsură a mărimii efectului. Acest lucru este acum recunoscut pe scară largă în cercetările medicale bune. Într-adevăr, o abordare care utilizează o abordare mai intuitivă pentru a calcula TV(P,Q) a fost utilizată în setarea univariată pentru a descrie diferența dintre grupurile de tratament și cele de control. Abordarea noastră HPLB oferă atât o măsură a semnificației, cât și o dimensiune a efectului. Să ilustrăm acest lucru pe un exemplu:

Să facem un exemplu

Simulăm două distribuții P și Q în două dimensiuni. P va fi astfel doar o normală multivariată, în timp ce Q este a amestec între P și o normală multivariată cu medie decalată.

bibliotecă (mvtnorm)
bibliotecă (HPLB)
set.seed(1)
n<-2000
p<-2
#Delta mai mare -> mai multă diferență între P și Q
# Delta mai mică -> Diferență mai mică între P și Q
delta<-0
# Simulați X~P și Y~Q pentru delta dată
U<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=delta)*rmvnorm(n=n, medie=rep(2,p), sig=diag(p))+ (1-(U <=delta))*rmvnorm(n=n, sig=diag(p))
plot(Y, cex=0.8, col="albastru închis")
puncte(X, cex=0.8, col="roșu")

Delta greutății amestecului controlează cât de puternice sunt diferite cele două distribuții. Variind delta de la 0 la 0.9, aceasta arată astfel:

Simulați datele cu delta=0 (dreapta sus), delta=0.05, (stânga sus), delta=0.3 (dreapta jos) și delta=0.8 (stânga jos). Sursa: autor

Apoi putem calcula HPLB pentru fiecare dintre aceste scenarii:

#Estimați HPLB pentru fiecare caz (variați delta și reluați codul)
t.tren<- c(rep(0,n/2), rep(1,n/2) )
xy.train <-bind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(rep(0,n/2), rep(1,n/2) )
xy.test <-bind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- ranger::ranger(t~., data.frame(t=t.train,x=xy.train))
rho <- predict(rf, data.frame(t=t.test,x=xy.test))$predicții
tvhat <- HPLB(t = t.test, rho = rho, estimator.type = „adaptare”)
tvhat

Dacă facem asta cu sămânța stabilită mai sus, noi

Valori estimate pentru diferite delte.

Astfel, HPLB reușește să (i) să detecteze când într-adevăr nu există nicio modificare în cele două distribuții, adică este zero când delta este zero, (ii) să detecteze deja diferența extrem de mică când delta este doar 0.05 și (iii) să detecteze că diferența este mai mare cu cât delta este mai mare. Din nou, lucrul esențial de reținut despre aceste valori este că ele înseamnă cu adevărat ceva - valoarea 0.64 va fi o limită inferioară pentru televizorul adevărat, cu mare probabilitate. În special, fiecare dintre numerele care este mai mare cu zero înseamnă un test pe care P=Q a fost respins la nivelul de 5%.

Concluzie:

Când vine vorba de testarea A/B (testare cu două eșantioane), accentul este adesea pus pe starea de respingere a unui test statistic. Când un test respinge distribuția nulă, este totuși util în practică să existe o măsură de intensitate a diferenței de distribuție. Prin construirea limitelor inferioare de mare probabilitate pe distanța totală de variație, putem construi o limită inferioară a fracțiunii de observații care se așteaptă să fie diferite și astfel să oferim un răspuns integrat la diferența de distribuție și intensitatea deplasării. .

declinare a răspunderii și resurse: Suntem conștienți că am omis multe detalii (eficiență, construcție HPLB, studii de putere, …) dar sperăm să avem deschis un orizont de gândire. MDetaliile minereului și compararea cu testele existente pot fi găsite în pagina noastră papăr și verificați pachetul R HPLB pe CRAN.

O alternativă la valorile p în testarea A/B Republicată din sursa https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 prin https ://towardsdatascience.com/feed

<!–

->

Timestamp-ul:

Mai mult de la Consultanți Blockchain