Un'alternativa ai valori p nei test A/B

In che modo i limiti inferiori ad alta probabilità (HPLB) sulla distanza di variazione totale possono portare a una statistica di test accattivante integrata nei test A/B

Figura 1: figura dal documento originale (per autori)

Collaboratori: Loris Michel, Jeffrey Naf

I passaggi classici di un test A/B generale, ovvero decidere se due gruppi di osservazioni provengono da distribuzioni diverse (diciamo P e Q), sono:

  • Assumi un'ipotesi nulla e un'ipotesi alternativa (qui rispettivamente, P=Q e P≠Q);
  • Definire un livello di significatività alfa;
  • Costruire un test statistico (una decisione binaria che rifiuta o meno il nulla);
  • Derivare una statistica test T;
  • Ottenere un p-value dalla distribuzione nulla approssimativa/asintotica/esatta di T.

Tuttavia, quando tale test rifiuta il valore nullo, cioè quando il p-value è significativo (a un dato livello) ci manca ancora una misura di quanto sia forte la differenza tra P e Q. Infatti, lo stato di rifiuto di un test potrebbe rivelarsi un'informazione inutile nelle applicazioni moderne (dati complessi) perché con una dimensione del campione sufficiente (assumendo un livello e una potenza fissi) qualsiasi test tenderà a rifiutare il valore nullo (poiché raramente è esattamente vero). Ad esempio, potrebbe essere interessante avere un'idea di quanti punti dati supportano una differenza distributiva.

Pertanto, sulla base di campioni finiti di P e Q, una domanda più fine di "P è diverso da Q?" potrebbe essere affermato come "Qual è un limite inferiore probabilistico sulla frazione di osservazioni λ che supporta effettivamente una differenza nella distribuzione tra P e Q?". Ciò si tradurrebbe formalmente nella costruzione di una stima λˆ che soddisfi λˆ ≤ λ con alta probabilità (diciamo 1-alfa). Chiamiamo tale stima an limite inferiore di alta probabilità (HPLB) su λ.

In questa storia vogliamo motivare l'uso degli HPLB nei test A/B e fornire un'argomentazione sul perché la nozione corretta per λ è la distanza di variazione totale tra P e Q, cioè TV(P, Q). Conserveremo la spiegazione e i dettagli sulla costruzione di un tale HPLB per un altro articolo. Puoi sempre controllare il nostro paper per ulteriori dettagli.

Perché la distanza di variazione totale?

La distanza di variazione totale è una metrica forte (fine) per le probabilità. Ciò significa che se due distribuzioni di probabilità sono diverse, la loro distanza di variazione totale sarà diversa da zero. Di solito è definito come il massimo disaccordo delle probabilità sugli insiemi. Tuttavia, gode di una rappresentazione più intuitiva come trasporto discreto di misura tra le probabilità P e Q (vedi Figura 2):

La distanza di variazione totale tra le misure di probabilità P e Q è la frazione di massa di probabilità che bisognerebbe modificare/spostare da P per ottenere la misura di probabilità Q (o viceversa).

In termini pratici la distanza di variazione totale rappresenta la frazione di punti che differiscono tra P e Q, che è esattamente la nozione corretta per λ.

Figura 2: Rappresentazione in alto a sinistra di TV(P, Q) come differenza di massa probabile. In alto a destra la consueta definizione di TV(P, Q) come massimo disaccordo di probabilità (su una sigma-algebra). In basso la formulazione del trasporto ottimo discreto come frazione di massa diversa da P e Q (dagli autori).

Come utilizzare un HPLB e il suo vantaggio?

La stima λˆ è interessante per il test A/B perché questo singolo numero implica sia il significato statistico (come fa il valore p) e il dimensione dell'effetto stima. Può essere utilizzato come segue:

  • Definire un livello di confidenza (1-alfa);
  • Costruire l'HPLB λˆ sulla base dei due campioni;
  • Se λˆ è zero allora non rifiutare il nullo, altrimenti se λˆ > 0, rifiuta il nullo e concludi che λ (la frazione diversa) è almeno λˆ con probabilità 1-alfa.

Ovviamente il prezzo da pagare è che il valore di λˆ dipende dal livello di confidenza scelto (1-alfa) mentre un p-value è indipendente da esso. Tuttavia, in pratica il livello di confidenza non varia molto (di solito è fissato al 95%).

Considera l'esempio della dimensione dell'effetto in medicina. Un nuovo farmaco deve avere un effetto significativo nel gruppo sperimentale, rispetto a un gruppo placebo, che non ha ricevuto il farmaco. Ma conta anche quanto sia grande l'effetto. Pertanto, non si dovrebbe parlare solo di valori p, ma anche fornire una misura della dimensione dell'effetto. Questo è ora ampiamente riconosciuto nella buona ricerca medica. In effetti, un approccio che utilizza un approccio più intuitivo per calcolare TV (P, Q) è stato utilizzato nell'impostazione univariata per descrivere la differenza tra il trattamento e i gruppi di controllo. Il nostro approccio HPLB fornisce sia una misura di significatività che una dimensione dell'effetto. Illustriamolo con un esempio:

Facciamo un esempio

Simuliamo due distribuzioni P e Q in due dimensioni. P sarà quindi solo una normale multivariata, mentre Q è a miscela tra P e una normale multivariata con media spostata.

libreria(mvtnorm)
biblioteca (HPLB)
set.seme(1)
n<-2000
p<-2
#Delta più grande -> più differenza tra P e Q
#Delta più piccolo -> Meno differenza tra P e Q
delta<-0
# Simula X~P e Y~Q per un dato delta
U<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=delta)*rmvnorm(n=n, mean=rep(2,p), sig=diag(p))+ (1-(U <=delta))*rmvnorm(n=n, sig=diag(p))
plot(Y, cex=0.8, col="blu scuro")
punti(X, cex=0.8, col="rosso")

Il delta del peso della miscela controlla la differenza tra le due distribuzioni. Variando il delta da 0 a 0.9 questo appare così:

Simula i dati con delta=0 (in alto a destra), delta=0.05, (in alto a sinistra), delta=0.3 (in basso a destra) e delta=0.8 (in basso a sinistra). Fonte: autore

Possiamo quindi calcolare l'HPLB per ciascuno di questi scenari:

#Stima HPLB per ogni caso (variare delta e rieseguire il codice)
t.train<- c(rep(0,n/2), rep(1,n/2) )
xy.treno <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(rep(0,n/2), rep(1,n/2) )
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- ranger::ranger(t~., data.frame(t=t.train,x=xy.train))
rho <- predict(rf, data.frame(t=t.test,x=xy.test))$previsioni
tvhat <- HPLB(t = t.test, rho = rho, estimator.type = "adatta")
quello

Se lo facciamo con il seme impostato sopra, noi

Valori stimati per diversi delta.

Pertanto l'HPLB riesce a (i) rilevare quando non vi è effettivamente alcun cambiamento nelle due distribuzioni, ovvero è zero quando delta è zero, (ii) rilevare già la differenza estremamente piccola quando delta è solo 0.05 e (iii) rilevare che la differenza è tanto maggiore quanto maggiore è il delta. Ancora una volta la cosa cruciale da ricordare su questi valori è che significano davvero qualcosa: il valore 0.64 sarà un limite inferiore per la vera TV con alta probabilità. In particolare, ciascuno dei numeri più grandi di zero indica un test che P=Q è stato rifiutato al livello del 5%.

Conclusione:

Quando si tratta di test A/B (test a due campioni), l'attenzione è spesso rivolta allo stato di rifiuto di un test statistico. Quando un test rifiuta la distribuzione nulla, è comunque utile in pratica avere una misura di intensità della differenza distributiva. Attraverso la costruzione di limiti inferiori ad alta probabilità sulla distanza di variazione totale, possiamo costruire un limite inferiore sulla frazione di osservazioni che dovrebbero essere diverse e quindi fornire una risposta integrata alla differenza nella distribuzione e all'intensità dello spostamento.

disclaimer e risorse: Siamo consapevoli di aver tralasciato molti dettagli (efficienza, costruzione di HPLB, studi di potenza, …) ma speriamo di aver aperto un orizzonte di riflessione. MMaggiori dettagli e confronto con i test esistenti sono disponibili nel ns paper e dai un'occhiata al pacchetto R HPLB su CRAN.

Un'alternativa ai valori p nei test A/B

<!–

->

Timestamp:

Di più da Consulenti Blockchain