Une alternative aux p-values ​​dans les tests A/B

Comment les limites inférieures à haute probabilité (HPLB) sur la distance de variation totale peuvent conduire à une statistique de test attrayante intégrée dans les tests A/B

Figure 1 : figure de l'article original (par les auteurs)

Contributeurs: Loris Michel, Jeffrey Naef

Les étapes classiques d'un test A/B général, c'est-à-dire décider si deux groupes d'observations proviennent de distributions différentes (disons P et Q), sont :

  • Supposons une hypothèse nulle et alternative (ici respectivement, P=Q et P≠Q) ;
  • Définir un niveau de signification alpha ;
  • Construire un test statistique (une décision binaire rejetant le nul ou non) ;
  • Déduire une statistique de test T ;
  • Obtenir une valeur de p à partir de la distribution nulle approximative/asymptotique/exacte de T.

Cependant, lorsqu'un tel test rejette la valeur nulle, c'est-à-dire lorsque la valeur p est significative (à un niveau donné), nous manquons toujours de mesure de la force de la différence entre P et Q. En fait, le statut de rejet d'un test pourrait s'avérer être une information inutile dans les applications modernes (données complexes) car avec une taille d'échantillon suffisante (en supposant un niveau et une puissance fixes), tout test aura tendance à rejeter le nul (puisqu'il est rarement exactement vrai). Par exemple, il pourrait être intéressant d'avoir une idée du nombre de points de données qui soutiennent une différence de distribution.

Par conséquent, sur la base d'échantillons finis de P et Q, une question plus fine que "P est-il différent de Q ?" pourrait s'énoncer comme suit : "Qu'est-ce qu'une borne inférieure probabiliste sur la fraction d'observations λ supportant réellement une différence de distribution entre P et Q ?". Cela se traduirait formellement par la construction d'une estimation λˆ satisfaisant λˆ ≤ λ avec une forte probabilité (disons 1-alpha). Nous nommons une telle estimation un limite inférieure de probabilité élevée (HPLB) sur λ.

Dans cette histoire, nous voulons motiver l'utilisation des HPLB dans les tests A/B et expliquer pourquoi la bonne notion pour λ est la distance de variation totale entre P et Q, soit TV(P, Q). Nous garderons l'explication et les détails sur la construction d'un tel HPLB pour un autre article. Vous pouvez toujours consulter notre papierr pour plus de détails.

Pourquoi la distance de variation totale ?

La distance de variation totale est une métrique forte (fine) pour les probabilités. Cela signifie que si deux distributions de probabilité sont différentes, leur distance de variation totale sera non nulle. Il est généralement défini comme le désaccord maximal des probabilités sur les ensembles. Cependant, il bénéficie d'une représentation plus intuitive comme un transport discret de mesure entre les probabilités P et Q (voir Figure 2) :

La distance de variation totale entre les mesures de probabilité P et Q est la fraction de masse de probabilité qu'il faudrait changer/se déplacer de P pour obtenir la mesure de probabilité Q (ou vice-versa).

En termes pratiques, la distance de variation totale représente la fraction de points qui diffèrent entre P et Q, ce qui est exactement la bonne notion pour λ.

Figure 2 : Représentation en haut à gauche de TV(P, Q) en tant que différence de masse probable. En haut à droite la définition usuelle de TV(P, Q) comme désaccord de probabilité maximale (sur une sigma-algèbre). En bas, la formulation de transport optimal discret en tant que fraction de masse différente de P et Q (par les auteurs).

Comment utiliser un HPLB et son avantage ?

L'estimation λˆ est attrayante pour les tests A/B car ce nombre unique implique à la fois signification statistique (comme le fait la valeur p) et la taille de l'effet estimation. Il peut être utilisé comme suit :

  • Définir un niveau de confiance (1-alpha) ;
  • Construire le HPLB λˆ basé sur les deux échantillons ;
  • Si λˆ est nul alors ne rejetez pas le nul, sinon si λˆ > 0, rejette le nul et concluez que λ (la fraction différente) est au moins λˆ avec probabilité 1-alpha.

Bien entendu le prix à payer est que la valeur de λˆ dépend du niveau de confiance choisi (1-alpha) alors qu'une p-value en est indépendante. Néanmoins, dans la pratique, le niveau de confiance ne varie pas beaucoup (généralement fixé à 95%).

Prenons l'exemple de la taille de l'effet en médecine. Un nouveau médicament doit avoir un effet significatif dans le groupe expérimental, par rapport à un groupe placebo, qui n'a pas reçu le médicament. Mais l'importance de l'effet est également importante. En tant que tel, il ne faut pas seulement parler de valeurs de p, mais aussi donner une certaine mesure de la taille de l'effet. Ceci est maintenant largement reconnu dans la bonne recherche médicale. En effet, une approche utilisant une approche plus intuitive pour calculer TV(P,Q) a été utilisée dans le cadre univarié pour décrire la différence entre les groupes de traitement et de contrôle. Notre approche HPLB fournit à la fois une mesure de l'importance et une taille d'effet. Illustrons cela sur un exemple :

Faisons un exemple

Nous simulons deux distributions P et Q en deux dimensions. P ne sera donc qu'une normale multivariée, tandis que Q est une mélange entre P et une normale multivariée à moyenne décalée.

bibliothèque (mvtnorm)
bibliothèque (HPLB)
set.graine(1)
n<-2000
p<-2
#Plus grand delta -> plus de différence entre P et Q
#Plus petit delta -> Moins de différence entre P et Q
delta<-0
# Simuler X~P et Y~Q pour un delta donné
U<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=delta)*rmvnorm(n=n, moyenne=rep(2,p), sig=diag(p))+ (1-(U <=delta))*rmvnorm(n=n, sig=diag(p))
plot(Y, cex=0.8, col="darkblue")
points(X, cex=0.8, col="rouge")

Le delta du poids du mélange contrôle la force des différences entre les deux distributions. En faisant varier le delta de 0 à 0.9, cela ressemble à ceci :

Simulez des données avec delta=0 (en haut à droite), delta=0.05, (en haut à gauche), delta=0.3 (en bas à droite) et delta=0.8 (en bas à gauche). Source : auteur

On peut alors calculer le HPLB pour chacun de ces scénarios :

#Estimer HPLB pour chaque cas (varier delta et réexécuter le code)
t.train<- c(rep(0,n/2), rep(1,n/2) )
xy.train <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(rep(0,n/2), rep(1,n/2) )
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- ranger::ranger(t~., data.frame(t=t.train,x=xy.train))
rho <- prédire(rf, data.frame(t=t.test,x=xy.test))$prédictions
tvhat <- HPLB(t = t.test, rho = rho, estimateur.type = "adapter")
chapeau de télévision

Si nous faisons cela avec la graine définie ci-dessus, nous

Valeurs estimées pour différents deltas.

Ainsi, le HPLB parvient à (i) détecter lorsqu'il n'y a effectivement aucun changement dans les deux distributions, c'est-à-dire qu'il est nul lorsque delta est nul, (ii) détecter déjà la différence extrêmement faible lorsque delta n'est que de 0.05 et (iii) détecter que le la différence est d'autant plus grande que le delta est grand. Encore une fois, la chose cruciale à retenir à propos de ces valeurs est qu'elles signifient vraiment quelque chose - la valeur 0.64 sera une limite inférieure pour le vrai téléviseur avec une probabilité élevée. En particulier, chacun des nombres qui est supérieur à zéro signifie un test que P=Q a été rejeté au niveau de 5 %.

Conclusion:

En ce qui concerne les tests A/B (tests à deux échantillons), l'accent est souvent mis sur le statut de rejet d'un test statistique. Lorsqu'un test rejette la distribution nulle, il est cependant utile en pratique de disposer d'une mesure d'intensité de la différence distributionnelle. Grâce à la construction de bornes inférieures à haute probabilité sur la distance de variation totale, nous pouvons construire une borne inférieure sur la fraction d'observations qui devraient être différentes et ainsi fournir une réponse intégrée à la différence de distribution et à l'intensité du décalage. .

avis de non-responsabilité et ressources : Nous sommes conscients d'avoir omis de nombreux détails (rendement, construction des HPLB, études de puissance, …) mais espérons avoir ouvert un horizon de réflexion. Mplus de détails et une comparaison avec les tests existants peuvent être trouvés dans notre papierr et consultez R-package HPLB sur CRAN.

Une alternative aux valeurs p dans les tests A/B Republié à partir de Source https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 via https ://towardsdatascience.com/feed

<!–

->

Horodatage:

Plus de Consultants en blockchain