Una alternativa a los valores p en las pruebas A/B

Cómo los límites inferiores de alta probabilidad (HPLB) en la distancia de variación total pueden conducir a una estadística de prueba atractiva integrada en las pruebas A/B

Figura 1: figura del artículo original (por los autores)

Colaboradores: loris michel, Jeffrey Naf

Los pasos clásicos de una prueba A/B general, es decir, decidir si dos grupos de observaciones provienen de distribuciones diferentes (por ejemplo, P y Q), son:

  • Suponga una hipótesis nula y alternativa (aquí, respectivamente, P=Q y P≠Q);
  • Definir un nivel de significación alfa;
  • Construya una prueba estadística (una decisión binaria que rechace el nulo o no);
  • Derive un estadístico de prueba T;
  • Obtenga un valor p de la distribución nula aproximada/asintótica/exacta de T.

Sin embargo, cuando una prueba de este tipo rechaza el valor nulo, es decir, cuando el valor de p es significativo (en un nivel dado), todavía nos falta una medida de cuán fuerte es la diferencia entre P y Q. De hecho, el estado de rechazo de una prueba podría resultar información inútil en las aplicaciones modernas (datos complejos) porque con suficiente tamaño de muestra (suponiendo un nivel y potencia fijos) cualquier prueba tenderá a rechazar el nulo (ya que rara vez es exactamente igual). verdadero). Por ejemplo, podría ser interesante tener una idea de cuántos puntos de datos respaldan una diferencia de distribución.

Por lo tanto, con base en muestras finitas de P y Q, una pregunta mejor que "¿es P diferente de Q?" podría establecerse como "¿Cuál es un límite inferior probabilístico en la fracción de observaciones λ que realmente respalda una diferencia en la distribución entre P y Q?". Esto se traduciría formalmente en la construcción de una estimación λˆ que satisfaga λˆ ≤ λ con alta probabilidad (digamos 1-alfa). A tal estimación la llamamos límite inferior de alta probabilidad (HPLB) en λ.

En esta historia queremos motivar el uso de HPLB en las pruebas A/B y dar un argumento de por qué la noción correcta para λ es la distancia de variación total entre P y Q, es decir TV(P, Q). Dejaremos la explicación y los detalles sobre la construcción de tal HPLB para otro artículo. Siempre puedes consultar nuestro paper para más información.

¿Por qué la distancia de variación total?

La distancia de variación total es una métrica sólida (fina) para las probabilidades. Esto significa que si dos distribuciones de probabilidad son diferentes, su distancia de variación total será distinta de cero. Por lo general, se define como el máximo desacuerdo de probabilidades en conjuntos. Sin embargo, disfruta de una representación más intuitiva como un transporte discreto de medida entre las probabilidades P y Q (ver Figura 2):

La distancia de variación total entre las medidas de probabilidad P y Q es la fracción de la masa de probabilidad que se necesitaría cambiar/mover de P para obtener la medida de probabilidad Q (o viceversa).

En términos prácticos, la distancia de variación total representa la fracción de puntos que difieren entre P y Q, que es exactamente la noción correcta para λ.

Figura 2: Representación superior izquierda de TV(P, Q) como la diferencia de masa probable. Arriba a la derecha, la definición habitual como TV (P, Q) como desacuerdo de máxima probabilidad (sobre un sigma-álgebra). Debajo de la formulación de transporte óptimo discreto como fracción de masa que difiere de P y Q (por los autores).

¿Cómo usar un HPLB y su ventaja?

La estimación λˆ es atractiva para las pruebas A/B porque este número único implica tanto la significancia estadística (como lo hace el valor p) y el tamaño del efecto Estimacion. Se puede utilizar de la siguiente manera:

  • Definir un nivel de confianza (1-alfa);
  • Construya el HPLB λˆ basado en las dos muestras;
  • Si λˆ es cero, entonces no rechace el valor nulo, de lo contrario, si λˆ > 0, rechace el valor nulo y concluya que λ (la fracción diferente) es al menos λˆ con probabilidad 1-alfa.

Por supuesto, el precio a pagar es que el valor de λˆ depende del nivel de confianza elegido (1-alfa), mientras que un valor p es independiente de él. Sin embargo, en la práctica el nivel de confianza no varía mucho (normalmente fijado en el 95%).

Considere el ejemplo del tamaño del efecto en medicina. Un nuevo medicamento debe tener un efecto significativo en el grupo experimental, en comparación con un grupo de placebo, que no recibió el medicamento. Pero también importa qué tan grande es el efecto. Como tal, uno no solo debe hablar sobre valores p, sino también dar alguna medida del tamaño del efecto. Esto ahora es ampliamente reconocido en la buena investigación médica. De hecho, se ha utilizado un enfoque que utiliza un enfoque más intuitivo para calcular TV(P,Q) en el entorno univariado para describir la diferencia entre los grupos de tratamiento y control. Nuestro enfoque HPLB proporciona tanto una medida de importancia como un tamaño del efecto. Ilustremos esto con un ejemplo:

Hagamos un ejemplo

Simulamos dos distribuciones P y Q en dos dimensiones. Por lo tanto, P será solo una normal multivariada, mientras que Q es una mezcla entre P y una normal multivariante con media desplazada.

biblioteca (mvtnorm)
biblioteca (HPLB)
conjunto.semilla(1)
n<-2000
p<-2
#Delta más grande -> más diferencia entre P y Q
#Delta más pequeño -> Menos diferencia entre P y Q
delta<-0
# Simular X~P e Y~Q para delta dado
U<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=delta)*rmvnorm(n=n, mean=rep(2,p), sig=diag(p))+ (1-(U <=delta))*rmvnorm(n=n, sig=diag(p))
plot(Y, cex=0.8, col="azul oscuro")
puntos(X, cex=0.8, col="rojo")

El delta de peso de la mezcla controla qué tan fuertes son las dos distribuciones. Variando delta de 0 a 0.9, esto se ve así:

Simule datos con delta=0 (arriba a la derecha), delta=0.05 (arriba a la izquierda), delta=0.3 (abajo a la derecha) y delta=0.8 (abajo a la izquierda). Fuente: autor

Entonces podemos calcular el HPLB para cada uno de estos escenarios:

#Estimar HPLB para cada caso (varía delta y vuelve a ejecutar el código)
t.tren<- c(rep(0,n/2), rep(1,n/2) )
tren xy <-rbind(X[1:(n/2),], Y[1:(n/2),])
prueba t<- c(rep(0,n/2), rep(1,n/2) )
prueba xy <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- ranger::ranger(t~., data.frame(t=t.tren,x=xy.tren))
rho <- predecir(rf, data.frame(t=t.test,x=xy.test))$predicciones
tvhat <- HPLB(t = t.prueba, rho = rho, estimador.tipo = "adaptar")
tvhat

Si hacemos eso con la semilla establecida arriba,

Valores estimados para diferentes deltas.

Por lo tanto, el HPLB logra (i) detectar cuando de hecho no hay cambio en las dos distribuciones, es decir, es cero cuando delta es cero, (ii) detectar ya la diferencia extremadamente pequeña cuando delta es solo 0.05 y (iii) detectar que el la diferencia es mayor cuanto mayor es el delta. Una vez más, lo más importante que debe recordar acerca de estos valores es que realmente significan algo: el valor 0.64 será un límite inferior para la TV real con una alta probabilidad. En particular, cada uno de los números que es mayor que cero significa una prueba de que P=Q fue rechazada en el nivel del 5%.

Conclusión:

Cuando se trata de pruebas A/B (pruebas de dos muestras), la atención se centra a menudo en el estado de rechazo de una prueba estadística. Cuando una prueba rechaza la distribución nula, sin embargo, en la práctica es útil tener una medida de intensidad de la diferencia de distribución. A través de la construcción de límites inferiores de alta probabilidad en la distancia de variación total, podemos construir un límite inferior en la fracción de observaciones que se espera que sean diferentes y, por lo tanto, proporcionar una respuesta integrada a la diferencia en la distribución y la intensidad del cambio. .

descargo de responsabilidad y recursos: Somos conscientes de que nos hemos dejado muchos detalles (eficiencia, construcción de HPLBs, estudios de potencia,…) pero esperamos tener abierto un horizonte de reflexión. MLos detalles del mineral y la comparación con las pruebas existentes se pueden encontrar en nuestro paper y consulte el paquete R HPLB en CRAN.

Una alternativa a los valores p en las pruebas A/B Republicado de la fuente https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 a través de https ://hacia la ciencia de los datos.com/feed

<!–

->

Sello de tiempo:

Mas de Consultores Blockchain