Uma alternativa aos valores-p no teste A/B

Como os limites inferiores de alta probabilidade (HPLBs) na distância de variação total podem levar a uma estatística de teste integrada e atraente em testes A/B

Figura 1: figura do artigo original (dos autores)

Contribuintes: Loris Michel, Jeffrey Näf

As etapas clássicas de um teste A/B geral, ou seja, decidir se dois grupos de observações vêm de distribuições diferentes (digamos P e Q), são:

  • Suponha uma hipótese nula e uma alternativa (aqui respectivamente, P=Q e P≠Q);
  • Definir um nível de significância alfa;
  • Construir um teste estatístico (uma decisão binária rejeitando ou não o nulo);
  • Derive uma estatística de teste T;
  • Obtenha um valor p da distribuição nula aproximada/assiptótica/exata de T.

No entanto, quando tal teste rejeita o nulo, ou seja, quando o valor p é significativo (em um determinado nível), ainda não temos uma medida de quão forte é a diferença entre P e Q. Na verdade, o status de rejeição de um teste pode acabar sendo uma informação inútil em aplicações modernas (dados complexos) porque com tamanho de amostra suficiente (assumindo um nível e poder fixos) qualquer teste tenderá a rejeitar o nulo (uma vez que raramente é exatamente verdadeiro). Por exemplo, poderia ser interessante ter uma ideia de quantos pontos de dados apoiam uma diferença distributiva.

Portanto, com base em amostras finitas de P e Q, uma pergunta mais precisa do que “P é diferente de Q?” poderia ser declarado como “Qual é um limite inferior probabilístico na fração de observações λ que realmente suporta uma diferença na distribuição entre P e Q?”. Isso se traduziria formalmente na construção de uma estimativa λˆ satisfazendo λˆ ≤ λ com alta probabilidade (digamos 1-alfa). Chamamos tal estimativa de limite inferior de alta probabilidade (HPLB) em λ.

Nesta história, queremos motivar o uso de HPLBs em testes A/B e apresentar um argumento de por que a noção correta para λ é o distância de variação total entre P e Q, ou seja, TV(P, Q). Deixaremos a explicação e os detalhes sobre a construção de tal HPLB para outro artigo. Você sempre pode verificar nosso paper para mais detalhes.

Por que a distância de variação total?

A distância de variação total é uma métrica forte (fina) para probabilidades. Isso significa que se duas distribuições de probabilidade forem diferentes, sua distância total de variação será diferente de zero. Geralmente é definido como a discordância máxima de probabilidades em conjuntos. No entanto, goza de uma representação mais intuitiva como um transporte discreto de medida entre as probabilidades P e Q (ver Figura 2):

A distância de variação total entre as medidas de probabilidade P e Q é a fração da massa de probabilidade que seria necessário alterar/mover de P para obter a medida de probabilidade Q (ou vice-versa).

Em termos práticos, a distância total de variação representa a fração de pontos que diferem entre P e Q, que é exatamente a noção correta para λ.

Figura 2: Representação superior esquerda de TV(P, Q) como a diferença na massa provável. No canto superior direito, a definição usual como TV(P, Q) como discordância de probabilidade máxima (em uma álgebra sigma). Abaixo a formulação de transporte ótimo discreto como fração de massa diferente de P e Q (pelos autores).

Como usar um HPLB e suas vantagens?

A estimativa λˆ é atraente para testes A/B porque esse número único envolve tanto o Significado estatístico (como faz o valor p) e o tamanho do efeito estimativa. Pode ser usado da seguinte forma:

  • Defina um nível de confiança (1-alfa);
  • Construa o HPLB λˆ com base nas duas amostras;
  • Se λˆ for zero, então não rejeite o nulo, caso contrário, se λˆ > 0, rejeite o nulo e conclua que λ (a fração diferente) é pelo menos λˆ com probabilidade 1-alfa.

É claro que o preço a pagar é que o valor de λˆ depende do nível de confiança escolhido (1-alfa), enquanto um valor p é independente dele. No entanto, na prática, o nível de confiança não varia muito (normalmente fixado em 95%).

Considere o exemplo do tamanho do efeito na medicina. Um novo medicamento precisa ter efeito significativo no grupo experimental, em comparação com um grupo placebo, que não recebeu o medicamento. Mas também importa quão grande é o efeito. Como tal, não se deve apenas falar sobre valores p, mas também fornecer alguma medida do tamanho do efeito. Isto é agora amplamente reconhecido em boas pesquisas médicas. Na verdade, uma abordagem que utiliza uma abordagem mais intuitiva para calcular TV(P,Q) tem sido utilizada no cenário univariado para descrever a diferença entre os grupos de tratamento e controle. Nossa abordagem HPLB fornece tanto uma medida de significância quanto um tamanho de efeito. Vamos ilustrar isso com um exemplo:

Vamos dar um exemplo

Simulamos duas distribuições P e Q em duas dimensões. P será, portanto, apenas uma normal multivariada, enquanto Q é uma mistura entre P e um normal multivariado com média deslocada.

biblioteca (mvtnorm)
biblioteca (HPLB)
conjunto.seed(1)
n<-2000
p<-2
#Delta maior -> mais diferença entre P e Q
#Delta menor -> Menor diferença entre P e Q
delta<-0
# Simula X~P e Y~Q para determinado delta
você<-runif(n)
X<-rmvnorma(n=n, sig=diag(p))
Y<- (U <=delta)*rmvnorm(n=n, média=rep(2,p), sig=diag(p))+ (1-(U <=delta))*rmvnorm(n=n, sig=diag(p))
plot(Y, cex=0.8, col="azul escuro")
pontos(X, cex=0.8, col="vermelho")

O delta do peso da mistura controla a diferença entre as duas distribuições. Variando delta de 0 a 0.9 fica assim:

Simule dados com delta=0 (canto superior direito), delta=0.05, (canto superior esquerdo), delta=0.3 (canto inferior direito) e delta=0.8 (canto inferior esquerdo). Fonte: autor

Podemos então calcular o HPLB para cada um destes cenários:

#Estimar HPLB para cada caso (variar o delta e executar novamente o código)
t.train<- c(rep(0,n/2), rep(1,n/2) )
xy.train <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.teste<- c(rep(0,n/2), rep(1,n/2) )
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- ranger::ranger(t~., data.frame(t=t.train,x=xy.train))
rho <- prever(rf, data.frame(t=t.test,x=xy.test))$previsões
tvhat <- HPLB(t = t.test, rho = rho, estimador.type = "adapt")
tv o que

Se fizermos isso com a semente definida acima,

Valores estimados para diferentes deltas.

Assim, o HPLB consegue (i) detectar quando realmente não há mudança nas duas distribuições, ou seja, é zero quando delta é zero, (ii) detectar já a diferença extremamente pequena quando delta é apenas 0.05 e (iii) detectar que o a diferença é maior quanto maior for o delta. Novamente, o que é crucial lembrar sobre esses valores é que eles realmente significam alguma coisa – o valor 0.64 será um limite inferior para a TV verdadeira com alta probabilidade. Em particular, cada um dos números maiores que zero significa um teste em que P=Q foi rejeitado no nível de 5%.

Conclusão:

Quando se trata de testes A/B (testes de duas amostras), o foco geralmente está no status de rejeição de um teste estatístico. Quando um teste rejeita a distribuição nula, é útil na prática ter uma medida de intensidade da diferença distributiva. Através da construção de limites inferiores de alta probabilidade para a distância de variação total, podemos construir um limite inferior para a fração de observações que se espera que sejam diferentes e, assim, fornecer uma resposta integrada à diferença na distribuição e à intensidade da mudança .

isenção de responsabilidade e recursos: Sabemos que deixamos muitos detalhes de fora (eficiência, construção de HPLBs, estudos de potência, …) mas esperamos ter aberto um horizonte de pensamento. Mdetalhes do minério e comparação com testes existentes podem ser encontrados em nosso paper e confira o pacote R HPLB no CRAN.

Uma alternativa aos valores p em testes A/B Republicado da fonte https://towardsdatascience.com/an-alternative-to-p-values-in-a-b-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 via https ://towardsdatascience.com/feed

<!–

->

Carimbo de hora:

Mais de Consultores Blockchain