Teste Kruskal Wallis para iniciantes

Teste Kruskal Wallis: Objetivo, Escopo, Suposições, Exemplos, Implementação Python

Foto por mago romano on Unsplash

Kruskal Wallis é um método não paramétrico para avaliar se as amostras vêm da mesma distribuição. É utilizado na comparação de mais de duas amostras independentes ou não relacionadas. A análise de variância unidirecional (ANOVA) é a equivalência paramétrica do teste Kruskal-Wallis.

1.1 Qual seria um bom caso de uso comercial?

Vamos medir o impacto de uma campanha lançada por uma empresa farmacêutica sobre um medicamento recém-lançado, onde temos 1,550 alvos e 500 resistentes. Observamos a distribuição do comportamento de prescrição e descobrimos que ela não é normal (distorcida), mas tem formato semelhante para cada grupo (alvos e resistências). Não podemos realizar ANOVA; portanto aplicamos um teste não paramétrico, Kruskal-Wallis.

Como Kruskal Wallis é um teste não paramétrico, não há suposição de que os dados sejam normalmente distribuídos (ao contrário da ANOVA).

  1. A hipótese nula factual é que as populações de onde se originam as amostras têm a mesma mediana.
  2. O teste Kruskal-Wallis é mais comumente usado quando há uma variável de atributo e uma variável de medida, e a variável de medida não atende aos pressupostos da ANOVA (normalidade e homocedasticidade)
  3. Como a maioria dos testes não paramétricos, ele é realizado em dados classificados, de modo que as observações de medição são convertidas em suas classificações usando o conjunto de dados geral: o menor ou o valor mais baixo recebe uma classificação de 1, o próximo menor recebe uma classificação de 2, o seguinte, uma classificação de 3 e assim por diante. Em caso de empate, considera-se a classificação média.
  4. A perda de informação na substituição dos valores originais por classificações torna este teste menos poderoso que a ANOVA, portanto a ANOVA deve ser usada se os dados atenderem às suposições.

Às vezes, afirma-se que a hipótese nula do teste de Kruskal-Wallis é que as medianas dos grupos são iguais. No entanto, isto só é exato se acreditarmos que as características distributivas de cada grupo são as mesmas. Embora as medianas sejam iguais, o teste de Kruskal-Wallis pode rejeitar a hipótese nula se as distribuições diferirem.

Grupos de tamanhos diferentes podem ser examinados usando a estatística de Kruskal-Wallis. O teste de Kruskal-Wallis, ao contrário da análise de variância unilateral comparável, não assume uma distribuição normal porque é um procedimento não paramétrico. O teste, no entanto, pressupõe que a distribuição de cada grupo tem formato e escala idênticos, exceto por quaisquer variações nas medianas.

Kruskal Wallis pode ser usado para analisar se o teste e o controle tiveram desempenho diferente. Quando os dados estão distorcidos (distribuição não normal), o teste dirá se os dois grupos são diferentes sem estabelecer qualquer causalidade. Não sugerirá o motivo da diferença de comportamento.

4.1 Como funciona o teste?

Kruskal Wallis funciona classificando todas as observações, começando em 1 (a menor). A classificação é feita para todos os pontos de dados, independentemente do grupo ao qual pertencem. Os valores empatados recebem a classificação média que teriam recebido se não estivessem empatados.

Quando todas as observações recebem uma classificação assinada com base na variável de análise (o número de prescrições prescritas), elas são diferenciadas/divididas em grupos com base em seu status alvo/de validação. Depois disso, a classificação média de cada grupo é calculada e comparada.

Espera-se que o alvo tenha uma classificação média mais alta do que os resistentes, uma vez que a iniciativa ou esforço promocional é implementado para este grupo. Com um valor p significativo, o Target tem um desempenho melhor do que os holdouts. O desafio aqui é que a classificação média do grupo-alvo pode ser mais elevada na presença de valores discrepantes, ou seja, poucos médicos escrevem mais roteiros do que outros. Portanto, sempre olhamos para a mediana aritmética e o valor p resultante obtido por Kruskal Wallis para validar/refutar nossa hipótese.

Deixe Ni (i = 1, 2, 3, 4,…, g) representar os tamanhos amostrais para cada grupo g (ou seja, amostras ou, neste caso, o número de médicos) nos dados. ri é a soma das classificações do grupo i com ri’ como a classificação média do grupo i. Então a estatística do teste Kruskal Wallis é calculada como:

Fórmula 1. Ilustra a fórmula para calcular estatísticas de teste. Imagem preparada pelo autor utilizando Markdown e Latex.

A hipótese nula de medianas populacionais iguais é rejeitada se a estatística de teste exceder o valor limite do qui-quadrado. Quando a hipótese nula de populações iguais é verdadeira, esta estatística tem k-1 graus de liberdade e se aproxima de uma distribuição qui-quadrado. A aproximação deve ter ni de pelo menos 5 (ou seja, pelo menos cinco observações em um grupo) para ser precisa.

Fórmula 2. Ilustra a fórmula para aproximação do valor p para o teste. Imagem preparada pelo autor utilizando Markdown e Latex.

Usando uma tabela de distribuição de probabilidade qui-quadrado, podemos obter o valor crucial do qui-quadrado em g-1 graus de liberdade e o nível de significância desejado. Alternativamente, poderíamos examinar o valor p para comentar a significância dos resultados.

4.2 Execute o teste H manualmente

Vamos supor que uma empresa farmacêutica queira entender se três grupos de segmentos médicos têm volumes de pacientes diferentes (Stephanie Glen, sd) Por exemplo,

Principais líderes de opinião/KOL (volume de pacientes em um mês): 23, 42, 55, 66, 78

Especialistas/SPE (Volume de Pacientes no Mês): 45, 56, 60, 70, 72

Clínicos gerais/GPs (volume de pacientes em um mês): 18, 30, 34, 41, 44

4.2.1 Organize os dados em ordem crescente após combiná-los em um conjunto

18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

4.2.2 Classifique os pontos de dados classificados. Use a média em caso de empate

Valores: 18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

Classificação: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

4.2.3 Calcular a soma das classificações para cada grupo

Figura 1. Painel do Ilustra a soma das classificações de cada grupo. Crédito da imagem - Elaborado pelo autor.

4.2.4 Calcular estatísticas H usando a Fórmula 1 e números da Figura 1

Fórmula 3. Ilustra a fórmula para calcular estatísticas H para nosso grupo de prescritores. Imagem preparada pelo autor utilizando Markdown e Latex.

H = 6.72

4.2.5 Identifique o valor crítico do qui-quadrado para g-1 graus de liberdade com
um α=0.05 que para o nosso problema (3–1=2 graus de liberdade) deveria ser 5.99. Consulte a tabela abaixo.

4.2.6 Compare o valor H de 4.2.4 com o valor crítico de 4.2.5

A hipótese nula afirmando que o volume médio do paciente em três grupos diferentes é igual deve ser rejeitada se o valor crítico do qui-quadrado for menor que a estatística H. Como 5.99 (valor crítico) < 6.72, podemos rejeitar a hipótese nula.

É necessária mais evidência para inferir que as medianas são desiguais se o valor do qui-quadrado não for inferior à estatística H calculada acima.

A hipótese nula de que as medianas populacionais de todos os grupos são iguais é testada usando o teste H de Kruskal-Wallis. É uma variante ANOVA não paramétrica. O teste utiliza duas ou mais amostras independentes de tamanhos variados. Observe que refutar a hipótese nula não revela como os grupos diferem. Para identificar quais grupos são diferentes, são necessárias comparações post hoc entre os agrupamentos.

de estatísticas de importação scipy
x = [1, 3, 5, 8, 9, 12, 17]
y = [2, 6, 6, 8, 10, 15, 20, 22]
estatísticas.kruskal(x, y)
KruskalResult(estatística=0.7560483870967752, pvalor=0.3845680059797648)imprimir(np.mediana(x))
imprimir(np.mediana(y))
8.0
9.0
imprimir(np.mean(x))
imprimir(np.mean(y))
7.86
11.12

A saída gerada pelo Python é mostrada acima. Note-se que embora se observe uma diferença acentuada na média dos valores entre as duas categorias, esta diferença, quando se leva em conta a mediana, é insignificante, uma vez que o valor p é muito superior a 5%.

O teste de Kruskal Wallis é fundamental ao lidar com amostras particularmente distorcidas. Ele pode ser amplamente usado para um grupo de controle de teste durante o lançamento de uma campanha ou mesmo ao realizar testes A/B. Isso se aplica à maioria dos casos de uso do setor, pois cada cliente tem um comportamento diferente ao lidar com clientes em um espaço de varejo ou com médicos em um cenário farmacêutico. Quando olhamos para o tamanho da cesta ou para o volume de pacientes, poucos clientes compram mais, enquanto poucos médicos têm mais pacientes. Portanto, para tal distribuição distorcida, é vital aplicar um teste de Kruskal Wallis para verificar se os comportamentos são semelhantes.

Stéphanie Glen. “Teste Kruskal Wallis H: definição, exemplos, suposições, SPSS” de EstatísticasComo.com.br: Estatísticas elementares para o resto de nós! https://www.statisticshowto.com/probability-and-statistics/statistics-definitions/kruskal-wallis/

Teste Kruskal Wallis para iniciantes republicado da fonte https://towardsdatascience.com/kruskal-wallis-test-for-beginners-4fe9b0333b31?source=rss—-7f60cf5620c9—4 via https://towardsdatascience.com/feed

<!–

->

Carimbo de hora:

Mais de Consultores Blockchain