Prueba de Kruskal Wallis para principiantes

Prueba de Kruskal Wallis: propósito, alcance, supuestos, ejemplos, implementación de Python

Foto por mager romano on Unsplash

Kruskal Wallis es un método no paramétrico para evaluar si las muestras provienen de la misma distribución. Se utiliza en la comparación de más de dos muestras independientes o no relacionadas. El análisis de varianza unidireccional (ANOVA) es la equivalencia paramétrica de la prueba de Kruskal-Wallis.

1.1 ¿Cuál sería un buen caso de uso empresarial?

Midamos el impacto de una campaña implementada por una empresa farmacéutica sobre un medicamento recién lanzado, donde tenemos 1,550 objetivos y 500 reticentes. Observamos la distribución del comportamiento de prescripción y encontramos que no era normal (sesgada) pero tenía una forma similar para cada grupo (objetivos y reticentes). No podemos realizar ANOVA; por tanto aplicamos una prueba no paramétrica, Kruskal-Wallis.

Dado que Kruskal Wallis es una prueba no paramétrica, no se supone que los datos estén distribuidos normalmente (a diferencia de ANOVA).

  1. La hipótesis nula fáctica es que las poblaciones de donde se originan las muestras tienen la misma mediana.
  2. La prueba de Kruskal-Wallis se usa más comúnmente cuando hay una variable de atributo y una variable de medición, y la variable de medición no cumple con los supuestos de ANOVA (normalidad y homocedasticidad).
  3. Como la mayoría de las pruebas no paramétricas, se realiza con datos clasificados, por lo que las observaciones de medición se convierten a sus rangos utilizando el conjunto de datos general: el valor más pequeño o más bajo obtiene un rango de 1, el siguiente más pequeño obtiene un rango de 2, el siguiente un rango de 3, y así sucesivamente. En caso de empate se considera una clasificación promedio.
  4. La pérdida de información al sustituir rangos por los valores originales hace que esta sea una prueba menos potente que el ANOVA, por lo que se debe utilizar ANOVA si los datos cumplen los supuestos..

A veces se afirma que la hipótesis nula de la prueba de Kruskal-Wallis es que las medianas del grupo son iguales. Sin embargo, esto sólo es exacto si se cree que las características distributivas de cada grupo son las mismas. Aunque las medianas son iguales, la prueba de Kruskal-Wallis puede rechazar la hipótesis nula si las distribuciones difieren.

Se pueden examinar grupos de diferentes tamaños utilizando la estadística de Kruskal-Wallis. La prueba de Kruskal-Wallis, a diferencia del análisis de varianza unidireccional comparable, no supone una distribución normal porque es un procedimiento no paramétrico. Sin embargo, la prueba supone que la distribución de cada grupo tiene la misma forma y escala, excepto por cualquier variación en las medianas.

Kruskal Wallis se puede utilizar para analizar si la prueba y el control se desempeñaron de manera diferente. Cuando los datos están sesgados (distribución no normal), la prueba dirá si los dos grupos son diferentes sin establecer ninguna causalidad. No sugerirá el motivo de la diferencia de comportamiento.

4.1 ¿Cómo funciona la prueba?

Kruskal Wallis trabaja clasificando todas las observaciones, comenzando desde 1 (la más menor). La clasificación se realiza para todos los puntos de datos, independientemente del grupo al que pertenecen. Los valores empatados reciben la clasificación promedio que habrían recibido si no hubieran estado empatados.

Cuando a todas las observaciones se les ha asignado una clasificación firmada en función de la variable de análisis (el número de prescripciones prescritas), se diferencian/dividen en grupos según su estado objetivo/restringido. Después de eso, se calcula y compara la clasificación media de cada grupo.

Se espera que Target tenga una clasificación media más alta que los que se resisten, ya que la iniciativa o el esfuerzo promocional se implementa para este grupo. Con un valor p significativo, Target se está desempeñando mejor que los que se resisten. El desafío aquí es que la clasificación promedio del grupo objetivo puede ser mayor en presencia de valores atípicos, es decir, pocos médicos escriben más guiones que otros. Por lo tanto, siempre miramos la mediana aritmética y el valor p resultante obtenido por Kruskal Wallis para validar/refutar nuestra hipótesis.

Sea Ni (i = 1, 2, 3, 4,…, g) los tamaños de muestra para cada grupo g (es decir, muestras o, en este caso, el número de médicos) en los datos. ri es la suma de los rangos del grupo i con ri' como el rango promedio del grupo i. Luego el estadístico de la prueba de Kruskal Wallis se calcula como:

Fórmula 1. Ilustra la fórmula para calcular las estadísticas de prueba. Imagen preparada por el autor usando Markdown y Latex.

La hipótesis nula de medianas poblacionales iguales se rechaza si el estadístico de prueba excede el valor umbral de chi-cuadrado. Cuando la hipótesis nula de poblaciones iguales es cierta, esta estadística tiene k-1 grados de libertad y se aproxima a una distribución chi-cuadrado. La aproximación debe tener ni de al menos 5 (es decir, al menos cinco observaciones en un grupo) para que sea precisa.

Fórmula 2. Ilustra la fórmula para la aproximación del valor p para la prueba. Imagen preparada por el autor utilizando Markdown y Latex.

Usando una tabla de distribución de probabilidad de chi-cuadrado, podemos obtener el valor crucial de chi-cuadrado en g-1 grados de libertad y el nivel de significancia deseado. Alternativamente, podríamos examinar el valor p para comentar sobre la importancia de los resultados.

4.2 Ejecute la prueba H a mano

Supongamos que una empresa farmacéutica quiere saber si tres grupos de segmentos de médicos tienen diferentes volúmenes de pacientes. (Stephanie Glen, sin fecha) P.ej

Líderes de opinión clave/KOL (volumen de pacientes en un mes): 23, 42, 55, 66, 78

Especialistas/SPE (Volumen de pacientes en un mes): 45, 56, 60, 70, 72

Médicos generales/médicos de cabecera (volumen de pacientes en un mes): 18, 30, 34, 41, 44

4.2.1 Organizar los datos en orden ascendente después de combinarlos en un conjunto

18 23 24 30 41 42 44 45 55 56 60 66

4.2.2 Clasificar los puntos de datos ordenados. Usar promedio en caso de empates

Valores: 18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

Rango: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

4.2.3 Calcular la suma de rangos para cada grupo

Figura 1. Ilustra la suma de rangos para cada grupo. Crédito de imagen: preparado por el autor.

4.2.4 Calcular las estadísticas H usando la Fórmula 1 y los números de la Figura 1

Fórmula 3. Ilustra la fórmula para calcular la estadística H para nuestro grupo de prescriptores. Imagen preparada por el autor utilizando Markdown y Latex.

H = 6.72

4.2.5 Identificar el valor crítico de chi-cuadrado para g-1 grados de libertad con
un α=0.05 que para nuestro problema (3–1=2 grados de libertad) debería ser 5.99. Consulte la tabla de abajo.

4.2.6 Compare el valor H de 4.2.4 con el valor crítico de 4.2.5

La hipótesis nula que establece que la mediana del volumen de pacientes en tres grupos diferentes es igual debe rechazarse si el valor crítico de chi-cuadrado es menor que la estadística H. Dado que 5.99 (valor crítico) <6.72, podemos rechazar la hipótesis nula.

Es necesario que haya más evidencia para inferir que las medianas son desiguales si el valor de chi-cuadrado no es inferior al estadístico H calculado anteriormente.

La hipótesis nula de que las medianas poblacionales de todos los grupos son iguales se prueba mediante la prueba H de Kruskal-Wallis. Es una variante de ANOVA que no es paramétrica. La prueba utiliza dos o más muestras independientes de diferentes tamaños. Tenga en cuenta que refutar la hipótesis nula no revela en qué se diferencian los grupos. Para identificar qué grupos son diferentes, son necesarias comparaciones post hoc entre los grupos.

de las estadísticas de importación de scipy
x = [1, 3, 5, 8, 9, 12, 17]
y = [2, 6, 6, 8, 10, 15, 20, 22]
estadísticas.kruskal(x, y)
KruskalResult(estadística=0.7560483870967752, pvalor=0.3845680059797648)imprimir(np.mediana(x))
imprimir(np.mediana(y))
8.0
9.0
imprimir(np.media(x))
imprimir(np.media(y))
7.86
11.12

El resultado generado por Python se muestra arriba. Cabe señalar que, aunque se observa una marcada diferencia en la media de los valores entre las dos categorías, esta diferencia, si se tiene en cuenta la mediana, es insignificante ya que el valor p es mucho mayor que el 5%.

La prueba de Kruskal Wallis es fundamental cuando se trata de muestras particularmente asimétricas. Se puede utilizar ampliamente para un grupo de control de prueba durante el lanzamiento de una campaña o incluso al realizar pruebas A/B. Esto es aplicable a la mayoría de los casos de uso de la industria, ya que cada cliente tiene un comportamiento diferente cuando trata con clientes en un espacio minorista o con médicos en un entorno farmacéutico. Cuando analizamos el tamaño de la cesta o el volumen de pacientes, pocos clientes compran más, mientras que pocos médicos tienen más pacientes. Por lo tanto, para una distribución tan sesgada, es vital realizar una prueba de Kruskal Wallis para comprobar si los comportamientos son similares.

Estefanía Glen. "Prueba Kruskal Wallis H: definición, ejemplos, supuestos, SPSS" de EstadísticasHowTo.com: ¡Estadísticas elementales para el resto de nosotros! https://www.statisticshowto.com/probability-and-statistics/statistics-definitions/kruskal-wallis/

Prueba de Kruskal Wallis para principiantes Republicado desde la fuente https://towardsdatascience.com/kruskal-wallis-test-for-beginners-4fe9b0333b31?source=rss—-7f60cf5620c9—4 vía https://towardsdatascience.com/feed

<!–

->

Sello de tiempo:

Mas de Consultores Blockchain