Test Kruskal Wallis pour débutants

Test Kruskal Wallis : objectif, portée, hypothèses, exemples, implémentation Python

Photo par Mager romain on Unsplash

Kruskal Wallis est une méthode non paramétrique permettant d'évaluer si les échantillons proviennent de la même distribution. Il est utilisé dans la comparaison de plus de deux échantillons indépendants ou non liés. L'analyse de variance unidirectionnelle (ANOVA) est l'équivalence paramétrique du test de Kruskal-Wallis.

1.1 Quel serait un bon cas d'utilisation commerciale ?

Mesurons l'impact d'une campagne déployée par une entreprise pharmaceutique sur un médicament nouvellement lancé, pour lequel nous avons 1,550 500 cibles et XNUMX holdouts. Nous avons examiné la distribution des comportements de prescription et l'avons trouvée non normale (asymétrique) mais de forme similaire pour chaque groupe (cibles et réfractaires). Nous ne pouvons pas réaliser d'ANOVA ; nous appliquons donc un test non paramétrique, Kruskal-Wallis.

Puisque Kruskal Wallis est un test non paramétrique, on ne suppose pas que les données sont normalement distribuées (contrairement à l'ANOVA).

  1. L’hypothèse factuelle nulle est que les populations dont sont issus les échantillons ont la même médiane.
  2. Le test de Kruskal-Wallis est le plus souvent utilisé lorsqu'il y a une variable d'attribut et une variable de mesure, et que la variable de mesure ne répond pas aux hypothèses de l'ANOVA (normalité et homoscédasticité).
  3. Comme la plupart des tests non paramétriques, il est effectué sur des données classées, de sorte que les observations de mesure sont converties en leurs rangs en utilisant l'ensemble de données global : la valeur la plus petite ou la plus basse obtient un rang de 1, la plus petite suivante obtient un rang de 2, le suivant un rang de 3, et ainsi de suite. En cas d'égalité, un classement moyen est pris en compte.
  4. La perte d'informations lors de la substitution des rangs aux valeurs d'origine en fait un test moins puissant que l'ANOVA. L'ANOVA doit donc être utilisée si les données répondent aux hypothèses..

On affirme parfois que l'hypothèse nulle du test de Kruskal-Wallis est que les médianes des groupes sont égales. Toutefois, cela n'est exact que si vous pensez que les caractéristiques de répartition de chaque groupe sont les mêmes. Même si les médianes sont les mêmes, le test de Kruskal-Wallis peut rejeter l'hypothèse nulle si les distributions diffèrent.

Des groupes de différentes tailles peuvent être examinés à l'aide de la statistique de Kruskal-Wallis. Le test de Kruskal-Wallis, contrairement à l’analyse de variance unidirectionnelle comparable, ne suppose pas de distribution normale car il s’agit d’une procédure non paramétrique. Le test suppose cependant que la distribution de chaque groupe est de forme et d'échelle identiques, à l'exception de toute variation des médianes.

Kruskal Wallis peut être utilisé pour analyser si le test et le contrôle se sont déroulés différemment. Lorsque les données sont asymétriques (distribution non normale), le test indiquera si les deux groupes sont différents sans établir de lien de causalité. Cela ne suggérera pas la raison de la différence de comportement.

4.1 Comment fonctionne le test ?

Kruskal Wallis fonctionne en classant toutes les observations, en commençant par 1 (la plus mineure). Le classement est effectué pour tous les points de données, quel que soit le groupe auquel ils appartiennent. Les valeurs à égalité reçoivent le rang moyen qu'elles auraient reçu si elles n'avaient pas été à égalité.

Lorsque toutes les observations ont reçu un rang signé en fonction de la variable d'analyse (le nombre de prescriptions prescrites), elles sont différenciées/divisées en groupes en fonction de leur statut de cible/résistant. Ensuite, le classement moyen de chaque groupe est calculé et comparé.

La cible devrait avoir un rang moyen plus élevé que les récalcitrants puisque l'initiative ou l'effort promotionnel est déployé pour ce groupe. Avec une valeur p significative, Target fonctionne mieux que les récalcitrants. Le défi ici est que le classement moyen du groupe cible peut être plus élevé en présence de valeurs aberrantes, c'est-à-dire que peu de médecins rédigent plus de scénarios que d'autres. Par conséquent, nous regardons toujours la médiane arithmétique et la valeur p résultante obtenue par Kruskal Wallis pour valider/réfuter notre hypothèse.

Soit Ni (i = 1, 2, 3, 4,…, g) représente la taille des échantillons pour chaque g groupe (c'est-à-dire les échantillons ou, dans ce cas, le nombre de médecins) dans les données. ri est la somme des rangs du groupe i avec ri' comme rang moyen du groupe i. Ensuite, la statistique du test de Kruskal Wallis est calculée comme suit :

Formule 1. Illustre la formule de calcul des statistiques de test. Image préparée par l'auteur à l'aide de Markdown et Latex.

L’hypothèse nulle d’égalité des médianes de population est rejetée si la statistique du test dépasse la valeur seuil du chi carré. Lorsque l'hypothèse nulle d'égalité des populations est vraie, cette statistique a k-1 degrés de liberté et se rapproche d'une distribution du chi carré. L'approximation doit avoir des ni d'au moins 5 (c'est-à-dire au moins cinq observations dans un groupe) pour qu'elle soit exacte.

Formule 2. Illustre la formule d’approximation de la valeur p pour le test. Image préparée par l'auteur à l'aide de Markdown et Latex.

En utilisant un tableau de distribution de probabilité du chi carré, nous pouvons obtenir la valeur cruciale du chi carré à g-1 degrés de liberté et le niveau de signification souhaité. Alternativement, nous pourrions examiner la valeur p pour commenter la signification des résultats.

4.2 Exécuter le test H manuellement

Supposons qu'une entreprise pharmaceutique souhaite comprendre si trois groupes de segments de médecins ont des volumes de patients différents. (Stéphanie Glen, sd) Par exemple

Leaders d'opinion clés/KOL (volume de patients en un mois) : 23, 42, 55, 66, 78

Spécialistes/SPE (volume de patients en un mois) : 45, 56, 60, 70, 72

Médecins généralistes/GP (volume de patients en un mois) : 18, 30, 34, 41, 44

4.2.1 Organiser les données par ordre croissant après les avoir combinées en un seul ensemble

18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

4.2.2 Classez les points de données triés. Utiliser la moyenne en cas d'égalité

Valeurs : 18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

Rang : 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

4.2.3 Calculer la somme des rangs pour chaque groupe

Figure 1. Illustre la somme des rangs pour chaque groupe. Crédit d'image — Préparé par l'auteur.

4.2.4 Calculer les statistiques H à l'aide de la formule 1 et des nombres de la figure 1

Formule 3. Illustre la formule de calcul des statistiques H pour notre groupe de prescripteurs. Image préparée par l'auteur à l'aide de Markdown et Latex.

H = 6.72

4.2.5 Identifier la valeur critique du chi carré pour les degrés de liberté g-1 avec
un α=0.05 qui pour notre problème (3–1=2 degrés de liberté) devrait être de 5.99. Reportez-vous au tableau ci-dessous.

4.2.6 Comparer la valeur H de 4.2.4 à la valeur critique de 4.2.5

L’hypothèse nulle selon laquelle le volume médian de patients dans trois groupes différents est égal doit être rejetée si la valeur critique du chi carré est inférieure à la statistique H. Puisque 5.99 (Valeur critique) < 6.72, on peut rejeter l'hypothèse nulle.

Il faut davantage de preuves pour déduire que les médianes sont inégales si la valeur du chi carré n’est pas inférieure à la statistique H calculée ci-dessus.

L'hypothèse nulle selon laquelle les médianes de population de tous les groupes sont égales est testée à l'aide du test H de Kruskal-Wallis. Il s'agit d'une variante ANOVA non paramétrique. Le test utilise au moins deux échantillons indépendants de tailles variables. Notez que la réfutation de l’hypothèse nulle ne révèle pas en quoi les groupes diffèrent. Pour identifier quels groupes sont différents, des comparaisons post hoc entre les groupements sont nécessaires.

à partir des statistiques d'importation de Scipy
x = [1, 3, 5, 8, 9, 12, 17]
y = [2, 6, 6, 8, 10, 15, 20, 22]
stats.kruskal(x, y)
KruskalResult (statistique = 0.7560483870967752, valeur p = 0.3845680059797648)print(np.median(x))
print(np.median(y))
8.0
9.0
print(np.mean(x))
print(np.mean(y))
7.86
11.12

La sortie générée par Python est présentée ci-dessus. Il convient de noter que même si une différence marquée est observée dans la moyenne des valeurs entre les deux catégories, cette différence, si l'on prend en compte la médiane, est insignifiante puisque la valeur p est bien supérieure à 5 %.

Le test de Kruskal Wallis est déterminant lorsqu'il s'agit d'échantillons particulièrement asymétriques. Il peut être largement utilisé pour un groupe de contrôle de test lors du déploiement d’une campagne ou même lors de la réalisation de tests A/B. Cela s'applique à la plupart des cas d'utilisation de l'industrie, car chaque client a un comportement différent lorsqu'il traite avec des clients dans un espace de vente au détail ou avec des médecins dans un paysage pharmaceutique. Lorsque l’on regarde la taille du panier ou le volume de patients, peu de clients achètent plus, alors que peu de médecins ont plus de patients. Par conséquent, pour une distribution aussi asymétrique, il est essentiel de réaliser un test de Kruskal Wallis pour vérifier si les comportements sont similaires.

Stéphanie Glen. « Test Kruskal Wallis H : définition, exemples, hypothèses, SPSS » StatistiquesComment.com: Statistiques élémentaires pour le reste d'entre nous ! https://www.statisticshowto.com/probability-and-statistics/statistics-definitions/kruskal-wallis/

Test Kruskal Wallis pour les débutants republié à partir de la source https://towardsdatascience.com/kruskal-wallis-test-for-beginners-4fe9b0333b31?source=rss—-7f60cf5620c9—4 via https://towardsdatascience.com/feed

<!–

->

Horodatage:

Plus de Consultants en blockchain