Kruskal Wallis-Test für Anfänger

Kruskal-Wallis-Test: Zweck, Umfang, Annahmen, Beispiele, Python-Implementierung

Photo by Roman Mager Mag on Unsplash

Kruskal Wallis ist eine nichtparametrische Methode zur Bewertung, ob Stichproben aus derselben Verteilung stammen. Es wird beim Vergleich von mehr als zwei unabhängigen oder nicht zusammenhängenden Stichproben verwendet. Die einfaktorielle Varianzanalyse (ANOVA) ist die parametrische Äquivalenz des Kruskal-Wallis-Tests.

1.1 Was wäre ein guter Geschäftsanwendungsfall?

Lassen Sie uns die Wirkung einer Kampagne eines Pharmaunternehmens auf ein neu eingeführtes Medikament messen, wobei wir 1,550 Targets und 500 Holdouts haben. Wir haben uns die Verteilung des Verschreibungsverhaltens angesehen und festgestellt, dass sie nicht normal (schief), aber für jede Gruppe (Ziele und Verweigerer) ähnlich geformt ist. Wir können keine ANOVA durchführen; Daher wenden wir einen nichtparametrischen Test an, Kruskal-Wallis.

Da es sich bei Kruskal Wallis um einen nichtparametrischen Test handelt, wird nicht davon ausgegangen, dass die Daten normalverteilt sind (im Gegensatz zur ANOVA).

  1. Die faktische Nullhypothese besagt, dass die Populationen, aus denen die Stichproben stammen, denselben Median haben.
  2. Der Kruskal-Wallis-Test wird am häufigsten verwendet, wenn eine Attributvariable und eine Messvariable vorhanden sind und die Messvariable nicht die Annahmen der ANOVA (Normalität und Homoskedastizität) erfüllt.
  3. Wie die meisten nichtparametrischen Tests wird er an geordneten Daten durchgeführt, d. das Folgende ein Rang von 1 und so weiter. Bei Gleichstand wird ein Durchschnittsrang gewertet.
  4. Aufgrund des Informationsverlusts beim Ersetzen der ursprünglichen Werte durch Ränge ist dieser Test weniger aussagekräftig als ANOVA. Daher sollte ANOVA verwendet werden, wenn die Daten die Annahmen erfüllen.

Als Nullhypothese des Kruskal-Wallis-Tests wird manchmal angegeben, dass die Gruppenmediane gleich sind. Dies ist jedoch nur dann korrekt, wenn Sie davon ausgehen, dass die Verteilungsmerkmale jeder Gruppe gleich sind. Auch wenn die Mediane gleich sind, kann der Kruskal-Wallis-Test die Nullhypothese ablehnen, wenn die Verteilungen unterschiedlich sind.

Mit der Kruskal-Wallis-Statistik können Gruppen unterschiedlicher Größe untersucht werden. Der Kruskal-Wallis-Test geht im Gegensatz zur vergleichbaren einfaktoriellen Varianzanalyse nicht von einer Normalverteilung aus, da es sich um ein nichtparametrisches Verfahren handelt. Der Test geht jedoch davon aus, dass die Verteilung jeder Gruppe identisch geformt und skaliert ist, mit Ausnahme etwaiger Abweichungen bei den Medianwerten.

Mit Kruskal Wallis kann analysiert werden, ob der Test und die Kontrolle unterschiedlich abschneiden. Wenn die Daten verzerrt sind (nicht normal verteilt), wird der Test feststellen, ob die beiden Gruppen unterschiedlich sind, ohne einen Kausalzusammenhang festzustellen. Es wird nicht auf den Grund für den Unterschied im Verhalten hingewiesen.

4.1 Wie funktioniert der Test?

Kruskal Wallis ordnet alle Beobachtungen, beginnend mit 1 (am geringfügigsten). Das Ranking erfolgt für alle Datenpunkte, unabhängig von der Gruppe, zu der sie gehören. Gleiche Werte erhalten den durchschnittlichen Rang, den sie ohne Gleichstand erhalten hätten.

Wenn allen Beobachtungen basierend auf der Analysevariablen (der Anzahl der verschriebenen Verschreibungen) ein vorzeichenbehafteter Rang zugewiesen wurde, werden sie basierend auf ihrem Ziel-/Holdout-Status differenziert/in Gruppen eingeteilt. Anschließend wird der mittlere Rang jeder Gruppe berechnet und verglichen.

Es wird erwartet, dass die Zielgruppe einen höheren Durchschnittsrang hat als die Verweigerer, da die Initiative oder Werbemaßnahme für diese Gruppe eingeführt wird. Mit einem signifikanten p-Wert schneidet Target besser ab als Holdouts. Die Herausforderung besteht darin, dass der durchschnittliche Rang der Zielgruppe höher sein kann, wenn Ausreißer vorhanden sind, d. h. wenn nur wenige Ärzte mehr Skripte schreiben als andere. Daher betrachten wir immer den arithmetischen Median und den resultierenden p-Wert, den Kruskal Wallis erhalten hat, um unsere Hypothese zu bestätigen/zu widerlegen.

Angenommen, Ni (i = 1, 2, 3, 4,…, g) repräsentiert die Stichprobengrößen für jede g-Gruppe (d. h. Stichproben oder in diesem Fall die Anzahl der Ärzte) in den Daten. ri ist die Summe der Ränge für Gruppe i, wobei ri’ der durchschnittliche Rang von Gruppe i ist. Dann wird die Kruskal-Wallis-Teststatistik wie folgt berechnet:

Formel 1. Veranschaulicht die Formel zur Berechnung der Teststatistik. Vom Autor mit Markdown und Latex erstelltes Bild.

Die Nullhypothese gleicher Populationsmediane wird abgelehnt, wenn die Teststatistik den Chi-Quadrat-Schwellenwert überschreitet. Wenn die Nullhypothese gleicher Populationen wahr ist, hat diese Statistik k-1 Freiheitsgrade und nähert sich einer Chi-Quadrat-Verteilung an. Damit die Näherung genau ist, muss sie einen Ni-Wert von mindestens 5 (d. h. mindestens fünf Beobachtungen in einer Gruppe) aufweisen.

Formel 2. Veranschaulicht die Formel für die p-Wert-Approximation für den Test. Vom Autor mit Markdown und Latex erstelltes Bild.

Mithilfe einer Chi-Quadrat-Wahrscheinlichkeitsverteilungstabelle können wir den entscheidenden Chi-Quadrat-Wert bei g-1 Freiheitsgraden und dem gewünschten Signifikanzniveau erhalten. Alternativ könnten wir den p-Wert untersuchen, um die Signifikanz der Ergebnisse zu kommentieren.

4.2 Führen Sie den H-Test manuell durch

Nehmen wir an, ein Pharmaunternehmen möchte verstehen, ob drei Gruppen von Ärztesegmenten unterschiedliche Patientenzahlen haben (Stephanie Glen, ohne Datum) Z.B,

Wichtige Meinungsführer/KOL (Patientenvolumen in einem Monat): 23, 42, 55, 66, 78

Fachärzte/SPE (Patientenvolumen in einem Monat): 45, 56, 60, 70, 72

Allgemeinmediziner/Hausärzte (Patientenaufkommen pro Monat): 18, 30, 34, 41, 44

4.2.1 Ordnen Sie die Daten in aufsteigender Reihenfolge an, nachdem Sie sie zu einem Satz zusammengefasst haben

18 23 24 30 41 42 44 45 55 56 60 66

4.2.2 Ordnen Sie die sortierten Datenpunkte. Bei Unentschieden den Durchschnitt verwenden

Werte: 18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

Rang: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

4.2.3 Berechnen Sie die Summe der Ränge für jede Gruppe

Abbildung 1. Zeigt die Summe der Ränge für jede Gruppe. Bildnachweis – Vom Autor erstellt.

4.2.4 Berechnen Sie die H-Statistik mithilfe der Formel 1 und den Zahlen aus Abbildung 1

Formel 3. Veranschaulicht die Formel zur Berechnung der H-Statistik für unsere Verschreibergruppe. Vom Autor mit Markdown und Latex erstelltes Bild.

H = 6.72

4.2.5 Identifizieren Sie den kritischen Chi-Quadrat-Wert für g-1 Freiheitsgrade mit
ein α=0.05, was für unser Problem (3–1=2 Freiheitsgrade) 5.99 sein sollte. Siehe die Tabelle unten.

4.2.6 Vergleichen Sie den H-Wert aus 4.2.4 mit dem kritischen Wert aus 4.2.5

Die Nullhypothese, die besagt, dass das mittlere Patientenvolumen in drei verschiedenen Gruppen gleich ist, sollte abgelehnt werden, wenn der kritische Chi-Quadrat-Wert kleiner als die H-Statistik ist. Da 5.99 (kritischer Wert) < 6.72 ist, können wir die Nullhypothese ablehnen.

Es muss mehr Belege dafür geben, dass die Mediane ungleich sind, wenn der Chi-Quadrat-Wert nicht niedriger ist als die oben berechnete H-Statistik.

Die Nullhypothese, dass die Bevölkerungsmediane aller Gruppen gleich sind, wird mit dem Kruskal-Wallis-H-Test getestet. Es handelt sich um eine ANOVA-Variante, die nicht parametrisch ist. Der Test verwendet zwei oder mehr unabhängige Stichproben unterschiedlicher Größe. Beachten Sie, dass die Widerlegung der Nullhypothese nicht offenbart, wie sich die Gruppen unterscheiden. Um festzustellen, welche Gruppen sich unterscheiden, sind Post-hoc-Vergleiche zwischen den Gruppierungen erforderlich.

aus den Scipy-Importstatistiken
x = [1, 3, 5, 8, 9, 12, 17]
y = [2, 6, 6, 8, 10, 15, 20, 22]
stats.kruskal(x, y)
KruskalResult(statistic=0.7560483870967752, pvalue=0.3845680059797648)print(np.median(x))
print(np.median(y))
8.0
9.0
print(np.mean(x))
print(np.mean(y))
7.86
11.12

Die von Python generierte Ausgabe ist oben dargestellt. Es ist zu beachten, dass zwar ein deutlicher Unterschied im Mittelwert der beiden Kategorien zu beobachten ist, dieser Unterschied jedoch unter Berücksichtigung des Medians unbedeutend ist, da der p-Wert deutlich über 5 % liegt.

Der Kruskal-Wallis-Test ist hilfreich, wenn es um besonders verzerrte Proben geht. Es kann häufig für eine Testkontrollgruppe während der Einführung einer Kampagne oder sogar bei der Durchführung von A/B-Tests verwendet werden. Dies gilt für die meisten Anwendungsfälle in der Branche, da sich jeder Kunde anders verhält, wenn er mit Kunden in einem Einzelhandelsgeschäft oder Ärzten in einer Pharmabranche umgeht. Betrachtet man die Korbgröße oder das Patientenvolumen, so kaufen nur wenige Kunden mehr, während nur wenige Ärzte mehr Patienten haben. Daher ist es bei solch einer verzerrten Verteilung wichtig, einen Kruskal-Wallis-Test durchzuführen, um zu überprüfen, ob die Verhaltensweisen ähnlich sind.

Stephanie Glen. „Kruskal Wallis H-Test: Definition, Beispiele, Annahmen, SPSS“ Von StatisticsHowTo.com: Grundstatistik für den Rest von uns! https://www.statisticshowto.com/probability-and-statistics/statistics-definitions/kruskal-wallis/

Kruskal Wallis-Test für Anfänger, neu veröffentlicht von der Quelle https://towardsdatascience.com/kruskal-wallis-test-for-beginners-4fe9b0333b31?source=rss—-7f60cf5620c9—4 über https://towardsdatascience.com/feed

<!–

->

Zeitstempel:

Mehr von Blockchain-Berater