Kruskal Wallis teszt kezdőknek

Kruskal Wallis teszt: Cél, hatókör, feltételezések, példák, Python megvalósítás

Fotó Roman Mager on Unsplash

A Kruskal Wallis egy nem paraméteres módszer annak kiértékelésére, hogy a minták ugyanabból az eloszlásból származnak-e. Több mint két független vagy független minta összehasonlítására használják. Az egytényezős varianciaanalízis (ANOVA) a Kruskal-Wallis teszt paraméteres ekvivalenciája.

1.1 Mi lenne a jó üzleti felhasználási eset?

Mérjük meg egy gyógyszergyártó vállalat által elindított kampány hatását egy újonnan piacra dobott gyógyszerre, ahol 1,550 célpont és 500 holdout van. Megvizsgáltuk a vényköteles viselkedés eloszlását, és azt találtuk, hogy nem normális (ferdített), de hasonló alakú minden csoportnál (célpontok és holdoutok). Nem tudunk ANOVA-t végezni; ezért egy nem paraméteres Kruskal-Wallis tesztet alkalmazunk.

Mivel a Kruskal Wallis egy nem paraméteres teszt, nem feltételezhető, hogy az adatok normális eloszlásúak (ellentétben az ANOVA-val).

  1. A tényszerű nullhipotézis az, hogy a populációk, amelyekből a minták származnak, azonos mediánnal rendelkeznek.
  2. A Kruskal-Wallis tesztet leggyakrabban akkor használják, ha egy attribútumváltozó és egy mérési változó van, és a mérési változó nem felel meg az ANOVA (normalitás és homoszkedaszticitás) feltételezéseinek.
  3. A legtöbb nem-paraméteres teszthez hasonlóan ez is rangsorolt ​​adatokon történik, így a mérési megfigyeléseket a teljes adathalmaz segítségével rangsoroljuk: a legkisebb vagy legalacsonyabb érték 1-es, a következő legkisebb 2-es rangot kap, a következő 3-as rangot, és így tovább. Döntetlen esetén az átlagos helyezés számít.
  4. Az információvesztés az eredeti értékek rangsorainak helyettesítésekor ez kevésbé hatékony tesztet jelent, mint az ANOVA, ezért az ANOVA-t kell használni, ha az adatok megfelelnek a feltételezéseknek..

A Kruskal-Wallis teszt nullhipotézisét néha úgy állítják, hogy a csoportmediánok egyenlőek. Ez azonban csak akkor pontos, ha úgy gondolja, hogy az egyes csoportok eloszlási jellemzői azonosak. Annak ellenére, hogy a mediánok azonosak, a Kruskal-Wallis teszt elveti a nullhipotézist, ha az eloszlások eltérnek.

A Kruskal-Wallis statisztika segítségével különböző méretű csoportok vizsgálhatók. A Kruskal-Wallis teszt, az összehasonlítható egyirányú varianciaanalízissel ellentétben, nem feltételez normális eloszlást, mert nem paraméteres eljárás. A teszt azonban feltételezi, hogy az egyes csoportok eloszlása ​​azonos alakú és skálázott, kivéve a mediánok esetleges eltéréseit.

A Kruskal Wallis segítségével elemezhető, hogy a teszt és a kontroll eltérő módon történt-e. Ha az adatok torzak (nem normális eloszlás), a teszt meg fogja állapítani, hogy a két csoport különbözik-e, anélkül, hogy bármilyen ok-okozati összefüggést megállapítana. Nem fogja sugalmazni a viselkedésbeli különbség okát.

4.1 Hogyan működik a teszt?

Kruskal Wallis úgy dolgozik, hogy az összes megfigyelést rangsorolja, 1-től (legkisebb) kezdve. A rangsorolás minden adatpontra megtörténik, függetlenül attól, hogy melyik csoporthoz tartoznak. A holtversenyes értékek azt az átlagos rangot kapják, amit akkor kaptak volna, ha nem lettek volna holtversenyben.

Ha az elemzési változó (az előírt receptek száma) alapján az összes megfigyeléshez előjeles rangot rendeltek, akkor azokat cél/tartozás státuszuk alapján megkülönböztetik/csoportosítják. Ezt követően minden csoport átlagos rangját kiszámítjuk és összehasonlítjuk.

A cél várhatóan magasabb átlagos helyezést ér el, mint a holdoutok, mivel a kezdeményezést vagy a promóciós erőfeszítést ehhez a csoporthoz vezették be. Jelentős p-értékkel a Target jobban teljesít, mint a holdoutok. A kihívás itt az, hogy a célcsoport átlagos rangja magasabb lehet a kiugró értékek jelenlétében, azaz kevés orvos ír több forgatókönyvet, mint mások. Ezért mindig a Kruskal Wallis által kapott aritmetikai mediánt és az eredő p-értéket vizsgáljuk hipotézisünk igazolására/cáfolására.

Jelölje Ni (i = 1, 2, 3, 4,…, g) az egyes g-csoportok mintanagyságát (vagyis a mintákat, vagy ebben az esetben az orvosok számát). ri az i csoport rangsorainak összege, ahol ri' az i csoport átlagos rangja. Ezután a Kruskal Wallis teszt statisztikáját a következőképpen számítjuk ki:

1 képlet. A tesztstatisztika kiszámításának képletét szemlélteti. A képet a szerző készítette Markdown és Latex segítségével.

Az egyenlő populációs mediánok nullhipotézise elutasításra kerül, ha a tesztstatisztika meghaladja a khi-négyzet küszöbértékét. Ha igaz az egyenlő populációk nullhipotézise, ​​akkor ennek a statisztikának k-1 szabadsági foka van, és közelíti a khi-négyzet eloszlást. A közelítésnek legalább 5 ni-nek kell lennie (vagyis legalább öt megfigyelésnek kell lennie egy csoportban), hogy pontos legyen.

2 képlet. A teszt p-érték közelítésének képletét szemlélteti. A képet a szerző készítette Markdown és Latex segítségével.

Egy khi-négyzet valószínűségi eloszlási táblázat segítségével megkaphatjuk a döntő khi-négyzet értéket g-1 szabadsági fokon és a kívánt szignifikancia szinten. Alternatív megoldásként megvizsgálhatjuk a p-értéket, hogy kommentálhassuk az eredmények jelentőségét.

4.2 Futtassa le a H-tesztet kézzel

Tételezzük fel, hogy egy gyógyszeripari vállalat meg akarja érteni, hogy az orvosi szegmensek három csoportja eltérő betegszámmal rendelkezik-e (Stephanie Glen, nd) pl

Kulcsfontosságú véleményvezérek/KOL (betegek száma egy hónapban): 23, 42, 55, 66, 78

Szakorvosok/SPE (betegek száma egy hónapban): 45, 56, 60, 70, 72

Háziorvosok/háziorvosok (betegek száma egy hónapban): 18, 30, 34, 41, 44

4.2.1 Rendezd az adatokat növekvő sorrendbe, miután egy halmazba egyesítetted őket

18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

4.2.2 Rangsorolja a rendezett adatpontokat. Kötöttség esetén használjon átlagot

Értékek: 18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

Rangsor: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

4.2.3 Számítsa ki az egyes csoportok rangsorainak összegét

Ábra 1. Az egyes csoportok rangsorainak összegét szemlélteti. Képhitel — Készítette a szerző.

4.2.4 Számítsa ki a H statisztikát az 1. képlet és az 1. ábra számainak felhasználásával

3 képlet. Illusztrálja a H-statisztikák kiszámításának képletét felírói csoportunk számára. A képet a szerző készítette Markdown és Latex segítségével.

H = 6.72

4.2.5 Határozza meg a g-1 szabadsági fok kritikus khi-négyzet értékét
egy α=0.05, ami a mi feladatunkra (3-1=2 szabadságfok) 5.99 legyen. Lásd az alábbi táblázatot.

4.2.6 Hasonlítsa össze a 4.2.4-es H-értéket a 4.2.5-ből származó kritikus értékkel

Azt a nullhipotézist, amely szerint a betegek átlagos térfogata három különböző csoportban egyenlő, el kell utasítani, ha a kritikus khi-négyzet érték kisebb, mint a H statisztika. Mivel 5.99 (kritikus érték) < 6.72, a nullhipotézist elvethetjük.

Több bizonyítékra van szükség ahhoz, hogy levonjuk azt a következtetést, hogy a mediánok egyenlőtlenek, ha a khi-négyzet érték nem alacsonyabb, mint a fent kiszámított H statisztika.

A nullhipotézist, miszerint minden csoport populációs mediánja egyenlő, Kruskal-Wallis H-próbával teszteljük. Ez egy ANOVA-változat, amely nem paraméteres. A teszt két vagy több független, különböző méretű mintát használ. Megjegyzendő, hogy a nullhipotézis cáfolata nem fedi fel, hogy a csoportok miben különböznek egymástól. Annak megállapításához, hogy mely csoportok különböznek egymástól, a csoportosítások utólagos összehasonlítása szükséges.

scipy import statisztikából
x = [1, 3, 5, 8, 9, 12, 17]
y = [2, 6, 6, 8, 10, 15, 20, 22]
stats.kruskal(x, y)
KruskalResult(statisztika=0.7560483870967752, pvalue=0.3845680059797648)print(np.median(x))
print(np.median(y))
8.0
9.0
print(np.mean(x))
print(np.mean(y))
7.86
11.12

A Python által generált kimenet fent látható. Meg kell jegyezni, hogy bár jelentős különbség figyelhető meg a két kategória értékeinek átlagában, ez a különbség a mediánt figyelembe véve jelentéktelen, mivel a p-érték jóval nagyobb, mint 5%.

A Kruskal Wallis teszt hasznos, ha különösen ferde mintákkal foglalkozunk. Széles körben használható teszt-kontrollcsoportok számára a kampány közzététele során, vagy akár A/B tesztelés során is. Ez a legtöbb ipari felhasználási esetre vonatkozik, mivel minden vásárló eltérően viselkedik, amikor egy kiskereskedelmi területen vagy az orvosokkal foglalkozik a gyógyszeriparban. Ha a kosár méretét vagy a betegek mennyiségét nézzük, kevés vásárló vásárol többet, míg kevés orvosnak van több páciense. Ezért egy ilyen torz eloszlás esetén létfontosságú egy Kruskal Wallis teszt elvégzése annak ellenőrzésére, hogy a viselkedések hasonlóak-e.

Stephanie Glen. „Kruskal Wallis H teszt: definíció, példák, feltételezések, SPSS” StatisticsHowTo.com: Elemi statisztika a többieknek! https://www.statisticshowto.com/probability-and-statistics/statistics-definitions/kruskal-wallis/

Kruskal Wallis teszt kezdőknek újraközölve a következő forrásból: https://towardsdatascience.com/kruskal-wallis-test-for-beginners-4fe9b0333b31?source=rss—-7f60cf5620c9—4 a https://towardsdatascience.com/feed oldalon

<!–

->

Időbélyeg:

Még több Blockchain tanácsadók