Kruskal Wallise test algajatele

Kruskal Wallise test: eesmärk, ulatus, eeldused, näited, Pythoni rakendamine

Foto: Roman Mager on Unsplash

Kruskal Wallis on mitteparameetriline meetod hindamaks, kas proovid pärinevad samast jaotusest. Seda kasutatakse enam kui kahe sõltumatu või mitteseotud valimi võrdlemisel. Ühesuunaline dispersioonanalüüs (ANOVA) on Kruskal-Wallise testi parameetriline ekvivalents.

1.1 Milline oleks hea ärikasutusjuht?

Mõõdame ravimiettevõtte käivitatud kampaania mõju äsja turule lastud ravimile, kus meil on 1,550 sihtmärki ja 500 kinnipidamist. Vaatasime retseptide väljakirjutamise käitumise jaotust ja leidsime, et see ei ole normaalne (viltu), kuid on iga rühma jaoks sarnase kujuga (sihtmärgid ja kinnipidamised). Me ei saa ANOVA-d läbi viia; seetõttu rakendame mitteparameetrilist Kruskal-Wallis testi.

Kuna Kruskal Wallis on mitteparameetriline test, siis ei eeldata, et andmed on normaalselt jaotatud (erinevalt ANOVA-st).

  1. Faktiline nullhüpotees on see, et populatsioonidel, millest proovid pärinevad, on sama mediaan.
  2. Kruskal-Wallise testi kasutatakse kõige sagedamini siis, kui on üks tunnusmuutuja ja üks mõõtmismuutuja ning mõõtemuutuja ei vasta ANOVA (normaalsus ja homoskedastilisus) eeldustele.
  3. Nagu enamik mitteparameetrilisi teste, tehakse seda järjestatud andmetega, nii et mõõtmisvaatlused teisendatakse nende järjestustesse, kasutades üldist andmekogumit: väikseim või madalaim väärtus saab järjestuse 1, väikseim järgmine väärtus 2, järgnev auaste 3 jne. Võrdse tulemuse korral arvestatakse keskmist asetust.
  4. Teabe kadu algväärtuste auastmete asendamisel muudab selle testi vähem võimsaks kui ANOVA, seega tuleks ANOVA-d kasutada, kui andmed vastavad eeldustele..

Kruskal-Wallise testi nullhüpoteesiks väidetakse mõnikord, et rühma mediaanid on võrdsed. Kuid see on täpne ainult siis, kui arvate, et iga rühma jaotusomadused on samad. Kuigi mediaanid on samad, võib Kruskal-Wallise test nullhüpoteesi tagasi lükata, kui jaotused erinevad.

Erineva suurusega rühmi saab uurida Kruskal-Wallise statistika abil. Kruskal-Wallise test, erinevalt võrreldavast ühesuunalisest dispersioonanalüüsist, ei eelda normaaljaotust, kuna see on mitteparameetriline protseduur. Test eeldab siiski, et iga rühma jaotus on identse kujuga ja skaleeritud, välja arvatud mediaanide kõikumised.

Kruskal Wallise abil saab analüüsida, kas test ja kontroll toimisid erinevalt. Kui andmed on kallutatud (mittenormaalne jaotus), näitab test, kas need kaks rühma on erinevad, ilma põhjuslikku seost tuvastamata. See ei näita käitumise erinevuse põhjust.

4.1 Kuidas test töötab?

Kruskal Wallis seab kõik tähelepanekud järjestades, alustades 1-st (kõige vähemtähtsam). Pingerida tehakse kõigi andmepunktide kohta, olenemata rühmast, kuhu need kuuluvad. Seotud väärtused saavad keskmise auastme, mille nad oleksid saanud, kui need poleks olnud võrdsed.

Kui kõikidele vaatlustele on analüüsimuutuja (väljakirjutatud retseptide arvu) alusel omistatud märgistatud järjestus, eristatakse/jaotatakse need sihtmärgi/holdout staatuse alusel rühmadesse. Pärast seda arvutatakse ja võrreldakse iga rühma keskmine aste.

Sihtmärgil on eeldatavasti kõrgem keskmine asetus kui kinnihoidjatel, kuna algatus või reklaamitegevus on selle grupi jaoks kasutusele võetud. Märkimisväärse p-väärtusega Target toimib paremini kui kinnipidamine. Väljakutse seisneb siin selles, et sihtrühma keskmine reiting võib olla kõrgem, kui esinevad kõrvalekalded, st vähesed arstid kirjutavad rohkem skripte kui teised. Seetõttu vaatame alati oma hüpoteesi kinnitamiseks/ümberlükkamiseks aritmeetilist mediaani ja sellest tulenevat p-väärtust, mille Kruskal Wallis on saanud.

Olgu Ni (i = 1, 2, 3, 4,…, g) esindab andmetes iga g rühma valimi suurust (st valimeid või antud juhul arstide arvu). ri on grupi i astmete summa, kus ri' on grupi i keskmine auaste. Seejärel arvutatakse Kruskal Wallise testi statistika järgmiselt:

Valem 1. Illustreerib testide statistika arvutamise valemit. Pildi koostas autor Markdowni ja lateksi abil.

Võrdsete populatsiooni mediaanide nullhüpotees lükatakse tagasi, kui testi statistika ületab hii-ruutväärtuse läve. Kui võrdsete populatsioonide nullhüpotees on tõene, on sellel statistikal k-1 vabadusaste ja see läheneb hii-ruutjaotusele. Lähenduse täpsuseks peab ni olema vähemalt 5 (st vähemalt viis vaatlust rühmas).

Valem 2. Illustreerib testi p-väärtuse lähendamise valemit. Pildi koostas autor Markdowni ja lateksi abil.

Kasutades hii-ruudu tõenäosusjaotustabelit, võime saada üliolulise hii-ruudu väärtuse g-1 vabadusastmete ja soovitud olulisuse taseme juures. Teise võimalusena võime uurida p-väärtust, et kommenteerida tulemuste olulisust.

4.2 Käivitage H-test käsitsi

Oletame, et farmaatsiaettevõte soovib mõista, kas kolmel arstisegmendi rühmal on erinev patsientide hulk (Stephanie Glen, nd) Nt

Peamised arvamusliidrid / KOL (patsientide arv kuus): 23, 42, 55, 66, 78

Spetsialistid / SPE (patsientide arv kuus): 45, 56, 60, 70, 72

Üldarstid/perearstid (patsientide arv kuus): 18, 30, 34, 41, 44

4.2.1 Järjesta andmed pärast nende üheks komplekti ühendamist kasvavas järjekorras

18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

4.2.2 Järjesta sorteeritud andmepunktid. Lipsude korral kasuta keskmist

Väärtused: 18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

Aste: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

4.2.3 Arvutage iga rühma auastmete summa

Joonis 1. Illustreerib iga rühma auastmete summat. Pildi krediit – koostanud autor.

4.2.4 Arvutage H statistika valemi 1 ja joonise 1 numbrite abil

Valem 3. Illustreerib meie väljakirjutajate rühma H-statistika arvutamise valemit. Pildi koostas autor Markdowni ja lateksi abil.

H = 6.72

4.2.5 Määrake g-1 vabadusastmete kriitiline hii-ruut väärtus
α=0.05, mis meie probleemi (3–1=2 vabadusastet) puhul peaks olema 5.99. Vaadake allolevat tabelit.

4.2.6 Võrrelge H väärtust 4.2.4 kriitilise väärtusega 4.2.5

Nullhüpotees, mis väidab, et patsientide keskmine maht kolmes erinevas rühmas on võrdne, tuleks tagasi lükata, kui kriitiline hii-ruut väärtus on väiksem kui H statistika. Kuna 5.99 (kriitiline väärtus) < 6.72, saame nullhüpoteesi tagasi lükata.

Vaja on rohkem tõendeid, et järeldada, et mediaanid on ebavõrdsed, kui hii-ruut väärtus ei ole madalam kui ülal arvutatud H statistika.

Nullhüpoteesi, et kõigi rühmade populatsiooni mediaanid on võrdsed, kontrollitakse Kruskal-Wallise H-testi abil. See on ANOVA variant, mis ei ole parameetriline. Test kasutab kahte või enamat erineva suurusega sõltumatut proovi. Pange tähele, et nullhüpoteesi ümberlükkamine ei näita, kuidas rühmad erinevad. Et teha kindlaks, millised rühmad on erinevad, on vaja rühmituste vahelist post hoc võrdlust.

scipy impordistatistikast
x = [1, 3, 5, 8, 9, 12, 17]
y = [2, 6, 6, 8, 10, 15, 20, 22]
stats.kruskal(x, y)
KruskalResult(statistika=0.7560483870967752, pvalue=0.3845680059797648)print(np.mediaan(x))
print(np.mediaan(y))
8.0
9.0
print(np.mean(x))
print (np.mean(y))
7.86
11.12

Pythoni genereeritud väljund on näidatud ülal. Tuleb märkida, et kuigi kahe kategooria väärtuste keskmistes on märgatav erinevus, on see erinevus mediaani arvesse võttes tähtsusetu, kuna p-väärtus on palju suurem kui 5%.

Kruskal Wallise test on abiks eriti kallutatud proovide käsitlemisel. Seda saab laialdaselt kasutada testide kontrollrühma jaoks kampaania levitamise ajal või isegi A/B testimise ajal. See kehtib enamiku tööstuslike kasutusjuhtude puhul, kuna igal kliendil on erinev käitumine, kui nad suhtlevad klientidega jaemüügipinnal või arstidega farmaatsiamaastikul. Kui vaatame korvi suurust või patsientide mahtu, siis vähesed kliendid ostavad rohkem, samas kui vähestel arstidel on rohkem patsiente. Seetõttu on sellise kallutatud jaotuse puhul ülioluline teha Kruskal Wallise test, et kontrollida, kas käitumine on sarnane.

Stephanie Glen. "Kruskal Wallis H test: määratlus, näited, eeldused, SPSS" StatisticsHowTo.com: elementaarne statistika meile teistele! https://www.statisticshowto.com/probability-and-statistics/statistics-definitions/kruskal-wallis/

Kruskal Wallise test algajatele uuesti avaldatud allikast https://towardsdatascience.com/kruskal-wallis-test-for-beginners-4fe9b0333b31?source=rss—-7f60cf5620c9—4 https://towardsdatascience.com/feed kaudu

<!–

->

Ajatempel:

Veel alates Blockchaini konsultandid