Kruskal Wallis -testi aloittelijoille

Kruskal Wallis -testi: tarkoitus, laajuus, oletukset, esimerkit, Python-toteutus

Kuva Rooman Mager on Unsplash

Kruskal Wallis on ei-parametrinen menetelmä sen arvioimiseksi, tulevatko näytteet samasta jakaumasta. Sitä käytetään useamman kuin kahden riippumattoman tai riippumattoman otoksen vertailussa. Yksisuuntainen varianssianalyysi (ANOVA) on Kruskal-Wallis-testin parametrinen ekvivalenssi.

1.1 Mikä olisi hyvä yrityskäyttötapaus?

Mittaataan lääkeyhtiön käynnistämän kampanjan vaikutusta äskettäin lanseerattuihin lääkkeisiin, joissa meillä on 1,550 500 kohdetta ja XNUMX Holdoutia. Tarkastelimme lääkemääräyskäyttäytymisjakaumaa ja havaitsimme sen epänormaaliksi (vinoutuvaksi), mutta samanmuotoiseksi jokaiselle ryhmälle (kohteet ja pitopaikat). Emme voi suorittaa ANOVAa; siksi käytämme ei-parametrista Kruskal-Wallis-testiä.

Koska Kruskal Wallis on ei-parametrinen testi, ei voida olettaa, että tiedot olisivat normaalijakautuneita (toisin kuin ANOVA).

  1. Tosiasiallinen nollahypoteesi on, että populaatioilla, joista näytteet ovat peräisin, on sama mediaani.
  2. Kruskal-Wallis-testiä käytetään yleisimmin, kun on yksi attribuuttimuuttuja ja yksi mittausmuuttuja, ja mittausmuuttuja ei täytä ANOVA-oletuksia (normaalisuus ja homoskedastisuus)
  3. Kuten useimmat ei-parametriset testit, se suoritetaan paremmuusjärjestetyillä tiedoilla, joten mittaushavainnot muunnetaan omiin arvoihinsa käyttämällä yleistä tietojoukkoa: pienin tai pienin arvo saa arvon 1, seuraavaksi pienin saa arvon 2, seuraavat arvosanat 3 ja niin edelleen. Tasatilanteessa huomioidaan keskimääräinen sijoitus.
  4. Tietojen menetys alkuperäisten arvojen korvaamisen arvoilla tekee tästä testistä vähemmän tehokkaan kuin ANOVA, joten ANOVAa tulee käyttää, jos tiedot vastaavat oletuksia..

Kruskal-Wallis-testin nollahypoteesin väitetään joskus olevan, että ryhmän mediaanit ovat yhtä suuret. Tämä on kuitenkin totta vain, jos uskot kunkin ryhmän jakautumisominaisuuksien olevan samat. Vaikka mediaanit ovat samat, Kruskal-Wallis-testi voi hylätä nollahypoteesin, jos jakaumat poikkeavat toisistaan.

Erikokoisia ryhmiä voidaan tarkastella Kruskal-Wallis -tilaston avulla. Kruskal-Wallis-testi, toisin kuin vertailukelpoinen yksisuuntainen varianssianalyysi, ei ota normaalijakaumaa, koska se on ei-parametrinen menettely. Testi kuitenkin olettaa, että kunkin ryhmän jakauma on identtinen muotoinen ja skaalattu, lukuun ottamatta mediaanien vaihteluita.

Kruskal Wallisin avulla voidaan analysoida, suoriutuivatko testi ja kontrolli eri tavalla. Kun tiedot ovat vinossa (epänormaalijakauma), testi kertoo, ovatko nämä kaksi ryhmää erilaisia ​​ilman mitään syy-yhteyttä. Se ei kerro käyttäytymiseron syytä.

4.1 Miten testi toimii?

Kruskal Wallis asettaa kaikki havainnot paremmuusjärjestykseen alkaen 1:stä (vähäisin). Luokitus tehdään kaikille datapisteille, riippumatta siitä, mihin ryhmään ne kuuluvat. Tasaiset arvot saavat keskimääräisen arvosanan, jonka ne olisivat saaneet, jos ne eivät olisi olleet tasapisteitä.

Kun kaikille havainnoille on annettu etumerkitty arvosana analyysimuuttujan (määrättyjen reseptien lukumäärän) perusteella, ne erotetaan/jaetaan ryhmiin kohde/holdout-statuksen perusteella. Tämän jälkeen kunkin ryhmän keskiarvo lasketaan ja sitä verrataan.

Kohdilla odotetaan olevan korkeampi keskimääräinen sijoitus kuin holdouteilla, koska aloite- tai mainosponnistus on otettu käyttöön tälle ryhmälle. Merkittävällä p-arvolla Target toimii paremmin kuin holdouts. Haasteena tässä on, että kohderyhmän keskimääräinen sijoitus voi olla korkeampi poikkeavien poikkeamien läsnä ollessa, eli harvat lääkärit kirjoittavat enemmän käsikirjoituksia kuin muut. Tästä syystä katsomme aina aritmeettista mediaania ja tuloksena olevaa p-arvoa, jonka Kruskal Wallis on saanut vahvistaaksemme/kumotaksemme hypoteesimme.

Olkoon Ni (i = 1, 2, 3, 4,…, g) kunkin g-ryhmän otoskoot (eli näytteet tai tässä tapauksessa lääkäreiden lukumäärä) tiedoissa. ri on ryhmän i sijoitusten summa, jossa ri' on ryhmän i keskimääräinen sijoitus. Sitten Kruskal Wallisin testitilasto lasketaan seuraavasti:

Kaava 1. Havainnollistaa testitilastojen laskentakaavaa. Tekijän tekemä kuva käyttämällä Markdownia ja lateksia.

Nollahypoteesi yhtä suuresta populaation mediaanista hylätään, jos testitilasto ylittää khin neliön kynnysarvon. Kun nollahypoteesi yhtäläisistä populaatioista on totta, tällä tilastolla on k-1 vapausastetta ja se vastaa khin neliöjakaumaa. Approksimaation ni:n on oltava vähintään 5 (eli vähintään viisi havaintoa ryhmässä), jotta se olisi tarkka.

Kaava 2. Havainnollistaa testin p-arvon approksimaatiokaavaa. Tekijän tekemä kuva käyttämällä Markdownia ja lateksia.

Khin-neliön todennäköisyysjakaumataulukon avulla voimme saada ratkaisevan khin-neliön arvon g-1 vapausasteilla ja halutulla merkitsevyystasolla. Vaihtoehtoisesti voimme tutkia p-arvoa kommentoidaksemme tulosten merkitystä.

4.2 Suorita H-testi käsin

Oletetaan, että lääkeyritys haluaa ymmärtää, onko kolmella lääkärisegmenttien ryhmällä eri potilasmäärät (Stephanie Glen, nd) Esimerkiksi,

Tärkeimmät mielipidejohtajat / KOL (potilaiden määrä kuukaudessa): 23, 42, 55, 66, 78

Asiantuntijat/SPE (potilaiden määrä kuukaudessa): 45, 56, 60, 70, 72

Yleislääkärit/GP:t (potilaiden määrä kuukaudessa): 18, 30, 34, 41, 44

4.2.1 Järjestä tiedot nousevaan järjestykseen yhdistämisen jälkeen yhdeksi joukoksi

18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

4.2.2 Järjestä järjestetyt tietopisteet. Käytä keskiarvoa solmioiden tapauksessa

Arvot: 18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

Sijoitus: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

4.2.3 Laske kunkin ryhmän pistemäärä

Kuva 1. Havainnollistaa kunkin ryhmän sijoitusten summaa. Kuvan luotto - Tekijän laatima.

4.2.4 Laske H-tilastot käyttämällä kaavaa 1 ja numeroita kuvasta 1

Kaava 3. Havainnollistaa kaavan H-tilastojen laskemiseen lääkemääräysryhmällemme. Tekijän tekemä kuva käyttämällä Markdownia ja lateksia.

H = 6.72

4.2.5 Tunnista g-1 vapausasteiden kriittinen chi-neliö-arvo
α=0.05, jonka meidän ongelmamme (3–1=2 vapausastetta) pitäisi olla 5.99. Katso alla olevaa taulukkoa.

4.2.6 Vertaa H-arvoa 4.2.4 kriittiseen arvoon 4.2.5

Nollahypoteesi, jonka mukaan potilastilavuuden mediaani kolmessa eri ryhmässä on yhtä suuri, tulee hylätä, jos kriittinen khinneliö-arvo on pienempi kuin H-tilasto. Koska 5.99 (kriittinen arvo) < 6.72, voimme hylätä nollahypoteesin.

Tarvitaan enemmän todisteita, jotta voidaan päätellä, että mediaanit ovat eriarvoisia, jos khin neliöarvo ei ole pienempi kuin yllä laskettu H-tilasto.

Nollahypoteesi, jonka mukaan kaikkien ryhmien populaatiomediaanit ovat yhtä suuret, testataan Kruskal-Wallis H-testillä. Se on ANOVA-variantti, joka ei ole parametrinen. Testissä käytetään kahta tai useampaa riippumatonta erikokoista näytettä. Huomaa, että nollahypoteesin kumoaminen ei paljasta, kuinka ryhmät eroavat toisistaan. Erilaisten ryhmien tunnistamiseksi ryhmien välillä on tehtävä post hoc -vertailuja.

scipy tuontitilastoista
x = [1, 3, 5, 8, 9, 12, 17]
y = [2, 6, 6, 8, 10, 15, 20, 22]
stats.kruskal(x, y)
KruskalResult(tilasto=0.7560483870967752, parvo=0.3845680059797648)tulosta(np.mediaani(x))
tulosta(np.mediaani(y))
8.0
9.0
tulosta (np.mean(x))
tulosta (np.mean(y))
7.86
11.12

Pythonin tuottama tulos näkyy yllä. On huomattava, että vaikka arvojen keskiarvossa havaitaan huomattava ero näiden kahden luokan välillä, tämä ero mediaani huomioon ottaen on merkityksetön, koska p-arvo on paljon suurempi kuin 5 %.

Kruskal Wallis -testi on hyödyllinen, kun käsitellään erityisen vinoja näytteitä. Sitä voidaan käyttää laajasti testikontrolliryhmässä kampanjan käyttöönoton aikana tai jopa A/B-testauksen aikana. Tämä pätee useimpiin teollisuuden käyttöön, koska jokainen asiakas käyttäytyy eri tavalla asioidessaan asiakkaiden kanssa vähittäiskaupassa tai lääkäreiden kanssa lääkemaailmassa. Korin kokoa tai potilaiden määrää tarkasteltaessa harva asiakas ostaa enemmän, kun taas harvalla lääkärillä on enemmän potilaita. Tästä syystä tällaisen vinoutetun jakauman tapauksessa on tärkeää tehdä Kruskal Wallis -testi sen tarkistamiseksi, ovatko käyttäytymiset samanlaisia.

Stephanie Glen. "Kruskal Wallis H -testi: määritelmä, esimerkit, oletukset, SPSS" alkaen StatisticsHowTo.com: Perustilastot meille muille! https://www.statisticshowto.com/probability-and-statistics/statistics-definitions/kruskal-wallis/

Kruskal Wallis -testi aloittelijoille julkaistu uudelleen lähteestä https://towardsdatascience.com/kruskal-wallis-test-for-beginners-4fe9b0333b31?source=rss—-7f60cf5620c9—4 kautta https://towardsdatascience.com/feed

<!-

->

Aikaleima:

Lisää aiheesta Blockchain-konsultit