Testul Kruskal Wallis pentru începători

Testul Kruskal Wallis: scop, scop, ipoteze, exemple, implementare Python

Fotografie de Roman Mager on Unsplash

Kruskal Wallis este o metodă neparametrică pentru a evalua dacă eșantioanele provin din aceeași distribuție. Este utilizat în compararea a mai mult de două probe independente sau neînrudite. Analiza unidirecțională a varianței (ANOVA) este echivalența parametrică a testului Kruskal-Wallis.

1.1 Care ar fi un caz bun de utilizare în afaceri?

Să măsurăm impactul unei campanii lansate de o companie farmaceutică asupra unui medicament nou lansat, unde avem 1,550 de ținte și 500 de rețineri. Am analizat distribuția comportamentului prescripției și am găsit-o nenormală (deformată), dar având o formă similară pentru fiecare grup (ținte și rezistențe). Nu putem efectua ANOVA; prin urmare aplicăm un test neparametric, Kruskal-Wallis.

Deoarece Kruskal Wallis este un test neparametric, nu există nicio presupunere că datele sunt distribuite în mod normal (spre deosebire de ANOVA).

  1. Ipoteza nulă faptică este că populațiile din care provin eșantioanele au aceeași mediană.
  2. Testul Kruskal-Wallis este utilizat cel mai frecvent atunci când există o variabilă de atribut și o variabilă de măsurare, iar variabila de măsurare nu îndeplinește ipotezele ANOVA (normalitate și homoscedasticitate)
  3. La fel ca majoritatea testelor neparametrice, se efectuează pe date clasificate, astfel încât observațiile de măsurare sunt convertite în rândurile lor folosind setul de date general: cea mai mică sau cea mai mică valoare primește un rang de 1, următoarea cea mai mică primește un rang de 2, următoarele un rang de 3 și așa mai departe. În caz de egalitate, se ia în considerare un rang mediu.
  4. Pierderea de informații în înlocuirea rangurilor cu valorile originale face ca acesta să fie un test mai puțin puternic decât ANOVA, deci ANOVA ar trebui utilizat dacă datele îndeplinesc ipotezele.

Ipoteza nulă a testului Kruskal-Wallis este uneori afirmată a fi că medianele grupului sunt egale. Cu toate acestea, acest lucru este exact numai dacă credeți că caracteristicile de distribuție ale fiecărui grup sunt aceleași. Chiar dacă medianele sunt aceleași, testul Kruskal-Wallis poate respinge ipoteza nulă dacă distribuțiile diferă.

Grupuri de diferite dimensiuni pot fi examinate folosind statistica Kruskal-Wallis. Testul Kruskal-Wallis, spre deosebire de analiza unidirecțională comparabilă a varianței, nu presupune o distribuție normală deoarece este o procedură neparametrică. Testul presupune, totuși, că distribuția fiecărui grup are o formă și o scară identică, cu excepția oricăror variații ale medianelor.

Kruskal Wallis poate fi utilizat pentru a analiza dacă testul și controlul au fost efectuate diferit. Când datele sunt distorsionate (distribuție nenormală), testul va spune dacă cele două grupuri sunt diferite fără a stabili vreo cauzalitate. Nu va sugera motivul diferenței de comportament.

4.1 Cum funcționează testul?

Kruskal Wallis lucrează prin clasarea tuturor observațiilor, începând de la 1 (cea mai minoră). Clasamentul se face pentru toate punctele de date, indiferent de grupul din care fac parte. Valorile la egalitate primesc rangul mediu pe care l-ar fi primit dacă nu ar fi fost la egalitate.

Atunci când tuturor observațiilor li s-a atribuit un rang semnat pe baza variabilei de analiză (numărul de prescripții prescrise), ele sunt diferențiate/divizate în grupuri în funcție de statutul lor țintă/reținut. După aceea, rangul mediu al fiecărui grup este calculat și comparat.

Se așteaptă ca țintă să aibă un rang mediu mai mare decât cei care nu se opun, deoarece inițiativa sau efortul de promovare este lansat pentru acest grup. Cu o valoare p semnificativă, Target are performanțe mai bune decât reținerile. Provocarea aici este că rangul mediu al grupului țintă poate fi mai mare în prezența unor valori aberante, adică puțini medici care scriu mai multe scenarii decât alții. Prin urmare, ne uităm întotdeauna la mediana aritmetică și la valoarea p rezultată obținută de Kruskal Wallis pentru a valida/infirma ipoteza noastră.

Fie Ni (i = 1, 2, 3, 4,…, g) să reprezinte dimensiunile eșantionului pentru fiecare grup g (adică eșantioane sau, în acest caz, numărul de medici) din date. ri este suma rangurilor pentru grupul i cu ri' ca rang mediu al grupului i. Apoi statistica testului Kruskal Wallis este calculată ca:

Formula 1. Ilustrează formula pentru calcularea statisticilor de test. Imagine pregătită de autor folosind Markdown și Latex.

Ipoteza nulă a medianelor populației egale este respinsă dacă statistica testului depășește valoarea pragului chi-pătrat. Când ipoteza nulă a populațiilor egale este adevărată, această statistică are k-1 grade de libertate și aproximează o distribuție chi-pătrat. Aproximația trebuie să aibă ni-uri de cel puțin 5 (adică cel puțin cinci observații într-un grup) pentru a fi corectă.

Formula 2. Ilustrează formula pentru aproximarea valorii p pentru test. Imagine pregătită de autor folosind Markdown și Latex.

Folosind un tabel de distribuție a probabilității chi-pătrat, putem obține valoarea crucială a chi-pătrat la grade g-1 de libertate și nivelul de semnificație dorit. Alternativ, am putea examina valoarea p pentru a comenta semnificația rezultatelor.

4.2 Rulați manual testul H

Să presupunem că o companie farmaceutică dorește să înțeleagă dacă trei grupuri de segmente de medici au volume de pacienți diferite (Stephanie Glen, nd) De exemplu,

Lideri de opinie cheie/KOL (volumul pacienților într-o lună): 23, 42, 55, 66, 78

Specialisti/SPE (Volumul pacientului intr-o luna): 45, 56, 60, 70, 72

Medici generalisti/MG (volumul pacientului intr-o luna): 18, 30, 34, 41, 44

4.2.1 Aranjați datele în ordine crescătoare după combinarea lor într-un singur set

18 23 24 3041424445 55 56 60 66 70

4.2.2 Clasificarea punctelor de date sortate. Folosiți medie în caz de legături

Valori: 18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

Clasament: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

4.2.3 Calculați suma rangurilor pentru fiecare grup

Figura 1. Ilustrează suma rangurilor pentru fiecare grup. Credit de imagine — pregătit de autor.

4.2.4 Calculați statisticile H utilizând Formula 1 și numerele din Figura 1

Formula 3. Ilustrează formula pentru calcularea statisticilor H pentru grupul nostru de prescriptori. Imagine pregătită de autor folosind Markdown și Latex.

H = 6.72

4.2.5 Identificați valoarea critică chi-pătrat pentru g-1 grade de libertate cu
un α=0.05 care pentru problema noastră (3–1=2 grade de libertate) ar trebui să fie 5.99. Consultați tabelul de mai jos.

4.2.6 Comparați valoarea H de la 4.2.4 cu valoarea critică de la 4.2.5

Ipoteza nulă care afirmă că volumul median al pacientului în trei grupuri diferite este egală ar trebui respinsă dacă valoarea critică de chi-pătrat este mai mică decât statistica H. Deoarece 5.99 (Valoare critică) < 6.72, putem respinge ipoteza nulă.

Trebuie să existe mai multe dovezi pentru a deduce că medianele sunt inegale dacă valoarea chi-pătrat nu este mai mică decât statistica H calculată mai sus.

Ipoteza nulă conform căreia medianele populației tuturor grupurilor sunt egale este testată folosind testul H Kruskal-Wallis. Este o variantă ANOVA care este neparametrică. Testul utilizează două sau mai multe mostre independente de dimensiuni diferite. Rețineți că infirmarea ipotezei nule nu dezvăluie cum diferă grupurile. Pentru a identifica ce grupuri sunt diferite, sunt necesare comparații post-hoc între grupuri.

din statisticile de import scipy
x = [1, 3, 5, 8, 9, 12, 17]
y = [2, 6, 6, 8, 10, 15, 20, 22]
stats.kruskal(x, y)
KruskalResult(statistic=0.7560483870967752, pvalue=0.3845680059797648)print(np.median(x))
print(np.median(y))
8.0
9.0
print(np.mean(x))
print(np.mean(y))
7.86
11.12

Ieșirea generată de Python este prezentată mai sus. Trebuie remarcat faptul că, deși se observă o diferență marcată în media valorilor între cele două categorii, această diferență, luând în considerare mediana, este nesemnificativă deoarece valoarea p este mult mai mare de 5%.

Testul Kruskal Wallis este esențial atunci când se ocupă cu mostre deosebit de distorsionate. Poate fi utilizat pe scară largă pentru un grup de control de testare în timpul lansării unei campanii sau chiar atunci când se efectuează teste A/B. Acest lucru este aplicabil pentru majoritatea cazurilor de utilizare din industrie, deoarece fiecare client are un comportament diferit atunci când are de-a face cu clienții într-un spațiu comercial sau cu medicii dintr-un peisaj farmaceutic. Când ne uităm la dimensiunea coșului sau la volumul pacienților, puțini clienți cumpără mai mult, în timp ce puțini medici au mai mulți pacienți. Prin urmare, pentru o astfel de distribuție distorsionată, este vital să faceți un test Kruskal Wallis pentru a verifica dacă comportamentele sunt similare.

Stephanie Glen. „Testul Kruskal Wallis H: definiție, exemple, ipoteze, SPSS” De la StatisticsHowTo.com: Statistici elementare pentru noi ceilalți! https://www.statisticshowto.com/probability-and-statistics/statistics-definitions/kruskal-wallis/

Testul Kruskal Wallis pentru începători, republicat din sursa https://towardsdatascience.com/kruskal-wallis-test-for-beginners-4fe9b0333b31?source=rss—-7f60cf5620c9—4 prin https://towardsdatascience.com/feed

<!–

->

Timestamp-ul:

Mai mult de la Consultanți Blockchain