Test Kruskal Wallis per principianti

Test di Kruskal Wallis: scopo, ambito, presupposti, esempi, implementazione Python

Foto di Mago Romano on Unsplash

Kruskal Wallis è un metodo non parametrico per valutare se i campioni provengono dalla stessa distribuzione. Viene utilizzato nel confronto di più di due campioni indipendenti o non correlati. L'analisi della varianza unidirezionale (ANOVA) è l'equivalenza parametrica del test di Kruskal-Wallis.

1.1 Quale sarebbe un buon caso d'uso aziendale?

Misuriamo l'impatto di una campagna lanciata da un'azienda farmaceutica su un farmaco appena lanciato, in cui abbiamo 1,550 target e 500 holdout. Abbiamo esaminato la distribuzione del comportamento di prescrizione e l'abbiamo trovata non normale (asimmetrica) ma modellata in modo simile per ciascun gruppo (obiettivi e resistenze). Non possiamo eseguire ANOVA; quindi applichiamo un test non parametrico, Kruskal-Wallis.

Poiché Kruskal Wallis è un test non parametrico, non si presuppone che i dati siano distribuiti normalmente (a differenza dell'ANOVA).

  1. L’ipotesi nulla di fatto è che le popolazioni da cui provengono i campioni abbiano la stessa mediana.
  2. Il test Kruskal-Wallis è più comunemente utilizzato quando sono presenti una variabile di attributo e una variabile di misurazione e la variabile di misurazione non soddisfa i presupposti dell'ANOVA (normalità e omoschedasticità)
  3. Come la maggior parte dei test non parametrici, viene eseguito su dati classificati, quindi le osservazioni di misurazione vengono convertite nei loro ranghi utilizzando l'insieme di dati complessivo: il valore più piccolo o più basso ottiene il rango 1, il successivo più piccolo ottiene il rango 2, il successivo un rango 3 e così via. In caso di parità si considera la media della classifica.
  4. La perdita di informazioni nella sostituzione dei ranghi con i valori originali rende questo test meno potente di ANOVA, quindi ANOVA dovrebbe essere utilizzato se i dati soddisfano i presupposti.

Talvolta si afferma che l'ipotesi nulla del test di Kruskal-Wallis è che le mediane dei gruppi siano uguali. Tuttavia, questo è accurato solo se si ritiene che le caratteristiche distribuzionali di ciascun gruppo siano le stesse. Anche se le mediane sono le stesse, il test di Kruskal-Wallis può rifiutare l’ipotesi nulla se le distribuzioni differiscono.

Gruppi di diverse dimensioni possono essere esaminati utilizzando la statistica Kruskal-Wallis. Il test di Kruskal-Wallis, a differenza dell'analoga analisi della varianza unidirezionale, non presuppone una distribuzione normale perché è una procedura non parametrica. Il test, tuttavia, presuppone che la distribuzione di ciascun gruppo abbia la stessa forma e scala, ad eccezione di eventuali variazioni nelle mediane.

Kruskal Wallis può essere utilizzato per analizzare se il test e il controllo sono stati eseguiti in modo diverso. Quando i dati sono distorti (distribuzione non normale), il test dirà se i due gruppi sono diversi senza stabilire alcuna causalità. Non suggerirà il motivo della differenza di comportamento.

4.1 Come funziona il test?

Kruskal Wallis funziona classificando tutte le osservazioni, a partire da 1 (la più minore). La classifica viene stilata per tutti i punti dati, indipendentemente dal gruppo a cui appartengono. I valori pari ricevono il rango medio che avrebbero ricevuto se non fossero stati pari.

Quando a tutte le osservazioni è stato assegnato un rango con segno in base alla variabile di analisi (il numero di prescrizioni prescritte), vengono differenziate/divise in gruppi in base al loro stato target/holdout. Successivamente, il rango medio di ciascun gruppo viene calcolato e confrontato.

Si prevede che il target abbia un rango medio più elevato rispetto agli holdout poiché l'iniziativa o lo sforzo promozionale viene lanciato per questo gruppo. Con un valore p significativo, Target sta ottenendo risultati migliori rispetto agli holdout. La sfida qui è che il rango medio del gruppo target può essere più alto in presenza di valori anomali, cioè pochi medici che scrivono più copioni di altri. Pertanto, guardiamo sempre alla mediana aritmetica e al valore p risultante ottenuto da Kruskal Wallis per convalidare/confutare la nostra ipotesi.

Sia Ni (i = 1, 2, 3, 4,…, g) rappresentare le dimensioni del campione per ciascun gruppo g (cioè i campioni o, in questo caso, il numero di medici) nei dati. ri è la somma dei ranghi del gruppo i con ri' come rango medio del gruppo i. Quindi la statistica del test Kruskal Wallis viene calcolata come:

Formula 1. Illustra la formula per il calcolo delle statistiche del test. Immagine preparata dall'autore utilizzando Markdown e Latex.

L'ipotesi nulla di uguali mediane della popolazione viene rifiutata se la statistica del test supera il valore soglia del chi quadrato. Quando l'ipotesi nulla di popolazioni uguali è vera, questa statistica ha k-1 gradi di libertà e si avvicina a una distribuzione chi-quadrato. Per essere accurata, l'approssimazione deve avere ni pari ad almeno 5 (vale a dire, almeno cinque osservazioni in un gruppo).

Formula 2. Illustra la formula per l'approssimazione del valore p per il test. Immagine preparata dall'autore utilizzando Markdown e Latex.

Utilizzando una tabella di distribuzione della probabilità del chi quadrato, possiamo ottenere il valore cruciale del chi quadrato a g-1 gradi di libertà e il livello di significatività desiderato. In alternativa, potremmo esaminare il valore p per commentare il significato dei risultati.

4.2 Eseguire manualmente il test H

Supponiamo che un'azienda farmaceutica voglia capire se tre gruppi di segmenti medici hanno volumi di pazienti diversi (Stephanie Glen, nd) Per esempio,

Opinion leader chiave/KOL (volume dei pazienti in un mese): 23, 42, 55, 66, 78

Specialisti/SPE (Volume Pazienti in un Mese): 45, 56, 60, 70, 72

Medici di medicina generale/medici di base (volume di pazienti in un mese): 18, 30, 34, 41, 44

4.2.1 Disporre i dati in ordine crescente dopo averli combinati in un unico set

18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

4.2.2 Classificare i punti dati ordinati. Utilizzare la media in caso di parità

Valori: 18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

Posizione: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

4.2.3 Calcolare la somma dei ranghi per ciascun gruppo

Immagine 1. Illustra la somma dei ranghi per ciascun gruppo. Credito immagine - Preparato dall'autore.

4.2.4 Calcolare le statistiche H utilizzando la Formula 1 e i numeri della Figura 1

Formula 3. Illustra la formula per il calcolo delle statistiche H per il nostro gruppo di prescrittori. Immagine preparata dall'autore utilizzando Markdown e Latex.

H = 6.72

4.2.5 Identificare il valore critico del chi quadrato per g-1 gradi di libertà con
an α=0.05 che per il nostro problema (3–1=2 gradi di libertà) dovrebbe essere 5.99. Fare riferimento alla tabella seguente.

4.2.6 Confrontare il valore H di 4.2.4 con il valore critico di 4.2.5

L’ipotesi nulla secondo cui il volume mediano dei pazienti nei tre diversi gruppi è uguale dovrebbe essere rifiutata se il valore critico del chi quadrato è inferiore alla statistica H. Poiché 5.99 (Valore critico) < 6.72, possiamo rifiutare l'ipotesi nulla.

Sono necessarie ulteriori prove per dedurre che le mediane sono disuguali se il valore del chi quadrato non è inferiore alla statistica H calcolata sopra.

L'ipotesi nulla secondo cui le mediane della popolazione di tutti i gruppi sono uguali viene testata utilizzando il test H di Kruskal-Wallis. È una variante ANOVA non parametrica. Il test utilizza due o più campioni indipendenti di dimensioni variabili. Si noti che confutare l’ipotesi nulla non rivela in che modo i gruppi differiscono. Per identificare quali gruppi sono diversi, sono necessari confronti post hoc tra i raggruppamenti.

dalle statistiche di importazione di Scipy
x = [1, 3, 5, 8, 9, 12, 17]
y = [2, 6, 6, 8, 10, 15, 20, 22]
statistiche.kruskal(x, y)
Risultato Kruskal(statistica=0.7560483870967752, valore p=0.3845680059797648)print(np.mediana(x))
print(np.mediana(y))
8.0
9.0
print(np.media(x))
print(np.media(y))
7.86
11.12

L'output generato da Python è mostrato sopra. Va notato che sebbene si osservi una marcata differenza nella media dei valori tra le due categorie, questa differenza, se si prende in considerazione la mediana, è insignificante poiché il valore p è molto maggiore del 5%.

Il test di Kruskal Wallis è determinante quando si ha a che fare con campioni particolarmente distorti. Può essere ampiamente utilizzato per un gruppo di controllo di test durante il lancio di una campagna o anche durante l'esecuzione di test A/B. Ciò è applicabile alla maggior parte dei casi d'uso del settore poiché ogni cliente ha un comportamento diverso quando ha a che fare con i clienti in uno spazio di vendita al dettaglio o con i medici in un panorama farmaceutico. Quando guardiamo alle dimensioni del paniere o al volume dei pazienti, pochi clienti acquistano di più, mentre pochi medici hanno più pazienti. Pertanto, per una distribuzione così distorta, è fondamentale effettuare un test di Kruskal Wallis per verificare se i comportamenti sono simili.

Stefania Glen. "Test Kruskal Wallis H: definizione, esempi, ipotesi, SPSS" da StatisticsHowTo.com: Statistiche elementari per il resto di noi! https://www.statisticshowto.com/probability-and-statistics/statistics-definitions/kruskal-wallis/

Kruskal Wallis Test per principianti Ripubblicato dalla fonte https://towardsdatascience.com/kruskal-wallis-test-for-beginners-4fe9b0333b31?source=rss—-7f60cf5620c9—4 tramite https://towardsdatascience.com/feed

<!–

->

Timestamp:

Di più da Consulenti Blockchain