Tes Kruskal Wallis untuk Pemula

Tes Kruskal Wallis: Tujuan, Ruang Lingkup, Asumsi, Contoh, Implementasi Python

Foto oleh Mager Romawi on Unsplash

Kruskal Wallis adalah metode non-parametrik untuk mengevaluasi apakah sampel berasal dari distribusi yang sama. Ini digunakan untuk membandingkan lebih dari dua sampel independen atau tidak terkait. Analisis varians satu arah (ANOVA) adalah kesetaraan parametrik dari uji Kruskal-Wallis.

1.1 Kasus Penggunaan Bisnis apa yang baik?

Mari kita ukur dampak kampanye yang diluncurkan oleh Perusahaan Farmasi terhadap obat yang baru diluncurkan, yang memiliki 1,550 Target dan 500 Holdout. Kami melihat distribusi perilaku resep dan menemukan bahwa distribusi tersebut tidak normal (miring) namun bentuknya serupa untuk setiap kelompok (target dan ketidaksepakatan). Kami tidak dapat melakukan ANOVA; maka kami menerapkan uji non parametrik Kruskal-Wallis.

Karena Kruskal Wallis merupakan uji non parametrik, maka tidak ada asumsi bahwa data berdistribusi normal (tidak seperti ANOVA).

  1. Hipotesis nol faktual adalah bahwa populasi asal sampel mempunyai median yang sama.
  2. Uji Kruskal-Wallis paling umum digunakan apabila terdapat satu variabel atribut dan satu variabel pengukuran, dan variabel pengukuran tersebut tidak memenuhi asumsi ANOVA (normalitas dan homoskedastisitas)
  3. Seperti kebanyakan pengujian non-parametrik, pengujian ini dilakukan pada data yang diberi peringkat, sehingga pengamatan pengukuran diubah menjadi peringkatnya menggunakan kumpulan data keseluruhan: nilai terkecil atau terendah mendapat peringkat 1, nilai terkecil berikutnya mendapat peringkat 2, berikut peringkat 3, dan seterusnya. Dalam kasus seri, peringkat rata-rata dianggap.
  4. Hilangnya informasi dalam mengganti nilai asli dengan peringkat menjadikan tes ini kurang kuat dibandingkan ANOVA, sehingga ANOVA harus digunakan jika data memenuhi asumsi..

Hipotesis nol uji Kruskal-Wallis kadang-kadang dinyatakan bahwa median kelompok adalah sama. Namun, hal ini hanya akurat jika Anda yakin bahwa karakteristik distribusi setiap kelompok adalah sama. Meskipun mediannya sama, uji Kruskal-Wallis dapat menolak hipotesis nol jika distribusinya berbeda.

Kelompok dengan ukuran berbeda dapat diperiksa menggunakan statistik Kruskal-Wallis. Uji Kruskal-Wallis, tidak seperti analisis varians satu arah yang sebanding, tidak mengasumsikan distribusi normal karena merupakan prosedur non-parametrik. Namun pengujian ini mengasumsikan bahwa distribusi setiap kelompok mempunyai bentuk dan skala yang sama, kecuali ada variasi dalam median.

Kruskal Wallis dapat digunakan untuk menganalisis apakah pengujian dan kontrol dilakukan secara berbeda. Ketika datanya miring (distribusinya tidak normal), tes akan mengetahui apakah kedua kelompok tersebut berbeda tanpa menentukan sebab akibat apa pun. Ini tidak akan menunjukkan alasan perbedaan perilaku.

4.1 Bagaimana Tes ini Bekerja?

Kruskal Wallis bekerja dengan memberi peringkat pada semua observasi, dimulai dari 1 (paling kecil). Pemeringkatan dilakukan untuk semua titik data, terlepas dari kelompoknya. Nilai yang terikat menerima peringkat rata-rata yang akan mereka terima seandainya tidak diikat.

Ketika semua observasi telah diberi peringkat yang ditandatangani berdasarkan variabel analisis (jumlah resep yang diresepkan), observasi tersebut dibedakan/dibagi menjadi beberapa kelompok berdasarkan target/status ketidaksepakatannya. Setelah itu, rata-rata rangking masing-masing kelompok dihitung dan dibandingkan.

Target diharapkan memiliki peringkat rata-rata yang lebih tinggi dibandingkan yang tidak bertahan sejak inisiatif atau upaya promosi diluncurkan untuk kelompok ini. Dengan nilai p yang signifikan, Target berkinerja lebih baik daripada yang tidak ada. Tantangannya adalah peringkat rata-rata kelompok sasaran bisa lebih tinggi jika terdapat outlier, yaitu hanya sedikit dokter yang menulis naskah lebih banyak dibandingkan dokter lain. Oleh karena itu, kami selalu melihat median aritmatika dan nilai p yang dihasilkan Kruskal Wallis untuk memvalidasi/menyangkal hipotesis kami.

Misalkan Ni (i = 1, 2, 3, 4,…, g) mewakili ukuran sampel untuk setiap g kelompok (yaitu sampel atau, dalam hal ini, jumlah dokter) dalam data. ri adalah penjumlahan rangking kelompok i dengan ri' sebagai rata-rata rangking kelompok i. Kemudian statistik uji Kruskal Wallis dihitung sebagai:

Formula 1. Mengilustrasikan rumus untuk menghitung statistik pengujian. Gambar disiapkan oleh penulis menggunakan Markdown dan Latex.

Hipotesis nol dari median populasi yang sama ditolak jika statistik uji melebihi nilai ambang batas chi-kuadrat. Jika hipotesis nol mengenai populasi yang sama benar, statistik ini memiliki derajat kebebasan k-1 dan mendekati distribusi chi-kuadrat. Perkiraan tersebut harus mempunyai nilai ni paling sedikit 5 (yaitu, paling sedikit lima pengamatan dalam satu kelompok) agar dapat akurat.

Formula 2. Mengilustrasikan rumus perkiraan nilai p untuk pengujian. Gambar disiapkan oleh penulis menggunakan Markdown dan Latex.

Dengan menggunakan tabel distribusi probabilitas chi-kuadrat, kita dapat memperoleh nilai chi-kuadrat yang penting pada derajat kebebasan g-1 dan tingkat signifikansi yang diinginkan. Alternatifnya, kita dapat memeriksa nilai p untuk mengomentari signifikansi hasil.

4.2 Jalankan Uji H dengan Tangan

Misalkan sebuah Perusahaan Farmasi ingin memahami jika tiga kelompok segmen dokter memiliki volume pasien yang berbeda (Stephanie Glen, dan) Misalnya,

Key Opinion Leader/KOL (Volume Pasien dalam Sebulan): 23, 42, 55, 66, 78

Dokter Spesialis/SPE (Volume Pasien dalam Sebulan): 45, 56, 60, 70, 72

Dokter Umum/GP (Volume Pasien dalam Sebulan): 18, 30, 34, 41, 44

4.2.1 Susunlah data dalam urutan menaik setelah digabungkan menjadi satu kumpulan

18 23 24 30 41 42 44 45 55 56 60 66 70 72 78 XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX XNUMX

4.2.2 Memberi peringkat pada titik data yang diurutkan. Gunakan rata-rata jika terjadi seri

Nilai: 18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

Peringkat: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

4.2.3 Hitung jumlah peringkat tiap kelompok

Gambar 1. Mengilustrasikan jumlah peringkat untuk setiap grup. Kredit Gambar — Disiapkan oleh Penulis.

4.2.4 Menghitung H Statistik menggunakan Rumus 1 dan angka dari Gambar 1

Formula 3. Mengilustrasikan rumus untuk menghitung statistik H untuk kelompok pemberi resep kami. Gambar disiapkan oleh penulis menggunakan Markdown dan Latex.

H = 6.72

4.2.5 Identifikasi nilai chi-kuadrat kritis untuk derajat kebebasan g-1 dengan
sebuah α=0.05 yang untuk soal kita (3–1=2 derajat kebebasan) seharusnya adalah 5.99. Lihat tabel di bawah ini.

4.2.6 Bandingkan nilai H dari 4.2.4 dengan nilai kritis dari 4.2.5

Hipotesis nol yang menyatakan bahwa median volume pasien pada tiga kelompok berbeda adalah sama harus ditolak jika nilai kritis chi-kuadrat lebih kecil dari statistik H. Karena 5.99 (Nilai kritis) < 6.72, kita dapat menolak hipotesis nol.

Perlu ada lebih banyak bukti untuk menyimpulkan bahwa median tidak sama jika nilai chi-kuadrat tidak lebih rendah dari statistik H yang dihitung di atas.

Hipotesis nol yang menyatakan median populasi semua kelompok adalah sama diuji menggunakan uji H Kruskal-Wallis. Merupakan varian ANOVA yang non parametrik. Tes ini menggunakan dua atau lebih sampel independen dengan ukuran berbeda-beda. Perhatikan bahwa menyangkal hipotesis nol tidak mengungkapkan perbedaan kelompok. Untuk mengidentifikasi kelompok mana yang berbeda, diperlukan perbandingan post hoc antar kelompok.

dari statistik impor scipy
x = [1, 3, 5, 8, 9, 12, 17]
kamu = [2, 6, 6, 8, 10, 15, 20, 22]
stats.kruskal(x, y)
KruskalResult(statistik=0.7560483870967752, nilai p=0.3845680059797648)cetak(np.median(x))
cetak(np.median(y))
8.0
9.0
cetak(np.berarti(x))
cetak(np.berarti(y))
7.86
11.12

Output yang dihasilkan oleh Python ditunjukkan di atas. Perlu dicatat bahwa meskipun terdapat perbedaan mencolok pada nilai rata-rata di kedua kategori, perbedaan ini, jika median diperhitungkan, tidak signifikan karena nilai p jauh lebih besar dari 5%.

Uji Kruskal Wallis sangat penting ketika menangani sampel yang sangat miring. Ini dapat digunakan secara luas untuk grup kontrol pengujian selama peluncuran kampanye atau bahkan saat melakukan pengujian A/B. Hal ini berlaku untuk sebagian besar kasus penggunaan industri karena setiap pelanggan memiliki perilaku berbeda ketika berhadapan dengan pelanggan di ruang ritel atau dokter di bidang farmasi. Ketika kita melihat ukuran keranjang atau volume pasien, hanya sedikit pelanggan yang membeli lebih banyak, sedangkan hanya sedikit dokter yang memiliki lebih banyak pasien. Oleh karena itu, untuk distribusi yang tidak merata, penting untuk melakukan uji Kruskal Wallis untuk memeriksa apakah perilakunya serupa.

Stephanie Glen. “Tes Kruskal Wallis H: Pengertian, Contoh, Asumsi, SPSS” Dari StatistikHowTo.com: Statistik Dasar untuk kita semua! https://www.statisticshowto.com/probability-and-statistics/statistics-definitions/kruskal-wallis/

Tes Kruskal Wallis untuk Pemula Diterbitkan Ulang dari Sumber https://towardsdatascience.com/kruskal-wallis-test-for-beginners-4fe9b0333b31?source=rss—-7f60cf5620c9—4 melalui https://towardsdatascience.com/feed

<!–

->

Stempel Waktu:

Lebih dari Konsultan Blockchain