Yeni Başlayanlar İçin Kruskal Wallis Testi

Kruskal Wallis Testi: Amaç, Kapsam, Varsayımlar, Örnekler, Python Uygulaması

Fotoğraf Romalı Büyücü on Unsplash

Kruskal Wallis, örneklerin aynı dağılımdan gelip gelmediğini değerlendirmeye yönelik parametrik olmayan bir yöntemdir. İkiden fazla bağımsız veya ilgisiz örneğin karşılaştırılmasında kullanılır. Tek yönlü varyans analizi (ANOVA), Kruskal-Wallis testinin parametrik eşdeğerliğidir.

1.1 İyi bir İş Kullanımı senaryosu ne olabilir?

1,550 Hedefimiz ve 500 Bekletmemizin olduğu, yeni piyasaya sürülen bir ilaç üzerinde bir İlaç Şirketi tarafından başlatılan kampanyanın etkisini ölçelim. Reçete davranış dağılımına baktık ve bunun normal olmadığını (çarpık) ancak her grup için benzer şekilde şekillendiğini (hedefler ve uzatmalar) bulduk. ANOVA yapamıyoruz; dolayısıyla parametrik olmayan bir test olan Kruskal-Wallis'i uyguluyoruz.

Kruskal Wallis parametrik olmayan bir test olduğundan verilerin normal dağıldığına dair bir varsayım yoktur (ANOVA'dan farklı olarak).

  1. Gerçek sıfır hipotezi, örneklerin kaynaklandığı popülasyonların aynı medyana sahip olmasıdır.
  2. Kruskal-Wallis testi en yaygın olarak bir nitelik değişkeni ve bir ölçüm değişkeni olduğunda ve ölçüm değişkeni ANOVA'nın (normallik ve eş varyans) varsayımlarını karşılamadığında kullanılır.
  3. Çoğu parametrik olmayan test gibi, sıralanmış veriler üzerinde gerçekleştirilir, böylece ölçüm gözlemleri genel veri seti kullanılarak kendi sıralarına dönüştürülür: en küçük veya en düşük değer 1 sırasını alır, sonraki en küçük değer 2 sırasını alır, aşağıdaki sıralama 3'tür, vb. Beraberlik durumunda ortalama sıralama dikkate alınır.
  4. Orijinal değerlerin yerine sıraların yerleştirilmesindeki bilgi kaybı, bunu ANOVA'dan daha az güçlü bir test haline getirir, dolayısıyla veriler varsayımları karşılıyorsa ANOVA kullanılmalıdır..

Kruskal-Wallis testinin sıfır hipotezinin bazen grup medyanlarının eşit olduğu ifade edilir. Ancak bu yalnızca her grubun dağılım özelliklerinin aynı olduğuna inanıyorsanız doğrudur. Medyanlar aynı olmasına rağmen dağılımlar farklıysa Kruskal-Wallis testi sıfır hipotezini reddedebilir.

Farklı büyüklükteki gruplar Kruskal-Wallis istatistiği kullanılarak incelenebilir. Kruskal-Wallis testi, karşılaştırılabilir tek yönlü varyans analizinin aksine, parametrik olmayan bir prosedür olduğundan normal bir dağılım varsaymaz. Ancak test, medyanlardaki herhangi bir değişiklik dışında her grubun dağılımının aynı şekil ve ölçekte olduğunu varsaymaktadır.

Kruskal Wallis, test ve kontrolün farklı şekilde gerçekleştirilip gerçekleştirilmediğini analiz etmek için kullanılabilir. Veriler çarpık olduğunda (normal dağılım olmadığında), test herhangi bir nedensellik kurmadan iki grubun farklı olup olmadığını söyleyecektir. Davranış farklılığının nedenini ortaya koymayacaktır.

4.1 Test Nasıl Çalışır?

Kruskal Wallis, tüm gözlemleri 1'den (en küçük) başlayarak sıralayarak çalışıyor. Sıralama, ait oldukları gruba bakılmaksızın tüm veri noktaları için yapılır. Berabere kalan değerler, berabere kalmamış olsalardı alacakları ortalama sıralamayı alır.

Analiz değişkenine (öngörülen reçetelerin sayısına) dayalı olarak tüm gözlemlere imzalı bir sıralama atandığında, bunlar hedef/bekleme durumlarına göre farklılaştırılır/gruplara ayrılır. Daha sonra her grubun ortalama sıralaması hesaplanır ve karşılaştırılır.

Bu grup için inisiyatif veya tanıtım çalışması başlatıldığından, hedefin geride kalanlardan daha yüksek bir ortalama sıralamaya sahip olması bekleniyor. Önemli bir p değeriyle Target, beklemelerden daha iyi performans gösteriyor. Buradaki zorluk, hedef grubun ortalama sıralamasının aykırı değerlerin, yani az sayıda doktorun diğerlerinden daha fazla senaryo yazması durumunda daha yüksek olabilmesidir. Bu nedenle, hipotezimizi doğrulamak/çürütmek için her zaman aritmetik medyana ve Kruskal Wallis tarafından elde edilen p değerine bakıyoruz.

Ni'nin (i = 1, 2, 3, 4,…, g) verilerdeki her bir g grubu için örneklem büyüklüğünü (örnekler veya bu durumda doktor sayısı) temsil ettiğini varsayalım. ri, i grubunun ortalama sıralaması olan ri' ile i grubunun sıralamalarının toplamıdır. Daha sonra Kruskal Wallis test istatistiği şu şekilde hesaplanır:

Formula 1. Test istatistiklerini hesaplamak için formülü gösterir. Yazar tarafından Markdown ve Latex kullanılarak hazırlanan görüntü.

Test istatistiği eşik ki-kare değerini aşarsa, eşit popülasyon medyanlarına ilişkin sıfır hipotezi reddedilir. Eşit popülasyonlara ilişkin sıfır hipotezi doğru olduğunda, bu istatistik k-1 serbestlik derecesine sahiptir ve ki-kare dağılımına yaklaşır. Yaklaşımın doğru olması için ni'lerin en az 5 (yani bir gruptaki en az beş gözlem) olması gerekir.

Formula 2. Test için p-değeri yaklaşımı formülünü gösterir. Yazar tarafından Markdown ve Latex kullanılarak hazırlanan görüntü.

Ki-kare olasılık dağılım tablosunu kullanarak, g-1 serbestlik derecesinde ve istenen anlamlılık seviyesinde kritik ki-kare değerini elde edebiliriz. Alternatif olarak, sonuçların önemi hakkında yorum yapmak için p-değerini inceleyebiliriz.

4.2 H Testini Elle Çalıştırın

Bir İlaç Şirketinin üç grup doktor segmentinin farklı hasta hacimlerine sahip olup olmadığını anlamak istediğini varsayalım. (Stephanie Glen, nd) örneğin,

Kilit Fikir Liderleri/KOL (Aydaki Hasta Sayısı): 23, 42, 55, 66, 78

Uzmanlar/SPE (Aydaki Hasta Sayısı): 45, 56, 60, 70, 72

Pratisyen Hekimler/GP'ler (Aydaki Hasta Sayısı): 18, 30, 34, 41, 44

4.2.1 Verileri tek bir kümede birleştirdikten sonra artan sırada düzenleyin

18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

4.2.2 Sıralanan veri noktalarını sıralayın. Beraberlik durumunda ortalamayı kullanın

Değerler: 18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

Sıra: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

4.2.3 Her grup için sıralamaların toplamını hesaplayın

Şekil 1. Her grup için sıralamaların toplamını gösterir. Resim Kredisi - Yazar tarafından hazırlanmıştır.

4.2.4 Formül 1'i ve Şekil 1'deki sayıları kullanarak H İstatistiklerini hesaplayın

Formula 3. Reçete yazan grubumuz için H istatistiklerini hesaplama formülünü göstermektedir. Yazar tarafından Markdown ve Latex kullanılarak hazırlanan görüntü.

H = 6.72

4.2.5 g-1 serbestlik derecesi için kritik ki-kare değerini şununla belirleyin:
α=0.05, bizim problemimiz için (3–1=2 serbestlik derecesi) 5.99 olmalıdır. Aşağıdaki tabloya bakın.

4.2.6 4.2.4'teki H değerini 4.2.5'teki kritik değerle karşılaştırın

Kritik ki-kare değerinin H istatistiğinden küçük olması durumunda, üç farklı gruptaki ortalama hasta hacminin eşit olduğunu belirten boş hipotez reddedilmelidir. 5.99 (Kritik değer) < 6.72 olduğundan sıfır hipotezini reddedebiliriz.

Ki-kare değeri yukarıda hesaplanan H istatistiğinden düşük değilse medyanların eşit olmadığı sonucunu çıkarmak için daha fazla kanıtın olması gerekir.

Tüm grupların nüfus medyanlarının eşit olduğuna ilişkin sıfır hipotezi Kruskal-Wallis H testi kullanılarak test edilmiştir. Parametrik olmayan bir ANOVA çeşididir. Test, farklı boyutlarda iki veya daha fazla bağımsız örnek kullanır. Sıfır hipotezinin çürütülmesinin grupların nasıl farklılaştığını ortaya çıkarmadığını unutmayın. Hangi grupların farklı olduğunu belirlemek için gruplamalar arasında geçici karşılaştırmalar yapılması gerekir.

scipy ithalat istatistiklerinden
x = [1, 3, 5, 8, 9, 12, 17]
y = [2, 6, 6, 8, 10, 15, 20, 22]
stats.kruskal(x, y)
KruskalResult(istatistik=0.7560483870967752, pdeğeri=0.3845680059797648)yazdır(np.medyan(x))
print(np.median(y))
8.0
9.0
yazdır(np.ortalama(x))
print(np.mean(y))
7.86
11.12

Python'un ürettiği çıktı yukarıda gösterilmiştir. Her iki kategorideki değerlerin ortalamasında belirgin bir fark gözlense de, medyan dikkate alındığında bu farkın önemsiz olduğu, çünkü p değerinin %5'ten çok daha büyük olduğu unutulmamalıdır.

Kruskal Wallis testi özellikle çarpık örneklerle uğraşırken etkilidir. Bir kampanyanın kullanıma sunulması sırasında ve hatta A/B testi yapılırken test kontrol grubu için yaygın olarak kullanılabilir. Bu, çoğu sektördeki kullanım durumları için geçerlidir; çünkü her müşterinin, perakende alanındaki müşterilerle veya ilaç sektöründeki doktorlarla ilgilenirken farklı davranışları vardır. Sepet büyüklüğüne veya hasta hacmine baktığımızda az sayıda müşteri daha fazla satın alırken, çok az doktorun daha fazla hastası var. Dolayısıyla bu tür çarpık dağılımlarda davranışların benzer olup olmadığını kontrol etmek amacıyla Kruskal Wallis testinin yapılması hayati önem taşımaktadır.

Stephanie Glen. “Kruskal Wallis H Testi: Tanım, Örnekler, Varsayımlar, SPSS” İstatistikHowTo.com: Geri kalanımız için Temel İstatistikler! https://www.statisticshowto.com/probability-and-statistics/statistics-definitions/kruskal-wallis/

Yeni Başlayanlar için Kruskal Wallis Testi Kaynaktan Yayınlanmıştır https://towardsdatascience.com/kruskal-wallis-test-for-beginners-4fe9b0333b31?source=rss—-7f60cf5620c9—4 https://towardsdatascience.com/feed aracılığıyla

<!–

->

Zaman Damgası:

Den fazla Blockchain Danışmanları