초보자를 위한 Kruskal Wallis 테스트

Kruskal Wallis 테스트: 목적, 범위, 가정, 예, Python 구현

님이 촬영 한 사진 로만 마거 on Unsplash

Kruskal Wallis는 표본이 동일한 분포에서 나오는지 여부를 평가하는 비모수적 방법입니다. 두 개 이상의 독립적이거나 관련되지 않은 샘플을 비교하는 데 사용됩니다. 일원 분산 분석(ANOVA)은 Kruskal-Wallis 테스트의 모수적 동등성입니다.

1.1 좋은 비즈니스 사용 사례는 무엇입니까?

1,550개의 타겟과 500개의 홀드아웃이 있는 새로 출시된 약품에 대해 제약 회사에서 진행한 캠페인의 영향을 측정해 보겠습니다. 우리는 처방 행동 분포를 조사한 결과 비정규(비뚤어짐)되었지만 각 그룹(목표 및 홀드아웃)에 대해 유사한 모양을 발견했습니다. 우리는 ANOVA를 수행할 수 없습니다. 따라서 우리는 비모수적 테스트인 Kruskal-Wallis를 적용합니다.

Kruskal Wallis는 비모수적 테스트이므로 ANOVA와 달리 데이터가 정규 분포를 따른다는 가정은 없습니다.

  1. 사실 귀무가설은 표본이 유래된 모집단의 중앙값이 동일하다는 것입니다.
  2. Kruskal-Wallis 검정은 속성변수와 측정변수가 각각 하나씩 있고, 측정변수가 분산분석(정규성 및 등분산성)의 가정을 충족하지 못하는 경우에 가장 일반적으로 사용됩니다.
  3. 대부분의 비모수적 테스트와 마찬가지로 순위가 지정된 데이터에 대해 수행되므로 측정 관찰은 전체 데이터 세트를 사용하여 순위로 ​​변환됩니다. 가장 작거나 가장 낮은 값은 순위 1을 얻고, 다음으로 가장 작은 값은 순위 2를 얻습니다. 다음은 3등급 등입니다. 동점인 경우에는 평균 순위를 고려합니다.
  4. 원래 값을 순위로 대체할 때 정보가 손실되므로 ANOVA보다 덜 강력한 테스트이므로 데이터가 가정을 충족하는 경우 ANOVA를 사용해야 합니다..

Kruskal-Wallis 검정의 귀무 가설은 때때로 그룹 중앙값이 동일하다는 것으로 명시됩니다. 그러나 이는 각 그룹의 분포 특성이 동일하다고 생각하는 경우에만 정확합니다. 중앙값이 동일하더라도 Kruskal-Wallis 검정은 분포가 다르면 귀무 가설을 기각할 수 있습니다.

Kruskal-Wallis 통계를 사용하여 다양한 크기의 그룹을 검사할 수 있습니다. Kruskal-Wallis 검정은 비교 가능한 일원 분산 분석과 달리 비모수적 절차이기 때문에 정규 분포를 가정하지 않습니다. 그러나 테스트에서는 중앙값의 변동을 제외하고 각 그룹의 분포가 동일한 형태와 규모를 갖고 있다고 가정합니다.

Kruskal Wallis를 사용하여 테스트와 대조가 다르게 수행되었는지 분석할 수 있습니다. 데이터가 치우쳐 있는 경우(비정규 분포), 검정에서는 인과 관계를 확립하지 않고도 두 그룹이 서로 다른지 여부를 알려줍니다. 행동의 차이에 대한 이유를 제시하지는 않습니다.

4.1 테스트는 어떻게 진행되나요?

Kruskal Wallis는 1(가장 사소한 것)부터 시작하여 모든 관측값의 순위를 매기는 방식으로 작동합니다. 순위는 속한 그룹에 관계없이 모든 데이터 포인트에 대해 수행됩니다. 동점 값은 동률이 아닌 경우 받았을 평균 순위를 받습니다.

모든 관찰에 분석 변수(처방된 처방 수)를 기반으로 부호 있는 순위가 할당되면 대상/홀드아웃 상태에 따라 그룹으로 차별화/분할됩니다. 그 후, 각 그룹의 평균 순위를 계산하여 비교합니다.

대상은 이 그룹에 대한 이니셔티브 또는 프로모션 노력이 시작되므로 홀드아웃보다 평균 순위가 더 높을 것으로 예상됩니다. 유의미한 p-값을 사용하면 Target이 홀드아웃보다 더 나은 성능을 발휘합니다. 여기서 문제는 특이치가 있을 때 대상 그룹의 평균 순위가 더 높아질 수 있다는 것입니다. 즉, 다른 의사보다 더 많은 스크립트를 작성하는 의사는 거의 없습니다. 따라서 우리는 가설을 검증/반박하기 위해 항상 산술 중앙값과 Kruskal Wallis가 얻은 결과 p-값을 살펴봅니다.

Ni(i = 1, 2, 3, 4,…, g)는 데이터의 각 g 그룹(즉, 샘플 또는 이 경우 의사 수)에 대한 표본 크기를 나타냅니다. ri는 그룹 i의 순위를 합한 것이며 ri'는 그룹 i의 평균 순위입니다. 그런 다음 Kruskal Wallis 테스트 통계는 다음과 같이 계산됩니다.

수식 1. 테스트 통계를 계산하는 공식을 보여줍니다. 저자가 Markdown과 Latex를 사용하여 준비한 이미지입니다.

검정 통계량이 임계값 카이제곱 값을 초과하는 경우 동일 모집단 중위수에 대한 귀무가설이 기각됩니다. 동일 모집단의 귀무가설이 참인 경우 이 통계의 자유도는 k-1이고 카이제곱 분포에 가깝습니다. 근사치가 정확하려면 ni가 최소 5개(즉, 그룹에 최소 XNUMX개 관측치)가 있어야 합니다.

수식 2. 테스트에 대한 p-값 근사 공식을 보여줍니다. 저자가 Markdown과 Latex를 사용하여 준비한 이미지입니다.

카이 제곱 확률 분포표를 사용하면 g-1 자유도와 원하는 유의 수준에서 중요한 카이 제곱 값을 얻을 수 있습니다. 또는 p-값을 조사하여 결과의 ​​중요성에 대해 논평할 수도 있습니다.

4.2 직접 H 테스트 실행

제약 회사가 세 그룹의 의사 세그먼트에 서로 다른 환자 수가 있는지 확인하려고 한다고 가정해 보겠습니다. (스테파니 글렌, nd) 예 :

주요 오피니언 리더/KOL(월간 환자 수): 23, 42, 55, 66, 78

전문가/SPE(월간 환자 수): 45, 56, 60, 70, 72

일반의/GP(월간 환자 수): 18, 30, 34, 41, 44

4.2.1 데이터를 하나의 세트로 합친 후 오름차순으로 정렬

18 23 24 30 41 42 44 45 55 56 60 66 70

4.2.2 정렬된 데이터 포인트의 순위를 매깁니다. 동점인 경우 평균 사용

값: 18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

순위: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

4.2.3 각 그룹의 순위 합계 계산

그림 1. 각 그룹의 순위 합계를 보여줍니다. 이미지 크레디트 - 저자가 준비함.

4.2.4 공식 1과 그림 1의 숫자를 사용하여 H 통계량 계산

수식 3. 처방자 그룹에 대한 H 통계를 계산하는 공식을 보여줍니다. 저자가 Markdown과 Latex를 사용하여 준비한 이미지입니다.

H = 6.72

4.2.5 다음을 사용하여 g-1 자유도에 대한 임계 카이제곱 값을 식별합니다.
α=0.05, 우리 문제(3–1=2 자유도)의 경우 5.99가 되어야 합니다. 아래 표를 참조하세요.

4.2.6 4.2.4의 H 값과 4.2.5의 임계값 비교

임계 카이제곱 값이 H 통계량보다 작은 경우 서로 다른 세 그룹의 환자 수 중앙값이 동일하다는 귀무가설은 기각되어야 합니다. 5.99(임계값) < 6.72이므로 귀무가설을 기각할 수 있습니다.

카이제곱 값이 위에서 계산한 H 통계량보다 낮지 않은 경우 중앙값이 동일하지 않다고 추론하려면 더 많은 증거가 필요합니다.

모든 그룹의 모집단 중앙값이 동일하다는 귀무가설은 Kruskal-Wallis H-검정을 사용하여 검정됩니다. 이는 비모수적 ANOVA 변형입니다. 이 테스트에서는 다양한 크기의 두 개 이상의 독립적인 샘플을 사용합니다. 귀무 가설을 반증해도 그룹이 어떻게 다른지는 드러나지 않습니다. 어떤 그룹이 다른지 확인하려면 그룹 간의 사후 비교가 필요합니다.

scipy 수입 통계에서
x = [1, 3, 5, 8, 9, 12, 17]
y = [2, 6, 6, 8, 10, 15, 20, 22]
통계.크루스칼(x, y)
KruskalResult(통계=0.7560483870967752, p값=0.3845680059797648)인쇄(np.median(x))
인쇄(np.median(y))
8.0
9.0
인쇄(np.평균(x))
인쇄(np.평균(y))
7.86
11.12

Python에서 생성된 출력은 위에 표시됩니다. 비록 두 범주에 걸쳐 값의 평균에서 뚜렷한 차이가 관찰되었지만, 중앙값을 고려할 때 p-값이 5%보다 훨씬 크기 때문에 이 차이는 중요하지 않습니다.

Kruskal Wallis 테스트는 특히 치우친 샘플을 처리할 때 중요한 역할을 합니다. 캠페인 출시 중 또는 A/B 테스트를 수행할 때에도 테스트 제어 그룹에 널리 사용될 수 있습니다. 소매점의 고객이나 제약 분야의 의사를 대할 때 고객마다 행동이 다르기 때문에 이는 대부분의 산업 사용 사례에 적용됩니다. 바구니 크기나 환자 수를 보면 더 많이 구매하는 고객은 거의 없는 반면, 더 많은 환자를 보유한 의사는 거의 없습니다. 따라서 이러한 편향된 분포의 경우 Kruskal Wallis 테스트를 수행하여 동작이 유사한지 확인하는 것이 중요합니다.

스테파니 글렌. "Kruskal Wallis H 테스트: 정의, 예, 가정, SPSS" From 통계HowTo.com: 우리 모두를 위한 초등통계! https://www.statisticshowto.com/probability-and-statistics/statistics-definitions/kruskal-wallis/

초보자를 위한 Kruskal Wallis 테스트는 https://towardsdatascience.com/feed를 통해 소스 https://towardsdatascience.com/kruskal-wallis-test-for-beginners-4fe9b0333b31?source=rss—-7f60cf5620c9—4에서 다시 게시되었습니다.

<!–

–>

타임 스탬프 :

더보기 블록 체인 컨설턴트