מבחן קרוסקל וואליס למתחילים

מבחן Kruskal Wallis: מטרה, היקף, הנחות, דוגמאות, יישום Python

תמונה על ידי רומן מגר on Unsplash

Kruskal Wallis היא שיטה לא פרמטרית להערכת האם הדגימות מגיעות מאותה התפלגות. הוא משמש בהשוואה של יותר משתי דגימות עצמאיות או לא קשורות. אנליזה חד-כיוונית של שונות (ANOVA) היא השקילות הפרמטרית של מבחן Kruskal-Wallis.

1.1 מה יהיה מקרה טוב לשימוש עסקי?

בואו נמדוד את ההשפעה של קמפיין שהושק על ידי חברת פארמה על תרופה שהושקה לאחרונה, שבה יש לנו 1,550 יעדים ו-500 החזקות. בדקנו את התפלגות התנהגות המרשם ומצאנו שהיא לא נורמלית (מוטה) אך מעוצבת באופן דומה עבור כל קבוצה (יעדים והחזקות). אנחנו לא יכולים לבצע ANOVA; לפיכך אנו מיישמים מבחן לא פרמטרי, Kruskal-Wallis.

מכיוון ש-Krusskal Wallis הוא מבחן לא פרמטרי, אין הנחה שהנתונים מחולקים בצורה נורמלית (בניגוד ל-ANOVA).

  1. השערת האפס העובדתית היא שלאוכלוסיות שמהן מגיעות המדגמים יש אותו חציון.
  2. מבחן Kruskal-Wallis משמש לרוב כאשר יש משתנה תכונה אחד ומשתנה מדידה אחד, ומשתנה המדידה אינו עומד בהנחות של ANOVA (נורמליות והומוסקדסטיות)
  3. כמו רוב המבחנים הלא פרמטריים, הוא מבוצע על נתונים מדורגים, כך שתצפיות המדידה מומרות לדרגות שלהן באמצעות מערך הנתונים הכולל: הערך הקטן ביותר או הנמוך ביותר מקבל דירוג של 1, הקטן הבא מקבל דירוג של 2, הבא דרגה 3, וכן הלאה. במקרה של תיקו, דירוג ממוצע נחשב.
  4. אובדן המידע בהחלפת דרגות בערכים המקוריים הופך את זה למבחן פחות חזק מ-ANOVA, ולכן יש להשתמש ב-ANOVA אם הנתונים עומדים בהנחות.

השערת האפס של מבחן קרוסקאל-וואליס היא לפעמים כי חציוני הקבוצה שווים. עם זאת, זה מדויק רק אם אתה מאמין שמאפייני ההפצה של כל קבוצה זהים. למרות שהחציונים זהים, מבחן Kruskal-Wallis יכול לדחות את השערת האפס אם ההתפלגויות שונות.

ניתן לבחון קבוצות בגדלים שונים באמצעות נתון Kruskal-Wallis. מבחן Kruskal-Wallis, בניגוד לניתוח השונות החד-כיווני הדומה, אינו מניח התפלגות נורמלית מכיוון שהוא הליך לא פרמטרי. עם זאת, הבדיקה מניחה שההתפלגות של כל קבוצה היא בצורה זהה ובקנה מידה זהה, למעט כל וריאציות בחציונים.

ניתן להשתמש ב- Kruskal Wallis כדי לנתח האם הבדיקה והבקרה בוצעו אחרת. כאשר הנתונים מוטים (התפלגות לא נורמלית), הבדיקה תגלה אם שתי הקבוצות שונות מבלי לקבוע סיבתיות כלשהי. זה לא יציע את הסיבה להבדל בהתנהגות.

4.1 איך הבדיקה עובדת?

Kruskal Wallis עובד על ידי דירוג כל התצפיות, החל מ-1 (המינורי ביותר). הדירוג נעשה עבור כל נקודות הנתונים, ללא קשר לקבוצה שאליה הן משתייכות. ערכים קשורים מקבלים את הדרגה הממוצעת שהם היו מקבלים לולא היו משויכים.

כאשר לכל התצפיות נקבעה דרגה חתומה על סמך משתנה הניתוח (מספר המרשמים שנקבעו), הן מובדלות/מחולקות לקבוצות על סמך מצב היעד/השהייה שלהן. לאחר מכן, הדירוג הממוצע של כל קבוצה מחושב ומשווה.

מטרה צפויה להיות בעלת דירוג ממוצע גבוה יותר מ-holdouts מאחר שהיזמה או מאמץ הקידום מופעלים עבור קבוצה זו. עם ערך p משמעותי, Target מניב ביצועים טובים יותר מ-holdouts. האתגר כאן הוא שהדירוג הממוצע של קבוצת היעד יכול להיות גבוה יותר בנוכחות חריגים, כלומר, מעט רופאים כותבים יותר תסריטים מאחרים. לפיכך, אנו תמיד מסתכלים על החציון האריתמטי ועל ערך ה-p המתקבל על ידי Kruskal Wallis כדי לאמת/להפריך את ההשערה שלנו.

תנו ל-Ni (i = 1, 2, 3, 4,..., g) לייצג את גדלי המדגם עבור כל קבוצת g (כלומר, דגימות או, במקרה זה, מספר הרופאים) בנתונים. ri הוא סכום הדרגות עבור קבוצה i כאשר ri' הוא הדירוג הממוצע של קבוצה i. אז נתון מבחן Kruskal Wallis מחושב כך:

פורמולה 1. ממחיש את הנוסחה לחישוב סטטיסטיקת מבחנים. תמונה שהוכנה על ידי המחבר באמצעות Markdown ולטקס.

השערת האפס של חציוני אוכלוסיה שווים נדחית אם נתון הבדיקה חורג מערך הסף הריבועי של chi. כאשר השערת האפס של אוכלוסיות שוות נכונה, לנתון זה יש דרגות חופש k-1 והוא מתקרב להתפלגות כי-ריבועית. הקירוב חייב להיות ני' של לפחות 5 (כלומר, לפחות חמש תצפיות בקבוצה) כדי שהוא יהיה מדויק.

פורמולה 2. ממחיש את הנוסחה לקירוב ערך p עבור המבחן. תמונה שהוכנה על ידי המחבר באמצעות Markdown ולטקס.

באמצעות טבלת התפלגות ההסתברות בריבוע צ'י, אנו עשויים לקבל את הערך הריבועי המכריע ב-g-1 דרגות חופש ואת רמת המובהקות הרצויה. לחלופין, אנו עשויים לבחון את ערך ה-p כדי להעיר על מובהקות התוצאות.

4.2 הפעל את מבחן H ביד

הבה נניח שחברת פארמה רוצה להבין אם לשלוש קבוצות של מקטעי רופא יש נפחי מטופלים שונים (סטפני גלן, נד) למשל

מובילי דעות מרכזיים/KOL (נפח מטופל בחודש): 23, 42, 55, 66, 78

מומחים/SPE (נפח מטופל בחודש): 45, 56, 60, 70, 72

רופאים כלליים/רופאי משפחה (כמות מטופלים בחודש): 18, 30, 34, 41, 44

4.2.1 סדר את הנתונים בסדר עולה לאחר שילובם לסט אחד

18 23 24 30 41 42 44 45 55 56 60 66 70 72 78 XNUMX

4.2.2 דרג את נקודות הנתונים הממוינות. השתמש בממוצע במקרה של קשרים

ערכים: 18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

דירוג: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

4.2.3 חשב את סכום הדרגות לכל קבוצה

האיור 1. ממחיש את סכום הדרגות לכל קבוצה. קרדיט תמונה - הוכן על ידי המחבר.

4.2.4 חשב סטטיסטיקת H באמצעות נוסחה 1 ומספרים מאיור 1

פורמולה 3. ממחיש את הנוסחה לחישוב סטטיסטיקה H עבור קבוצת המרשם שלנו. תמונה שהוכנה על ידי המחבר באמצעות Markdown ולטקס.

H = 6.72

4.2.5 זהה את הערך הריבועי הצ'י הקריטי עבור דרגות חופש g-1 עם
α=0.05 אשר לבעיה שלנו (3–1=2 דרגות חופש) צריך להיות 5.99. עיין בטבלה למטה.

4.2.6 השווה את ערך H מ-4.2.4 לערך הקריטי מ-4.2.5

יש לדחות את השערת האפס הקובעת כי נפח המטופל החציוני על פני שלוש קבוצות שונות שווה להידחות אם הערך החי בריבוע הקריטי קטן מהנתון H. מאז 5.99 (ערך קריטי) < 6.72, אנו יכולים לדחות את השערת האפס.

צריכות להיות ראיות נוספות כדי להסיק שהחציונים אינם שווים אם ערך הצ'י בריבוע אינו נמוך מהנתון ה-H שחושב לעיל.

השערת האפס לפיה חציוני האוכלוסייה של כל הקבוצות שווים נבדקת באמצעות מבחן Kruskal-Wallis H. זוהי גרסת ANOVA שאינה פרמטרית. הבדיקה משתמשת בשני מדגמים עצמאיים או יותר בגדלים משתנים. שימו לב שהפרכת השערת האפס אינה מגלה כיצד הקבוצות שונות. כדי לזהות אילו קבוצות שונות, יש צורך בהשוואות פוסט-הוק בין הקבוצות.

מסטטיסטיקות יבוא של scipy
x = [1, 3, 5, 8, 9, 12, 17]
y = [2, 6, 6, 8, 10, 15, 20, 22]
stats.kruskal(x, y)
KruskalResult(statistic=0.7560483870967752, pvalue=0.3845680059797648)print(np.median(x))
print(np.median(y))
8.0
9.0
print(np.mean(x))
print(np.mean(y))
7.86
11.12

הפלט שנוצר על ידי Python מוצג למעלה. יש לציין שלמרות שנצפה הבדל ניכר בממוצע הערכים על פני שתי הקטגוריות, הבדל זה, כאשר לוקחים בחשבון את החציון, אינו משמעותי שכן ערך ה-p גדול בהרבה מ-5%.

מבחן Kruskal Wallis הוא אינסטרומנטלי כאשר עוסקים בדגימות מוטות במיוחד. ניתן להשתמש בו באופן נרחב עבור קבוצת ביקורת בדיקה במהלך השקת קמפיין או אפילו בעת ביצוע בדיקות A/B. זה ישים עבור רוב מקרי השימוש בתעשייה מכיוון שלכל לקוח יש התנהגות שונה כאשר הוא מתמודד עם לקוחות בשטח קמעונאי או רופאים בנוף פרמצבטי. כשאנחנו מסתכלים על גודל הסל או נפח המטופלים, מעטים הלקוחות קונים יותר, בעוד שלמעט רופאים יש יותר מטופלים. מכאן שעבור הפצה כה מוטה, חיוני להעמיד מבחן Kruskal Wallis כדי לבדוק אם ההתנהגויות דומות.

סטפני גלן. "מבחן קרוסקאל וואליס H: הגדרה, דוגמאות, הנחות, SPSS" מתוך StatisticsHowTo.com: סטטיסטיקה יסודית לכולנו! https://www.statisticshowto.com/probability-and-statistics/statistics-definitions/kruskal-wallis/

מבחן Kruskal Wallis למתחילים פורסם מחדש ממקור https://towardsdatascience.com/kruskal-wallis-test-for-beginners-4fe9b0333b31?source=rss—-7f60cf5620c9—4 דרך https://towardsdatascience.com/feed

<!–

->

בול זמן:

עוד מ יועצי בלוקצ'יין