Τεστ Kruskal Wallis για αρχάριους

Δοκιμή Kruskal Wallis: Σκοπός, Πεδίο εφαρμογής, Υποθέσεις, Παραδείγματα, Υλοποίηση Python

Φωτογραφία Roman Mager on Unsplash

Το Kruskal Wallis είναι μια μη παραμετρική μέθοδος για την αξιολόγηση του εάν τα δείγματα προέρχονται από την ίδια κατανομή. Χρησιμοποιείται για τη σύγκριση περισσότερων από δύο ανεξάρτητων ή άσχετων δειγμάτων. Η μονόδρομη ανάλυση διασποράς (ANOVA) είναι η παραμετρική ισοδυναμία του τεστ Kruskal-Wallis.

1.1 Ποια θα ήταν μια καλή περίπτωση επαγγελματικής χρήσης;

Ας μετρήσουμε τον αντίκτυπο μιας καμπάνιας που κυκλοφόρησε από μια Pharma Company σε ένα φάρμακο που κυκλοφόρησε πρόσφατα, όπου έχουμε 1,550 στόχους και 500 Holdouts. Εξετάσαμε την κατανομή της συμπεριφοράς των συνταγών και τη βρήκαμε μη φυσιολογική (λοξή) αλλά με παρόμοιο σχήμα για κάθε ομάδα (στόχοι και κρατήσεις). Δεν μπορούμε να κάνουμε ANOVA. Ως εκ τούτου, εφαρμόζουμε μια μη παραμετρική δοκιμή, το Kruskal-Wallis.

Δεδομένου ότι το Kruskal Wallis είναι μια μη παραμετρική δοκιμή, δεν υπάρχει η υπόθεση ότι τα δεδομένα κατανέμονται κανονικά (σε αντίθεση με την ANOVA).

  1. Η πραγματική μηδενική υπόθεση είναι ότι οι πληθυσμοί από τους οποίους προέρχονται τα δείγματα έχουν την ίδια διάμεσο.
  2. Το τεστ Kruskal-Wallis χρησιμοποιείται πιο συχνά όταν υπάρχει μία μεταβλητή χαρακτηριστικών και μία μεταβλητή μέτρησης και η μεταβλητή μέτρησης δεν πληροί τις υποθέσεις της ANOVA (κανονικότητα και ομοσκεδαστικότητα)
  3. Όπως οι περισσότερες μη παραμετρικές δοκιμές, εκτελείται σε ταξινομημένα δεδομένα, επομένως οι παρατηρήσεις μέτρησης μετατρέπονται στις τάξεις τους χρησιμοποιώντας το συνολικό σύνολο δεδομένων: η μικρότερη ή η χαμηλότερη τιμή παίρνει κατάταξη 1, η επόμενη μικρότερη παίρνει κατάταξη 2, η ακόλουθη κατάταξη 3, και ούτω καθεξής. Σε περίπτωση ισοβαθμίας λαμβάνεται υπόψη η μέση βαθμολογία.
  4. Η απώλεια πληροφοριών για την αντικατάσταση βαθμών για τις αρχικές τιμές καθιστά αυτό το τεστ λιγότερο ισχυρό από το ANOVA, επομένως το ANOVA θα πρέπει να χρησιμοποιείται εάν τα δεδομένα πληρούν τις υποθέσεις.

Η μηδενική υπόθεση του τεστ Kruskal-Wallis μερικές φορές δηλώνεται ότι είναι ότι οι διάμεσοι της ομάδας είναι ίσοι. Ωστόσο, αυτό είναι ακριβές μόνο εάν πιστεύετε ότι τα χαρακτηριστικά διανομής κάθε ομάδας είναι τα ίδια. Παρόλο που οι διάμεσοι είναι οι ίδιοι, το τεστ Kruskal-Wallis μπορεί να απορρίψει τη μηδενική υπόθεση εάν οι κατανομές διαφέρουν.

Ομάδες διαφορετικών μεγεθών μπορούν να εξεταστούν χρησιμοποιώντας τη στατιστική Kruskal-Wallis. Η δοκιμή Kruskal-Wallis, σε αντίθεση με τη συγκρίσιμη μονόδρομη ανάλυση διακύμανσης, δεν υποθέτει κανονική κατανομή επειδή είναι μια μη παραμετρική διαδικασία. Το τεστ, ωστόσο, προϋποθέτει ότι η κατανομή κάθε ομάδας έχει το ίδιο σχήμα και κλίμακα, εκτός από οποιεσδήποτε διακυμάνσεις στις διάμεσες.

Το Kruskal Wallis μπορεί να χρησιμοποιηθεί για να αναλυθεί εάν η δοκιμή και ο έλεγχος εκτελέστηκαν διαφορετικά. Όταν τα δεδομένα είναι λοξά (μη κανονική κατανομή), το τεστ θα δείξει εάν οι δύο ομάδες είναι διαφορετικές χωρίς να στοιχειοθετηθεί καμία αιτιότητα. Δεν θα υποδηλώνει τον λόγο για τη διαφορά στη συμπεριφορά.

4.1 Πώς λειτουργεί το τεστ;

Ο Kruskal Wallis εργάζεται ταξινομώντας όλες τις παρατηρήσεις, ξεκινώντας από το 1 (το πιο μικρό). Η κατάταξη γίνεται για όλα τα data points, ανεξάρτητα από την ομάδα στην οποία ανήκουν. Οι ισόπαλες τιμές λαμβάνουν τη μέση κατάταξη που θα είχαν λάβει αν δεν είχαν ισοπαλία.

Όταν σε όλες τις παρατηρήσεις έχει εκχωρηθεί μια υπογεγραμμένη κατάταξη με βάση τη μεταβλητή ανάλυσης (ο αριθμός των συνταγογραφούμενων συνταγών), διαφοροποιούνται/διαιρούνται σε ομάδες με βάση την κατάσταση στόχου/παραμονής τους. Μετά από αυτό, υπολογίζεται και συγκρίνεται η μέση κατάταξη κάθε ομάδας.

Ο στόχος αναμένεται να έχει υψηλότερη μέση κατάταξη σε σχέση με τα κράτη μέλη, καθώς η πρωτοβουλία ή η προωθητική προσπάθεια έχει αναπτυχθεί για αυτήν την ομάδα. Με μια σημαντική τιμή p, το Target αποδίδει καλύτερα από τα holdouts. Η πρόκληση εδώ είναι ότι ο μέσος όρος της ομάδας στόχου μπορεί να είναι υψηλότερος με την παρουσία ακραίων τιμών, δηλαδή, λίγοι γιατροί γράφουν περισσότερα σενάρια από άλλους. Ως εκ τούτου, εξετάζουμε πάντα την αριθμητική διάμεσο και την προκύπτουσα τιμή p που λαμβάνεται από τον Kruskal Wallis για να επικυρώσουμε/να αντικρούσουμε την υπόθεσή μας.

Έστω Ni (i = 1, 2, 3, 4,…, g) αντιπροσωπεύει τα μεγέθη του δείγματος για κάθε g ομάδα (δηλαδή, δείγματα ή, σε αυτήν την περίπτωση, τον αριθμό των γιατρών) στα δεδομένα. Το ri είναι το άθροισμα των βαθμών για την ομάδα i με το ri' ως τη μέση κατάταξη της ομάδας i. Στη συνέχεια, η στατιστική δοκιμής Kruskal Wallis υπολογίζεται ως:

Τύπος 1. Παρουσιάζει τον τύπο για τον υπολογισμό στατιστικών στοιχείων δοκιμής. Εικόνα που προετοιμάστηκε από τον συγγραφέα χρησιμοποιώντας Markdown και Latex.

Η μηδενική υπόθεση των ίσων διαμέσου πληθυσμού απορρίπτεται εάν η στατιστική δοκιμής υπερβαίνει την τιμή του χι-τετραγωνικού ορίου. Όταν η μηδενική υπόθεση των ίσων πληθυσμών είναι αληθής, αυτή η στατιστική έχει k-1 βαθμούς ελευθερίας και προσεγγίζει μια κατανομή χ-τετράγωνο. Η προσέγγιση πρέπει να έχει ni's τουλάχιστον 5 (δηλαδή, τουλάχιστον πέντε παρατηρήσεις σε μια ομάδα) για να είναι ακριβής.

Τύπος 2. Παρουσιάζει τον τύπο για την προσέγγιση της τιμής p για τη δοκιμή. Εικόνα που ετοιμάστηκε από τον συγγραφέα χρησιμοποιώντας Markdown και Latex.

Χρησιμοποιώντας έναν πίνακα κατανομής πιθανότητας χ-τετράγωνο, μπορούμε να λάβουμε την κρίσιμη τιμή χ-τετράγωνο σε g-1 βαθμούς ελευθερίας και το επιθυμητό επίπεδο σημασίας. Εναλλακτικά, θα μπορούσαμε να εξετάσουμε την τιμή p για να σχολιάσουμε τη σημασία των αποτελεσμάτων.

4.2 Εκτελέστε τη δοκιμή H με το χέρι

Ας υποθέσουμε ότι μια Φαρμακευτική Εταιρεία θέλει να καταλάβει εάν τρεις ομάδες τμημάτων γιατρών έχουν διαφορετικούς όγκους ασθενών (Stephanie Glen, nd) Π.χ,

Key Opinion Leaders/KOL (Όγκος ασθενών σε ένα μήνα): 23, 42, 55, 66, 78

Ειδικοί/SPE (Όγκος ασθενών σε ένα μήνα): 45, 56, 60, 70, 72

Γενικοί Ιατροί/Γιατροί (Όγκος ασθενών σε ένα μήνα): 18, 30, 34, 41, 44

4.2.1 Τακτοποιήστε τα δεδομένα σε αύξουσα σειρά αφού τα συνδυάσετε σε ένα σύνολο

18 23 24 30 41 42 44 45 55 56 60 66 70

4.2.2 Κατάταξη των ταξινομημένων σημείων δεδομένων. Χρησιμοποιήστε το μέσο όρο σε περίπτωση ισοπαλιών

Τιμές: 18 23 24 30 41 42 44 45 55 56 60 66 70 72 78

Κατάταξη: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

4.2.3 Υπολογίστε το άθροισμα των βαθμών για κάθε ομάδα

Εικόνα 1. Παρουσιάζει το άθροισμα των βαθμών για κάθε ομάδα. Πίστωση εικόνας — Προετοιμάστηκε από τον συγγραφέα.

4.2.4 Υπολογισμός στατιστικών H χρησιμοποιώντας τον τύπο 1 και τους αριθμούς από το σχήμα 1

Τύπος 3. Παρουσιάζει τον τύπο για τον υπολογισμό των στατιστικών H για την ομάδα συνταγογράφων μας. Εικόνα που ετοιμάστηκε από τον συγγραφέα χρησιμοποιώντας Markdown και Latex.

H = 6.72

4.2.5 Προσδιορίστε την κρίσιμη τιμή χ-τετράγωνο για g-1 βαθμούς ελευθερίας με
ένα α=0.05 που για το πρόβλημά μας (3–1=2 βαθμοί ελευθερίας) θα πρέπει να είναι 5.99. Ανατρέξτε στον παρακάτω πίνακα.

4.2.6 Συγκρίνετε την τιμή H από 4.2.4 με την κρίσιμη τιμή από 4.2.5

Η μηδενική υπόθεση που δηλώνει ότι ο διάμεσος όγκος ασθενών σε τρεις διαφορετικές ομάδες είναι ίσος θα πρέπει να απορριφθεί εάν η κρίσιμη τιμή χ-τετράγωνο είναι μικρότερη από τη στατιστική Η. Δεδομένου ότι 5.99 (Κρίσιμη τιμή) < 6.72, μπορούμε να απορρίψουμε τη μηδενική υπόθεση.

Χρειάζεται να υπάρχουν περισσότερα στοιχεία για να συμπεράνουμε ότι οι διάμεσοι είναι άνισοι εάν η τιμή χ-τετράγωνο δεν είναι χαμηλότερη από τη στατιστική Η που υπολογίστηκε παραπάνω.

Η μηδενική υπόθεση ότι οι διάμεσοι πληθυσμοί όλων των ομάδων είναι ίσοι ελέγχεται χρησιμοποιώντας το Kruskal-Wallis H-test. Είναι μια παραλλαγή ANOVA που δεν είναι παραμετρική. Η δοκιμή χρησιμοποιεί δύο ή περισσότερα ανεξάρτητα δείγματα διαφορετικών μεγεθών. Σημειώστε ότι η απόρριψη της μηδενικής υπόθεσης δεν αποκαλύπτει πώς διαφέρουν οι ομάδες. Για να προσδιορίσετε ποιες ομάδες είναι διαφορετικές, είναι απαραίτητες οι post hoc συγκρίσεις μεταξύ των ομαδοποιήσεων.

από τα στατιστικά εισαγωγής scipy
x = [1, 3, 5, 8, 9, 12, 17]
y = [2, 6, 6, 8, 10, 15, 20, 22]
stats.kruskal(x, y)
KruskalResult(statistic=0.7560483870967752, pvalue=0.3845680059797648)print(np.median(x))
print(np.median(y))
8.0
9.0
print(np.mean(x))
print(np.mean(y))
7.86
11.12

Η έξοδος που δημιουργείται από την Python φαίνεται παραπάνω. Θα πρέπει να σημειωθεί ότι παρόλο που παρατηρείται αξιοσημείωτη διαφορά στο μέσο όρο των τιμών στις δύο κατηγορίες, αυτή η διαφορά, όταν λαμβάνεται υπόψη η διάμεσος, είναι ασήμαντη καθώς η τιμή p είναι πολύ μεγαλύτερη από 5%.

Η δοκιμή Kruskal Wallis είναι αποφασιστικής σημασίας όταν έχουμε να κάνουμε με ιδιαίτερα λοξά δείγματα. Μπορεί να χρησιμοποιηθεί ευρέως για μια δοκιμαστική ομάδα ελέγχου κατά τη διάρκεια μιας καμπάνιας κυκλοφορίας ή ακόμα και κατά την εκτέλεση δοκιμών A/B. Αυτό ισχύει για τις περισσότερες περιπτώσεις χρήσης του κλάδου, καθώς κάθε πελάτης έχει διαφορετική συμπεριφορά όταν συναλλάσσεται με πελάτες σε χώρο λιανικής ή με γιατρούς σε ένα φαρμακευτικό τοπίο. Όταν εξετάζουμε το μέγεθος του καλαθιού ή τον όγκο των ασθενών, λίγοι πελάτες αγοράζουν περισσότερα, ενώ λίγοι γιατροί έχουν περισσότερους ασθενείς. Ως εκ τούτου, για μια τέτοια λοξή κατανομή, είναι ζωτικής σημασίας να κάνετε μια δοκιμή Kruskal Wallis για να ελέγξετε εάν οι συμπεριφορές είναι παρόμοιες.

Στέφανι Γκλεν. “Kruskal Wallis H Test: Definition, Examples, Assumptions, SPSS” From StatisticsHowTo.com: Στοιχειώδη Στατιστικά για εμάς τους υπόλοιπους! https://www.statisticshowto.com/probability-and-statistics/statistics-definitions/kruskal-wallis/

Kruskal Wallis Test for Beginners Αναδημοσίευση από την Πηγή https://towardsdatascience.com/kruskal-wallis-test-for-beginners-4fe9b0333b31?source=rss—-7f60cf5620c9—4 μέσω https://towardsdatascience.com/feed

Si al principi no tens èxit, aleshores el paracaigudisme no és per a tu.

->

Σφραγίδα ώρας:

Περισσότερα από Σύμβουλοι Blockchain

Η Meta παρουσιάζει το «Tulip», ένα δυαδικό πρωτόκολλο σειριοποίησης που βοηθά στη σχηματοποίηση δεδομένων αντιμετωπίζοντας την αξιοπιστία πρωτοκόλλου για φόρτους εργασίας τεχνητής νοημοσύνης και μηχανικής μάθησης

Κόμβος πηγής: 1755699
Σφραγίδα ώρας: 12 Νοεμβρίου 2022