Μια εναλλακτική στις τιμές p στη δοκιμή A/B

Πώς τα χαμηλά όρια υψηλής πιθανότητας (HPLBs) στη συνολική απόσταση διακύμανσης μπορούν να οδηγήσουν σε μια ολοκληρωμένη ελκυστική στατιστική δοκιμής στη δοκιμή A/B

Εικόνα 1: εικόνα από την αρχική εργασία (από τους συγγραφείς)

Συντελεστές: Λόρις Μισέλ, Τζέφρι Ναφ

Τα κλασικά βήματα μιας γενικής δοκιμής A/B, δηλαδή η απόφαση για το εάν δύο ομάδες παρατηρήσεων προέρχονται από διαφορετικές κατανομές (ας πούμε P και Q), είναι:

  • Υποθέστε μια μηδενική και μια εναλλακτική υπόθεση (εδώ αντίστοιχα, P=Q και P≠Q).
  • Ορίστε ένα επίπεδο σημασίας άλφα.
  • Κατασκευάστε μια στατιστική δοκιμή (μια δυαδική απόφαση που απορρίπτει το μηδενικό ή όχι).
  • Εξάγετε μια στατιστική δοκιμής T;
  • Λάβετε μια τιμή p από την κατά προσέγγιση/ασυμπτωτική/ακριβή μηδενική κατανομή του T.

Ωστόσο, όταν ένα τέτοιο τεστ απορρίπτει το μηδέν, δηλαδή όταν η τιμή p είναι σημαντική (σε ένα δεδομένο επίπεδο), δεν έχουμε ακόμα ένα μέτρο για το πόσο ισχυρή είναι η διαφορά μεταξύ P και Q. Στην πραγματικότητα, η κατάσταση απόρριψης μιας δοκιμής θα μπορούσε να αποδειχθεί άχρηστη πληροφορία σε σύγχρονες εφαρμογές (σύνθετα δεδομένα), επειδή με αρκετό μέγεθος δείγματος (υποθέτοντας σταθερό επίπεδο και ισχύ) κάθε δοκιμή θα τείνει να απορρίψει το μηδενικό (καθώς σπάνια είναι ακριβώς αληθής). Για παράδειγμα, θα μπορούσε να είναι ενδιαφέρον να έχουμε μια ιδέα για το πόσα σημεία δεδομένων υποστηρίζουν μια διαφορά διανομής.

Επομένως, με βάση πεπερασμένα δείγματα από τα P και Q, μια πιο λεπτή ερώτηση από το "είναι το P διαφορετικό από το Q;" θα μπορούσε να δηλωθεί ως «Ποιο είναι ένα πιθανό κατώτερο όριο στο κλάσμα των παρατηρήσεων λ που στην πραγματικότητα υποστηρίζει μια διαφορά στην κατανομή μεταξύ P και Q;». Αυτό τυπικά θα μεταφραζόταν στην κατασκευή μιας εκτίμησης λˆ που ικανοποιεί λˆ ≤ λ με υψηλή πιθανότητα (ας πούμε 1-άλφα). Ονομάζουμε μια τέτοια εκτίμηση an υψηλή πιθανότητα κάτω όριο (HPLB) σε λ.

Σε αυτή την ιστορία θέλουμε να παρακινήσουμε τη χρήση των HPLBs στη δοκιμή A/B και να δώσουμε ένα επιχείρημα γιατί η σωστή έννοια για το λ είναι η συνολική απόσταση μεταβολής μεταξύ P και Q, δηλαδή TV(P, Q). Θα κρατήσουμε την εξήγηση και τις λεπτομέρειες σχετικά με την κατασκευή ενός τέτοιου HPLB για άλλο άρθρο. Μπορείτε πάντα να ελέγχετε το δικό μας Paper Για περισσότερες πληροφορίες.

Γιατί η συνολική απόσταση διακύμανσης;

Η συνολική απόσταση διακύμανσης είναι μια ισχυρή (λεπτή) μέτρηση για τις πιθανότητες. Αυτό σημαίνει ότι εάν δύο κατανομές πιθανοτήτων είναι διαφορετικές, τότε η συνολική απόσταση μεταβλητής τους θα είναι μη μηδενική. Συνήθως ορίζεται ως η μέγιστη ασυμφωνία των πιθανοτήτων στα σύνολα. Ωστόσο, απολαμβάνει μια πιο διαισθητική αναπαράσταση ως μια διακριτή μεταφορά του μέτρου μεταξύ των πιθανοτήτων P και Q (βλ. Εικόνα 2):

Η συνολική απόσταση διακύμανσης μεταξύ των μέτρων πιθανότητας P και Q είναι το κλάσμα της μάζας πιθανότητας που θα χρειαζόταν κάποιος να αλλάξει/μετακινηθεί από το P για να ληφθεί το μέτρο πιθανότητας Q (ή το αντίστροφο).

Πρακτικά, η συνολική απόσταση μεταβολής αντιπροσωπεύει το κλάσμα των σημείων που διαφέρουν μεταξύ P και Q, που είναι ακριβώς η σωστή έννοια για το λ.

Σχήμα 2: Επάνω αριστερά αναπαράσταση του TV(P, Q) ως διαφορά στην πιθανή μάζα. Επάνω δεξιά ο συνηθισμένος ορισμός ως TV(P, Q) ως διαφωνία μέγιστης πιθανότητας (πάνω από σίγμα-άλγεβρα). Κάτω η διακριτή σύνθεση βέλτιστης μεταφοράς ως κλάσμα μάζας που διαφέρει από τα P και Q (από τους συγγραφείς).

Πώς να χρησιμοποιήσετε ένα HPLB και τα πλεονεκτήματά του;

Η εκτίμηση λˆ είναι ελκυστική για τη δοκιμή A/B επειδή αυτός ο μοναδικός αριθμός συνεπάγεται και τα δύο στατιστική σημασία (όπως κάνει η τιμή p) και το μέγεθος εφέ εκτίμηση. Μπορεί να χρησιμοποιηθεί ως εξής:

  • Ορίστε ένα επίπεδο εμπιστοσύνης (1-άλφα).
  • Κατασκευάστε το HPLB λˆ με βάση τα δύο δείγματα.
  • Εάν το λˆ είναι μηδέν, τότε μην απορρίψετε το μηδέν, διαφορετικά εάν λˆ > 0, απορρίπτει το μηδέν και συμπεράνετε ότι το λ (το διαφορετικό κλάσμα) είναι τουλάχιστον λˆ με πιθανότητα 1-άλφα.

Φυσικά το τίμημα είναι ότι η τιμή του λˆ εξαρτάται από το επιλεγμένο επίπεδο εμπιστοσύνης (1-άλφα), ενώ μια τιμή p είναι ανεξάρτητη από αυτό. Ωστόσο, στην πράξη το επίπεδο εμπιστοσύνης δεν ποικίλλει πολύ (συνήθως ορίζεται στο 95%).

Εξετάστε το παράδειγμα του μεγέθους του αποτελέσματος στην ιατρική. Ένα νέο φάρμακο πρέπει να έχει σημαντική επίδραση στην πειραματική ομάδα, σε σύγκριση με μια ομάδα εικονικού φαρμάκου, που δεν έλαβε το φάρμακο. Σημασία έχει όμως και πόσο μεγάλο είναι το αποτέλεσμα. Ως εκ τούτου, δεν πρέπει να μιλάμε μόνο για τιμές p, αλλά και να δίνουμε κάποιο μέτρο του μεγέθους του εφέ. Αυτό είναι πλέον ευρέως αναγνωρισμένο στην καλή ιατρική έρευνα. Πράγματι, μια προσέγγιση που χρησιμοποιεί μια πιο διαισθητική προσέγγιση για τον υπολογισμό του TV(P,Q) έχει χρησιμοποιηθεί στη μονομεταβλητή ρύθμιση για να περιγράψει τη διαφορά μεταξύ των ομάδων θεραπείας και ελέγχου. Η προσέγγισή μας HPLB παρέχει τόσο μέτρο σημασίας όσο και μέγεθος εφέ. Ας το επεξηγήσουμε αυτό σε ένα παράδειγμα:

Ας κάνουμε ένα παράδειγμα

Προσομοιώνουμε δύο κατανομές P και Q σε δύο διαστάσεις. Το P θα είναι έτσι απλώς ένα πολυμεταβλητό κανονικό, ενώ το Q είναι a μίγμα μεταξύ P και ενός πολυμεταβλητού κανονικού με μετατοπισμένο μέσο όρο.

βιβλιοθήκη (mvtnorm)
βιβλιοθήκη (HPLB)
set.seed(1)
n<-2000
p<-2
#Μεγαλύτερο δέλτα -> μεγαλύτερη διαφορά μεταξύ P και Q
#Μικρότερο δέλτα -> Λιγότερη διαφορά μεταξύ P και Q
δέλτα<-0
# Προσομοίωση X~P και Y~Q για δεδομένο δέλτα
U<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=δέλτα)*rmvnorm(n=n, mean=rep(2,p), sig=diag(p))+ (1-(U <=δέλτα))*rmvnorm(n=n, sig=diag(p))
plot (Y, cex=0.8, col="σκούρο μπλε")
πόντοι (X, cex=0.8, col="κόκκινο")

Το δέλτα βάρους του μείγματος ελέγχει πόσο ισχυρές είναι διαφορετικές οι δύο κατανομές. Μεταβαλλόμενο δέλτα από 0 έως 0.9 μοιάζει με αυτό:

Προσομοίωση δεδομένων με δέλτα=0 (πάνω δεξιά), δέλτα=0.05, (πάνω αριστερά), δέλτα=0.3 (κάτω δεξιά) και δέλτα=0.8 (κάτω αριστερά). Πηγή: συγγραφέας

Στη συνέχεια, μπορούμε να υπολογίσουμε το HPLB για καθένα από αυτά τα σενάρια:

#Εκτίμηση HPLB για κάθε περίπτωση (διαφοροποιήστε το delta και εκτελέστε ξανά τον κωδικό)
t.train<- c(rep(0,n/2), rep(1,n/2) )
xy.train <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(rep(0,n/2), rep(1,n/2) )
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- ranger::ranger(t~., data.frame(t=t.train,x=xy.train))
rho <- predict(rf, data.frame(t=t.test,x=xy.test))$predictions
tvhat <- HPLB(t = t.test, rho = rho, estimator.type = "adapt")
tvhat

Αν το κάνουμε αυτό με το σετ σπόρων παραπάνω, εμείς

Εκτιμώμενες τιμές για διαφορετικά δέλτα.

Έτσι το HPLB καταφέρνει (i) να ανιχνεύσει πότε δεν υπάρχει καμία αλλαγή στις δύο κατανομές, δηλαδή είναι μηδέν όταν το δέλτα είναι μηδέν, (ii) να ανιχνεύσει ήδη την εξαιρετικά μικρή διαφορά όταν το δέλτα είναι μόνο 0.05 και (iii) να ανιχνεύσει ότι το η διαφορά είναι μεγαλύτερη τόσο μεγαλύτερο είναι το δέλτα. Και πάλι, το κρίσιμο πράγμα που πρέπει να θυμάστε σχετικά με αυτές τις τιμές είναι ότι σημαίνουν πραγματικά κάτι — η τιμή 0.64 θα είναι ένα χαμηλότερο όριο για την πραγματική τηλεόραση με μεγάλη πιθανότητα. Συγκεκριμένα, καθένας από τους αριθμούς που είναι μεγαλύτερος μηδέν σημαίνει μια δοκιμή που P=Q απορρίφθηκε στο επίπεδο 5%.

Συμπέρασμα:

Όταν πρόκειται για τη δοκιμή A/B (δοκιμή δύο δειγμάτων), η εστίαση είναι συχνά στην κατάσταση απόρριψης μιας στατιστικής δοκιμής. Όταν ένα τεστ απορρίπτει τη μηδενική κατανομή, είναι ωστόσο χρήσιμο στην πράξη να έχουμε ένα μέτρο έντασης της διαφοράς κατανομής. Μέσω της κατασκευής κατώτερων ορίων υψηλής πιθανότητας στη συνολική απόσταση διακύμανσης, μπορούμε να κατασκευάσουμε ένα χαμηλότερο όριο στο κλάσμα των παρατηρήσεων που αναμένεται να είναι διαφορετικές και έτσι να δώσουμε μια ολοκληρωμένη απάντηση στη διαφορά στην κατανομή και την ένταση της μετατόπισης .

αποποίηση ευθύνης και πόροι: Γνωρίζουμε ότι παραλείψαμε πολλές λεπτομέρειες (αποτελεσματικότητα, κατασκευή HPLB, μελέτες ισχύος,…) αλλά ελπίζουμε να έχουμε ανοιχτό ορίζοντα σκέψης. Mλεπτομέρειες μεταλλεύματος και σύγκριση με υπάρχουσες δοκιμές μπορείτε να βρείτε στο μας Paper και ρίξτε μια ματιά στο R-package HPLB στο CRAN.

Μια εναλλακτική για τις τιμές p στη δοκιμή A/B Αναδημοσίευση από την Πηγή https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 μέσω https ://towardsdatascience.com/feed

Si al principi no tens èxit, aleshores el paracaigudisme no és per a tu.

->

Σφραγίδα ώρας:

Περισσότερα από Σύμβουλοι Blockchain