ทางเลือกแทนค่า P ในการทดสอบ A/B

เผยแพร่ซ้ำโดยเพลโต

ผู้ติดตาม: 0

High-probability Lower bounds (HPLB) บนระยะความแปรผันทั้งหมดสามารถนำไปสู่สถิติการทดสอบที่น่าดึงดูดในการทดสอบ A/B ได้อย่างไร

รูปที่ 1: รูปจากกระดาษต้นฉบับ (โดยผู้เขียน)

ร่วมให้ข้อมูล: ลอริส มิเชล, เจฟฟรีย์ นาฟ

ขั้นตอนแบบดั้งเดิมของการทดสอบ A/B ทั่วไป เช่น การตัดสินใจว่ากลุ่มของการสังเกตสองกลุ่มมาจากการแจกแจงที่แตกต่างกันหรือไม่ (เช่น P และ Q) คือ:

สมมติว่าเป็นโมฆะและสมมติฐานทางเลือก (ในที่นี้คือ P=Q และ P≠Q ตามลำดับ);
กำหนดระดับความสำคัญอัลฟ่า
สร้างการทดสอบทางสถิติ (การตัดสินใจแบบไบนารีที่ปฏิเสธค่าว่างหรือไม่);
หาค่าสถิติทดสอบ T;
รับค่า p จากการแจกแจงค่า Null แบบประมาณ/เชิงเส้นกำกับ/แบบแน่นอนของ T

อย่างไรก็ตาม เมื่อการทดสอบดังกล่าวปฏิเสธค่าว่าง เช่น เมื่อค่า p มีนัยสำคัญ (ในระดับที่กำหนด) เรายังขาดการวัดว่าความแตกต่างระหว่าง P และ Q นั้นแข็งแกร่งเพียงใด ในความเป็นจริง สถานะการปฏิเสธของการทดสอบอาจกลายเป็นข้อมูลที่ไร้ประโยชน์ในแอปพลิเคชันสมัยใหม่ (ข้อมูลที่ซับซ้อน) เพราะด้วยขนาดตัวอย่างที่เพียงพอ (สมมติว่ามีระดับและกำลังคงที่) การทดสอบใดๆ ก็มักจะปฏิเสธค่าว่าง (เนื่องจากแทบไม่มีความแน่นอน จริง). ตัวอย่างเช่น อาจเป็นเรื่องที่น่าสนใจที่จะทราบว่ามีจุดข้อมูลกี่จุดที่รองรับความแตกต่างของการแจกแจง

ดังนั้น จากตัวอย่างที่จำกัดจาก P และ Q คำถามที่ดีกว่า "P แตกต่างจาก Q หรือไม่" อาจกล่าวได้ว่า "ขอบเขตล่างของความน่าจะเป็นของเศษส่วนของการสังเกต λ ที่สนับสนุนความแตกต่างในการแจกแจงระหว่าง P และ Q คืออะไร" สิ่งนี้จะแปลอย่างเป็นทางการในการสร้างค่าประมาณ λˆ ที่น่าพอใจ λˆ ≤ λ ที่มีความเป็นไปได้สูง (เช่น 1-อัลฟา) เราตั้งชื่อค่าประมาณดังกล่าวว่า ขอบเขตล่างมีความเป็นไปได้สูง (HPLB) บน λ

ในเรื่องนี้เราต้องการกระตุ้นการใช้ HPLB ในการทดสอบ A/B และให้ข้อโต้แย้งว่าทำไมแนวคิดที่ถูกต้องสำหรับ λ คือ ระยะทางการเปลี่ยนแปลงทั้งหมด ระหว่าง P และ Q เช่น TV(P, Q) เราจะเก็บคำอธิบายและรายละเอียดเกี่ยวกับการสร้าง HPLB ดังกล่าวไว้บทความอื่น คุณสามารถตรวจสอบของเราได้ตลอดเวลา Paper .

ทำไมระยะทางรวมแปรผัน?

ระยะความแปรผันทั้งหมดเป็นเมตริกที่แข็งแกร่ง (ละเอียด) สำหรับความน่าจะเป็น ซึ่งหมายความว่าหากการแจกแจงความน่าจะเป็นสองค่าต่างกัน ระยะความแปรผันทั้งหมดจะไม่ใช่ศูนย์ มันมักจะถูกกำหนดให้เป็นความไม่ลงรอยกันสูงสุดของความน่าจะเป็นในชุด อย่างไรก็ตาม มันสนุกไปกับการแสดงที่เข้าใจง่ายกว่าในฐานะการขนส่งการวัดที่ไม่ต่อเนื่องระหว่างความน่าจะเป็น P และ Q (ดูรูปที่ 2):

ระยะความแปรผันรวมระหว่างการวัดความน่าจะเป็น P และ Q คือเศษส่วนของมวลความน่าจะเป็นที่จะต้องเปลี่ยน/ย้ายจาก P เพื่อให้ได้มาตรวัดความน่าจะเป็น Q (หรือในทางกลับกัน)

ในทางปฏิบัติ ระยะการแปรผันทั้งหมดแสดงถึงเศษส่วนของจุดที่ต่างกันระหว่าง P และ Q ซึ่งเป็นแนวคิดที่ถูกต้องสำหรับ λ

รูปที่ 2: ภาพซ้ายบนของ TV(P, Q) เป็นความแตกต่างของมวล ด้านบนขวา คำจำกัดความปกติเป็น TV(P, Q) เป็นความน่าจะเป็นสูงสุดที่ไม่ลงรอยกัน (เหนือซิกมา-พีชคณิต) ด้านล่างของสูตรการขนส่งที่เหมาะสมที่สุดแบบแยกเป็นส่วนของมวลที่แตกต่างจาก P และ Q (โดยผู้เขียน)

วิธีการใช้ HPLB และข้อดีของมัน

ค่าประมาณ λˆ นั้นน่าสนใจสำหรับการทดสอบ A/B เนื่องจากตัวเลขเดี่ยวนี้เกี่ยวข้องกับทั้ง นัยสำคัญทางสถิติ (ตามที่ค่า p ทำ) และ ขนาดผลกระทบ การประมาณ สามารถใช้งานได้ดังนี้:

กำหนดระดับความเชื่อมั่น (1-alpha);
สร้าง HPLB λˆ ตามตัวอย่างสองตัวอย่าง
ถ้า λˆ เป็นศูนย์ อย่าปฏิเสธค่าว่าง มิฉะนั้น ถ้า λˆ > 0 ให้ปฏิเสธค่าว่างและสรุปว่า λ (เศษส่วนที่ต่างกัน) มีค่าอย่างน้อย λˆ ที่มีความน่าจะเป็น 1-อัลฟา

แน่นอนว่าราคาที่ต้องจ่ายคือค่าของ λˆ ขึ้นอยู่กับระดับความเชื่อมั่นที่เลือก (1-alpha) ในขณะที่ค่า p ไม่ขึ้นกับค่านั้น อย่างไรก็ตาม ในทางปฏิบัติ ระดับความเชื่อมั่นไม่เปลี่ยนแปลงมากนัก (โดยปกติจะตั้งไว้ที่ 95%)

พิจารณาตัวอย่างขนาดผลทางยา ยาใหม่ต้องมีผลอย่างมากในกลุ่มทดลองที่ไม่ได้รับยาเมื่อเทียบกับกลุ่มยาหลอก แต่ผลกระทบก็สำคัญเช่นกัน ด้วยเหตุนี้ เราไม่ควรพูดถึงค่า p เท่านั้น แต่ยังควรวัดขนาดเอฟเฟกต์ด้วย ขณะนี้ได้รับการยอมรับอย่างกว้างขวางในการวิจัยทางการแพทย์ที่ดี แท้จริงแล้ว วิธีการที่ใช้วิธีง่ายๆ ในการคำนวณ TV(P,Q) ได้ถูกนำมาใช้ในการตั้งค่าที่ไม่แปรผันเพื่ออธิบายความแตกต่างระหว่างกลุ่มการรักษาและกลุ่มควบคุม วิธี HPLB ของเรามีทั้งการวัดความสำคัญและขนาดเอฟเฟกต์ ให้เราอธิบายสิ่งนี้ด้วยตัวอย่าง:

ลองทำตัวอย่าง

เราจำลองการแจกแจง P และ Q สองครั้งในสองมิติ ดังนั้น P จะเป็นเพียงค่าปกติหลายตัวแปร ในขณะที่ Q คือ a สารผสม ระหว่าง P และค่าปกติหลายตัวแปรที่มีค่าเฉลี่ยแบบเลื่อน

ห้องสมุด (mvtnorm)
ห้องสมุด (HPLB)ชุด.เมล็ด(1)
n<-2000
พี<-2#เดลต้าที่ใหญ่ขึ้น -> ความแตกต่างระหว่าง P และ Q ที่มากขึ้น
#Smaller delta -> ความแตกต่างระหว่าง P และ Q น้อยลง
เดลต้า<-0# จำลอง X~P และ Y~Q สำหรับเดลต้าที่กำหนด
คุณ<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=เดลต้า)*rmvnorm(n=n, ค่าเฉลี่ย=ตัวแทน(2,p), sig=diag(p))+ (1-(U <=เดลต้า))*rmvnorm(n=n, ซิก=diag(p))พล็อต(Y, cex=0.8, col="สีน้ำเงินเข้ม")
คะแนน(X, cex=0.8, col="สีแดง")

เดลต้าน้ำหนักส่วนผสมจะควบคุมว่าการกระจายทั้งสองมีความแตกต่างกันมากน้อยเพียงใด การเปลี่ยนแปลงเดลต้าตั้งแต่ 0 ถึง 0.9 จะมีลักษณะดังนี้:

จำลองข้อมูลด้วย delta=0 (บนขวา), delta=0.05, (บนซ้าย), delta=0.3 (ล่างขวา) และ delta=0.8 (ล่างซ้าย) ที่มา: ผู้เขียน

จากนั้น เราสามารถคำนวณ HPLB สำหรับแต่ละสถานการณ์เหล่านี้ได้:

#Estimate HPLB สำหรับแต่ละกรณี (เปลี่ยน delta และรันโค้ดใหม่)
t.train<- c(ตัวแทน(0,n/2), ตัวแทน(1,n/2) )
xy.train <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(ตัวแทน(0,n/2), ตัวแทน(1,n/2) )
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- เรนเจอร์::เรนเจอร์(t~., data.frame(t=t.train,x=xy.train))
rho <- ทำนาย (rf, data.frame (t=t.test, x=xy.test))$ คาดการณ์tvhat <- HPLB(t = t.test, rho = rho, estimator.type = "ปรับตัว")
โทรทัศน์

หากเราทำเช่นนั้นกับเมล็ดที่ตั้งไว้ด้านบน เรา

ดังนั้น HPLB จึงจัดการเพื่อ (i) ตรวจจับได้เมื่อไม่มีการเปลี่ยนแปลงในการแจกแจงทั้งสอง กล่าวคือ มีค่าเป็นศูนย์เมื่อค่าเดลต้าเป็นศูนย์ (ii) ตรวจพบความแตกต่างเล็กน้อยมากแล้วเมื่อค่าเดลต้ามีค่าเพียง 0.05 และ (iii) ตรวจพบว่า ความแตกต่างนั้นยิ่งใหญ่กว่าเดลต้าที่ใหญ่กว่า สิ่งสำคัญอีกครั้งที่ต้องจำเกี่ยวกับค่าเหล่านี้ก็คือค่าเหล่านี้มีความหมายบางอย่างจริงๆ ค่า 0.64 จะเป็นขอบเขตที่ต่ำกว่าสำหรับทีวีจริงที่มีความเป็นไปได้สูง โดยเฉพาะอย่างยิ่ง ตัวเลขแต่ละตัวที่มากกว่าศูนย์หมายถึงการทดสอบที่ P=Q ถูกปฏิเสธในระดับ 5%

สรุป:

เมื่อพูดถึงการทดสอบ A/B (การทดสอบสองตัวอย่าง) มักจะมุ่งเน้นไปที่สถานะการปฏิเสธของการทดสอบทางสถิติ เมื่อการทดสอบปฏิเสธการแจกแจงแบบโมฆะ อย่างไรก็ตาม ในทางปฏิบัติจะมีประโยชน์ในการวัดความเข้มของความแตกต่างของการแจกแจง ด้วยการสร้างขอบเขตล่างที่มีความเป็นไปได้สูงบนระยะความแปรผันทั้งหมด เราสามารถสร้างขอบเขตล่างบนเศษส่วนของการสังเกตที่คาดว่าจะแตกต่างกันได้ และด้วยเหตุนี้จึงให้คำตอบแบบบูรณาการสำหรับความแตกต่างในการกระจายและความเข้มของการเปลี่ยนแปลง .

ข้อจำกัดความรับผิดชอบและแหล่งข้อมูล: เราทราบดีว่าเราทิ้งรายละเอียดมากมาย (ประสิทธิภาพ การสร้าง HPLBs การศึกษาพลังงาน …) แต่หวังว่าจะได้เปิดโลกทัศน์ทางความคิด Mรายละเอียดแร่และการเปรียบเทียบกับการทดสอบที่มีอยู่สามารถพบได้ในของเรา Paper และตรวจสอบ R-package HPLB บน CRAN

ทางเลือกแทนค่า p ในการทดสอบ A/B เผยแพร่ซ้ำจากแหล่งที่มา //towardsdatascience.com/feed

<!–

ประทับเวลา: November 10, 2022November 11, 2022