High-probability Lower bounds (HPLB) บนระยะความแปรผันทั้งหมดสามารถนำไปสู่สถิติการทดสอบที่น่าดึงดูดในการทดสอบ A/B ได้อย่างไร
ร่วมให้ข้อมูล: ลอริส มิเชล, เจฟฟรีย์ นาฟ
ขั้นตอนแบบดั้งเดิมของการทดสอบ A/B ทั่วไป เช่น การตัดสินใจว่ากลุ่มของการสังเกตสองกลุ่มมาจากการแจกแจงที่แตกต่างกันหรือไม่ (เช่น P และ Q) คือ:
- สมมติว่าเป็นโมฆะและสมมติฐานทางเลือก (ในที่นี้คือ P=Q และ P≠Q ตามลำดับ);
- กำหนดระดับความสำคัญอัลฟ่า
- สร้างการทดสอบทางสถิติ (การตัดสินใจแบบไบนารีที่ปฏิเสธค่าว่างหรือไม่);
- หาค่าสถิติทดสอบ T;
- รับค่า p จากการแจกแจงค่า Null แบบประมาณ/เชิงเส้นกำกับ/แบบแน่นอนของ T
อย่างไรก็ตาม เมื่อการทดสอบดังกล่าวปฏิเสธค่าว่าง เช่น เมื่อค่า p มีนัยสำคัญ (ในระดับที่กำหนด) เรายังขาดการวัดว่าความแตกต่างระหว่าง P และ Q นั้นแข็งแกร่งเพียงใด ในความเป็นจริง สถานะการปฏิเสธของการทดสอบอาจกลายเป็นข้อมูลที่ไร้ประโยชน์ในแอปพลิเคชันสมัยใหม่ (ข้อมูลที่ซับซ้อน) เพราะด้วยขนาดตัวอย่างที่เพียงพอ (สมมติว่ามีระดับและกำลังคงที่) การทดสอบใดๆ ก็มักจะปฏิเสธค่าว่าง (เนื่องจากแทบไม่มีความแน่นอน จริง). ตัวอย่างเช่น อาจเป็นเรื่องที่น่าสนใจที่จะทราบว่ามีจุดข้อมูลกี่จุดที่รองรับความแตกต่างของการแจกแจง
ดังนั้น จากตัวอย่างที่จำกัดจาก P และ Q คำถามที่ดีกว่า "P แตกต่างจาก Q หรือไม่" อาจกล่าวได้ว่า "ขอบเขตล่างของความน่าจะเป็นของเศษส่วนของการสังเกต λ ที่สนับสนุนความแตกต่างในการแจกแจงระหว่าง P และ Q คืออะไร" สิ่งนี้จะแปลอย่างเป็นทางการในการสร้างค่าประมาณ λˆ ที่น่าพอใจ λˆ ≤ λ ที่มีความเป็นไปได้สูง (เช่น 1-อัลฟา) เราตั้งชื่อค่าประมาณดังกล่าวว่า ขอบเขตล่างมีความเป็นไปได้สูง (HPLB) บน λ
ในเรื่องนี้เราต้องการกระตุ้นการใช้ HPLB ในการทดสอบ A/B และให้ข้อโต้แย้งว่าทำไมแนวคิดที่ถูกต้องสำหรับ λ คือ ระยะทางการเปลี่ยนแปลงทั้งหมด ระหว่าง P และ Q เช่น TV(P, Q) เราจะเก็บคำอธิบายและรายละเอียดเกี่ยวกับการสร้าง HPLB ดังกล่าวไว้บทความอื่น คุณสามารถตรวจสอบของเราได้ตลอดเวลา Paper .
ทำไมระยะทางรวมแปรผัน?
ระยะความแปรผันทั้งหมดเป็นเมตริกที่แข็งแกร่ง (ละเอียด) สำหรับความน่าจะเป็น ซึ่งหมายความว่าหากการแจกแจงความน่าจะเป็นสองค่าต่างกัน ระยะความแปรผันทั้งหมดจะไม่ใช่ศูนย์ มันมักจะถูกกำหนดให้เป็นความไม่ลงรอยกันสูงสุดของความน่าจะเป็นในชุด อย่างไรก็ตาม มันสนุกไปกับการแสดงที่เข้าใจง่ายกว่าในฐานะการขนส่งการวัดที่ไม่ต่อเนื่องระหว่างความน่าจะเป็น P และ Q (ดูรูปที่ 2):
ระยะความแปรผันรวมระหว่างการวัดความน่าจะเป็น P และ Q คือเศษส่วนของมวลความน่าจะเป็นที่จะต้องเปลี่ยน/ย้ายจาก P เพื่อให้ได้มาตรวัดความน่าจะเป็น Q (หรือในทางกลับกัน)
ในทางปฏิบัติ ระยะการแปรผันทั้งหมดแสดงถึงเศษส่วนของจุดที่ต่างกันระหว่าง P และ Q ซึ่งเป็นแนวคิดที่ถูกต้องสำหรับ λ
วิธีการใช้ HPLB และข้อดีของมัน
ค่าประมาณ λˆ นั้นน่าสนใจสำหรับการทดสอบ A/B เนื่องจากตัวเลขเดี่ยวนี้เกี่ยวข้องกับทั้ง นัยสำคัญทางสถิติ (ตามที่ค่า p ทำ) และ ขนาดผลกระทบ การประมาณ สามารถใช้งานได้ดังนี้:
- กำหนดระดับความเชื่อมั่น (1-alpha);
- สร้าง HPLB λˆ ตามตัวอย่างสองตัวอย่าง
- ถ้า λˆ เป็นศูนย์ อย่าปฏิเสธค่าว่าง มิฉะนั้น ถ้า λˆ > 0 ให้ปฏิเสธค่าว่างและสรุปว่า λ (เศษส่วนที่ต่างกัน) มีค่าอย่างน้อย λˆ ที่มีความน่าจะเป็น 1-อัลฟา
แน่นอนว่าราคาที่ต้องจ่ายคือค่าของ λˆ ขึ้นอยู่กับระดับความเชื่อมั่นที่เลือก (1-alpha) ในขณะที่ค่า p ไม่ขึ้นกับค่านั้น อย่างไรก็ตาม ในทางปฏิบัติ ระดับความเชื่อมั่นไม่เปลี่ยนแปลงมากนัก (โดยปกติจะตั้งไว้ที่ 95%)
พิจารณาตัวอย่างขนาดผลทางยา ยาใหม่ต้องมีผลอย่างมากในกลุ่มทดลองที่ไม่ได้รับยาเมื่อเทียบกับกลุ่มยาหลอก แต่ผลกระทบก็สำคัญเช่นกัน ด้วยเหตุนี้ เราไม่ควรพูดถึงค่า p เท่านั้น แต่ยังควรวัดขนาดเอฟเฟกต์ด้วย ขณะนี้ได้รับการยอมรับอย่างกว้างขวางในการวิจัยทางการแพทย์ที่ดี แท้จริงแล้ว วิธีการที่ใช้วิธีง่ายๆ ในการคำนวณ TV(P,Q) ได้ถูกนำมาใช้ในการตั้งค่าที่ไม่แปรผันเพื่ออธิบายความแตกต่างระหว่างกลุ่มการรักษาและกลุ่มควบคุม วิธี HPLB ของเรามีทั้งการวัดความสำคัญและขนาดเอฟเฟกต์ ให้เราอธิบายสิ่งนี้ด้วยตัวอย่าง:
ลองทำตัวอย่าง
เราจำลองการแจกแจง P และ Q สองครั้งในสองมิติ ดังนั้น P จะเป็นเพียงค่าปกติหลายตัวแปร ในขณะที่ Q คือ a สารผสม ระหว่าง P และค่าปกติหลายตัวแปรที่มีค่าเฉลี่ยแบบเลื่อน
ห้องสมุด (mvtnorm)
ห้องสมุด (HPLB)ชุด.เมล็ด(1)
n<-2000
พี<-2#เดลต้าที่ใหญ่ขึ้น -> ความแตกต่างระหว่าง P และ Q ที่มากขึ้น
#Smaller delta -> ความแตกต่างระหว่าง P และ Q น้อยลง
เดลต้า<-0# จำลอง X~P และ Y~Q สำหรับเดลต้าที่กำหนด
คุณ<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=เดลต้า)*rmvnorm(n=n, ค่าเฉลี่ย=ตัวแทน(2,p), sig=diag(p))+ (1-(U <=เดลต้า))*rmvnorm(n=n, ซิก=diag(p))พล็อต(Y, cex=0.8, col="สีน้ำเงินเข้ม")
คะแนน(X, cex=0.8, col="สีแดง")
เดลต้าน้ำหนักส่วนผสมจะควบคุมว่าการกระจายทั้งสองมีความแตกต่างกันมากน้อยเพียงใด การเปลี่ยนแปลงเดลต้าตั้งแต่ 0 ถึง 0.9 จะมีลักษณะดังนี้:
จากนั้น เราสามารถคำนวณ HPLB สำหรับแต่ละสถานการณ์เหล่านี้ได้:
#Estimate HPLB สำหรับแต่ละกรณี (เปลี่ยน delta และรันโค้ดใหม่)
t.train<- c(ตัวแทน(0,n/2), ตัวแทน(1,n/2) )
xy.train <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(ตัวแทน(0,n/2), ตัวแทน(1,n/2) )
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- เรนเจอร์::เรนเจอร์(t~., data.frame(t=t.train,x=xy.train))
rho <- ทำนาย (rf, data.frame (t=t.test, x=xy.test))$ คาดการณ์tvhat <- HPLB(t = t.test, rho = rho, estimator.type = "ปรับตัว")
โทรทัศน์
หากเราทำเช่นนั้นกับเมล็ดที่ตั้งไว้ด้านบน เรา
ดังนั้น HPLB จึงจัดการเพื่อ (i) ตรวจจับได้เมื่อไม่มีการเปลี่ยนแปลงในการแจกแจงทั้งสอง กล่าวคือ มีค่าเป็นศูนย์เมื่อค่าเดลต้าเป็นศูนย์ (ii) ตรวจพบความแตกต่างเล็กน้อยมากแล้วเมื่อค่าเดลต้ามีค่าเพียง 0.05 และ (iii) ตรวจพบว่า ความแตกต่างนั้นยิ่งใหญ่กว่าเดลต้าที่ใหญ่กว่า สิ่งสำคัญอีกครั้งที่ต้องจำเกี่ยวกับค่าเหล่านี้ก็คือค่าเหล่านี้มีความหมายบางอย่างจริงๆ ค่า 0.64 จะเป็นขอบเขตที่ต่ำกว่าสำหรับทีวีจริงที่มีความเป็นไปได้สูง โดยเฉพาะอย่างยิ่ง ตัวเลขแต่ละตัวที่มากกว่าศูนย์หมายถึงการทดสอบที่ P=Q ถูกปฏิเสธในระดับ 5%
สรุป:
เมื่อพูดถึงการทดสอบ A/B (การทดสอบสองตัวอย่าง) มักจะมุ่งเน้นไปที่สถานะการปฏิเสธของการทดสอบทางสถิติ เมื่อการทดสอบปฏิเสธการแจกแจงแบบโมฆะ อย่างไรก็ตาม ในทางปฏิบัติจะมีประโยชน์ในการวัดความเข้มของความแตกต่างของการแจกแจง ด้วยการสร้างขอบเขตล่างที่มีความเป็นไปได้สูงบนระยะความแปรผันทั้งหมด เราสามารถสร้างขอบเขตล่างบนเศษส่วนของการสังเกตที่คาดว่าจะแตกต่างกันได้ และด้วยเหตุนี้จึงให้คำตอบแบบบูรณาการสำหรับความแตกต่างในการกระจายและความเข้มของการเปลี่ยนแปลง .
ข้อจำกัดความรับผิดชอบและแหล่งข้อมูล: เราทราบดีว่าเราทิ้งรายละเอียดมากมาย (ประสิทธิภาพ การสร้าง HPLBs การศึกษาพลังงาน …) แต่หวังว่าจะได้เปิดโลกทัศน์ทางความคิด Mรายละเอียดแร่และการเปรียบเทียบกับการทดสอบที่มีอยู่สามารถพบได้ในของเรา Paper และตรวจสอบ R-package HPLB บน CRAN
ทางเลือกแทนค่า p ในการทดสอบ A/B เผยแพร่ซ้ำจากแหล่งที่มา //towardsdatascience.com/feed
<!–
->
- Bitcoin
- bizbuildermike
- blockchain
- การปฏิบัติตามบล็อคเชน
- การประชุม blockchain
- ที่ปรึกษาบล็อคเชน
- coinbase
- เหรียญอัจฉริยะ
- เอกฉันท์
- การประชุม crypto
- การทำเหมือง crypto
- cryptocurrency
- ซึ่งกระจายอำนาจ
- Defi
- สินทรัพย์ดิจิทัล
- ethereum
- เรียนรู้เครื่อง
- โทเค็นที่ไม่สามารถทำซ้ำได้
- เพลโต
- เพลโตไอ
- เพลโตดาต้าอินเทลลิเจนซ์
- Platoblockchain
- เพลโตดาต้า
- เพลโตเกม
- รูปหลายเหลี่ยม
- หลักฐานการเดิมพัน
- W3
- ลมทะเล