Một giải pháp thay thế cho giá trị p trong thử nghiệm A/B

Giới hạn dưới (HPLB) có xác suất cao trên tổng khoảng cách biến đổi có thể dẫn đến thống kê thử nghiệm hấp dẫn tích hợp trong thử nghiệm A/B như thế nào

Hình 1: hình từ bài báo gốc (của tác giả)

Đóng góp: Loris Michel, Jeffrey Näf

Các bước cổ điển của thử nghiệm A/B chung, tức là quyết định xem hai nhóm quan sát có đến từ các phân phối khác nhau hay không (giả sử P và Q), là:

  • Giả sử một giả thuyết không và một giả thuyết thay thế (ở đây tương ứng là P=Q và P≠Q);
  • Xác định mức ý nghĩa alpha;
  • Xây dựng một bài kiểm tra thống kê (một quyết định nhị phân bác bỏ giá trị rỗng hay không);
  • Rút ra một thống kê kiểm tra T;
  • Nhận giá trị p từ phân bố null gần đúng/tiệm cận/chính xác của T.

Tuy nhiên, khi phép kiểm tra như vậy bác bỏ giá trị 0, tức là khi giá trị p có ý nghĩa (ở một mức nhất định) thì chúng ta vẫn thiếu thước đo về mức độ khác biệt giữa P và Q. Trên thực tế, trạng thái từ chối của một thử nghiệm có thể trở thành thông tin vô dụng trong các ứng dụng hiện đại (dữ liệu phức tạp) vì với đủ cỡ mẫu (giả sử mức độ và công suất cố định), bất kỳ thử nghiệm nào cũng sẽ có xu hướng từ chối giá trị rỗng (vì nó hiếm khi chính xác). ĐÚNG VẬY). Ví dụ: có thể rất thú vị khi biết có bao nhiêu điểm dữ liệu hỗ trợ cho sự khác biệt về phân phối.

Do đó, dựa trên các mẫu hữu hạn từ P và Q, một câu hỏi hay hơn là “P có khác Q không?” có thể được nêu là “Giới hạn dưới xác suất của tỷ lệ quan sát λ thực sự hỗ trợ cho sự khác biệt trong phân bố giữa P và Q là gì?”. Điều này chính thức chuyển thành việc xây dựng một ước tính λˆ thỏa mãn λˆ λ với xác suất cao (giả sử là 1-alpha). Chúng tôi gọi ước tính đó là giới hạn dưới có xác suất cao (HPLB) trên λ.

Trong câu chuyện này, chúng tôi muốn thúc đẩy việc sử dụng HPLB trong thử nghiệm A/B và đưa ra lập luận tại sao khái niệm đúng cho λ là tổng khoảng cách biến thiên giữa P và Q, tức là TV(P, Q). Chúng tôi sẽ dành phần giải thích và chi tiết về việc xây dựng HPLB như vậy cho một bài viết khác. Bạn luôn có thể kiểm tra của chúng tôi Paper để biết thêm chi tiết.

Tại sao lại có tổng khoảng cách biến thiên?

Tổng khoảng cách biến thiên là một thước đo mạnh (tốt) cho xác suất. Điều này có nghĩa là nếu hai phân bố xác suất khác nhau thì tổng khoảng cách biến thiên của chúng sẽ khác 2. Nó thường được định nghĩa là sự khác biệt lớn nhất về xác suất trên các tập hợp. Tuy nhiên, nó có cách biểu diễn trực quan hơn dưới dạng vận chuyển thước đo rời rạc giữa xác suất P và Q (xem Hình XNUMX):

Tổng khoảng cách biến thiên giữa thước đo xác suất P và Q là phần khối lượng xác suất mà người ta cần thay đổi/di chuyển từ P để thu được thước đo xác suất Q (hoặc ngược lại).

Trong thuật ngữ thực tế, tổng khoảng cách biến thiên biểu thị tỷ lệ các điểm khác nhau giữa P và Q, đây chính xác là khái niệm đúng cho λ.

Hình 2: Biểu diễn phía trên bên trái của TV(P, Q) là sự khác biệt về khối lượng có thể. Trên cùng bên phải, định nghĩa thông thường là TV(P, Q) là sự bất đồng về xác suất tối đa (trên đại số sigma). Dưới cùng là công thức vận chuyển tối ưu riêng biệt theo phần khối lượng khác với P và Q (của tác giả).

Làm thế nào để sử dụng HPLB và lợi ích của nó?

Ước tính λˆ rất hấp dẫn đối với thử nghiệm A/B vì con số duy nhất này đòi hỏi cả ý nghĩa thống kê (như giá trị p) và độ hiệu quả ước lượng. Nó có thể được sử dụng như sau:

  • Xác định mức độ tin cậy (1-alpha);
  • Xây dựng HPLB λˆ dựa trên hai mẫu;
  • Nếu λˆ bằng 0 thì không bác bỏ giá trị rỗng, ngược lại, nếu λˆ > 1, bác bỏ giá trị rỗng và kết luận rằng λ (phân số sai phân) ít nhất là λˆ với xác suất XNUMX-alpha.

Tất nhiên cái giá phải trả là giá trị của λˆ phụ thuộc vào mức độ tin cậy đã chọn (1-alpha) trong khi giá trị p không phụ thuộc vào nó. Tuy nhiên, trong thực tế mức độ tin cậy không thay đổi nhiều (thường là 95%).

Hãy xem xét ví dụ về mức độ ảnh hưởng trong y học. Một loại thuốc mới cần phải có tác dụng đáng kể ở nhóm thử nghiệm, so với nhóm dùng giả dược, không được dùng thuốc. Nhưng điều quan trọng là hiệu quả đó lớn đến mức nào. Như vậy, người ta không nên chỉ nói về giá trị p mà còn đưa ra một số thước đo về mức độ ảnh hưởng. Điều này hiện đã được công nhận rộng rãi trong nghiên cứu y học tốt. Thật vậy, một cách tiếp cận sử dụng cách tiếp cận trực quan hơn để tính TV(P,Q) đã được sử dụng trong bối cảnh đơn biến để mô tả sự khác biệt giữa nhóm can thiệp và nhóm đối chứng. Phương pháp HPLB của chúng tôi cung cấp cả thước đo về tầm quan trọng cũng như quy mô hiệu ứng. Hãy để chúng tôi minh họa điều này bằng một ví dụ:

Hãy làm một ví dụ

Chúng tôi mô phỏng hai phân phối P và Q theo hai chiều. Do đó P sẽ chỉ là một chuẩn tắc đa biến, trong khi Q là một hỗn hợp giữa P và một chuẩn đa biến với giá trị trung bình dịch chuyển.

thư viện (mvtnorm)
thư viện (HPLB)
set.seed(1)
n<-2000
p<-2
#Đồng bằng lớn hơn -> có nhiều khác biệt hơn giữa P và Q
#Đồng bằng nhỏ hơn -> Ít khác biệt hơn giữa P và Q
đồng bằng<-0
# Mô phỏng X~P và Y~Q cho delta đã cho
U<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=delta)*rmvnorm(n=n,mean=rep(2,p), sig=diag(p))+ (1-(U <=delta))*rmvnorm(n=n, sig=diag(p))
cốt truyện(Y, cex=0.8, col="darkblue")
điểm(X, cex=0.8, col="red")

Delta trọng lượng hỗn hợp kiểm soát mức độ khác nhau của hai phân phối. Thay đổi delta từ 0 đến 0.9 trông như thế này:

Mô phỏng dữ liệu với delta=0 (trên cùng bên phải), delta=0.05, (trên cùng bên trái), delta=0.3 (dưới cùng bên phải) và delta=0.8 (dưới cùng bên trái). Nguồn: tác giả

Sau đó chúng ta có thể tính toán HPLB cho từng tình huống sau:

#Ước tính HPLB cho từng trường hợp (thay đổi delta và chạy lại mã)
t.train<- c(rep(0,n/2), Rep(1,n/2) )
xy.train <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(rep(0,n/2), Rep(1,n/2) )
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- ranger::ranger(t~., data.frame(t=t.train,x=xy.train))
rho <- dự đoán(rf, data.frame(t=t.test,x=xy.test))$predictions
tvhat <- HPLB(t = t.test, rho = rho, estimator.type = "adapt")
tvhat

Nếu chúng ta làm điều đó với tập hợp hạt giống ở trên, chúng ta

Giá trị ước tính cho các đồng bằng khác nhau.

Do đó, HPLB quản lý để (i) phát hiện khi thực sự không có thay đổi nào trong hai phân bố, tức là nó bằng 0.05 khi delta bằng 0.64, (ii) phát hiện sự khác biệt cực kỳ nhỏ khi delta chỉ bằng 5 và (iii) phát hiện rằng sự khác biệt càng lớn thì đồng bằng càng lớn. Một lần nữa, điều quan trọng cần nhớ về những giá trị này là chúng thực sự có ý nghĩa gì đó - giá trị XNUMX sẽ là giới hạn dưới đối với TV thực sự với xác suất cao. Cụ thể, mỗi số có số XNUMX lớn hơn có nghĩa là bài kiểm tra P=Q đã bị từ chối ở mức XNUMX%.

Kết luận:

Khi nói đến thử nghiệm A/B (thử nghiệm hai mẫu), trọng tâm thường là trạng thái bị từ chối của thử nghiệm thống kê. Tuy nhiên, khi một thử nghiệm bác bỏ phân bố null, trong thực tế việc đo cường độ chênh lệch phân phối sẽ rất hữu ích trong thực tế. Thông qua việc xây dựng các giới hạn dưới có xác suất cao trên tổng khoảng cách biến đổi, chúng ta có thể xây dựng giới hạn dưới cho tỷ lệ các quan sát được kỳ vọng là khác nhau và do đó đưa ra câu trả lời tổng hợp cho sự khác biệt trong phân bố và cường độ của sự thay đổi .

từ chối trách nhiệm và tài nguyên: Chúng tôi biết rằng chúng tôi đã bỏ sót nhiều chi tiết (hiệu quả, cấu trúc HPLB, nghiên cứu công suất,…) nhưng hy vọng sẽ mở ra một chân trời tư duy. Mchi tiết về quặng và so sánh với các thử nghiệm hiện tại có thể được tìm thấy trong Paper và kiểm tra HPLB gói R trên CRAN.

Một giải pháp thay thế cho giá trị p trong thử nghiệm A/B Được xuất bản lại từ Nguồn https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 qua https //towardsdatascience.com/feed

<!–

->

Dấu thời gian:

Thêm từ Tư vấn chuỗi khối