Alternatif untuk nilai-p dalam pengujian A/B

Bagaimana Batas Bawah Probabilitas Tinggi (HPLB) pada jarak variasi total dapat menghasilkan statistik uji daya tarik yang terintegrasi dalam pengujian A/B

Gambar 1: gambar dari kertas asli (oleh penulis)

Kontributor: Loris Michel, Jeffrey Naf

Langkah klasik uji A/B umum, yaitu memutuskan apakah dua kelompok pengamatan berasal dari distribusi yang berbeda (katakanlah P dan Q), adalah:

  • Asumsikan hipotesis nol dan hipotesis alternatif (di sini masing-masing, P=Q dan P≠Q);
  • Tentukan tingkat signifikansi alfa;
  • Buat uji statistik (keputusan biner yang menolak nol atau tidak);
  • Turunkan statistik uji T;
  • Dapatkan nilai-p dari distribusi nol perkiraan/asimptotik/tepat dari T.

Namun, ketika tes seperti itu menolak nol, yaitu ketika nilai-p signifikan (pada tingkat tertentu), kita masih kekurangan ukuran seberapa kuat perbedaan antara P dan Q. Nyatanya, status penolakan suatu pengujian dapat berubah menjadi informasi yang tidak berguna dalam aplikasi modern (data kompleks) karena dengan ukuran sampel yang cukup (dengan asumsi tingkat dan daya tetap) setiap pengujian akan cenderung menolak nol (karena jarang persis BENAR). Misalnya, mungkin menarik untuk mengetahui berapa banyak titik data yang mendukung perbedaan distribusi.

Oleh karena itu, berdasarkan sampel terbatas dari P dan Q, pertanyaan yang lebih halus daripada "apakah P berbeda dari Q?" dapat dinyatakan sebagai "Apa batas bawah probabilistik pada fraksi pengamatan λ yang sebenarnya mendukung perbedaan dalam distribusi antara P dan Q ?". Ini secara formal akan diterjemahkan ke dalam konstruksi perkiraan λˆ yang memuaskan λˆ ≤ λ dengan probabilitas tinggi (katakanlah 1-alpha). Kami menyebutkan perkiraan seperti itu batas bawah probabilitas tinggi (HPLB) pada λ.

Dalam cerita ini kami ingin memotivasi penggunaan HPLB dalam pengujian A/B dan memberikan argumen mengapa gagasan yang tepat untuk λ adalah jarak variasi total antara P dan Q, yaitu TV(P, Q). Penjelasan dan detail tentang pembuatan HPLB tersebut akan kami simpan di artikel lain. Anda selalu dapat memeriksa kami paper lebih lanjut.

Mengapa Total Variasi Jarak?

Jarak variasi total adalah metrik yang kuat (halus) untuk probabilitas. Ini berarti bahwa jika dua distribusi probabilitas berbeda maka jarak variasi totalnya tidak akan nol. Ini biasanya didefinisikan sebagai ketidaksetujuan maksimum dari probabilitas pada himpunan. Namun, ia menikmati representasi yang lebih intuitif sebagai pengangkutan ukuran yang terpisah antara probabilitas P dan Q (lihat Gambar 2):

Jarak variasi total antara ukuran probabilitas P dan Q adalah fraksi massa probabilitas yang perlu diubah/dipindahkan dari P untuk mendapatkan ukuran probabilitas Q (atau sebaliknya).

Secara praktis jarak variasi total mewakili fraksi titik yang berbeda antara P dan Q, yang merupakan gagasan yang tepat untuk λ.

Gambar 2: Representasi TV kiri atas (P, Q) sebagai perbedaan dalam kemungkinan massa. Kanan atas definisi biasa sebagai TV(P, Q) sebagai ketidaksepakatan probabilitas maksimal (melalui aljabar sigma). Bawah formulasi transpor optimal diskrit sebagai fraksi massa yang berbeda dari P dan Q (oleh penulis).

Bagaimana cara menggunakan HPLB dan keuntungannya?

Estimasi λˆ menarik untuk pengujian A/B karena angka tunggal ini mencakup keduanya signifikansi statistik (seperti nilai-p) dan ukuran efek perkiraan. Ini dapat digunakan sebagai berikut:

  • Tentukan tingkat kepercayaan (1-alfa);
  • Bangun HPLB λˆ berdasarkan dua sampel;
  • Jika λˆ adalah nol maka jangan tolak nol, sebaliknya jika λˆ > 0, tolak nol dan simpulkan bahwa λ (fraksi pembeda) setidaknya λˆ dengan probabilitas 1-alpha.

Tentu saja harga yang harus dibayar adalah bahwa nilai λˆ bergantung pada tingkat kepercayaan yang dipilih (1-alfa) sedangkan nilai-p tidak bergantung padanya. Namun demikian, dalam praktiknya tingkat kepercayaan tidak terlalu bervariasi (biasanya ditetapkan pada 95%).

Perhatikan contoh ukuran efek dalam kedokteran. Obat baru harus memiliki efek yang signifikan pada kelompok eksperimen, dibandingkan dengan kelompok plasebo, yang tidak menerima obat tersebut. Tapi itu juga penting seberapa besar efeknya. Dengan demikian, seseorang seharusnya tidak hanya berbicara tentang nilai-p, tetapi juga memberikan beberapa ukuran efek. Ini sekarang diakui secara luas dalam penelitian medis yang baik. Memang, pendekatan yang menggunakan pendekatan yang lebih intuitif untuk menghitung TV(P,Q) telah digunakan dalam pengaturan univariat untuk menjelaskan perbedaan antara kelompok perlakuan dan kontrol. Pendekatan HPLB kami memberikan ukuran signifikansi dan juga ukuran efek. Mari kita ilustrasikan ini pada sebuah contoh:

Mari kita buat contoh

Kami mensimulasikan dua distribusi P dan Q dalam dua dimensi. Dengan demikian P akan menjadi normal multivariat, sedangkan Q adalah a campuran antara P dan normal multivariat dengan rata-rata bergeser.

perpustakaan (mvtnorm)
perpustakaan (HPLB)
set.seed(1)
n<-2000
p<-2
#Larger delta -> lebih banyak perbedaan antara P dan Q
#Delta lebih kecil -> Lebih sedikit perbedaan antara P dan Q
delta<-0
# Simulasikan X~P dan Y~Q untuk delta yang diberikan
U<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=delta)*rmvnorm(n=n, mean=rep(2,p), sig=diag(p))+ (1-(U <=delta))*rmvnorm(n=n, sig=diag(p))
plot(Y, cex=0.8, col="biru tua")
poin(X, cex=0.8, col="merah")

Delta berat campuran mengontrol seberapa kuat kedua distribusi berbeda. Memvariasikan delta dari 0 hingga 0.9 terlihat seperti ini:

Simulasikan data dengan delta=0 (kanan atas), delta=0.05, (kiri atas), delta=0.3 (kanan bawah) dan delta=0.8 (kiri bawah). Sumber: penulis

Kami kemudian dapat menghitung HPLB untuk masing-masing skenario ini:

#Perkirakan HPLB untuk setiap kasus (variasikan delta dan jalankan kembali kodenya)
t.melatih<- c(rep(0,n/2), rep(1,n/2) )
xy.train <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(rep(0,n/2), rep(1,n/2) )
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- ranger::ranger(t~., data.frame(t=t.train,x=xy.train))
rho <- predict(rf, data.frame(t=t.test,x=xy.test))$predictions
tvhat <- HPLB(t = t.test, rho = rho, estimator.type = "beradaptasi")
tvapa

Jika kita melakukannya dengan set benih di atas, kita

Nilai perkiraan untuk berbagai delta.

Dengan demikian HPLB berhasil (i) mendeteksi ketika memang tidak ada perubahan dalam dua distribusi, yaitu nol ketika delta nol, (ii) sudah mendeteksi perbedaan yang sangat kecil ketika delta hanya 0.05 dan (iii) mendeteksi bahwa perbedaan lebih besar delta lebih besar. Sekali lagi, hal penting yang harus diingat tentang nilai ini adalah bahwa nilai tersebut benar-benar berarti — nilai 0.64 akan menjadi batas bawah untuk TV sebenarnya dengan probabilitas tinggi. Secara khusus, setiap angka yang lebih besar dari nol berarti tes yang P=Q ditolak pada tingkat 5%.

Kesimpulan:

Dalam hal pengujian A/B (pengujian dua sampel), fokusnya sering kali pada status penolakan pengujian statistik. Ketika sebuah tes menolak distribusi nol, namun dalam praktiknya berguna untuk memiliki ukuran intensitas dari perbedaan distribusi. Melalui konstruksi batas bawah probabilitas tinggi pada jarak variasi total, kita dapat membuat batas bawah pada fraksi pengamatan yang diharapkan berbeda dan dengan demikian memberikan jawaban terintegrasi untuk perbedaan distribusi dan intensitas pergeseran. .

penafian dan sumber daya: Kami menyadari bahwa kami meninggalkan banyak detail (efisiensi, konstruksi HPLB, studi kekuatan, …) tetapi berharap dapat membuka cakrawala pemikiran. Mdetail bijih dan perbandingan dengan tes yang ada dapat ditemukan di kami paper dan periksa HPLB paket-R di CRAN.

Alternatif untuk nilai-p dalam pengujian A/B Dipublikasikan ulang dari Sumber https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 melalui https ://towardsdatascience.com/feed

<!–

->

Stempel Waktu:

Lebih dari Konsultan Blockchain