A/B testinde p değerlerine bir alternatif

Toplam varyasyon mesafesindeki Yüksek Olasılıklı Alt sınırlar (HPLB'ler), A/B testinde entegre bir çekici test istatistiğine nasıl yol açabilir?

Şekil 1: Orijinal makaleden alınan şekil (yazarlara göre)

Katkıda bulunanlar: loris michel, Jeffrey Naf

Genel bir A/B testinin klasik adımları, yani iki grup gözlemin farklı dağılımlardan gelip gelmediğine karar vermek (örneğin P ve Q):

  • Bir sıfır ve bir alternatif hipotez varsayalım (burada sırasıyla P=Q ve P≠Q);
  • Bir önem düzeyi alfa tanımlayın;
  • İstatistiksel bir test oluşturun (boş değeri reddeden ikili bir karar);
  • Bir test istatistiği T türetin;
  • T'nin yaklaşık/asimptotik/tam boş dağılımından bir p-değeri elde edin.

Bununla birlikte, böyle bir test boş değeri reddettiğinde, yani p-değeri anlamlı olduğunda (belirli bir seviyede), P ve Q arasındaki farkın ne kadar güçlü olduğuna dair bir ölçüme sahip değiliz. Aslında, bir testin reddedilme durumu, modern uygulamalarda (karmaşık veriler) yararsız bir bilgi olabilir, çünkü yeterli örnek boyutuyla (sabit bir seviye ve güç varsayıldığında) herhangi bir test boş değeri reddetme eğiliminde olacaktır (çünkü nadiren tam olarak doğru). Örneğin, kaç tane veri noktasının bir dağıtım farkını desteklediğine dair bir fikir edinmek ilginç olabilir.

Bu nedenle, P ve Q'dan sonlu örneklere dayanarak, "P, Q'dan farklı mı?" Sorusundan daha ince bir soru. “P ve Q arasındaki dağılım farkını gerçekten destekleyen gözlemlerin λ kesirinde olasılıksal alt sınır nedir?” şeklinde ifade edilebilir. Bu, resmi olarak, yüksek olasılıkla (diyelim ki 1-alfa) λˆ ≤ λ'yı karşılayan bir λˆ tahmininin oluşturulmasına dönüşecektir. Biz böyle bir tahmine yüksek olasılık alt sınırı (HPLB) λ üzerinde.

Bu hikayede, A/B testinde HPLB'lerin kullanımını motive etmek ve λ için doğru kavramın neden toplam varyasyon mesafesi P ve Q arasında, yani TV(P, Q). Böyle bir HPLB'nin yapımı ile ilgili açıklama ve detayları başka bir yazı için saklayacağız. her zaman bizim kontrol edebilirsiniz paper daha fazla ayrıntı için.

Neden Toplam Varyasyon Mesafesi?

Toplam varyasyon mesafesi, olasılıklar için güçlü (hassas) bir ölçüdür. Bu, iki olasılık dağılımı farklıysa, toplam varyasyon mesafesinin sıfır olmayacağı anlamına gelir. Genellikle kümelerdeki olasılıkların maksimum uyuşmazlığı olarak tanımlanır. Bununla birlikte, P ve Q olasılıkları arasında ayrı bir ölçüm aktarımı olarak daha sezgisel bir temsile sahiptir (bkz. Şekil 2):

Olasılık ölçüleri P ve Q arasındaki Toplam varyasyon mesafesi, olasılık ölçüsü Q'yu (veya tam tersini) elde etmek için P'den değiştirilmesi/taşınması gereken olasılık kütlesinin kesridir.

Pratik açıdan, toplam varyasyon mesafesi, λ için tam olarak doğru kavram olan P ve Q arasında farklılık gösteren noktaların kesirini temsil eder.

Şekil 2: Muhtemelen kütle farkı olarak TV(P, Q)'nun sol üst gösterimi. Sağ üstte, maksimum olasılık anlaşmazlığı olarak TV(P, Q) olarak olağan tanım (bir sigma-cebri üzerinden). P ve Q'dan (yazarlara göre) farklı olan kütlenin fraksiyonu olarak ayrık optimal taşıma formülasyonunun altını çizin.

Bir HPLB ve avantajı nasıl kullanılır?

λˆ tahmini, A/B testi için çekici çünkü bu tek sayı hem İstatistiksel anlamlılık (p-değerinin yaptığı gibi) ve etki büyüklüğü tahmin. Aşağıdaki gibi kullanılabilir:

  • Bir güven düzeyi tanımlayın (1-alfa);
  • İki örneğe dayalı olarak HPLB λˆ'yi oluşturun;
  • λˆ sıfır ise boş değeri reddetmeyin, aksi takdirde λˆ > 0 ise sıfırı reddeder ve λ'nın (farklı kesir) 1-alfa olasılıkla en az λˆ olduğu sonucuna varır.

Elbette ödenecek bedel, λˆ değerinin seçilen güven düzeyine (1-alfa) bağlı olması, p değerinin ise bundan bağımsız olmasıdır. Bununla birlikte, pratikte güven seviyesi çok fazla değişmez (genellikle %95'e ayarlanır).

Tıpta etki büyüklüğü örneğini ele alalım. Yeni bir ilacın, ilacı almayan bir plasebo grubuna kıyasla deney grubunda önemli bir etkiye sahip olması gerekir. Ancak etkinin ne kadar büyük olduğu da önemlidir. Bu nedenle, sadece p değerlerinden bahsetmemeli, aynı zamanda etki büyüklüğünün bir ölçüsünü de vermelisiniz. Bu, artık iyi tıbbi araştırmalarda geniş çapta tanınmaktadır. Gerçekten de, tedavi ve kontrol grupları arasındaki farkı açıklamak için tek değişkenli ortamda TV(P,Q) hesaplamak için daha sezgisel bir yaklaşım kullanan bir yaklaşım kullanılmıştır. HPLB yaklaşımımız, hem bir önem ölçüsü hem de bir etki boyutu sağlar. Bunu bir örnek üzerinde açıklayalım:

bir örnek yapalım

İki boyutta P ve Q dağılımını simüle ediyoruz. Bu durumda P yalnızca çok değişkenli bir normal olurken, Q bir karışım P ile kaydırılmış ortalamalı çok değişkenli bir normal arasında.

kitaplık(mvtnorm)
kitaplık(HPLB)
set.tohum(1)
n<-2000
p<-2
#Daha büyük delta -> P ve Q arasında daha fazla fark
#Smaller delta -> P ve Q arasında daha az fark
delta<-0
# Belirli bir delta için X~P ve Y~Q'yu simüle edin
U<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=delta)*rmvnorm(n=n, ortalama=rep(2,p), sig=diag(p))+ (1-(U <=delta))*rmvnorm(n=n, işaret=tanı(p))
arsa(Y, cex=0.8, col="darkblue")
puan(X, cex=0.8, col="kırmızı")

Karışım ağırlığı deltası, iki dağılımın ne kadar farklı olduğunu kontrol eder. 0 ile 0.9 arasında değişen delta şuna benzer:

Verileri delta=0 (sağ üst), delta=0.05, (sol üst), delta=0.3 (sağ alt) ve delta=0.8 (sol alt) ile simüle edin. Kaynak: yazar

Daha sonra bu senaryoların her biri için HPLB'yi hesaplayabiliriz:

#Her durum için HPLB'yi tahmin edin (deltayı değiştirin ve kodu yeniden çalıştırın)
t.train<- c(tekrar(0,n/2), tekrar(1,n/2) )
xy.train <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(tekrar(0,n/2), tekrar(1,n/2) )
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- korucu::korucu(t~., data.frame(t=t.train,x=xy.train))
rho <- tahmin(rf, data.frame(t=t.test,x=xy.test))$tahminler
tvhat <- HPLB(t = t.test, rho = rho, estimator.type = "adapt")
televizyon

Bunu yukarıdaki tohum kümesiyle yaparsak,

Farklı deltalar için tahmini değerler.

Böylece HPLB, (i) iki dağılımda gerçekten hiçbir değişiklik olmadığını, yani delta sıfır olduğunda sıfır olduğunu, (ii) delta sadece 0.05 olduğunda çok küçük farkı zaten tespit etmeyi ve (iii) delta ne kadar büyükse fark o kadar büyüktür. Yine, bu değerler hakkında hatırlanması gereken en önemli şey, gerçekten bir anlam ifade ettikleridir - 0.64 değeri, gerçek TV için yüksek olasılıkla bir alt sınır olacaktır. Özellikle, sıfırdan büyük olan sayıların her biri, P=Q'nun %5 düzeyinde reddedildiği bir test anlamına gelir.

Sonuç:

A/B testi (iki örnekli test) söz konusu olduğunda, odak noktası genellikle bir istatistiksel testin reddedilme durumudur. Bir test sıfır dağılımını reddettiğinde, pratikte dağılım farkının bir yoğunluk ölçüsüne sahip olmak yararlıdır. Toplam varyasyon mesafesi üzerinde yüksek olasılıklı alt sınırların oluşturulması yoluyla, farklı olması beklenen gözlem fraksiyonu üzerinde bir alt sınır oluşturabilir ve böylece dağılımdaki farklılık ve kaymanın yoğunluğuna entegre bir yanıt sağlayabiliriz. .

feragatname ve kaynaklar: Pek çok ayrıntıyı (verimlilik, HPLB'lerin inşası, güç çalışmaları, …) atladığımızın farkındayız, ancak bir düşünme ufku açmayı umuyoruz. Mcevher detayları ve mevcut testlerle karşılaştırması bizim paper ve CRAN'da R-package HPLB'ye göz atın.

A/B testindeki p değerlerine bir alternatif Kaynak https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 https aracılığıyla yeniden yayınlandı ://towardsdatascience.com/feed

<!–

->

Zaman Damgası:

Den fazla Blockchain Danışmanları