A/B テストにおける p 値の代替手段

総変動距離の高確率下限 (HPLB) が、A/B テストで統合された魅力的なテスト統計につながる方法

図 1: 元の論文の図 (著者による)

貢献者: ロリス・ミシェル, ジェフリー・ナーフ

一般的な A/B テストの従来の手順、つまり XNUMX つの観測グループが異なる分布 (P と Q など) に由来するかどうかを判断する手順は次のとおりです。

  • 帰無仮説と対立仮説を仮定します (ここでは、それぞれ P=Q と P≠Q)。
  • 有意水準アルファを定義します。
  • 統計的検定 (null を拒否するかどうかのバイナリ決定) を構築します。
  • 検定統計量 T を導出します。
  • T の近似/漸近/正確な null 分布から p 値を取得します。

ただし、そのような検定で null が棄却される場合、つまり、p 値が (所定のレベルで) 有意である場合、P と Q の差がどの程度強いかを測定する手段がまだありません。 実際、テストの拒否ステータスは、最新のアプリケーション (複雑なデータ) では役に立たない情報であることが判明する可能性があります。これは、十分なサンプル サイズ (一定のレベルと検出力を想定) があれば、すべてのテストが null を拒否する傾向があるためです (完全に一致することはめったにないため)。真実)。 たとえば、分布の違いを裏付けるデータ ポイントの数を把握することは興味深いことです。

したがって、P と Q からの有限サンプルに基づいて、「P は Q と異なるか?」よりも細かい質問になります。 「P と Q の間の分布の違いを実際にサポートする観測値 λ の割合の確率的下限は何ですか?」と述べることができます。 これは、高い確率で λ^ ≤ λ を満たす推定値 λ^ の構築に正式に変換されます (たとえば、1-アルファ)。 このような見積もりを 高確率下限 (HPLB) λ 上。

このストーリーでは、A/B テストでの HPLB の使用を動機付け、なぜ λ の正しい概念が 総変動距離 P と Q の間、つまり TV(P, Q)。 このような HPLB の構築に関する説明と詳細については、別の記事に譲ります。 あなたはいつでも私たちをチェックすることができます パーフr のガイドをご参照ください。

なぜ総変動距離なのか?

総変動距離は、確率の強力な (細かい) メトリックです。 これは、2 つの確率分布が異なる場合、それらの合計変動距離が非ゼロになることを意味します。 通常、セットの確率の最大の不一致として定義されます。 ただし、確率 P と Q の間の測定の離散トランスポートとして、より直感的に表現できます (図 XNUMX を参照)。

確率測定 P と Q の間の総変動距離は、確率測定 Q を取得するために P から変更/移動する必要がある (またはその逆) 確率質量の割合です。

実際には、変動距離の合計は、P と Q の間で異なる点の割合を表し、これは λ の正確な概念です。

図 2: 推定質量の差としての TV(P, Q) の左上の表現。 右上は、最大確率の不一致 (シグマ代数上の) としての TV(P, Q) としての通常の定義です。 P および Q とは異なる質量分率としての離散最適輸送定式化の底部 (著者による)。

HPLB の使用方法とその利点

推定 λˆ は、A/B テストにとって魅力的です。 統計的有意性 (p 値と同様) と 効果の大きさ 推定。 次のように使用できます。

  • 信頼レベル (1-アルファ) を定義します。
  • XNUMX つのサンプルに基づいて HPLB λˆ を構築します。
  • λ^ がゼロの場合、null を棄却しません。それ以外の場合、λ^ > 0 の場合、null を棄却し、λ (異なる部分) が確率 1-alpha で少なくとも λ^ であると結論付けます。

もちろん、支払うべき代償は、λ^ の値が選択された信頼レベル (1-アルファ) に依存するのに対し、p 値はそれとは無関係であることです。 それにもかかわらず、実際には信頼水準は大きく変化しません (通常は 95% に設定されます)。

医学における効果量の例を考えてみましょう。 新しい薬は、薬を投与されなかったプラセボ群と比較して、実験群で有意な効果を発揮する必要があります. しかし、効果の大きさも重要です。 そのため、p 値について話すだけでなく、効果の大きさの尺度も示す必要があります。 これは現在、優れた医学研究で広く認識されています。 実際、TV(P,Q) を計算するためのより直感的なアプローチを使用するアプローチは、治療群と対照群の違いを説明するために単変量設定で使用されています。 当社の HPLB アプローチは、有意性の尺度と効果量の両方を提供します。 例でこれを説明しましょう:

例を挙げましょう

XNUMX つの分布 P と Q を XNUMX 次元でシミュレートします。 したがって、P は単なる多変量正規分布になりますが、Q は 混合 P とシフトされた平均を持つ多変量正規分布の間。

ライブラリ(mvtnorm)
ライブラリ(HPLB)
セット.シード(1)
n<-2000
p<-2
#デルタが大きい -> P と Q の差が大きい
#デルタが小さい -> P と Q の差が小さい
デルタ<-0
# 指定されたデルタの X~P と Y~Q をシミュレート
U<-runif(n)
X<-rmvnorm(n=n, sig=diag(p))
Y<- (U <=デルタ)*rmvnorm(n=n, 平均=rep(2,p), sig=diag(p))+ (1-(U <=デルタ))*rmvnorm(n=n, sig=diag(p))
plot(Y, cex=0.8, col="ダークブルー")
ポイント(X, cex=0.8, col="red")

混合加重デルタは、0 つの分布の強度の違いを制御します。 デルタを 0.9 から XNUMX まで変化させると、次のようになります。

デルタ=0 (右上)、デルタ=0.05 (左上)、デルタ=0.3 (右下)、デルタ=0.8 (左下) でデータをシミュレートします。 出典:著者

次に、これらのシナリオごとに HPLB を計算できます。

# ケースごとに HPLB を推定する (デルタを変更してコードを再実行する)
t.train<- c(rep(0,n/2), rep(1,n/2) )
xy.train <-rbind(X[1:(n/2),], Y[1:(n/2),])
t.test<- c(rep(0,n/2), rep(1,n/2) )
xy.test <-rbind(X[(n/2+1):n,], Y[(n/2+1):n,])
rf <- ranger::ranger(t~., data.frame(t=t.train,x=xy.train))
rho <- predict(rf, data.frame(t=t.test,x=xy.test))$predictions
tvhat <- HPLB(t = t.test, rho = rho, estimator.type = "adapt")
テレビハット

上記のシードセットでそれを行うと、

さまざまなデルタの推定値。

したがって、HPLB は、(i) 0.05 つの分布に実際に変化がない場合、つまりデルタがゼロの場合はゼロであることを検出し、(ii) デルタがわずか 0.64 の場合にすでに非常に小さな差を検出し、(iii)差は、デルタが大きいほど大きくなります。 繰り返しますが、これらの値について覚えておくべき重要なことは、それらが実際に何かを意味するということです。値 5 は、高い確率で真の TV の下限になります。 特に、ゼロより大きい数値のそれぞれは、P=Q が XNUMX% レベルで拒否されたというテストを意味します。

結論:

A/B テスト (XNUMX サンプル テスト) に関しては、多くの場合、統計テストの拒否ステータスに焦点が当てられます。 ただし、検定で帰無分布が棄却された場合でも、実際には分布差の強度測定値を取得すると便利です。 総変動距離の確率の高い下限を構築することにより、異なると予想される観測の割合の下限を構築し、分布の違いとシフトの強度に対する統合された答えを提供できます。 .

免責事項とリソース: 多くの詳細 (効率、HPLB の構築、電力研究など) を省略したことは承知していますが、思考の地平を開いていただければ幸いです。 M鉱石の詳細と既存のテストとの比較は、 パーフr CRANのRパッケージHPLBをチェックしてください。

A/B テストにおける p 値の代替 ソースから再公開 https://towardsdatascience.com/an-alternative-to-p-values-in-ab-testing-44f1406d3f91?source=rss—-7f60cf5620c9—4 https 経由://towardsdatascience.com/feed

<!–

–>

タイムスタンプ:

より多くの ブロックチェーンコンサルタント