我正在尝试对贝叶斯方法进行A / B测试,就像在针对黑客的概率编程和贝叶斯A / B测试中一样。这两篇文章都假定决策者仅根据某些准则(例如的概率来决定哪个变量更好,因此更好。这种可能性无法提供有关是否有足够数据量可以得出任何结论的任何信息。因此,我不清楚何时停止测试。
假设有两个二进制RV,即和,我想根据和的观察来估计和的可能性是多少。此外,假设和是beta分布的。B p A > p BABpApB
由于我可以找到和的参数,可以对后验样本进行采样,并估计。python中的示例:p 甲p BP (p A > p B | data )
import numpy as np
samples = {'A': np.random.beta(alpha1, beta1, 1000),
'B': np.random.beta(alpha2, beta2, 1000)}
p = np.mean(samples['A'] > samples['B'])
我可以得到例如。现在,我想得到类似。P (p A > p B |数据)= 0.95 ± 0.03
我已经研究了可靠的区间和贝叶斯因子,但是如果它们完全适用,将无法理解如何为这种情况计算它们。我该如何计算这些其他统计信息,以便制定出良好的终止条件?