从根本上说,简单地对具有固定的type-1错误()水平的相同数据进行重复测试的A / B测试是有缺陷的。这样做至少有两个原因。首先,重复的测试是相关的,但测试是独立进行的。其次,固定的α不能解决导致类型1错误膨胀的多次测试。αα
要查看第一个,请假设您在每次进行新观察时都进行了新测试。显然,任何两个后续的p值都将相关,因为在两次测试之间情况没有改变。因此,我们在@Bernhard的图中看到了一个趋势,证明了p值的这种相关性。n − 1
看到第二,我们注意到,即使当测试是独立具有以下的p值的概率与试验次数增加吨P (甲)= 1 - (1 - α )吨,其中阿是的情况下错误拒绝的原假设。因此,至少有一个阳性测试结果的概率与1相反αŤ
P(甲)= 1 - (1 - α )Ť,
一种1个当您反复进行a / b测试时。如果您只是在获得第一个阳性结果后简单地停下来,则只会显示该公式的正确性。换句话说,即使原假设是正确的,您最终也会拒绝它。因此,a / b测试是在没有效果的情况下查找效果的最终方法。
t + 1Ťp < α
α
P(甲)≤ α 。
α一dĴ= α / t ,
P(甲)听,说:αP(A )< α0.05
(0 ,0.1 )α = 0.05
正如我们所看到的,这种调整非常有效,并且说明了我们必须如何改变p值来控制家庭明智的错误率。具体来说,我们现在不再找到任何重要的检验,因为@Berhard的原假设是正确的。
P(甲)听,说:α
这是代码:
set.seed(1)
n=10000
toss <- sample(1:2, n, TRUE)
p.values <- numeric(n)
for (i in 5:n){
p.values[i] <- binom.test(table(toss[1:i]))$p.value
}
p.values = p.values[-(1:6)]
plot(p.values[seq(1, length(p.values), 100)], type="l", ylim=c(0,0.1),ylab='p-values')
abline(h=0.05, lty="dashed")
abline(v=0)
abline(h=0)
curve(0.05/x,add=TRUE, col="red", lty="dashed")