某天,一家a / b测试公司举行的网络研讨会上,其驻地“数据科学家”解释说,您应该通过重新运行实验来验证结果。前提是,如果您选择95%的置信度,则有5%(1/20)的假阳性机会。如果您以相同的约束条件重新运行实验,那么现在会有1/400(我假设他们将其确定为0.05 ^ 2 = 1/400)
这是有效的声明吗?(即“两次运行,两次统计显着性获胜=假阳性概率的1/400”)?这是提高您的显着性水平的更好方法吗?
从业务的角度来看,我所关心的是通过重新运行实验,使更多的用户接触到劣等的页面(处理),从而失去了潜在的销售额。
2
约翰,您好,欢迎来到Stats.SE!如果您对这两个答案都满意,则应该接受其中一个,或者提供有关所需内容的更明确的问题。
—
Christopher Aden 2014年
约翰,我怀疑真正的问题与背景有关。人们很少会专门投入资源来一次只学习一件事:他们有充分的理由要充分利用自己的数据。这意味着每个数据集将用于多个测试。而且,有时测试是事后进行的:它们是受数据中所见模式的启发。在这种情况下,测试实际上没有所需的95%(或任何其他值)置信度,因此复制是必不可少的。那么:“实验”到底是什么意思?答案取决于那个小细节!
—
ub
关于实验的重复次数和重要性值,请查看以下XKCD漫画:xkcd.com/882 。
—
Lucas Gallindo 2014年
抱怨者:抱歉,由于缺乏细节,我指的是网站优化,因此,一个示例实验将试用两个版本的首页,每个版本分别分配50/50的用户。
—
约翰