通过重新运行实验来验证Web A / B测试-这有效吗?


11

某天,一家a / b测试公司举行的网络研讨会上,其驻地“数据科学家”解释说,您应该通过重新运行实验来验证结果。前提是,如果您选择95%的置信度,则有5%(1/20)的假阳性机会。如果您以相同的约束条件重新运行实验,那么现在会有1/400(我假设他们将其确定为0.05 ^ 2 = 1/400)

这是有效的声明吗?(即“两次运行,两次统计显着性获胜=假阳性概率的1/400”)?这是提高您的显着性水平的更好方法吗?

从业务的角度来看,我所关心的是通过重新运行实验,使更多的用户接触到劣等的页面(处理),从而失去了潜在的销售额。


2
约翰,您好,欢迎来到Stats.SE!如果您对这两个答案都满意,则应该接受其中一个,或者提供有关所需内容的更明确的问题。
Christopher Aden 2014年

约翰,我怀疑真正的问题与背景有关。人们很少会专门投入资源来一次只学习一件事:他们有充分的理由要充分利用自己的数据。这意味着每个数据集将用于多个测试。而且,有时测试是事后进行的:它们是受数据中所见模式的启发。在这种情况下,测试实际上没有所需的95%(或任何其他值)置信度,因此复制是必不可少的。那么:“实验”到底是什么意思?答案取决于那个小细节!
ub

关于实验的重复次数和重要性值,请查看以下XKCD漫画:xkcd.com/882
Lucas Gallindo 2014年

抱怨者:抱歉,由于缺乏细节,我指的是网站优化,因此,一个示例实验将试用两个版本的首页,每个版本分别分配50/50的用户。
约翰

Answers:


3

暂时忽略误报的可能性,我会这样看:

  1. 如果您进行两次实验均获得相同的结果,则您将不知道连续存在两个真实阳性结果还是两个虚假阳性结果。
  2. 如果您进行两次实验并获得两个不同的结果,那么您将不知道哪个是真正的阳性结果,哪个是错误的阳性结果。

无论哪种情况,您都应该进行第三个实验,以确定。对于相对便宜的实验来说,这也许不错,但是在成本可能很高(例如失去客户)的地方,您确实需要考虑收益。

从概率上来看,您第一次运行实验时,有1/20的概率为假阳性。第二次运行实验时,仍然有1/20的机会会出现假阳性(将其视为掷骰子,每掷骰子就有1/6的机会获得一定的数字)。连续出现两个误报的机会只有1/400。

真正的问题是要有一个严格定义的假设和严格的程序,并要有一个可以承受或负担得起的样本量,误差水平和置信区间。重复实验应留待探索

  1. 客户随着时间的流逝
  2. 组织所做的更改
  3. 比赛改变

而不是第二个猜测结果。尽管向经理解释这一点说起来容易做起来难。


mjc,非常感谢您的评论-这正是我想要的。
约翰

2

是的,假设您的实验是理想的,那么这种说法是正确的。但是,要获得理想的实验要比获得这种信任更难。首先,“现实世界”数据混乱,复杂且难以解释。有很大的空间进行有缺陷的分析,隐藏的变量(很少有“相同的约束”)或在做工作的数据科学家和在做标记工作的执行人员之间发生误解。

从业务角度出发,确保采用好的方法论,不要对结果过于自信;一个比您想象的更棘手的挑战。一旦降低了这些,就可以在这5%上工作。


谢谢,这回答了第一个问题。第二个问题呢:“提高您的显着性水平会是更好的方法吗?” 只需在R中进行快速仿真(保持相同的效应大小和功效,仅改变显着性值),我只需选择97.5%的显着性即可收集大约4.8%的数据,而无需以95%的显着性进行2倍实验。我应该澄清-当我问“会不会更好。”我的意思是,我是否可以通过收集更少的数据来达到相同的最终结果。
约翰
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.