几年前,我研究了统计学,却忘记了这一切,因此这些似乎比一般的问题更像是一般的概念性问题,但这是我的问题。
我在电子商务网站上以UX设计师的身份工作。我们有一个几年前建立的A / B测试框架,我对此表示怀疑。
我们做出所有决策所依据的指标称为转化,它基于访问该网站并最终购买商品的用户百分比。
因此,我们要测试将“购买”按钮的颜色从绿色更改为蓝色。
该控件就是我们已经拥有的控件,绿色按钮是我们知道平均转化率是多少。实验是将绿色按钮替换为蓝色按钮。
我们同意95%的显着性是我们满意的置信度,我们开启了实验,使其继续运行。
当用户访问网站时,在后台,他们有50/50的机会会被发送到对照版本(绿色按钮)与实验版本(蓝色按钮)。
经过7天的实验后,我发现转化率提高了10.2%,而样本量为3000(对照组为1500,实验为1500),统计学意义为99.2%。我认为很好。
实验继续进行,样本量增加,然后我发现转化率增加了9%,显着性为98.1%。好的,让实验运行更长的时间,现在实验仅显示出5%的提升,统计显着性仅为92%,框架告诉我在达到95%的显着性之前我还需要4600个样本?
那么实验在什么时候得出结论?
如果我想说一个临床试验过程,您需要事先就样本量达成共识,并完成实验,则无论何种度量标准都能将其提高10%,达到99%的显着性,然后就决定将该药物投放市场。但是,如果他们对4000人进行了实验,并且发现无论将哪种指标提高5%,只有92%的显着性,那么该药就不会被允许投放市场。
我们是否应该事先就样本量达成一致并在达到该样本量后立即停止并对结果满意(如果在关闭实验时的显着性为99%)?