在开始实验或无限期进行实验之前确定样本量?


12

几年前,我研究了统计学,却忘记了这一切,因此这些似乎比一般的问题更像是一般的概念性问题,但这是我的问题。

我在电子商务网站上以UX设计师的身份工作。我们有一个几年前建立的A / B测试框架,我对此表示怀疑。

我们做出所有决策所依据的指标称为转化,它基于访问该网站并最终购买商品的用户百分比。

因此,我们要测试将“购买”按钮的颜色从绿色更改为蓝色。

该控件就是我们已经拥有的控件,绿色按钮是我们知道平均转化率是多少。实验是将绿色按钮替换为蓝色按钮。

我们同意95%的显着性是我们满意的置信度,我们开启了实验,使其继续运行。

当用户访问网站时,在后台,他们有50/50的机会会被发送到对照版本(绿色按钮)与实验版本(蓝色按钮)。

经过7天的实验后,我发现转化率提高了10.2%,而样本量为3000(对照组为1500,实验为1500),统计学意义为99.2%。我认为很好。

实验继续进行,样本量增加,然后我发现转化率增加了9%,显着性为98.1%。好的,让实验运行更长的时间,现在实验仅显示出5%的提升,统计显着性仅为92%,框架告诉我在达到95%的显着性之前我还需要4600个样本?

那么实验在什么时候得出结论?

如果我想说一个临床试验过程,您需要事先就样本量达成共识,并完成实验,则无论何种度量标准都能将其提高10%,达到99%的显着性,然后就决定将该药物投放市场。但是,如果他们对4000人进行了实验,并且发现无论将哪种指标提高5%,只有92%的显着性,那么该药就不会被允许投放市场。

我们是否应该事先就样本量达成一致并在达到该样本量后立即停止并对结果满意(如果在关闭实验时的显着性为99%)?


1
您可能会考虑根据排名和选择使用其他方法。
pjs

我看过这部电影(youtube.com/watch?v=fl9V0U2SGeI)。在我看来,它确实可以回答您的问题。
弥敦道

还需要注意的基本研究内容是高度自反,快速移动并且需要不断的重复测试。布局,颜色,按钮等随着新站点,标准和样式的出现而快速移动。组合问题的级别也很高(该按钮可能会返回不同的结果,并且会稍微调整背景颜色等)。结果,无论显着性水平如何,即使结果看起来很强,也不能对结果具有很高的“真实”置信度(当然也不能长期)。
菲利普(Philip)

Answers:


11

我认为您要搜索的概念是顺序分析。这个站点上有很多问题都标有您可能会觉得有用的术语,也许是为自适应顺序分析(用于卡方检验)调整p值?将是一个起点。您也可以在此处查阅Wikipedia文章。另一个有用的搜索字词是Alpha支出,它来自以下事实:每次重复查看时,您都应将其视为用尽了部分Alpha(重要性水平)。如果在不考虑多重比较的情况下继续查看数据,则会遇到问题中概述的问题。


谢谢,这是一些不错的阅读建议。我什至不知道该搜索什么。会消耗掉这个。
Tech 75'5

5

那么实验在什么时候得出结论?

我认为这就是思维错误所在。如果您认为实验是“演绎地证明因果关系”,那么该实验就不可能是“结论性”的。当您进行涉及统计检验的实验时,您需要对您认为足够好的证据做出承诺。

统计上合理的实验程序可为您提供已知误报率和误报率的结果。如果您选择的程序使用0.05作为显着性阈值,则表示您愿意接受5%的情况下实际上没有差异,您的测试将告诉您存在差异。

如果您以描述的方式偏离程序(未提前选择停止点,则只需运行测试,直到计算出的p值降至0.05以下,或多次运行整个实验,直到获得阳性结果) ,等等),那么您实际上更有可能通过测试告诉您存在差异,而实际上没有差异。您正在使自己更有可能误以为您的更改是有效的。不要让自己受骗。

阅读本文:错误正面心理学数据收集和分析中未公开的灵活性允许呈现任何重要内容

它着重介绍了几种不当干扰测试程序的方式,这些方式可能会让您更容易上当,包括所描述的确切情况(不知道何时停止实验)。

其他答案为您提供了一些缓解这些问题的解决方案(顺序分析,多次比较的Bonferroni校正)。但是,这些解决方案,同时能够控制假阳性率,通常会降低实验的能力,使得它当他们较少可能检测到的差异存在。


您正在犯另一个错误。您说的是“将所有指标提高10%,将重要性提高到99%”。显着性检验只能告诉你是否你的样品中观察到的差异很可能是由于真正的根本区别或只是随机噪声; 他们不会给您关于差异的真实大小的置信区间。


3

我认为您在这里问错了问题。您要问的问题是关于统计检验的问题;我认为正确的问题是“为什么影响会随着时间而改变?”

如果您要衡量一个0/1变量来进行转换(他们买了吗?),那么初次购买时没有购买的人可能会稍后再购买。这意味着转换率将随着时间的推移而增加,并且与第一次访问相比,第一次访问时购买客户的任何影响都将丢失。

换句话说,首先得到正确的东西你测量,然后担心如何你测量。


3

这就是为什么需要在试验前定义明确标准的原因。正如@mdewey指出的那样,已经建立了定期评估试验的方法,但是所有这些方法都需要明确的停止标准,以防止对决策产生任何误解。两个关键问题是您需要校正多个比较,并且每个分析不是独立的,但是其结果在很大程度上受到先前分析结果的影响。

或者,最好的做法是根据与商业相关的论据来定义样本集的大小。

首先,公司应同意什么是与转换率相关的商业意义的变化(即,需要多大的差异才能保证为永久部署该变化提供商业理由)。不同意这一点,就没有明智的基准。

一旦确定了与商业相关的最小影响大小(请注意,具体情况可能会根据所测试步骤的关键程度而有所不同),那么您就可以同意公司愿意为缺失真实影响而承担的风险等级(测试版)和接受虚假效果(测试版)。

一旦获得这些数字,将它们插入样本量计算器并确定,您将拥有设置的样本量来做出决定。


编辑

使用小样本量并希望它们会显示出足够大的效果是不正确的(因为您的目标是可行的,可靠的结果,而不是为学术出版物生成有争议的假设)。假设采样是无偏的,则在低样本量下随机选择碰巧都朝相反极端的样本的概率要比在高样本量下高。实际上没有区别时,这会导致拒绝原假设的可能性更高。因此,这意味着要推动那些实际上并没有产生真正影响甚至更负面影响的变化。这是解释@Science在说什么时所谈论的另一种方式

“实际上,当没有差异时,您更有可能通过测试来告诉您存在差异”

预先指定统计分析(无论是我描述的固定样本量还是多重评估策略),是要适当地平衡I型和II型错误的需求。您当前的策略似乎专注于I型错误,而完全忽略了II型。

正如许多其他答复者指出的那样,结果永远不是结论性的,但是如果您同时考虑了I型和II型错误及其对业务的影响,那么您将最有信心地希望是否根据结果实施更改。最后,决策就是要适应风险水平,并且永远不要将“事实”视为一成不变。

您的研究设计的其他方面可能会影响您看到的结果,这让我很感兴趣。他们可能正在揭示一些您不想要的微妙因素。

是为样本选择的人员是所有新访客,所有回国访客还是没有区别的人?既有的客户可能会倾向于采用新颖的东西(因此倾向于改变颜色而不是特定的颜色),但是对于新客户而言,一切都是新的。

在研究的时间范围内,实际点击的人是否会再次出现?

如果人们在研究的时间范围内多次访问,他们会得到相同的版本,还是会被随机分配?

如果包括经常性访问者,则存在暴露疲劳的危险(不再分心,因为它不再是新来的)


谢谢你 您事先同意了与转化相关的商业意义,这一点很重要。但是,就像电子商务一样,转化的微小变化会影响销售,因此价值将非常低。
Tech 75'5

所需的最小差异很小不是问题,它将确保您适当地供电。
ReneBt '18年

0

常规做法通常要求您首先确定样本量(以控制假设检验的统计能力),然后再执行实验。

响应您当前的职位,听起来您就像在组合一系列假设检验之后。我建议您看看费舍尔的方法。另外,您可能想看一下Brown或Kost的方法,以使Fisher的方法适应相关的测试统计数据。正如另一位受访者所提到的那样,无论按钮是什么颜色,客户的转换(或不转换)都会影响他们下次是否会购物(或不购买)。

事后思考:

  1. 有关Fisher的方法及其扩展的更多信息和资料,可以在Wikipedia上有关Fisher的方法的文章中找到。
  2. 我感到有必要提及的是,实验从未真正得出结论。较小的p值并不表示您的结果是结论性的-只是根据您所获取的数据得出的零假设不太可能。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.