Questions tagged «optimal-stopping»

4
在两个独立比例的功效分析中,如何制定停止规则?
我是从事A / B测试系统的软件开发人员。我没有扎实的统计背景,但过去几个月一直在学习知识。 典型的测试方案包括比较网站上的两个URL。访客访问LANDING_URL,然后随机转发给URL_CONTROL或URL_EXPERIMENTAL。访客构成一个样本,并且当访客在该站点上执行某些所需的操作时,就会达到胜利的条件。这构成转化,转化率就是转化率(通常表示为百分比)。给定URL的典型转换率在0.01%到0.08%之间。我们运行测试以确定新URL与旧URL的比较。如果URL_EXPERIMENTAL被证明优于URL_CONTROL,我们替换URL_CONTROL用URL_EXPERIMENTAL。 我们使用简单的假设检验技术开发了一个系统。我在这里使用另一个CrossValidated问题的答案来开发此系统。 测试设置如下: 转化率估计CRE_CONTROL的URL_CONTROL使用历史数据来计算。 所希望的目标转化率CRE_EXPERIMENTAL的URL_EXPERIMENTAL是集。 通常使用0.95的显着性水平。 通常使用0.8的幂。 所有这些值一起用于计算所需的样本量。我正在使用R函数power.prop.test来获取此样本大小。 测试将一直进行到收集所有样品为止。此时,计算CR_CONTROL和的置信区间 CR_EXPERIMENTAL。如果它们不重叠,则可以宣布具有0.95的显着性水平和0.8的功效的获胜者。 但是,我们测试的用户有两个主要问题: 1.如果在测试过程中的某个时刻收集了足够的样本以显示明显的获胜者,是否可以停止测试? 2.如果在测试结束时没有宣布优胜者,我们是否可以进行更长的测试以查看是否可以收集足够的样本来找到优胜者? 应该注意的是,存在许多允许他们的用户完全按照我们自己的用户期望做的商业工具。我读到上面有很多谬论,但是我也遇到了停止规则的想法,并想探索在我们自己的系统中使用这种规则的可能性。 我们要考虑以下两种方法: 1.使用power.prop.test,将当前测得的转换率与当前样本数进行比较,查看是否已收集到足够的样本来宣布获胜者。 示例:已设置测试以查看我们的系统中是否存在以下行为: CRE_CONTROL:0.1 CRE_EXPERIMENTAL:0.1 * 1.3 使用这些参数,样本量N为1774。 但是,随着测试的进行并达到325个样本,CRM_CONTROL(测得的对照转化率)为0.08,CRM_EXPERIMENTAL为0.15。power.prop.test是以这些转化率运行的,N得出的是325。确切地说CRM_EXPERIMENTAL,要成为赢家,需要的样本数量!在这一点上,我们希望测试能够结束。类似地,如果测试达到1774个样本但未找到获胜者,但随后达到2122个样本,这足以表明结果CRM_CONTROL0.1和CRM_EXPERIMENTAL0.128是可以宣布获胜者的结果。 在一个相关的问题中,用户建议这种测试的可信度较低,这是因为鼓励提早停止采样,减少样本数量,而且容易受到估计偏差的影响,并且I型和II型错误的数量增加。有什么方法可以使此停止规则起作用?这是我们的首选方法,因为这对我们意味着更少的编程时间。也许此停止规则可以通过提供某种数值分数或一些分数来衡量测试的可信度而起作用,如果测试应尽早停止呢? 2.使用顺序分析或SPRT。 这些测试方法是专门针对我们所处的情况而设计的:我们的用户如何开始测试并以不浪费过多测试时间的方式结束测试?运行测试时间过长,或者必须使用不同的参数重新开始测试。 在上述两种方法中,我更喜欢SPRT,因为数学对我来说更容易理解,并且看起来似乎更容易编程。但是,我不明白如何在这种情况下使用似然函数。如果有人可以构造一个示例,说明如何计算似然比,似然比的累积总和,并继续执行一个示例,说明当某人继续监视,何时接受零假设和替代假设时的情况,这将有助于我们确定SPRT是否是正确的方法。

3
可选的停止规则不在教科书中
停止规则会影响P值与决策相关的错误率之间的关系。Simmons等人的最新论文。2011年创造了一个术语“ 研究人员自由度”来描述一系列行为,他们认为这些行为是造成心理学文献中许多报告不可重复的报告的原因。 在这些行为中,我当前感兴趣的是可选的停止规则或未声明的临时分析。我向学生描述了它们对错误率的影响,但似乎在我的学生所使用的教科书中没有描述(或不描述)采用!)。在我大学的主书店中,有十四本针对生物科学,商业,工程等各个学科的入门级学生的统计教科书。这些教科书中只有一本包含索引项“顺序测试”,而没有一个索引项“停止规则”。 是否有入门级的统计教科书来说明可选的停止规则的问题? 西蒙斯(JP),尼尔森(LD)和西蒙索恩(U)(2011)。错误正面心理学:数据收集和分析中未公开的灵活性允许提出任何有意义的内容。心理科学,22(11),1359–1366。doi:10.1177 / 0956797611417632

2
为什么在达到最佳样本量之前停止A / B测试是错误的?
我负责介绍我公司的A / B测试结果(在网站上运行)。我们进行了一个月的测试,然后定期检查p值,直到达到显着性为止(或者,如果长时间运行后未达到显着性,则放弃),我现在发现这是一种错误的做法。 我现在想停止这种做法,但是要这样做,我想了解为什么这是错误的。我知道效果大小,样本大小(N),α显着性标准(α)和统计功效,或选择或隐含的β(β)在数学上都是相关的。但是,在达到所需样本量之前停止测试会发生什么变化呢? 我在这里阅读了几篇文章(即this,this和this),他们告诉我,我的估计会有所偏差,并且我的Type 1错误的发生率急剧增加。但是那是怎么发生的呢?我正在寻找数学解释,这种解释可以清楚地显示出样本量对结果的影响。我想这与我上面提到的因素之间的关系有关,但是我无法找出确切的公式并自行解决。 例如,过早停止测试会增加类型1的错误率。好的。但为什么?如何增加类型1的错误率?我想念这里的直觉。 请帮忙。

1
钓鱼问题
假设您想在上午8点至晚上8点去附近的湖钓鱼。由于过度捕捞,已经制定了一项法律,规定您每天只能捕捞一条鱼。当您抓到一条鱼时,您可以选择保留它(然后将其带回家),或将其扔回湖中继续捕鱼(但要冒着以后再用较小的鱼或根本不养鱼的风险)的选择。您想钓到尽可能多的鱼;具体来说,您想使您带回家的鱼的预期数量最大化。 形式上,我们可能会这样设置此问题:以一定的速度捕获鱼(因此,捕获下一条鱼所需的时间遵循已知的指数分布),并且捕获的鱼的大小遵循某些(也称为)分布。我们需要一些决策过程,根据当前时间和您刚抓到的鱼的大小,来决定是保留鱼还是将其扔回去。 所以问题是:该如何做出决定?是否有一些简单(或复杂)的方法来决定何时停止钓鱼?我认为问题等同于在给定的时间t内确定最佳渔民在时间t开始要带回家的预期鱼群数量。当且仅当鱼比预期的质量重时,最佳决策过程才能保留鱼。但这似乎是自指的。我们正在根据最佳渔民来定义最佳捕捞策略,但我不确定如何进行。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.