统计和大数据 sequential-analysis

4

我是从事A / B测试系统的软件开发人员。我没有扎实的统计背景，但过去几个月一直在学习知识。典型的测试方案包括比较网站上的两个URL。访客访问LANDING_URL，然后随机转发给URL_CONTROL或URL_EXPERIMENTAL。访客构成一个样本，并且当访客在该站点上执行某些所需的操作时，就会达到胜利的条件。这构成转化，转化率就是转化率（通常表示为百分比）。给定URL的典型转换率在0.01％到0.08％之间。我们运行测试以确定新URL与旧URL的比较。如果URL_EXPERIMENTAL被证明优于URL_CONTROL，我们替换URL_CONTROL用URL_EXPERIMENTAL。我们使用简单的假设检验技术开发了一个系统。我在这里使用另一个CrossValidated问题的答案来开发此系统。测试设置如下：转化率估计CRE_CONTROL的URL_CONTROL使用历史数据来计算。所希望的目标转化率CRE_EXPERIMENTAL的URL_EXPERIMENTAL是集。通常使用0.95的显着性水平。通常使用0.8的幂。所有这些值一起用于计算所需的样本量。我正在使用R函数power.prop.test来获取此样本大小。测试将一直进行到收集所有样品为止。此时，计算CR_CONTROL和的置信区间 CR_EXPERIMENTAL。如果它们不重叠，则可以宣布具有0.95的显着性水平和0.8的功效的获胜者。但是，我们测试的用户有两个主要问题： 1.如果在测试过程中的某个时刻收集了足够的样本以显示明显的获胜者，是否可以停止测试？ 2.如果在测试结束时没有宣布优胜者，我们是否可以进行更长的测试以查看是否可以收集足够的样本来找到优胜者？应该注意的是，存在许多允许他们的用户完全按照我们自己的用户期望做的商业工具。我读到上面有很多谬论，但是我也遇到了停止规则的想法，并想探索在我们自己的系统中使用这种规则的可能性。我们要考虑以下两种方法： 1.使用power.prop.test，将当前测得的转换率与当前样本数进行比较，查看是否已收集到足够的样本来宣布获胜者。示例：已设置测试以查看我们的系统中是否存在以下行为： CRE_CONTROL：0.1 CRE_EXPERIMENTAL：0.1 * 1.3 使用这些参数，样本量N为1774。但是，随着测试的进行并达到325个样本，CRM_CONTROL（测得的对照转化率）为0.08，CRM_EXPERIMENTAL为0.15。power.prop.test是以这些转化率运行的，N得出的是325。确切地说CRM_EXPERIMENTAL，要成为赢家，需要的样本数量！在这一点上，我们希望测试能够结束。类似地，如果测试达到1774个样本但未找到获胜者，但随后达到2122个样本，这足以表明结果CRM_CONTROL0.1和CRM_EXPERIMENTAL0.128是可以宣布获胜者的结果。在一个相关的问题中，用户建议这种测试的可信度较低，这是因为鼓励提早停止采样，减少样本数量，而且容易受到估计偏差的影响，并且I型和II型错误的数量增加。有什么方法可以使此停止规则起作用？这是我们的首选方法，因为这对我们意味着更少的编程时间。也许此停止规则可以通过提供某种数值分数或一些分数来衡量测试的可信度而起作用，如果测试应尽早停止呢？ 2.使用顺序分析或SPRT。这些测试方法是专门针对我们所处的情况而设计的：我们的用户如何开始测试并以不浪费过多测试时间的方式结束测试？运行测试时间过长，或者必须使用不同的参数重新开始测试。在上述两种方法中，我更喜欢SPRT，因为数学对我来说更容易理解，并且看起来似乎更容易编程。但是，我不明白如何在这种情况下使用似然函数。如果有人可以构造一个示例，说明如何计算似然比，似然比的累积总和，并继续执行一个示例，说明当某人继续监视，何时接受零假设和替代假设时的情况，这将有助于我们确定SPRT是否是正确的方法。

18 power-analysis ab-test sequential-analysis optimal-stopping

3

如果事先声明，可以动态增加样本数量吗？

我将研究一种刺激与受试者内部设计相比另一种刺激的优点。我有一个排列方案，旨在减少研究某些部分的顺序影响（任务类型顺序，刺激顺序，任务集顺序）。排列方案规定样本大小可被8整除。要确定样本数量，我必须大胆猜测（在我的领域中是一个很好的传统），或者为我所需的功效计算样本数量。现在的问题是，我没有丝毫线索要观察多大的效果（这也是我所在领域的良好传统）。这意味着功率计算有些困难。另一方面，大胆猜测可能也是不好的，因为我要么得出的样本量太小，要么向参与者支付太多的钱，而在实验室中花费了太多的时间。是否可以预先声明我分8个人加入参与者，直到我离开两个p值的通道？例如0.05 <p <0.30？或者，您会建议我如何继续？

13 experiment-design sample-size power-analysis sequential-analysis

5

在开始实验或无限期进行实验之前确定样本量？

几年前，我研究了统计学，却忘记了这一切，因此这些似乎比一般的问题更像是一般的概念性问题，但这是我的问题。我在电子商务网站上以UX设计师的身份工作。我们有一个几年前建立的A / B测试框架，我对此表示怀疑。我们做出所有决策所依据的指标称为转化，它基于访问该网站并最终购买商品的用户百分比。因此，我们要测试将“购买”按钮的颜色从绿色更改为蓝色。该控件就是我们已经拥有的控件，绿色按钮是我们知道平均转化率是多少。实验是将绿色按钮替换为蓝色按钮。我们同意95％的显着性是我们满意的置信度，我们开启了实验，使其继续运行。当用户访问网站时，在后台，他们有50/50的机会会被发送到对照版本（绿色按钮）与实验版本（蓝色按钮）。经过7天的实验后，我发现转化率提高了10.2％，而样本量为3000（对照组为1500，实验为1500），统计学意义为99.2％。我认为很好。实验继续进行，样本量增加，然后我发现转化率增加了9％，显着性为98.1％。好的，让实验运行更长的时间，现在实验仅显示出5％的提升，统计显着性仅为92％，框架告诉我在达到95％的显着性之前我还需要4600个样本？那么实验在什么时候得出结论？如果我想说一个临床试验过程，您需要事先就样本量达成共识，并完成实验，则无论何种度量标准都能将其提高10％，达到99％的显着性，然后就决定将该药物投放市场。但是，如果他们对4000人进行了实验，并且发现无论将哪种指标提高5％，只有92％的显着性，那么该药就不会被允许投放市场。我们是否应该事先就样本量达成一致并在达到该样本量后立即停止并对结果满意（如果在关闭实验时的显着性为99％）？

12 hypothesis-testing sample-size sequential-analysis

2

调整p值以进行自适应顺序分析（用于卡方检验）？

我想知道哪些统计文献与以下问题有关，甚至可能有关于如何解决该问题的想法。想象以下问题：对于某些疾病，我们有4种可能的治疗方法。为了检查哪种治疗更好，我们进行了一次特殊的试验。在试验中，我们从没有受试者开始，然后一个接一个地将更多受试者输入试验。每个患者随机分配到4种可能的治疗方法之一。治疗的最终结果是“健康”或“仍然生病”，我们可以立即知道该结果。这意味着，在任何给定的点上，我们都可以创建一个2 x 4的列联表，说明我们有多少受试者属于哪种治疗/最终结果。在任何时候，我们都可以检查列联表（例如，使用卡方检验），以查看这4种可能的治疗方法之间在统计学上是否存在不同的治疗方法。如果其中一个比较好，那么其余所有-我们将停止试验并选择它作为“优胜者”。如果某个试验被证明比其他三个试验都更糟，我们将把他从试验中删除，并停止提供给将来的患者。但是，这里的问题是我如何针对可以在任何给定点执行测试，测试之间存在相关性以及过程的自适应性质操纵过程的事实来调整p值。例如，如果发现某些治疗方法“不好”）？

12 hypothesis-testing chi-squared p-value multiple-comparisons sequential-analysis

2

贝叶斯方法本质上是顺序的吗？

也就是说，要使用频繁性方法进行顺序分析（您无法提前确切地知道要收集多少数据），需要特别注意；您不能仅在p值变得足够小或置信区间变得足够短之前收集数据。但是，在进行贝叶斯分析时，这是否值得关注？我们可以自由地做诸如收集数据之类的事情，直到可信间隔变得足够小时吗？

12 bayesian inference philosophical sequential-analysis

1

更新贝叶斯因子

在贝叶斯假设检验和贝叶斯模型选择中，贝叶斯因子是通过两个边际可能性的比率来定义的：给定iid样本以及各自的采样密度和，具有相应的先验和，用于比较两个模型的贝叶斯因子为一书，我目前正在审查有奇怪的声明，上面的贝叶斯因子(x1,…,xn)(x1,…,xn)(x_1,\ldots,x_n)f1(x|θ)f1(x|θ)f_1(x|\theta)f2(x|η)f2(x|η)f_2(x|\eta)π1π1\pi_1π2π2\pi_2B12(x1,…,xn)=defm1(x1,…,xn)m2(x1,…,xn)=def∫∏ni=1f1(xi|θ)π1(dθ)∫∏ni=1f2(xi|η)π2(dη)B12(x1,…,xn)=defm1(x1,…,xn)m2(x1,…,xn)=def∫∏i=1nf1(xi|θ)π1(dθ)∫∏i=1nf2(xi|η)π2(dη)\mathfrak{B}_{12}(x_1,\ldots,x_n)\stackrel{\text{def}}{=}\frac{m_1(x_1,\ldots,x_n)}{m_2(x_1,\ldots,x_n)}\stackrel{\text{def}}{=}\frac{\int \prod_{i=1}^n f_1(x_i|\theta)\pi_1(\text{d}\theta)}{\int \prod_{i=1}^n f_2(x_i|\eta)\pi_2(\text{d}\eta)}B12(x1,…,xn)B12(x1,…,xn)\mathfrak{B}_{12}(x_1,\ldots,x_n)是“通过将各个[贝叶斯因子]相乘而形成的”（第118页）。如果使用分解但我看不到此分解的计算优势，因为需要与的原始计算相同的计算量B12(x1,…,xn)=m1(x1,…,xn)m2(x1,…,xn)=m1(xn|x1,…,xn−1)m2(xn|x1,…,xn−1)×m1(xn−1|xn−2,…,x1)m2(xn−1|xn−2,…,x1)×⋯⋯×m1(x1)m2(x1)B12(x1,…,xn)=m1(x1,…,xn)m2(x1,…,xn)=m1(xn|x1,…,xn−1)m2(xn|x1,…,xn−1)×m1(xn−1|xn−2,…,x1)m2(xn−1|xn−2,…,x1)×⋯⋯×m1(x1)m2(x1)\begin{align*}\mathfrak{B}_{12}(x_1,\ldots,x_n)&=\frac{m_1(x_1,\ldots,x_n)}{m_2(x_1,\ldots,x_n)}\\&=\frac{m_1(x_n|x_1,\ldots,x_{n-1})}{m_2(x_n|x_1,\ldots,x_{n-1})}\times \frac{m_1(x_{n-1}|x_{n-2},\ldots,x_1)}{m_2(x_{n-1}|x_{n-2},\ldots,x_1)}\times\cdots\\&\qquad\cdots\times\frac{m_1(x_1)}{m_2(x_1)}\end{align*}m1(xn|x1,…,xn−1)m2(xn|x1,…,xn−1)m1(xn|x1,…,xn−1)m2(xn|x1,…,xn−1)\frac{m_1(x_n|x_1,\ldots,x_{n-1})}{m_2(x_n|x_1,\ldots,x_{n-1})}m1(x1,…,xn)m2(x1,…,xn)m1(x1,…,xn)m2(x1,…,xn)\frac{m_1(x_1,\ldots,x_n)}{m_2(x_1,\ldots,x_n)}外面的人造玩具的例子。问题：是否存在将Bayes因子从B12(x1,…,xn)B12(x1,…,xn)\mathfrak{B}_{12}(x_1,\ldots,x_n)为 B12(x1,…,xn+1)B12(x1,…,xn+1)\mathfrak{B}_{12}(x_1,\ldots,x_{n+1})的通用且计算有效的方法{n + 1}）不需要重新计算整个边际m1(x1,…,xn)m1(x1,…,xn)m_1(x_1,\ldots,x_n)和 m2(x1,…,xn)m2(x1,…,xn)m_2(x_1,\ldots,x_n)？我的直觉是，除了粒子滤波器实际上确实是在估计贝叶斯因子B12(x1,…,xn)B12(x1,…,xn)\mathfrak{B}_{12}(x_1,\ldots,x_n)中进行一次，没有一个自然的方法可以回答这个问题。

9 bayes marginal sequential-analysis bayes-factors

Questions tagged «sequential-analysis»