统计和大数据 ab-test

1

我刚刚碰到了这篇论文，该论文描述了如何通过混合效应建模来计算测量的可重复性（又称可靠性，又称类内相关性）。R代码为： #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

3

安全地确定A / B测试的样本量

我是一位寻求构建A / B测试工具的软件工程师。我没有扎实的统计背景，但最近几天一直在做大量阅读工作。我将遵循此处描述的方法，并在下面总结相关要点。该工具将使设计人员和领域专家可以配置网站，以将在特定URL处接收到的流量划分为两个或多个URL。例如，可以在http://example.com/hello1和http://example.com/hello2之间分配到达http://example.com/hello1的流量。流量将在目标URL之间平均分配，并且将比较每个目标URL上的营销过程的性能。在此实验中，样本大小N将对应于访问者。该测试将衡量“转化”，该术语描述访问者何时在营销过程中采取特定行动。转化率以百分比表示，并且期望更高的转化率。这使测试成为独立比例的比较。该工具需要能够容易地用于产生安全结果的测试。选择适当的值N很重要。在上面的链接文章中，采用两个独立比例的幂分析来查找N。这种方法需要事先知道控件的转换率，并指定目标所需的转换改进。它还指定了95％的显着性水平和80％的统计功效。问题：这是确定N声音的方法吗？如果是这样，在开始测试之前确定对照转化率的最安全方法是什么？有没有确定N不需要预先知道控件转换率的合理方法？链接文章中的方法是否合理？如果没有，您是否可以将我链接到任何可访问且易于消化的方法？

22 hypothesis-testing statistical-significance proportion ab-test

4

在两个独立比例的功效分析中，如何制定停止规则？

我是从事A / B测试系统的软件开发人员。我没有扎实的统计背景，但过去几个月一直在学习知识。典型的测试方案包括比较网站上的两个URL。访客访问LANDING_URL，然后随机转发给URL_CONTROL或URL_EXPERIMENTAL。访客构成一个样本，并且当访客在该站点上执行某些所需的操作时，就会达到胜利的条件。这构成转化，转化率就是转化率（通常表示为百分比）。给定URL的典型转换率在0.01％到0.08％之间。我们运行测试以确定新URL与旧URL的比较。如果URL_EXPERIMENTAL被证明优于URL_CONTROL，我们替换URL_CONTROL用URL_EXPERIMENTAL。我们使用简单的假设检验技术开发了一个系统。我在这里使用另一个CrossValidated问题的答案来开发此系统。测试设置如下：转化率估计CRE_CONTROL的URL_CONTROL使用历史数据来计算。所希望的目标转化率CRE_EXPERIMENTAL的URL_EXPERIMENTAL是集。通常使用0.95的显着性水平。通常使用0.8的幂。所有这些值一起用于计算所需的样本量。我正在使用R函数power.prop.test来获取此样本大小。测试将一直进行到收集所有样品为止。此时，计算CR_CONTROL和的置信区间 CR_EXPERIMENTAL。如果它们不重叠，则可以宣布具有0.95的显着性水平和0.8的功效的获胜者。但是，我们测试的用户有两个主要问题： 1.如果在测试过程中的某个时刻收集了足够的样本以显示明显的获胜者，是否可以停止测试？ 2.如果在测试结束时没有宣布优胜者，我们是否可以进行更长的测试以查看是否可以收集足够的样本来找到优胜者？应该注意的是，存在许多允许他们的用户完全按照我们自己的用户期望做的商业工具。我读到上面有很多谬论，但是我也遇到了停止规则的想法，并想探索在我们自己的系统中使用这种规则的可能性。我们要考虑以下两种方法： 1.使用power.prop.test，将当前测得的转换率与当前样本数进行比较，查看是否已收集到足够的样本来宣布获胜者。示例：已设置测试以查看我们的系统中是否存在以下行为： CRE_CONTROL：0.1 CRE_EXPERIMENTAL：0.1 * 1.3 使用这些参数，样本量N为1774。但是，随着测试的进行并达到325个样本，CRM_CONTROL（测得的对照转化率）为0.08，CRM_EXPERIMENTAL为0.15。power.prop.test是以这些转化率运行的，N得出的是325。确切地说CRM_EXPERIMENTAL，要成为赢家，需要的样本数量！在这一点上，我们希望测试能够结束。类似地，如果测试达到1774个样本但未找到获胜者，但随后达到2122个样本，这足以表明结果CRM_CONTROL0.1和CRM_EXPERIMENTAL0.128是可以宣布获胜者的结果。在一个相关的问题中，用户建议这种测试的可信度较低，这是因为鼓励提早停止采样，减少样本数量，而且容易受到估计偏差的影响，并且I型和II型错误的数量增加。有什么方法可以使此停止规则起作用？这是我们的首选方法，因为这对我们意味着更少的编程时间。也许此停止规则可以通过提供某种数值分数或一些分数来衡量测试的可信度而起作用，如果测试应尽早停止呢？ 2.使用顺序分析或SPRT。这些测试方法是专门针对我们所处的情况而设计的：我们的用户如何开始测试并以不浪费过多测试时间的方式结束测试？运行测试时间过长，或者必须使用不同的参数重新开始测试。在上述两种方法中，我更喜欢SPRT，因为数学对我来说更容易理解，并且看起来似乎更容易编程。但是，我不明白如何在这种情况下使用似然函数。如果有人可以构造一个示例，说明如何计算似然比，似然比的累积总和，并继续执行一个示例，说明当某人继续监视，何时接受零假设和替代假设时的情况，这将有助于我们确定SPRT是否是正确的方法。

18 power-analysis ab-test sequential-analysis optimal-stopping

2

为什么在达到最佳样本量之前停止A / B测试是错误的？

我负责介绍我公司的A / B测试结果（在网站上运行）。我们进行了一个月的测试，然后定期检查p值，直到达到显着性为止（或者，如果长时间运行后未达到显着性，则放弃），我现在发现这是一种错误的做法。我现在想停止这种做法，但是要这样做，我想了解为什么这是错误的。我知道效果大小，样本大小（N），α显着性标准（α）和统计功效，或选择或隐含的β（β）在数学上都是相关的。但是，在达到所需样本量之前停止测试会发生什么变化呢？我在这里阅读了几篇文章（即this，this和this），他们告诉我，我的估计会有所偏差，并且我的Type 1错误的发生率急剧增加。但是那是怎么发生的呢？我正在寻找数学解释，这种解释可以清楚地显示出样本量对结果的影响。我想这与我上面提到的因素之间的关系有关，但是我无法找出确切的公式并自行解决。例如，过早停止测试会增加类型1的错误率。好的。但为什么？如何增加类型1的错误率？我想念这里的直觉。请帮忙。

13 hypothesis-testing statistical-significance bias ab-test optimal-stopping

3

A / B测试使用什么统计测试？

我们有两个队列，每个队列1000个样本。我们在每个队列中测量2个数量。第一个是二进制变量。第二个是遵循重尾分布的实数。我们想评估哪个同类群组对每个指标的效果最佳。有很多统计测试可供选择：人们建议使用z检验，其他人使用t检验，其他人使用Mann–WhitneyU。对于我们的案例，我们应该为每个指标选择哪种测试？如果一项测试表明同类人群之间存在显着差异，而另一项测试表明存在显着性差异，将会发生什么？

12 ab-test

2

通过重新运行实验来验证Web A / B测试-这有效吗？

某天，一家a / b测试公司举行的网络研讨会上，其驻地“数据科学家”解释说，您应该通过重新运行实验来验证结果。前提是，如果您选择95％的置信度，则有5％（1/20）的假阳性机会。如果您以相同的约束条件重新运行实验，那么现在会有1/400（我假设他们将其确定为0.05 ^ 2 = 1/400）这是有效的声明吗？（即“两次运行，两次统计显着性获胜=假阳性概率的1/400”）？这是提高您的显着性水平的更好方法吗？从业务的角度来看，我所关心的是通过重新运行实验，使更多的用户接触到劣等的页面（处理），从而失去了潜在的销售额。

11 probability hypothesis-testing statistical-significance ab-test

1

贝叶斯A / B测试的公式没有任何意义

我正在使用贝叶斯ab测试的公式，以便使用贝叶斯方法计算AB测试的结果。 PR （p乙> p一个）= ∑我= 0α乙− 1B （α一个+ 我，β乙+ β一个）（β乙+ i ）B（1 + i ，β乙）B （α一个，β一个）镨（p乙>p一个）=∑一世=0α乙-1个乙（α一个+一世，β乙+β一个）（β乙+一世）乙（1个+一世，β乙）乙（α一个，β一个） \Pr(p_B > p_A) = \sum^{\alpha_B-1}_{i=0} \frac{B(\alpha_A+i,\beta_B+\beta_A)}{(\beta_B+i)B(1+i,\beta_B)B(\alpha_A, \beta_A)} 哪里 α一个α一个\alpha_A加A的成功次数 β一个β一个\beta_A加A的失败次数 α乙α乙\alpha_B加上B的成功次数 β乙β乙\beta_B加上B的失败次数乙乙B是Beta函数示例数据： control: 1000 trials with 78 successes test: 1000 trials with 100 successes 标准的非贝叶斯prop测试可以给我带来显着的结果（p <10％）： prop.test(n=c(1000,1000), x=c(100,78), correct=F) # 2-sample test …

10 r bayesian ab-test

Questions tagged «ab-test»