我试图通过在处理简单的A / B测试时选择一种特定的测试方法来理解其原因-(例如,两个具有二进制响应的变体/组(已转换或未转换)。作为示例,我将使用以下数据
Version Visits Conversions
A 2069 188
B 1826 220
此处的最高答案很好,并讨论了z,t和卡方检验的一些基本假设。但是令我感到困惑的是,不同的在线资源会引用不同的方法,您会认为基本A / B测试的假设应该几乎相同吗?
- 本文引用了t检验(p 152):
那么,对于这些不同的方法,可以提出哪些主张呢?为什么会有一个偏好?
要增加一个候选者,可以将上面的表重写为2x2列联表,其中可以使用Fisher精确检验(p5)
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
但是,根据该线索, fisher的精确测试应仅在较小的样本量下使用(临界值是多少?)
然后有成对的t和z检验,f检验(以及逻辑回归,但我现在暂时不考虑)。在这个简单的A / B测试案例中,对不同方法进行某种论证。
使用示例数据,我得到以下p值
https://vwo.com/ab-split-test-significance-calculator/给出0.001的p值(z得分)
http://www.evanmiller.org/ab-testing/chi-squared.html(使用卡方检验)得出的p值为0.00259
在R中
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
给出p值为0.002785305
我想都差不多...
无论如何-只是希望就在样本数量通常为数千个且响应率通常为10%或更少的在线测试中使用哪种方法进行一些健康的讨论。我的直觉告诉我使用卡方,但我想能够确切回答为什么我选择它而不是其他多种方式。