我有三组数据,每组都有二项式分布(即,每组都有成功或失败的元素)。我没有成功的预测概率,而是只能依靠每个成功率作为真实成功率的近似值。我只发现了这个问题,虽然很接近,但似乎并不能完全解决这种情况。
为了简化测试,我们只说我有2个小组(在这个基本案例中可以扩展3个小组)。
- 第1组试验: = 2455
- 第2组试验: = 2730
- 第1组成功: = 1556
- 第2组成功: = 1671
我没有预期的成功概率,只有我从样本中知道的概率。因此,我对这两个组的隐含成功率是:
- 第1组的成功率: = 1556/2455 = 63.4%
- 第2组的成功率: = 1671/2730 = 61.2%
每个样本的成功率都相当接近。但是我的样本量也很大。如果我检查二项式分布的CDF来查看它与第一个分布有何不同(我假设第一个是零检验),那么第二个可以实现的可能性很小。
在Excel中:
1-BINOM.DIST(1556,2455,61.2%,TRUE)= 0.012
但是,这没有考虑第一个结果的任何方差,它只是假设第一个结果是测试概率。
有没有更好的方法来测试这两个数据样本在统计上是否彼此实际上有所不同?
prop.test
:prop.test(c(1556, 1671), c(2455, 2730))
。