我是统计方面的菜鸟,所以请您在这里帮助我。
我的问题如下:合并方差实际上是什么意思?
当我在互联网上寻找汇总方差的公式时,我发现很多使用以下公式的文献(例如,在这里:http : //math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html):
但是它实际计算的是什么?因为当我使用此公式计算合并方差时,它给了我错误的答案。
例如,考虑以下“父样本”:
该父样本的方差为,其均值为。
现在,假设我将此父样本拆分为两个子样本:
- 第一个子样本是2,2,2,2,2,均值和方差。
- 第二个子样本为8,8,8,8,8,均值且方差。
现在,显然,使用上面的公式来计算这两个子样本的合并/父方方差将产生零,因为和。那么,该公式实际计算的是什么?
另一方面,经过长时间的推导,我发现产生正确的合并/父方方差的公式为:
在以上公式中,和。
我在我的网站上找到了类似的公式,例如:http : //www.emathzone.com/tutorials/basic-statistics/combined-variance.html 以及Wikipedia。尽管我不得不承认它们看起来和我的不一样。
那么,合并方差实际上是什么意思呢?这是否意味着母样本与两个子样本之间的差异?还是我在这里完全错了?
先感谢您。
编辑1:有人说我上面的两个子样本是病理性的,因为它们的方差为零。好吧,我可以给你一个不同的例子。考虑这个父样本:
该父样本的方差为,其均值为。
现在,假设我将此父样本拆分为两个子样本:
- 第一个子样本是1,2,3,4,5,均值且方差。
- 第二个子样本为46,47,48,49,50,均值且方差。小号 2 2 =2.5
现在,如果使用“文学公式”来计算合并方差,则将得到2.5,这是完全错误的,因为父方/合并方差应为564.7。相反,如果使用“我的公式”,您将获得正确的答案。
请理解,我在这里使用极端示例向人们展示该公式确实错误。如果我使用没有太多变化(极端情况)的“正常数据”,那么这两个公式的结果将非常相似,人们可能会由于舍入误差而忽略差异,而不是因为公式本身就是错误。