合并方差“实际上”是什么意思?


15

我是统计方面的菜鸟,所以请您在这里帮助我。

我的问题如下:合并方差实际上是什么意思?

当我在互联网上寻找汇总方差的公式时,我发现很多使用以下公式的文献(例如,在这里:http : //math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistical_Tests/thispage/newnode19.html):

Sp2=S12(n11)+S22(n21)n1+n22

但是它实际计算的是什么?因为当我使用此公式计算合并方差时,它给了我错误的答案。

例如,考虑以下“父样本”:

2,2,2,2,2,8,8,8,8,8

该父样本的方差为,其均值为。Sp2=10x¯p=5

现在,假设我将此父样本拆分为两个子样本:

  1. 第一个子样本是2,2,2,2,2,均值和方差。x¯1=2S12=0
  2. 第二个子样本为8,8,8,8,8,均值且方差。x¯2=8S22=0

现在,显然,使用上面的公式来计算这两个子样本的合并/父方方差将产生零,因为和。那么,该公式实际计算的是什么?S1=0S2=0

另一方面,经过长时间的推导,我发现产生正确的合并/父方方差的公式为:

Sp2=S12(n11)+n1d12+S22(n21)+n2d22n1+n21

在以上公式中,和。d1=x1¯x¯pd2=x2¯x¯p

我在我的网站上找到了类似的公式,例如:http : //www.emathzone.com/tutorials/basic-statistics/combined-variance.html 以及Wikipedia。尽管我不得不承认它们看起来和我的不一样。

那么,合并方差实际上是什么意思呢?这是否意味着母样本与两个子样本之间的差异?还是我在这里完全错了?

先感谢您。


编辑1:有人说我上面的两个子样本是病理性的,因为它们的方差为零。好吧,我可以给你一个不同的例子。考虑这个父样本:

1,2,3,4,5,46,47,48,49,50

该父样本的方差为,其均值为。Sp2=564.7x¯p=25.5

现在,假设我将此父样本拆分为两个子样本:

  1. 第一个子样本是1,2,3,4,5,均值且方差。x¯1=3S12=2.5
  2. 第二个子样本为46,47,48,49,50,均值且方差。小号 2 2 =2.5x¯2=48S22=2.5

现在,如果使用“文学公式”来计算合并方差,则将得到2.5,这是完全错误的,因为父方/合并方差应为564.7。相反,如果使用“我的公式”,您将获得正确的答案。

请理解,我在这里使用极端示例向人们展示该公式确实错误。如果我使用没有太多变化(极端情况)的“正常数据”,那么这两个公式的结果将非常相似,人们可能会由于舍入误差而忽略差异,而不是因为公式本身就是错误。


Answers:


13

简而言之,合并方差是在每个方差相等的假设/约束下对每个样本内方差的(无偏)估计。

Wikipedia条目中对合并方差进行了详细解释,激励和分析。

它并没有估计通过连接两个独立的样本,就像你应该形成一个新的“元样本”的变化。正如您已经发现的那样,估算需要一个完全不同的公式。


“平等”(即,相同人口实现这些样本)的假设是没有必要的一般定义它是什么- “汇集”。合并只是意味着平均,综合(请参阅我对蒂姆的评论)。
ttnphns

@ttnphns我认为相等假设对于赋予池化方差一个概念意义(OP要求)是必要的,该意义不仅仅在于口头描述它对样本方差执行的数学运算。如果总体方差不被假定为相等,则不清楚我们可以认为汇总方差是什么。当然,我们可以将其视为两个方差的合并而已,但在没有任何动机想首先合并方差的情况下,这并没有什么启发作用。
杰克·韦斯特洛夫

杰克,鉴于OP的具体问题,我并不反对这一点,但是我想谈谈“合并”一词的定义,这就是为什么我说“一般”。
ttnphns

@JakeWestfall您的答案是迄今为止最好的答案。谢谢。尽管我仍然不清楚一件事。根据Wikipedia的描述,合并方差是一种用于估计多个不同总体方差的方法,当每个总体的均值可能不同时,但是可以假定每个总体方差相同的
Hanciong

@JakeWestfall:因此,如果我们以不同的方式计算来自两个不同总体的合并方差,那么它实际计算的是什么?因为第一方差是相对于第一均值的变化量,而第二方差是相对于第二均值的量值。我不知道从计算中可以获得什么附加信息。
Hanciong

10

合并方差用于通过取不同样本的加权平均值不同样本的方差合并在一起,以获得“总体”方差。您的示例的问题在于这是一种病理情况,因为每个子样本的方差等于零。这种病理情况与我们通常遇到的数据几乎没有共通之处,因为总是存在一定的可变性,如果没有可变性,我们就不会在意这些变量,因为它们不携带任何信息。您需要注意,这是一种非常简单的方法,并且在不容易出现此类问题的层次数据结构中,有更多复杂的方法来估计方差。

关于编辑中的示例,它表明在开始分析之前清楚地陈述您的假设很重要。假设您有数据点 ķ组,我们会记为 X 1 1X 2 1... X ñ - 1 ķX ñ ķ,其中在个指数 X j代表案例, jnkx1,1,x2,1,,xn1,k,xn,kixi,jj-th索引代表组索引。在几种情况下,您可以假设所有点都来自同一分布(为简单起见,假设正态分布),

(1)xi,jN(μ,σ2)

您可以假设每个子样本都有自己的均值

(2)xi,jN(μj,σ2)

或者,其自身的差异

(3)xi,jN(μ,σj2)

或者,他们每个人都有各自不同的参数

(4)xi,jN(μj,σj2)

根据您的假设,特定的方法可能适合或可能不足以分析数据。

在第一种情况下,您不会对估计组内方差感兴趣,因为您会假设它们都相同。尽管如此,如果从组方差中汇总全局方差,由于方差的定义是

Var(X)=1n1i(xiμ)2

n1n1+n21

在第二种情况下,均值是不同的,但是您有一个共同的方差。该示例与您在编辑中的示例最接近。在这种情况下,合并的方差将正确估计全局方差,而如果在整个数据集上估计方差,则将获得错误的结果,因为您没有考虑各组具有不同均值的事实。

在第三种情况下,估计“全局”方差没有意义,因为您假定每个组都有自己的方差。您可能仍然对获得整个总体的估计感兴趣,但是在这种情况下(a)计算每组的个体方差和(b)从整个数据集计算全局方差都可能使您产生误解。如果要处理此类数据,则应考虑使用更复杂的模型来说明数据的层次结构性质。

第四种情况是最极端的,与前一种情况非常相似。在这种情况下,如果您想估计全局均值和方差,则需要一个不同的模型和一组不同的假设。在这种情况下,您将假定您的数据具有层次结构,并且除了组内均值和方差外,还有一个较高级别的公共方差,例如,假设使用以下模型

(5)xi,jN(μj,σj2)μjN(μ0,σ02)σj2IG(α,β)

μj,σj2


我用其他示例更新了我的问题。在这种情况下,“文学公式”的答案仍然是错误的。我了解我们通常会处理“正常数据”,而没有像我上面的示例那样的极端情况。但是,作为数学家,您是否应该关心哪个公式确实正确,而不是在“日常/常见问题”中使用哪个公式?如果某些公式从根本上是错误的,则应将其丢弃,尤其在所有情况下,无论是否病理,都存在另一个公式。
Hanciong

顺便说一句,您说过有更多复杂的方差估算方法。你能告诉我这些方法吗?谢谢
Hanciong

2
蒂姆,合并方差不是“合并样本” 的方差。在统计中,“合并”是指加权平均(当我们说平均数量(例如方差,权重为n)时)或只是求和(当我们说和(例如散点图,平方和)时)。请在答案中重新考虑您的术语(选择单词)。
ttnphns

1
尽管脱离当前主题,但这里有一个关于“常见”方差概念的有趣问题。stats.stackexchange.com/q/208175/3277
ttnphns

1
汉雄 我坚持认为,一般而言,“汇集”概念,尤其是“汇集方差”概念,通常不需要任何假设,例如:组来自具有均等方差的总体。池只是混合(加权平均或求和)。正是在方差分析和类似情况下,我们才添加了该统计假设。
ttnphns

1

问题是,如果您只是连接样本并估计其方差,则假设它们来自相同的分布,因此具有相同的均值。但是,我们通常对平均值不同的几个样本感兴趣。这有意义吗?


0

合并方差的用例是当您从分布中获得两个样本时:

  • 可能有不同的方法,但是
  • 您期望其真实方差相等。

例如,您测量爱丽丝鼻子的长度 nm

在这种情况下,与仅采用一个样本的方差相比,采用合并方差可以更好地估计测量误差的方差。


谢谢您的回答,但我仍然不了解一件事。第一个数据为您提供关于爱丽丝的鼻子长度的方差,第二个数据为您提供关于鲍勃的鼻子长度的方差。如果您要根据这些数据计算汇总方差,那么这实际上意味着什么?由于第一个方差是针对爱丽丝的变化量度,第二个方差是针对鲍勃的量度值,那么通过计算它们的汇总方差,我们还能获得哪些附加信息?他们是完全不同的数字。
Hanciong's

0

通过合并方差,我们不会尝试使用较小的样本来估计较大样本的方差。因此,您给出的两个示例并不完全涉及该问题。

需要汇总方差,以便从已经从该总体中随机抽取的两个样本中获得更好的总体方差估计,并得出不同的方差估计。

例如,您正在尝试评估伦敦男性吸烟习惯的差异。您采样了两次,来自伦敦的300名男性。您最终会得到两个差异(可能有些不同!)。现在,既然您进行了公平的随机抽样(力所能及,这是最大可能的!因为几乎不可能进行真正的随机抽样),所以您有权说两个方差都是总体方差的真实点估计值(在这种情况下为伦敦男性)。

但是那怎么可能呢?即两个不同的点估计!因此,我们继续寻找一个公共点估计值,即集合方差。它不过是两点估计值的加权平均值,其中权重是与每个样本相关的自由度。

希望这可以澄清。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.