为什么协方差估计量的分母不应该是n-2而不是n-1?


36

(无偏)方差估计量的分母为因为有观测值,并且仅估计了一个参数。n1n

V(X)=i=1n(XiX¯)2n1

同样,我想知道为什么在估计两个参数时协方差的分母为何不为?n2

Cov(X,Y)=i=1n(XiX¯)(YiY¯)n1

15
如果你这样做,你就必须为方差两种相互矛盾的定义:一个是第一个公式,另一个将是第二个公式应用于与。Y=X
Whuber

3
双/多元均值(期望)是一个参数,而不是2个参数。
ttnphns

14
@ttnphns事实并非如此:双变量均值显然是两个参数,因为它需要两个实数来表示它。(实际上,它是一个向量参数,但这样做只是掩盖了它包含两个成分的事实。)例如,在合并方差t检验的自由度中明确显示了这一点,例如,减去而不是。关于这个问题的有趣之处在于,它是如何揭示常见的“解释”的含糊,不严谨和潜在的误导性,因为我们已经估计了一个参数,所以我们从减去。211n
ub

@whuber,您是对的。如果只有(独立观察)很重要,那么在多变量测试中花费的df就不会比在单变量测试中花费更多。n
ttnphns

3
@whuber:我也许会说这表明什么才是“参数”取决于情况。在这种情况下,方差是在观测值n上计算得出的,因此,每个观测值(或总均值)都可以视为一个参数,即使它是多元均值,如ttnphns所说。但是,在其他情况下,例如当测试考虑尺寸的线性组合时,每个观察值的每个尺寸都将成为“参数”。没错,这是一个棘手的问题。
变形虫说恢复莫妮卡

Answers:


31

协方差方差。

自从极化身份

Cov(X,Y)=Var(X+Y2)Var(XY2),

分母必须相同。


20

特例应该给你一个直觉。考虑以下几点:

Cov^(X,X)=V^(X)

您很高兴后者是,贝塞尔校正。i=1n(XiX¯)2n1

但用通过在为前者给出,那么您认为什么最好填补空白?YXCov^(X,Y)i=1n(XiX¯)(XiX¯)mystery denominator


1
好。但是OP可能会问“为什么要考虑cov(X,X)和cov(X,Y)处于同一行逻辑中?为什么您要轻率地用cov()中的X替换Y?也许是cov(X,Y)是另外一种情况吗?” 在我看来,您没有避免,但答案(强烈赞成)应该有:-)
ttnphns 2016年

7

快速而肮脏的答案...让我们首先考虑;如果您有具有已知期望值观测,则可以使用来估计方差。var(X)n E(X)=01ni=1nXi2

期望值未知,您可以将取,将观测值转换为已知期望值的观测值。您将得到一个分母为的公式-但是不是独立的,您必须考虑到这一点;最后,您会发现通常的公式。nn1Ai=XiX1i=2,,nn1Ai

现在,对于协方差,您可以使用相同的想法:如果的期望值为,则公式中将有。通过将减去所有其他观察值,您将获得具有已知期望值的观察值...以及公式中的 -再次,这引入了一些依赖关系帐户。(X,Y)(0,0)1n(X1,Y1)n11n1

PS这样做的干净方法是选择的正交基,即向量这样(1,,1)n1c1,,cn1Rn

  • jcij2=1对于所有,i
  • jcij=0对于所有,i
  • jci1jci2j=0对于所有。i1i2

然后可以定义变量和。的是独立的,有预期值并且具有相同的方差/协方差比原来的变量。n1Ai=jcijXjBi=jcijYj(Ai,Bi)(0,0)

关键是,如果您想摆脱未知的期望,则可以丢弃一个(并且只有一个)观察值。这两种情况下的工作原理相同。


6

这证明分母为的p变量样本协方差估计量是协方差矩阵的无偏估计量:1n1

x=(x1,...,xp)

Σ=E((xμ)(xμ))

S=1n(xix¯)(xix¯)

显示:E(S)=n1nΣ

证明:S=1nxixix¯x¯

下一个:

(1)E(xixi)=Σ+μμ

(2)E(x¯x¯)=1nΣ+μμ

因此:E(S)=Σ+μμ(1nΣ+μμ)=n1nΣ

因此,的最终分母是无偏的。的非对角元素是您的个体样本协方差。Su=nn1S1n1Su

附加说明:

  1. n次抽签是独立的。在(2)中使用它来计算样本均值的协方差。

  2. 步骤(1)和(2)使用Cov(x)=E[xx]μμ

  3. 步骤(2)使用Cov(x¯)=1nΣ


困难在于步骤2!:)
猫王2015年

@猫王这很乱。需要应用规则Cov(X + Y,Z)= Cov(X,Z)+ Cov(Y,Z)并认识到不同的抽签是独立的。然后,它基本上是将n的协方差求和并按1 /n²的比例进行缩小
狭义者

4

我猜想在使用'n-1'而不是'n-2'来建立直觉的一种方法是-为了计算协方差,我们不需要去均化X和Y,而是两者均是不均值。


您能详细说明一下如何使用分母吗?证据中的代数关系源于以下事实:相对于均值之和的残差为零,但在其他方面却无人问津。
ub

5
我来这里是因为我有与OP相同的问题。我认为这个答案有点像@whuber上面指出的那样:经验法则是df〜= n-(估计的参数)可能是“模糊,不严密的,并可能引起误解”。这指出了一个事实,尽管看起来您需要估计两个参数(xbar和ybar),但实际上您仅估计了一个参数(xbar或ybar)。由于两种情况下的df均应相同,因此必须低于两者。我认为这是这里的意图。
mpettis 2015年

1

1)开始。df=2n

2)样本协方差与。输了两个;一个来自,一个来自导致。Σi=1n(XiX¯)(YiY¯)dfX¯Y¯df=2(n1)

3)但是,仅包含独立的术语,每个产品中包含一个。当两个数字相乘时,来自每个单独数字的独立信息就会消失。Σi=1n(XiX¯)(YiY¯)n

举例来说,

24=124=212=38=46=64=83=122=241

并且不包括无理数和分数,例如,因此,当我们将两个数字序列相乘并检查其乘积时,我们看到的只是在一个数字序列中,由于我们已经丢失了一半的原始信息,也就是说,在进行成对分组为一个数字(即乘法)之前,这两个数字是什么。24=2626df=n1

换句话说,在不失一般性的前提下,我们可以写

(XiX¯)(YiY¯)=ziz¯对于某些和,ziz¯

即,以及。从显然具有的,协方差公式变为zi=XiYiX¯YiXiY¯z¯=X¯Y¯zdf=n1

Σi=1nziz¯n1=

Σi=1n[(XiX¯)(YiY¯)]n1=

1n1Σi=1n(XiX¯)(YiY¯)

因此,问题的答案是通过分组将减半。df


@whuber我到底是如何将同一件事发布两次并删除一次?是什么赋予了?我们可以摆脱其中之一吗?供将来参考,是否有任何方法可以永久删除此类重复项?我有几个闲逛,这很烦人。
卡尔

据我所知,已将答案从重复项转发到此处。(其他人无权以您的名义发布答案。)系统强烈建议不要在多个线程中发布相同的答案,因此当我看到该信息时,它说服我这两个线程是完美的副本,因此我将它们“合并”了。此过程将所有注释和答案从源线程移至目标线程。然后,我在目标线程中删除了重复的帖子。它会被永久删除,但对您以及声誉很高的人都是可见的。
ub

@whuber我不知道合并中发生了什么,合并正在发生或许多规则是什么,尽管一直在查找。这需要时间来学习,要有耐心,顺便说一句,你会考虑采取stats.stackexchange.com/questions/251700/...关的Hold
卡尔
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.