N和N-1在计算总体方差方面有什么区别?


50

在计算总体方差时,我没有得到为什么N和为什么N-1。什么时候使用N以及何时使用N-1

在此处输入图片说明
点击这里查看大图

它说,当人口很大时,N和N-1之间没有区别,但是并不能说明为什么一开始就有N-1。

编辑:请不要与nn-1用于估计的混淆。

Edit2:我不是在谈论人口估计。


5
您可以在此处找到答案:stats.stackexchange.com/questions/16008/…。基本上,在估计方差时应使用N-1,在精确计算方差时应使用N。
ocram 2011年

@ocram,据我所知,当我们估计方差时,我们使用n或n-1。
ilhan 2011年

如果要使估计量无偏,则应使用n-1。注意,当n大时,这不是问题。
ocram 2011年

2
N1N11/Ny
StasK

2
这并没有真正增加其他答案。不同的除数给出不同的答案,或者甚至随着N的减小而减小,都不是问题。问题是何时以及为何使用任一除数。
Nick Cox

Answers:


26

Nn(N1)/N=1(1/N)12/N117/Nexp(1/N)

(n1)/nn11/N

NN

NN1NNn


24

除了尝试数学以外,我将尝试用简单的词来表达。如果您拥有全部人口,则使用分母计算其方差(人口方差N。同样,如果您只有样本并且要计算该样本的方差,则使用分母N(在这种情况下为样本的n)。在这两种情况下,请注意,您无需进行任何估算:测得的均值是真实均值,而根据该均值计算出的方差是真实方差。

现在,您只有样本,并且想推断总体中未知的均值和方差。换句话说,您需要估算。您将样本均值用于总体均值的估计(因为您的样本具有代表性),确定。为了获得总体方差的估计值,您必须假装该均值实际上是总体均值,因此自您进行计算以来,它不再依赖于样本。为了“显示”您现在将其固定,您保留样本中的一个(任何)观察值以“支持”均值:无论样本发生了什么,一个保留的观察值始终可以使均值达到您的期望值ve并相信对采样偶然性不敏感。一种保留的观察结果是“ -1”N-1 在计算方差估计中。

想象一下,您以某种方式知道真实的总体平均值,但是想估计样本中的方差。然后,您可以将该真实均值代入方差公式并应用分母N:此处不需要“ -1”,因为您知道真实均值,因此无需从同一样本中进行估算。


但是我的问题与估计无关。它是关于计算人口方差的。与N和N-1。我不是在说n和n-1。
ilhan 2011年

1
@ilhan,在我的答复中,我同时使用N了N和n。N是总体总数的大小,无论是总体还是样本。要计算总体方差,您必须要掌握总体。如果只有样本,则可以计算该样本的方差或计算总体估计方差。没有其他办法。
ttnphns 2011年

我有关于我的人口的完整信息;所有的值都知道。我对估算不感兴趣。
ilhan 2011年

1
如果您确实有人口,则使用N。使用N-1将不合逻辑。
ttnphns 2011年

1
@ilhan-无法直接评论您对ttnphns帖子的评论,但这是对您在书中看到的内容以及如何推断的解释。当符号“ S”用于表示方差时,始终表示样本方差。希腊字母sigma用于指人口方差。这就是为什么您看到书中提到的S = N * sigma /(N-1)
Arvind

9

通常,当一个人口只有一小部分(即样本)时,应除以n-1。这样做有充分的理由,我们知道将方差与样本均值相乘乘以(n-1)/ n的样本方差是总体方差的无偏估计量。

您可以在此处找到证明样本方差估计量无偏的证明:https : //economictheoryblog.com/2012/06/28/latexlatexs2/

此外,如果要应用总体方差的估计量(即除以n的样本上的方差估计量除以n的版本),则获得的估计值将产生偏差。


这似乎在回答有关估计人口差异的另一个问题。它看起来是循环的:这个答案难道不是基于假设特定的惯例来首先定义总体方差吗?
ub

7

过去有一个论点,您应将N用于非推论方差,但我不再建议这样做。您应该始终使用N-1。随着样本数量的减少,N-1可以很好地纠正这一事实,因为样本方差会变小(您更有可能在分布的峰值附近进行采样-见图)。如果样本量确实很大,那么任何有意义的数量都没有关系。

另一种解释是,人口是无法实现的理论结构。因此,请始终使用N-1,因为无论您做什么,充其量都是在估计总体差异。

另外,从现在开始,您将看到N-1的方差估计。您可能永远不会遇到这个问题……除非是在测试中,当老师可能要求您区分推论和推论时非推论方差度量。在这种情况下,请不要使用胡布的答案或我的答案,请参阅ttnphns的答案。

图1

注意,在该图中,方差应该接近1。当您使用N估计方差时,请注意方差随样本大小的变化。(这是在elswhere中所指的“偏差”)


1
请告诉我,为什么N“不再推荐”了,但实际人口呢?人口并不总是理论上的建构。有时,您的样本对您而言是真正的人口。
ttnphns

1
ilhan,N可以用于样本,也可以用于人口规模(如果存在)。在大多数情况下,大n和小n的区别取决于主题。例如,n可能是实验中每个条件下的病例数,而N可能是实验中的病例数。他们都是样本。没有全局规则。
约翰

1
ttnphns,这取决于您所说的人口数量。我要说的是,如果您的总体人口很小,以至N-1很重要,那么对均方差的计算是否真的有用就值得怀疑。显示所有值,它们的形状和范围。此外,如果您不进行推论,您实际上拥有N个自由度的整个古老论点是有问题的。计算平均值时,您损失了一个,即需要计算方差。
约翰

1
@John,如果您在总体中计算均值,则只需说明有关参数的事实,因此就不会花费任何自由度。如果您在样本中进行计算并想推断总体,那么您确实要花一个。另外,我可以拥有N = 1的人口。对于分母N-1,似乎不存在像方差这样的参数。废话
ttnphns

3
@ilhan请考虑更新您的问题(如您所做的那样),并指向更新的版本,而不要留下这样的非建设性评论。一切都是值得商de的,尤其是当问题本身缺乏背景时。在这里看来,问题出在确定人口真正是什么。
chl

4

总体方差是总体中所有值的平方偏差的总和除以总体中值的数量。但是,当我们估计样本的总体方差时,会遇到一个问题,即样本值与样本均值的偏差平均比那些样本值与(未知)的真实人口平均值。这导致从样本计算得出的方差比真实总体方差小一点。使用n-1除数代替n可纠正该低估。


@ Bunnenburg,如果您得到问题的答案。现在请告诉我,你得到了什么?我也很困惑。
Bilal Para

为了补偿我们得到的少一点方差,为什么一个人不能使用n-2,n-3等?为什么特别是n-1?为什么不是常数... ???
Saravanabalagi Ramachandran,

@SaravanabalagiRamachandran差异随样本大小而变化,因此常量将不起作用。使用n-1进行校正比您提到的其他方法更接近工作。
迈克尔·卢
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.