在没有模拟的情况下,统计学家究竟如何同意使用(n-1)作为总体方差的无偏估计量?


67

分母的计算公式的分母为(n1)

s2=i=1N(xix¯)2n1

我一直想知道为什么。但是,阅读和观看一些有关“为什么”的优质视频似乎是人口方差的良好无偏估计。而n低估了n - 2 高估了总体方差。(n1)n(n2)

我想知道的是,在没有计算机的时代,这种选择是如何做出的?是否有实际的数学证明来证明这一点?或者,这纯粹是经验和统计学家亲自进行了大量的计算,以得出当时的“最佳解释”?

在19世纪初期,统计学家是如何借助计算机提出这个公式的?手册还是比看得见的更多?


13
我想你的意思是说“ 不用计算机的帮助”。答案是-也许并不奇怪-通过使用代数。推导过程非常简单,在许多地方,统计专业学生通常会将其推导为练习,将其作为本科生学习。
Glen_b 2014年



我已经编辑公式使用ˉ Xñ - 1在分母是用于样本方差(拉丁符号)不是人口方差(希腊符号)。s2x¯n1
亚历克西斯

Answers:


40

该校正称为贝塞尔校正,它具有数学证明。就个人而言,我学会了一种简单的方法:使用是校正E [ 1n1(参见此处)。E[1n1n(xix¯)2]

您还可以基于自由度的概念来解释校正,因此严格不需要模拟。


15
证明替代品#3具有漂亮的直观解释,即使是非专业人士也可以理解。基本思想是样本均值与总体均值不同。你的观察自然要更接近样本均值比总体均值,这结束了低估那些项与X - ˉ X2项条款。这对于大多数人来说可能是显而易见的,但是直到现在,我才从未想到过“直觉”是关于偏见样本方差为何偏见的原因。我只学过正式证明。(xiμ)2(xix¯)2
WetlabStudent 2014年

2
还有一种用n-1进行校正的几何方法(在Saville and Wood中很好地解释了:统计方法:几何方法)。简而言之:n的样本可以视为n维数据空间。采样点向量添加到观察向量,可以将其分解为具有对应于p参数的p维的模型向量和具有np维的误差向量。误差矢量的对应毕达哥拉斯分解具有np个平方,其平均值是变化的量度。
佐丹奴

我会给你一个漂亮的链接,其中包含简短的解释:en.wikipedia.org/wiki/Bias_of_an_estimator
Christina

您能解释一下为什么在证明(替代3)中我们假设使用x来计算真实和有偏方差吗?当我们有一个总体(具有真实方差)和一个样本(具有偏差方差)时,就会出现不同方差的问题。但是,如果我们在同一个数据,即计算方差X 1X 2x n,为什么它们会有所不同?在那里,我们认为σ 2作为一个真正的方差使用完全相同的计算X的作为偏颇的小号2 偏置。我不同意这个证明。请帮忙,我想念什么?n xx1,x2,...,xnσ2xsbiased2
Turkhan Badalov

56

我所见过的大多数证明都很简单,以至于高斯(无论他怎么做)可能都觉得很容易证明。

我一直在寻找可以与您建立链接的CV派生工具(有很多非现场证明链接,其中至少包括答案中的一个),但我在CV中却找不到一个几次搜索,为了完整起见,我将给出一个简单的搜索。鉴于其简单性,很容易看出人们将如何开始使用通常称为贝塞尔校正的方法

E(X2)=Var(X)+E(X)2

E[i=1n(xix¯)2]=E[i=1nxi22x¯i=1nxi+nx¯2]=E[i=1nxi2nx¯2]=nE[xi2]nE[x¯2]=n(μ2+σ2)n(μ2+σ2/n)=(n1)σ2

1
2x¯i=1nxi

3
它不会消失。您是否注意到上学期的标志发生了变化?
Glen_b

1
1/n

1
V[x¯]=V[x]n

1
x1x2xni

37

根据Weisstein的《数学世界》,这是高斯于1823年首次证明的。参考文献是高斯的《沃克》第4卷,该书可在https://archive.org/details/werkecarlf04gausrich中阅读。相关页面似乎是47-49。高斯似乎调查了这个问题并提出了证明。我不会读拉丁语,但文字中有德语摘要。第103-104页解释了他的所作所为(编辑:我添加了一个粗略的翻译):

Allein da man nicht berechtigt ist,die sichersten Werthe fuer die wahren Werthe selbst zu hal hal,so ueberzeugt man sich leicht,dass man durch dies Verfahren allemal den wahrscheinlichsten und undenenen und eenbenen und undenttleen Fehler zuhtenen艾尔斯·西·维克利希·贝岑森。[但是由于无权将最可能的值当作实际值来对待,因此,人们可以轻松地说服自己,必须始终发现最可能的误差和平均误差太小,因此得出的结果是具有比实际更高的准确性。]

由此看来,众所周知,样本方差是总体方差的有偏估计。文章继续说,两者之间的差异通常会被忽略,因为如果样本量足够大,这并不重要。然后它说:

Verfasser的帽子,Gegenstand eine besondere Untersuchung Unterworfen,zue的名字sehr Merkwuerdigen hoechst的头像gefuehrt的帽子。Man Braucht Nemlich den nach dem angezeigten fahlerhaften Verfahren gefundenen mittleren Fehler,um ihn in die richtigen zu verwandeln,nur mit

πρπ

πρπρ

因此,如果这确实是第一次发现校正,那么似乎是高斯通过巧妙的计算发现了校正,但是人们已经意识到需要进行校正,因此也许有人在此之前凭经验发现了校正。也许以前的作者并不在乎得出确切的答案,因为他们无论如何都在处理相当大的数据集。

n


如果有人可以提供德语翻译,那就太好了。我一个都不懂德语。
Faheem Mitha 2014年

2
是的,由于我的拼写错误,Google翻译无法正常工作!我将尝试翻译。这将是练习我的德语的好方法。
Flounderer 2014年

14

对我来说,直觉是

The degree to whichXi varies from X¯+The degree to whichX¯ varies from μ=The degree to which Xi varies from μ.

那是,

E[(XiX¯)2]+E[(X¯μ)2]=E[(Xiμ)2].

实际证明上述方程式需要一些代数(此代数与上述@Glen_b的答案非常相似)。但是假设这是真的,我们可以重新排列以获得:

E[(XiX¯)2]=E[(Xiμ)2]σ2E[(X¯μ)2]σ2n=n1nσ2.

X¯μE[(X¯μ)2]=σ2n


12

大多数答案已经详细解释了这一点,但是除了这些答案之外,还有一个简单的例子可以对您有所帮助:

n=4

8,4,6

n=4x¯=68,4,66

n1x¯nthn1

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.