计算标准偏差时用除的直观解释?


136

我今天问类,为什么你被划分方误差之和,而不是与,计算标准差时。nn1n

我说过我不会在课堂上回答它(因为我不想进入无偏估计量),但后来我想知道- 为此一个直观的解释吗?


29
我想从《数值食谱》一书中引用这个说法:“ ...如果和之间的差异对您而言很重要,那么您可能根本无能为力-例如,试图证实可疑的假设边际数据。” n 1nn1
JM不是统计学家2010年

11
en.wikipedia.org/wiki/…(证明下方)提供了一个非常优雅,直观的解释,基本的思想是,您的观察结果自然会更接近样本均值而不是总体均值。
WetlabStudent 2014年

12
@Tal,这就是为什么学校很烂。您问他们“为什么这样做?”,他们回答“只是记住它”。
Pacerier,2015年

1
如果您正在寻找一个直观的解释,那么应该通过实际采样来了解自己的原因!观看此内容,它正好回答您的问题。 youtube.com/watch?v=xslIhnquFoE
Sahil Chaudhary

tl; dr :(从最高答案开始:)“ ...使用样本均值的偏差计算出的标准偏差低估了总体的期望标准偏差...”另请参见:en.wikipedia.org/wiki/…因此,除非您想计算一些复杂的东西,否则使用n-1(如果它来自样本)。
安德鲁

Answers:


99

用除数计算的标准偏差是根据样本计算得出的标准偏差,作为从中抽取样本的总体标准偏差的估计值。因为观测值平均而言平均地更接近样本均值,而不是总体均值,所以使用与样本均值的偏差计算得出的标准差会低估总体的期望标准差。使用而不是作为除数可以通过使结果稍大来进行校正。n 1 nn1n1n

请注意,当较小时,该校正具有比较大时更大的比例效应,这是我们想要的,因为当n较大时,样本均值很可能是总体均值的良好估计。n

当样本是总体时,因为样本均值总体均值,所以我们将标准差以作为除数。n

(在括号内,我注意到,以“第二个时间点围绕已知的确定的均值重新开始”开头的内容,将无法满足发问者对直观解释的要求。)


13
我们不要将“直觉”与“非技术”混淆。
Whuber

32
@Michael,这不能解释为什么我们使用n−1而不是n−2(甚至n−3)?
Pacerier,2015年

1
@Pacerier有关此点的详细信息,请参阅下面的Whuber答案。本质上,校正是n-1而不是n-2等,因为n-1校正所提供的结果与我们所需的结果非常接近。此处显示了更精确的更正:en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviation
Michael Lew

1
嗨,@ Michael,为什么从样本均值计算出的偏差往往小于总体均值?
艾伦

1
“由于观测值平均而言,比样本平均值比总体平均值更接近,因此使用与样本平均值的偏差计算得出的标准偏差会低估总体的期望标准偏差。” 为什么样本均值总是被低估?如果它高估了怎么办?
Bora M. Alper

55

一个常见的问题是,(分布的)方差的定义是围绕一个已知的,确定的均值最近出现的第二个时刻,而估计量则使用一个估计的均值。这种自由度的损失(给定平均值,您可以仅了解个数据值来重构数据集),需要使用而不是来“调整”结果。n 1 nn1n1n

这样的解释与方差分析和方差成分分析中的估计方差一致。这实际上只是一个特例。

需要作出一些调整是膨胀的方差,我认为,进行直观清晰与不只是一个有效的论点事后挥手。(我记得学生可能在1908年关于t检验的论文中曾提出过这样的论点。)为什么对方差的调整应恰好是的因数更难辩解,尤其是当您考虑调整后的SD 并非无偏估计量。(这只是方差的无偏估计量的平方根。无偏通常无法承受非线性变换。)因此,实际上,对SD进行正确调整以消除其偏斜并不是的因素。n/(n1)n/(n1) 都!

一些入门级教科书甚至不用理会调整后的sd:它们教一个公式(除以)。当我从这样的书中教书时,我首先对此做出了消极的反应,但是逐渐意识到了这种智慧:为了专注于概念和应用,作者剔除了所有无关紧要的数学技巧。事实证明,没有什么受到伤害,没有人被误导。n


1
谢谢韦伯。我必须用n-1校正来教学生,因此,单独除以n并不是一个选择。如我之前所写,提及与第二时刻的联系不是一种选择。尽管要提到均值是如何估算的,从而使我们为sd减少了“数据”,但这很重要。关于sd的偏见-我记得遇到过-感谢您将其归位。最好,塔尔
塔尔加利里

3
@Tal我是用您的语言而不是您的学生的语言写作的,因为我坚信您完全有能力将其翻译成您知道的任何语言。换句话说,我将您问题中的“直觉”解释为对您而言直觉。
Whuber

1
嗨,Whuber。谢谢您的信任投票:)。我期望在课堂上使用自由度来估计期望值。问题在于,“自由度”这一概念本身就是需要知识/直觉的概念。但是,将其与该线程中给出的其他一些答案结合起来将很有用(对我来说,我希望将来有其他答案)。最好,塔尔
塔尔加利里

对于较大的,除以或通常不会有太大差异,因此可以引入未校正的公式,前提是该公式适用于较大的样本,不是吗?n n 1nnn1
PatrickT

1
@Patrick你可能会过分解读我的答案,因为它明确一些原因:他们是教学,并没有任何与是否是大或小。n
ub

50

根据定义,方差是通过取均值的平方差之和再除以大小来计算的。我们有一般的公式

μÑσ2=iN(Xiμ)2N其中是均值,是人口总数。μN

根据该定义,还必须以此方式计算样本(例如样本)的方差。t

¯ X Ñσt2=in(XiX¯)2n其中是平均值,是这个小样本的大小。X¯n

但是,通过样本方差,我们是指总体方差的估计量。我们如何仅使用样本中的值来估计?σ 2 σ 2S2σ2σ2

根据上述公式,随机变量从样本均值偏离¯ X具有方差σ 2 。样本均值¯ X也从偏离μ,方差为σ 2XX¯σt2X¯μ因为样品是指从样品得到不同的值进行采样,并将其与平均的随机变量μ和方差σ2σ2nμ。(一个可以轻松证明。)σ2n

因此,大致,应该偏离μ与涉及两个方差所以加起来这两个,并得到一个方差σ 2 = σ 2 + σ 2Xμ。通过解决这个问题,我们得到σ2=σ 2 Ť的连线 ×ñσ2=σt2+σ2n。更换σ 2 Ť的连线显示了我们对总体方差估计:σ2=σt2×nn1σt2

S2=in(XiX¯)2n1

一个也可证明是真实的。E[S2]=σ2


我希望这不是太简单:样本均值收敛到ND(σμ)当n增加任意大的原因样本均值从与方差实际平均偏离σ2σnσ2n
RexYuan

6
这是一个比其他方法更好的解释,因为它显示了方程式和推导,而不是简单地使用统计项对yagga yagga进行运算。
导航

1
@sevenkul我们可以一些如何直观地查看吗?当您说X应当与该净方差偏离时,我迷失了这一点μ
Parthiban Rajendran

17

这是一个总的直觉,但最简单的答案是对单元素样本的标准偏差未定义而不是为0进行了更正。


11
那么为什么不使用甚至1nn21作为更正?:-)1exp(1)exp(1/n)
豪伯

1
@whuber Parsimony(-;

4
更加“简约”。:-)1n1
whuber

2
@mbq,关于您的答案〜“这是为了使未定义单元素样本的标准偏差而不是0而进行的更正”,这真的是原因,还是这是个笑话?您知道像我们这样的非母亲无法分辨。
Pacerier,2015年

4
从形式上说,这是后果,而不是理由,但是,正如我所写的那样,我发现记住它是一个很好的直觉。

14

您可以仅通过几何来获得对项的更深入理解,不仅是为什么它不是n,而且为什么要采用这种形式,但是您可能首先需要建立直觉来应对n维几何。然而,从那里开始,这是更深入了解线性模型(即模型df和残差df)的自由度的一小步。我认为毫无疑问,费舍尔就是这么想的。这是逐步建立起来的一本书:n1nn

萨维尔DJ,伍德·格林。统计方法:几何方法。第三版。纽约:施普林格出版社;1991年。560页。9780387975177

(是的,共560页。我的确是逐步说出来的。)


谢谢一站式服务-我认为从这个方向来看不会有答案。有什么办法可以总结直觉,还是不可能?塔尔干杯
塔尔加利里

我自己不能这样做,但是一位书评员在Amer的一段中总结了这种方法。统计 1993年:jstor.org/stable/2684984。我不确定与您的学生一起使用这种方法是否真的可行,除非您在整个课程中都采用这种方法。
一站式

您能总结一下直觉而不只是参考书吗?
oliversm

12

当将总体方差的估计值应用于总体样本时,它会产生偏差。为了调整该偏差,需要除以n-1而不是n。从数学上可以看出,当我们除以n-1而不是n时,样本方差的估计量是无偏的。此处提供正式证明:

https://economictheoryblog.com/2012/06/28/latexlatexs2/

我想,最初是由数学上的正确性得出的公式。但是,如果要在公式中增加直觉,已经提到的建议似乎是合理的。

首先,对样本的观察平均而言更接近样本平均值而不是总体平均值。方差估计量利用样本均值,因此低估了总体的真实方差。除以n-1而不是n可以校正该偏差。

此外,除以n-1会使一元样本的方差不确定,而不是零。


12

为什么要除以而不是n?因为它是惯例,并且导致方差的无偏估计。但是,这会导致标准偏差的估计偏倚(较低),这可以通过将Jensen不等式应用于凹函数平方根来看出。n1n

那么,拥有一个无偏估计量有什么好处呢?它不一定使均方误差最小。正态分布的MLE是除以而不是n - 1。教会学生思考,而不是反省和漫不经心地应用一个世纪以前的过时概念。nn1


8
(+1)我对这种情况的思考越深(我已经给出了一些实际的想法,以研究诸如Student的1908 Biometrica之类的早期论文的程度来试图追踪出现的时间和原因),而且我认为“因为是习惯”是唯一可能的正确答案。我很不愿意看到的downvotes,只能猜测,他们正在回应的最后一句话,这很容易被视为攻击OP,尽管我怀疑这是你的意图。n1
ub

1
我的最后一句话是对所有有关方面的友好建议,而不是对OP的攻击。
马克·L·斯通

在大量使用中,这无关紧要,当用于测试或置信区间时,必须调整过程的其他部分,最后获得相同的结果!
kjetil b halvorsen

8

它是公知的(或很容易证明),该二次具有极值在ž = - βαz2+2βz+γ。这表明,对于任何给定的n个实数x1x2xn,量 Ga= n i=1xia2= n i = 1 x 2 i2a n i = 1 xi+nz=βαnx1,x2,,xn a = 1时具有最小值

G(a)=i=1n(xia)2=(i=1nxi2)2a(i=1nxi)+na2,
a=1ni=1nxi=x¯

现在,假设是尺寸的样品ñ从具有未知平均值的分布μ和未知的方差σ 2。我们可以估计μ1xinμσ2μ这是很容易计算的,而是试图估计σ211ni=1nxi=x¯σ21ni=1n(xiμ)2=n1G(μ)μG(x¯)G(μ)G(x¯)G(μ)G(μ)G(x¯)nn1

(1)G(μ)nn1G(x¯)
n1G(μ)=1ni=1n(xiμ)21n1G(x¯)=1n1i=1n(xix¯)2.

(1)

G(μ)=i=1n(xiμ)2=i=1n(xix¯+x¯μ)2=i=1n((xix¯)2+(x¯μ)2+2(xix¯)(x¯μ))=G(x¯)+n(x¯μ)2+(x¯μ)i=1n(xix¯)(2)=G(x¯)+n(x¯μ)2
i=1n(xix¯)=nx¯nx¯=0
n(x¯μ)2=n1n2(i=1n(xiμ))2=1ni=1n(xiμ)2+2ni=1nj=i+1n(xiμ)(xjμ)(3)=1nG(μ)+2ni=1nj=i+1n(xiμ)(xjμ)
xiμμ(xiμ)(xjμ)(3)取正值和负值,因此发生许多抵消。因此,可以预期双和的绝对值较小,与相比,我们可以忽略它1nG(μ)(3)(2)
G(μ)G(x¯)+1nG(μ)G(μ)nn1G(x¯)
(1)

8
仅在此堆栈交换上,才可以认为这是一个直观的答案。
Joseph Garvin

6

(xixj)2/2

s2=2n(n1)i<j(xixj)22=1n1i=1n(xix¯)2.

XY

V(X)=E((XY)22)=E((XE(X))2).

从方差的随机变量定义到样本方差的定义是通过平均值来估计期望的问题,这可以通过典型性的哲学原理来证明:样本是分布的典型表示。(请注意,这与瞬时估算有关,但不相同。)


2
在最后一段,我不太了解您。是不是数学事实V(X)=E((XY)22)=E((XE(X))2)

4
(xixi)2s2nn1
whuber

4

N=1xm¯=x1

V=N(xnm¯)2N

V¯=(xm¯)21=0.

yxyN1=0

0d+1dd+1


目前尚不清楚为什么“无限方差将是一个更合理的结果”而不是零方差。确实,您似乎在方差估计量的意义上使用“样本方差” ,但这更加令人困惑。
whuber

1
0<

4

胡布尔的建议下,这个答案已从另一个类似的问题中复制而来。

在使用样本方差作为真实方差的估计量时,采用贝塞尔校正来校正偏差。由于样本均值比真实均值更接近观测值的中间值,因此会出现未校正统计量的偏差,因此样本均值周围的平方偏差会系统地低估真实均值附近的平方偏差。

S2n

S2=1ni=1n(XiX¯)2=1ni=1n(Xi22X¯Xi+X¯2)=1n(i=1nXi22X¯i=1nXi+nX¯2)=1n(i=1nXi22nX¯2+nX¯2)=1n(i=1nXi2nX¯2)=1ni=1nXi2X¯2.

取得预期收益:

E(S2)=1ni=1nE(Xi2)E(X¯2)=1ni=1n(μ2+σ2)(μ2+σ2n)=(μ2+σ2)(μ2+σ2n)=σ2σ2n=n1nσ2

σ2n1


谢谢你的证明!
更新

0

通常,在分母中使用“ n”给出的值要小于我们要估计的总体方差。如果采集少量样本,尤其会发生这种情况。用统计学的话来说,样本方差提供了总体方差的“有偏”估计,需要使其“无偏”。

如果您正在寻找一个直观的解释,您应该让学生通过实际取样来了解自己的原因!观看此内容,它可以准确回答您的问题。

https://www.youtube.com/watch?v=xslIhnquFoE


0

X¯=1ni=1nXiS2=1n1i=1n(XiX¯)2n1

要回答这个问题,我们必须回到无偏估计量的定义。无偏估计量是指期望值趋于真实期望值的估计值。样本均值是一个无偏估计量。要了解原因:

E[X¯]=1ni=1nE[Xi]=nnμ=μ

让我们看一下样本方差的期望,

S2=1n1i=1n(Xi2)nX¯2

E[S2]=1n1(nE[(Xi2)]nE[X¯2]).

X¯E[X¯2]n1

E[S2]=1n1(n(μ2+σ2)n(μ2+Var(X¯))).
Var(X¯)=Var(1ni=1nXi)=i=1n1n2Var(Xi)=σ2n

E[S2]=1n1(n(μ2+σ2)n(μ2+σ2/n)).=(n1)σ2n1=σ2

nn1n1S2


3
S

-1

μσ2nμ

σ2(n+1n1),

2n

广义Student的T分布具有三个参数,并利用了所有三个统计量。如果决定放弃一些信息,则可以使用问题中所述的两参数正态分布来进一步近似数据。

从贝叶斯的角度来看,您可以想象模型的超参数的不确定性(均值和方差的分布)会导致后验预测的方差大于总体方差。


-4

天哪,事情变得越来越复杂!我以为简单的答案是...如果您拥有所有数据点,则可以使用“ n”,但是如果您有“样本”,则假设它是一个随机样本,那么您在标准偏差内就有更多的样本点而不是外部(标准差的定义)。您只是没有足够的数据来确保随机获得所需的所有数据点。n-1有助于向“真实”标准偏差扩展。


3
n1n2
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.