我今天问类,为什么你被划分方误差之和,而不是与,计算标准差时。n
我说过我不会在课堂上回答它(因为我不想进入无偏估计量),但后来我想知道- 为此有一个直观的解释吗?
我今天问类,为什么你被划分方误差之和,而不是与,计算标准差时。n
我说过我不会在课堂上回答它(因为我不想进入无偏估计量),但后来我想知道- 为此有一个直观的解释吗?
Answers:
用除数计算的标准偏差是根据样本计算得出的标准偏差,作为从中抽取样本的总体标准偏差的估计值。因为观测值平均而言平均地更接近样本均值,而不是总体均值,所以使用与样本均值的偏差计算得出的标准差会低估总体的期望标准差。使用而不是作为除数可以通过使结果稍大来进行校正。n − 1 n
请注意,当较小时,该校正具有比较大时更大的比例效应,这是我们想要的,因为当n较大时,样本均值很可能是总体均值的良好估计。
当样本是总体时,因为样本均值是总体均值,所以我们将标准差以作为除数。
(在括号内,我注意到,以“第二个时间点围绕已知的确定的均值重新开始”开头的内容,将无法满足发问者对直观解释的要求。)
n−1
而不是n−2
(甚至n−3
)?
一个常见的问题是,(分布的)方差的定义是围绕一个已知的,确定的均值最近出现的第二个时刻,而估计量则使用一个估计的均值。这种自由度的损失(给定平均值,您可以仅了解个数据值来重构数据集),需要使用而不是来“调整”结果。n − 1 n
这样的解释与方差分析和方差成分分析中的估计方差一致。这实际上只是一个特例。
需要作出一些调整是膨胀的方差,我认为,进行直观清晰与不只是一个有效的论点事后挥手。(我记得学生可能在1908年关于t检验的论文中曾提出过这样的论点。)为什么对方差的调整应恰好是的因数更难辩解,尤其是当您考虑调整后的SD 并非无偏估计量。(这只是方差的无偏估计量的平方根。无偏通常无法承受非线性变换。)因此,实际上,对SD进行正确调整以消除其偏斜并不是的因素。√ 都!
一些入门级教科书甚至不用理会调整后的sd:它们教一个公式(除以)。当我从这样的书中教书时,我首先对此做出了消极的反应,但是逐渐意识到了这种智慧:为了专注于概念和应用,作者剔除了所有无关紧要的数学技巧。事实证明,没有什么受到伤害,没有人被误导。
根据定义,方差是通过取均值的平方差之和再除以大小来计算的。我们有一般的公式
μÑ其中是均值,是人口总数。
根据该定义,还必须以此方式计算样本(例如样本)的方差。
¯ X Ñ其中是平均值,是这个小样本的大小。
但是,通过样本方差,我们是指总体方差的估计量。我们如何仅使用样本中的值来估计?σ 2 σ 2
根据上述公式,随机变量从样本均值偏离¯ X具有方差σ 2 吨。样本均值¯ X也从偏离μ,方差为σ 2因为样品是指从样品得到不同的值进行采样,并将其与平均的随机变量μ和方差σ2。(一个可以轻松证明。)
因此,大致,应该偏离μ与涉及两个方差所以加起来这两个,并得到一个方差σ 2 = σ 2 吨 + σ 2。通过解决这个问题,我们得到σ2=σ 2 Ť的连线 ×ñ。更换σ 2 Ť的连线显示了我们对总体方差估计:
。
一个也可证明是真实的。
这是一个总的直觉,但最简单的答案是对单元素样本的标准偏差未定义而不是为0进行了更正。
您可以仅通过几何来获得对项的更深入理解,不仅是为什么它不是n,而且为什么要采用这种形式,但是您可能首先需要建立直觉来应对n维几何。然而,从那里开始,这是更深入了解线性模型(即模型df和残差df)的自由度的一小步。我认为毫无疑问,费舍尔就是这么想的。这是逐步建立起来的一本书:
萨维尔DJ,伍德·格林。统计方法:几何方法。第三版。纽约:施普林格出版社;1991年。560页。9780387975177
(是的,共560页。我的确是逐步说出来的。)
当将总体方差的估计值应用于总体样本时,它会产生偏差。为了调整该偏差,需要除以n-1而不是n。从数学上可以看出,当我们除以n-1而不是n时,样本方差的估计量是无偏的。此处提供正式证明:
https://economictheoryblog.com/2012/06/28/latexlatexs2/
我想,最初是由数学上的正确性得出的公式。但是,如果要在公式中增加直觉,已经提到的建议似乎是合理的。
首先,对样本的观察平均而言更接近样本平均值而不是总体平均值。方差估计量利用样本均值,因此低估了总体的真实方差。除以n-1而不是n可以校正该偏差。
此外,除以n-1会使一元样本的方差不确定,而不是零。
为什么要除以而不是n?因为它是惯例,并且导致方差的无偏估计。但是,这会导致标准偏差的估计偏倚(较低),这可以通过将Jensen不等式应用于凹函数平方根来看出。
那么,拥有一个无偏估计量有什么好处呢?它不一定使均方误差最小。正态分布的MLE是除以而不是n - 1。教会学生思考,而不是反省和漫不经心地应用一个世纪以前的过时概念。
它是公知的(或很容易证明),该二次具有极值在ž = - β。这表明,对于任何给定的n个实数x1,x2,…,xn,量 G(a)= n ∑ i=1(xi−a)2=( n ∑ i = 1 x 2 i)−2a( n ∑ i = 1 xi)+n 当 a = 1时具有最小值
现在,假设是尺寸的样品ñ从具有未知平均值的分布μ和未知的方差σ 2。我们可以估计μ为1这是很容易计算的,而是试图估计σ2 为1
通常,在分母中使用“ n”给出的值要小于我们要估计的总体方差。如果采集少量样本,尤其会发生这种情况。用统计学的话来说,样本方差提供了总体方差的“有偏”估计,需要使其“无偏”。
如果您正在寻找一个直观的解释,您应该让学生通过实际取样来了解自己的原因!观看此内容,它可以准确回答您的问题。