标准误差和标准偏差之间的差异


96

我正在努力理解标准误差和标准偏差之间的区别。它们有什么不同?为什么需要测量标准误差?


7
快速评论,而不是答案,因为已经存在两个有用的评论:标准偏差是随机变量(分布)的属性。相反,标准误差与对特定样品的测量有关。当模糊宇宙和样本之间的区别时,两者可能会混淆。
Francesco

Answers:


31

为了完成对问题的解答,Ocram很好地解决了标准误差,但没有将其与标准偏差进行对比,也没有提及对样本量的依赖性。作为估计量的特殊情况,请考虑样本均值。平均值的标准误差为其中σ是总体标准偏差。因此,在此示例中,我们可以清楚地看到标准误差如何随着样本量的增加而减小。标准偏差最常用于指代单个观测值。因此,标准差描述了各个观测值的变异性,而标准误差则描述了估计量的变异性。好的估计量是一致的,这意味着它们收敛到真实的参数值。当它们的标准误差随着样本数量的增加而减小到0时,估计量是一致的,这在大多数情况下是因为标准误差变为0(正如我们在样本均值中明确看到的那样)。σ/ñσ


3
回复:“ ...一致,这意味着它们的标准误差减少到0”-这是不正确的。您还记得以下讨论:stats.stackexchange.com/questions/31036/…吗?
2012年

1
是的,我当然记得关于异常例外的讨论,并且在回答问题时我正在考虑它。但是问题是关于标准误差的,以简单的术语来说,好的参数估计值是一致的,并且如样本均值的情况一样,它们的标准误差趋于0。
Michael Chernick

4
我同意您的意见-样本均值的标准误为0 且样本均值是一致的。但是,它的标准误为零不是(或等同于)一致的事实的结果,这就是您的回答。
2012年

3
@Macro是的,答案可以得到改善,我决定这样做。我认为重要的是不要对OP太过专业,因为资格认证的所有内容可能都很复杂且令人困惑。但是,为了简单起见,不应牺牲技术准确性。因此,我认为我在编辑中解决此问题的方法是实现此目标的最佳方法。
Michael Chernick

9
我同意,除非绝对必要,否则不要获取技术很重要。我唯一的评论是,一旦您选择引入一致性的概念(技术概念),就没有用以使答案更易于理解的名义对它进行错误地定性。我认为您的修改确实解决了我的评论。
2012年

51

这是一个更实用(而不是数学)的答案:

  • SD(标准偏差)可量化分散度-值彼此相差多少。
  • SEM(均值的标准误)量化了您对总体真实均值的精确度。它同时考虑了SD的值和样本量。
  • SD和SEM的单位相同-数据的单位。
  • 根据定义,SEM始终小于SD。
  • SEM随样品变大而变小。这是有道理的,因为大样本的均值可能比小样本的均值更接近真实总体均值。对于庞大的样本,即使数据非常分散,您也可以非常精确地知道均值。
  • 当您获取更多数据时,SD不会发生可预测的变化。您从样本计算出的SD是对总体总体SD的最佳估计。随着收集更多数据,您将更加精确地评估总体的SD。但是您无法预测较大样本的SD是否会大于较小样本的SD。(这是一种简化,并非完全正确。请参见下面的评论。)

请注意,几乎可以对您根据数据计算出的所有参数计算标准误差,而不仅仅是平均值。短语“标准错误”有点含糊。以上几点仅指平均值的标准误。

(摘自我写的《GraphPad统计指南》。)


11
ñ100ñ.18ñ=2

4
@whuber:你当然是对的。当您添加更多数据时,方差(SD平方)不会发生可预测的变化。随着样本量的增加,SD会变大,尤其是从小样本开始时。与SEM随样本大小的变化相比,变化很小。
Harvey Motulsky

@HarveyMotulsky:为什么sd增加?
安德鲁

对于大样本,样本方差将非常接近总体方差,因此样本SD将接近总体SD。对于较小的样本,样本方差将平均等于总体方差,但差异会更大。如果作为方差对称,则它们将与SD不对称。示例:总体方差是100。两个样本方差是80或120(对称)。样本SD应该为10,但应为8.94或10.95。从各地的总体方差呈对称分布,平均SD平均样品SDS将很低,低N.
哈维Motulsky

43

θX={X1个Xñ}θθ^Xθ^XXXθ^Xθ^Xθ^θ^Xθ^


1
估计的标准误差等于估计变量的标准偏差吗?
尤里(Yurii)

6

(请注意,我关注的是均值的标准误差,我相信提问者也是如此,但是您可以为任何样本统计信息生成标准误差)

标准误差与标准偏差有关,但它们不是同一回事,并且样本量的增加不会使它们更靠近。而是,它们使它们相距更远。随着样本量的增加,样本的标准偏差变得更接近总体标准偏差,但标准偏差却没有。

有时,围绕此的术语有点难以理解。

当您收集样本并计算该样本的标准偏差时,随着样本大小的增加,标准偏差的估计值将越来越准确。从您的问题看来,这就是您在想什么。但是也要考虑样本的平均值趋于平均接近总体平均值。这对于理解标准错误至关重要。

标准错误是关于如果您获得给定大小的多个样本会发生什么。如果您抽取10个样本,则可以估算出平均值。然后,您再取10个样本和新的均值估计,依此类推。这些样品的平均值的标准偏差是标准误差。鉴于您提出了问题,现在您可能可以看到,如果N高,则标准误差会变小,因为样本均值不太可能与真实值有很大偏差。

鉴于您是从一个样本中计算得出的,对于某些人来说这听起来有些奇迹。因此,您可以做的是通过仿真引导一个标准错误来演示这种关系。在R中看起来像:

# the size of a sample
n <- 10
# set true mean and standard deviation values
m <- 50
s <- 100

# now generate lots and lots of samples with mean m and standard deviation s
# and get the means of those samples. Save them in y.
y <- replicate( 10000, mean( rnorm(n, m, s) ) )
# standard deviation of those means
sd(y)
# calcuation of theoretical standard error
s / sqrt(n)

您会发现最后两个命令生成的数字相同(大约)。您可以改变n,m和s的值,它们总是很接近彼此。


我发现这确实很有帮助,感谢您的发帖。那么将标准误差描述为“抽样分布的标准偏差”是否公平?在上面的代码块中,采样分布为y?这就是使样本参数sd和均值与采样分布参数混淆的原因。
Doug Fir

1
如果您更改措辞以指定这种情况下的样本均值,则可以。
约翰
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.