我正在努力理解标准误差和标准偏差之间的区别。它们有什么不同?为什么需要测量标准误差?
我正在努力理解标准误差和标准偏差之间的区别。它们有什么不同?为什么需要测量标准误差?
Answers:
为了完成对问题的解答,Ocram很好地解决了标准误差,但没有将其与标准偏差进行对比,也没有提及对样本量的依赖性。作为估计量的特殊情况,请考虑样本均值。平均值的标准误差为其中σ是总体标准偏差。因此,在此示例中,我们可以清楚地看到标准误差如何随着样本量的增加而减小。标准偏差最常用于指代单个观测值。因此,标准差描述了各个观测值的变异性,而标准误差则描述了估计量的变异性。好的估计量是一致的,这意味着它们收敛到真实的参数值。当它们的标准误差随着样本数量的增加而减小到0时,估计量是一致的,这在大多数情况下是因为标准误差变为0(正如我们在样本均值中明确看到的那样)。
这是一个更实用(而不是数学)的答案:
请注意,几乎可以对您根据数据计算出的所有参数计算标准误差,而不仅仅是平均值。短语“标准错误”有点含糊。以上几点仅指平均值的标准误。
(摘自我写的《GraphPad统计指南》。)
(请注意,我关注的是均值的标准误差,我相信提问者也是如此,但是您可以为任何样本统计信息生成标准误差)
标准误差与标准偏差有关,但它们不是同一回事,并且样本量的增加不会使它们更靠近。而是,它们使它们相距更远。随着样本量的增加,样本的标准偏差变得更接近总体标准偏差,但标准偏差却没有。
有时,围绕此的术语有点难以理解。
当您收集样本并计算该样本的标准偏差时,随着样本大小的增加,标准偏差的估计值将越来越准确。从您的问题看来,这就是您在想什么。但是也要考虑样本的平均值趋于平均接近总体平均值。这对于理解标准错误至关重要。
标准错误是关于如果您获得给定大小的多个样本会发生什么。如果您抽取10个样本,则可以估算出平均值。然后,您再取10个样本和新的均值估计,依此类推。这些样品的平均值的标准偏差是标准误差。鉴于您提出了问题,现在您可能可以看到,如果N高,则标准误差会变小,因为样本均值不太可能与真实值有很大偏差。
鉴于您是从一个样本中计算得出的,对于某些人来说这听起来有些奇迹。因此,您可以做的是通过仿真引导一个标准错误来演示这种关系。在R中看起来像:
# the size of a sample
n <- 10
# set true mean and standard deviation values
m <- 50
s <- 100
# now generate lots and lots of samples with mean m and standard deviation s
# and get the means of those samples. Save them in y.
y <- replicate( 10000, mean( rnorm(n, m, s) ) )
# standard deviation of those means
sd(y)
# calcuation of theoretical standard error
s / sqrt(n)
您会发现最后两个命令生成的数字相同(大约)。您可以改变n,m和s的值,它们总是很接近彼此。