如何从正态分布中找到样本标准偏差的标准偏差?


11

如果我错过了一些显而易见的事情,请原谅我。

我是一位物理学家,本质上是(直方图)分布,其中心是一个近似于正态分布的平均值。对我来说,重要的值是该高斯随机变量的标准偏差。我将如何尝试查找样本标准偏差上的误差?我感觉到它与原始直方图中每个bin上的错误有关。


stats.stackexchange.com/questions/26924提供了提示。通常,可以根据分布的前四个矩来计算方差的采样误差,因此可以至少从这些矩中估计出SD的采样误差。
ub

Answers:


12

听起来您正在要求计算样本标准偏差的标准偏差。也就是说,您要的是,其中SD(s)=var(s)

s=1n1i=1n(XiX¯),

‾ XX1,...,XnN(μ,σ2)和是样本均值。X¯

首先,我们从方差的基本属性知道

var(s)=E(s2)E(s)2

由于样本方差是无偏的,因此我们知道。在为什么样本标准差是有偏估计量,计算出,从中我们可以推断出σ ë 小号E(s2)=σ2σE(s)

E(s)2=2σ2n1(Γ(n/2)Γ(n12))2

因此

SD(s)=E(s2)E(s)2=σ12n1(Γ(n/2)Γ(n12))2

好点子。我得到了s ^ 2方差的估计。取平方根可得出s ^ 2的标准偏差。但是您回答了实际的问题,即要获得s的标准偏差。我认为出于实际原因,您也可以将σ替换为s来使用公式进行估算。
Michael R. Chernick

是的,没错,您可以用替换,即使对于较小的样本量,这种近似效果也很好-我用进行了一些测试。小号Ñ = 20σsn=20
2012年

11

当样本独立且具有相同的正态分布时,数量具有自由度的卡方分布。此数量可用于获得置信度法线及其标准偏差的方差的间隔。如果您具有原始值,而不仅仅是bin的中心值,则可以计算。 Ñ - 1 小号2X=(n1)s2/σ2n1s2

已知如果具有自由度的卡方分布,则其方差为。知道这一点和事实,我们得出的方差等于 尽管是未知的,但您可以将其近似为并且对的方差有一个大致的了解。Ñ - 1 2 Ñ - 1 V - [R C ^ X = c ^ 2 V - [R X 小号2 2 Ñ - 1 σ 4Xn12(n1)Var(cX)=c2Var(X)s2

2(n1)σ4(n1)2=2σ4n1.
σ4s4s2

我本来打算在开始时发布它,但是我在这里看到的问题是是未知的。鉴于这一事实,如果我们甚至不知道样本大小,我也不知道近似是否有效。我记得有人可以证明第四时刻可能会出现离群值的严重问题。σ2s4σ4
内斯托尔

s4是的一致估计(提供的存在),对@Nesp吗?我认为这通常是人们说“近似”或“粗略想法”时的意思。σ4σ4
2012年

2
也许是缺乏睡眠,但是,这不像循环推理吗?
内斯托尔

我们从一开始就假设数据来自正态分布,因此不存在异常问题。我的意思是马克罗建议的方式。我同意样本大小会影响s ^ 4与σ^ 4的接近程度。但是,离群值的担心不在Nesp的基础上。如果您对此表示反对,我认为这是非常不公平的。我介绍的是在数据为正态分布时估算s ^ 2的标准偏差的标准方法。
Michael R. Chernick

@ Nesp,Michael对正态分布样本的样本标准偏差的方差给出了一个一致的估计值-对于大型样本,它会做得很好-模拟并找出答案。我不确定您为什么认为这是循环推理。
2012年

7

在正常情况下,有几种方法可以量化标准偏差的误差。我将介绍的概貌似然,可用于近似置信区间。σ

令为法线的样本。相应的似然函数为x=(x1,...,xn)(μ,σ)

L(μ,σ)1σnexp(12σ2j=1n(xjμ)2)

然后,通过给出最大似然估计量,其中。假设您有兴趣量化上的误差,则可以按以下方式计算此参数的归一化轮廓似然。(μ^,σ^)=(x¯,s)s=1nj=1n(xjx¯)2σ

Rp(σ)=supμL(μ,σ)L(μ^,σ^)=(σ^σ)nexp[n2(1(σ^σ)2)]

请注意,。级别为的间隔的置信度约为。接下来,我附加一个可用于计算这些间隔的代码。根据您的情况进行相应调整(或者,如果您发布数据,则可以包含这些更改)。0.147 0.95 řRp:R+(0,1]0.1470.95R

data = rnorm(30)
n = length(data)
sg = sqrt(mean((data-mean(data))^2))
# Profile likelihood
rp = function(sigma) return( (sg/sigma)^n*exp(0.5*n*(1-(sg/sigma)^2))  )
vec = rvec = seq(0.5,1.5,0.01)
for(i in 1:length(rvec)) rvec[i] = rp(vec[i])
plot(vec,rvec,type="l")
rpc = function(sigma) return(rp(sigma)-0.147)
# Approximate 95% confidence interval
c(uniroot(rpc,c(0.7,0.8))$root,uniroot(rpc,c(1.1,1.3))$root)

这种间隔的优点是它们在变换下是不变的。在这种情况下,如果您计算的间隔,即,则的相应间隔就是。= 大号Û σ 2 ' = 大号2Ù 2σI=(L,U)σ2I=(L2,U2)


我认为他真的只是想要s的标准偏差。
Michael R. Chernick
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.