计算所需的样本量,方差估计的精度?


17

背景

我有一个未知分布的变量。

我有500个样本,但是我想证明我可以计算方差的精度,例如说500的样本量就足够了。我也想知道以的精度估算方差所需的最小样本量X%

问题

我该如何计算

  1. 给定样本量,我估计方差的精度n=500?的n=N
  2. 如何计算以精度估算方差所需的最小样本数X

图1基于500个样本的参数密度估计。

在此处输入图片说明

图2这是我使用500个样本的子样本计算出的x轴上的样本大小与y轴上的方差估计值之间的关系图。想法是随着n的增加,估计值将收敛到真实方差。

然而,估计是无效的独立自样品用于估计方差n[10,125,250,500]是不相互独立的或在用于计算方差的样本n[20,40,80]

在此处输入图片说明


请注意,如果未知分布的组成部分是柯西分布,则方差是不确定的。
Mike Anderson

@Mike或实际上还有无数其他发行版。
Glen_b-恢复莫妮卡

Answers:


10

对于iid随机变量,方差s 2(分母为n 1)的无偏估计量具有方差:X1,,Xns2n1

Var(s2)=σ4(2n1+κn)

其中是分布的过度峰度(参考:Wikipedia)。因此,现在您还需要估算分布的峰度。您可以使用有时被描述为一个数量γ 2(也来自维基百科):κγ2

γ2=μ4σ43

我会假设,如果你用作为一个估计σγ 2作为估计κ,你得到一个合理的估计V [R 小号2,虽然我没有看到一个保证,这是偏见。看看它是否与您的500个数据点的子集之间的方差合理地匹配,是否不再担心它了:)sσγ2κVar(s2)


您是否有关于无偏方差估计量的教科书参考?我不知道从Wikipedia那里可以得到更多的信息。
安倍

我在这里没有标准文字赖斯,所以我无法为您检查页码,但我确定它在其中。维基百科建议也应在以下网站中提及:华盛顿州蒙哥马利市和GC州罗格市:工程师的应用统计和概率,第201页。John Wiley&Sons纽约,1994
。– Erik P.

感谢您的帮助。这个答案非常有用,并且可以量化方差不确定性-我在最后一天应用了约10次该方程式。使用库很容易计算出kappamomentslibrary(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
安倍

您是否有可能从Rice文本中找到页码?我在Casella和Berger中找不到它。如果您知道的话,主要参考会更好。维基百科页面明显未被引用。
2012年

嗯...看来莱斯也没有公式。我会密切注意,但目前我还没有任何参考。
Erik P.

15

学习差异很难。

在许多情况下,需要(可能令人惊讶)大量样本才能很好地估计方差。下面,我将展示iid正常样本的“规范”案例的发展。

假设= 1 ... Ñ被独立Ñμ σ 2的随机变量。我们寻求100 1 - α 的方差,使得间隔的宽度是置信区间ρ 小号2,即,宽度为100 ρ 点估计的。例如,如果ρ = 1 / 2,则CI的宽度是点估计值的一半,例如,如果Yii=1,,nN(μ,σ2)100(1α)%ρs2100ρ%ρ=1/2,则CI将类似于8 s2=10,宽度为5。注意点估计周围的不对称性。( s 2是方差的无偏估计量。)(8,13)s2

“该”(更确切地说, “A”)为置信区间Ñ - 1 小号2s2 其中 χ 2

(n1)s2χ(n1)2(1α/2)σ2(n1)s2χ(n1)2(α/2),
是自由度为n-1的卡方分布的β分位数。(出现这种情况的事实,ñ-1s ^2/σ2。处于高斯设置的枢转量)χ(n1)2ββn1(n1)s2/σ2

我们想要最小化宽度,以使 因此我们要求解 n使得 n 1 1

L(n)=(n1)s2χ(n1)2(α/2)(n1)s2χ(n1)2(1α/2)<ρs2,
n
(n1)(1χ(n1)2(α/2)1χ(n1)2(1α/2))<ρ.

对于99%的置信区间的情况下,我们得到ρ = 1Ñ = 5321ρ = 0.1。最后一种情况产生的间隔为(仍然!n=65ρ=1n=5321ρ=0.1方差的点估计的)10%。

如果您选择的置信度小于99%,则对于较低的值,将获得相同的宽度间隔。但是,nnn可能仍然比您猜想的要大。

样本大小与比例宽度ρ的关系图显示出一些东西在对数对数刻度上看起来是渐近线性的;换句话说,是一种类似于幂律的关系。我们可以粗略地估计这种幂律关系的力量为nρ

α^log0.1log1log5321log65=log10log5231650.525,

不幸的是,这绝对是缓慢的!


这是一种“规范”情况,可让您感觉如何进行计算。根据您的情节,您的数据看起来不是特别正常。特别是似乎有明显的偏斜。

但是,这应该使您对预期结果有个大致了解。请注意,要回答上面的第二个问题,有必要先确定一些置信度,在上面的开发中,出于演示目的,我将其设置为99%。


这是对我的问题的很好回答。但是,尽管我遵循您对进行的计算ρ,它是不完全清楚,我如果单位为[R ħ ø是百分之在溶液Ñ = 65ρ < 1 ; 这是否意味着“ ρ小于1 × 小号2 ”或“ ρ小于1 小号2n|ρrhon=65ρ<1ρ1×s2ρ1%s2
阿部

@Abe,已更新,并希望在此过程中得到澄清。以前的版本中有一个特别糟糕的错字。对于那个很抱歉。
主教

一个很好的答案,但我从@Erik中选择了一个,因为它更适用于我的问题(因为我的参数不是正态分布的)。
2012年

@安倍:没有问题。这就是复选标记的用途。我的回答是说明性的,比什么都重要。据我所知,它似乎仍然是解决您两个问题的唯一方法,即使在Erik概述的情况下,它也是(渐近地)正确的。(一年多以前给他+1):)
红衣主教

您是正确的,我很高兴现在重新回答了您的答案。我最终使用了@Erik的常规计算,但是现在我看到了常规解决方案中的值。另外,如果以的形式查看统计信息,而不是了解方差是什么,那么提出CI而不是SD可以解决我的观众感到困惑的问题。因此,s [ l c l u c l ]应该使这一点更加清楚,并与其他统计摘要相一致。这将有助于显示不对称性。s(ss)s[lcl,ucl]
安倍

1

我将专注于SD而不是方差,因为它的规模更容易解释。

人们有时确实会查看SD或方差的置信区间,但重点通常放在均值上。

你给出的分配结果可以用来得到一个置信区间σ 2(因此也σ); 最入门的数学/ STAT文本将给予在其中的ditribution同款细节σ 2被提及。我只会从每条尾巴拿走2.5%。s2/σ2σ2σσ2


(此答复是在合并了一个重复的问题(框架略有不同之后,才在这里得到的)。)
whuber

1

Greenwood和Sandomire在1950年的JASA论文中给出了以下解决方案。

是从一个随机样品Ñμ σ 2的分布。您将使用作为(偏差)估计量的样本标准偏差 S = 来推断σ。X1,,XnN(μ,σ2)σ

S=i=1n(XiX¯)2n1,
Sσ0<ü<1个。那是,
{小号<1个-üσ}=一种{小号>(1+u)σ}=b,
in which the significance level γ=1ab.

It follows that

Pr{(n1)S2σ2<(n1)(1u)2}=a
and
Pr{(n1)S2σ2>(n1)(1+u)2}=b.
Since the pivotal quantity (n1)S2/σ2 has χn12 distribution, adding the two probabilities, we find

γ=Fχ(n1)2((n1)(1+u)2)Fχ(n1)2((n1)(1u)2),

and the necessary sample size is found solving the former equation in n for given γ and u.

R code.

gamma <- 0.95
u <- 0.1
g <- function(n) pchisq((n-1)*(1+u)^2, df = n-1) - pchisq((n-1)*(1-u)^2, df = n-1) - gamma
cat("Sample size n = ", ceiling(uniroot(g, interval = c(2, 10^6))$root), "\n")

Output for u=10% and γ=95%.

Sample size n = 193
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.