正常随机变量的近似阶数统计


38

是否存在用于某些随机分布的顺序统计的众所周知的公式?特别是正常随机变量的一阶和最后一阶统计量,但也可以理解为更通用的答案。

编辑:为澄清起见,我正在寻找可以或多或少明确评估的近似公式,而不是确切的整数表达式。

例如,对于正常rv的一阶统计量(即最小值),我已经看到以下两个近似值:

e1:nμn12n1σ

e1:nμ+Φ1(1n+1)σ

其中第一个,对于,给出大约,这似乎是一个松散的界限。n=200e1:200μ10σ

第二个给出而快速的Monte Carlo给出,所以这并不是一个很差的近似值,但也不是很好,并且更重要的是,我对它的来源一无所知。e1:200μ2.58σe1:200μ2.75σ

有什么帮助吗?


4
如果使用R,请参见ppoints函数。
主教

1
@probabilityislogic为您列出的近似值提供了一些很好的直觉。如果我从其他角度给出更多建议,或者您对这件事感到好奇,这对您有帮助吗?
主教

Answers:


31

经典的参考文献是Royston(1982)[1],它的算法超出了明确的公式。它还引用了Blom(1958)的一个著名公式: 与。对于此公式给出-2.73的乘数。α=0.375Ñ=200[R=1E(r:n)μ+Φ1(rαn2α+1)σα=0.375n=200,r=1

[1]:算法AS 177:预期的正常订单统计信息(精确和近似) JP Royston。皇家统计学会杂志。系列C(应用统计信息)第一卷 31,No. 2(1982),pp.161-165


21

任何连续随机数的ith阶统计量的分布PDF的变量由“β-F”化合物分布给出。考虑这种分布的直观方法是在的样本中考虑第i阶统计量。现在,为了使随机变量的第i次统计量的值等于我们需要3个条件:NXx
  1. i1值低于,则每个观测值的概率为,其中是随机变量X的CDF。xFX(x)FX(x)=Pr(X<x)
  2. Ni值高于,则概率为x1FX(x)
  3. 在包含的无穷间内的1个值,其概率为,其中为随机变量的PDFxfX(x)dxfX(x)dx=dFX(x)=Pr(x<X<x+dx)X

有种方法可以进行此选择,因此我们有:(N1)(N1i1)

fi(xi)=N!(i1)!(Ni)!fX(xi)[1FX(xi)]Ni[FX(xi)]i1dx

在我的原始帖子中进行编辑,从这一点出发,我做了很差的尝试,下面的评论反映了这一点。我试图在下面纠正此问题

如果我们取该pdf的平均值,则得到:

E(Xi)=xifi(xi)dxi

然后在此积分中,对变量进行以下更改(采用@henry的提示),积分变为:pi=FX(xi)

E(Xi)=01FX1(pi)Beta(pi|i,Ni+1)dpi=EBeta(pi|i,Ni+1)[FX1(pi)]

因此,这是反CDF的期望值,可以使用delta方法很好地近似得出:

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[EBeta(pi|i,Ni+1)]=FX1[iN+1]

为了获得更好的近似值,我们可以扩展到二阶(素数表示微分),并指出反数的二阶导数是:

2a2FX1(a)=FX(FX1(a))[FX(FX1(a))]3=fX(FX1(a))[fX(FX1(a))]3

令。然后我们有:νi=FX1[iN+1]

EBeta(pi|i,Ni+1)[FX1(pi)]FX1[νi]VarBeta(pi|i,Ni+1)[pi]2fX(νi)[fX(νi)]3
=νi(iN+1)(1iN+1)2(N+2)fX(νi)[fX(νi)]3

现在,针对正常情况,我们有

fX(x)=1σϕ(xμσ)fX(x)=xμσ3ϕ(xμσ)=xμσ2fX(x)
FX(x)=Φ(xμσ)FX1(x)=μ+σΦ1(x)

请注意,,期望大约变为:fX(νi)=1σϕ[Φ1(iN+1)]

E[xi]μ+σΦ1(iN+1)+(iN+1)(1iN+1)2(N+2)σΦ1(iN+1)[ϕ[Φ1(iN+1)]]2

最后:

E[xi]μ+σΦ1(iN+1)[1+(iN+1)(1iN+1)2(N+2)[ϕ[Φ1(iN+1)]]2]

尽管正如@whuber所指出的那样,这在末尾将是不准确的。实际上,我认为情况可能更糟,因为带有不同参数的beta的偏度


1
随机变量的最大似然估计”?不知道那是什么,但是我认为您(几乎)已经计算出mode
主教

1
当和突然出现而没有警告或定义时,约有三分之二的事情发生了。μσ
ub

2
我并不是要“堆砌”,但对我来说,很难看到括号中的数量如何可以用负数来近似。
主教

1
@probabilityislogic,虽然在微积分方面,您可能会说在这种情况下,我们正在考虑使用双变量函数,并且只是最大化一个变量而不是另一个变量,我认为数学,统计和教学上的原因叫您什么已经做了“最大似然估计”。在这个领域中,它们太多了,无法枚举,但我认为足够引人注目的一个简单原因是,出于某种原因,我们在统计中使用了一种特殊的奥术词汇。一时冲动改变一个问题可能会导致误解... / ...
主教

2
@probabilityislogic(+1)为修订后的答案。一个建议,也许是优于来表示“暗示”。盯着几行看了几秒钟,才意识到您并没有提出收敛的要求。
主教

13

Aniko的答案依赖于Blom众所周知的公式,其中涉及的选择。事实证明,由于G. Elfving(1947),正常人口样本中范围的渐近分布,Biometrika,Vol。1 ,该公式本身仅是精确答案的近似值。34,第111-119页。Elfving的公式针对的是样本的最小值和最大值,对于alpha的正确选择是。当我们将近似为时,将得出Blom公式。α=3/8π/8π3

通过使用Elfving公式而不是Blom逼近,我们得到的乘数为-2.744165。这个数字比Blom的近似值(-2.73)更接近Erik P.的精确答案(-2.746)和蒙特卡洛近似(-2.75),但比精确的公式更容易实现。


您能否提供更多有关Elfving(1947)如何得出详细信息?在本文中并不明显。α=π/8
安东尼

1
安东尼-我依靠的是出版商塞缪尔·威尔克斯(Samuel Wilks)出版的教科书《数学统计》。威利(1962)。练习8.21页 249个状态:“如果x_(1),x_(n)是来自连续cdf F(x)的大小为n的样本的最小和最大阶统计量...则随机变量2n * sqrt {[F(x_( 1))]] [1-F(x_(n_))]}的极限分布为n->无穷大,平均pi / 2,方差4-(pi ^ 2)/ 4。” (对不起,我不知道标记代码!)对于对称分布,F(x_(1))= 1-F(x_(n))。因此,F(x_(n))约为pi /(4n),或者x_(n)约为F ^(-1)(pi /(4n))。Blom公式使用近似值3 /(4n)。
哈尔·斯威凯

这使我想起了印第安纳州立立法机构臭名昭著的“ ”法案。(尽管维基百科的文章表明该故事的流行版本并不准确。)π=3
steveo'america

7

根据您要执行的操作,此答案可能有帮助也可能没有帮助-我从Maple的Statistics软件包中获得了以下确切公式。

with(Statistics):
X := OrderStatistic(Normal(0, 1), 1, n):
m := Mean(X):
m;

1/2_t0n!2e1/2_t02(1/21/2erf(1/2_t02))1+n(1+n)!πd_t0

就其本身而言,它不是很有用(由于它是随机变量的最小值,因此可以很容易地手动得出),但是它确实允许对给定的值进行快速,非常准确的近似-比精确得多蒙特卡洛:nn

evalf(eval(m, n = 200));
evalf[25](eval(m, n = 200));

分别给出-2.746042447和-2.746042447451154492412344。

(完整披露-我维护此程序包。)


1
@ProbabilityIsLogic在他回复的前半部分为所有订单统计信息派生了该积分。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.