β随机变量的反正态CDF遵循什么分布?


14

假设您定义:

XBeta(α,β)

YΦ1(X)

其中Φ1是的逆标准正态分布的CDF

我的问题是:Y是否遵循简单分布,或者可以近似于YYY我问,因为我有一个基于模拟结果强烈怀疑(如下图所示),其Y收敛为正态分布时,αβ都很高,但我不知道为什么它会数学。(当然,当α=1;β=1X将是均匀的,而Y将是标准法线,但是为什么对于更高的值会成立呢?)

如果确实收敛到法线,那么就α而言,该法线的参数是什么β?(我预计平均将Φ1(αα+β)因为那是模式的变换,但我不知道标准差)。

(换句话说,这可能会问“ 对于μσ的某个方向,Φ(Norm(μ,σ))收敛到beta分布吗?”我不确定这是否更容易回答)。μσ

仿真结果

在这里,我展示了为什么我怀疑结果是正常的(因为我无法用数学来支持它)。可以使用和在R中完成模拟。例如,选择较高的参数α = 3000β = 7000Yqnormrnormα=3000β=7000

hist(qnorm(rbeta(5000, 3000, 7000)))

这看起来很正常,qqnorm夏皮罗-威尔克测试(其中正常是零假设),建议左右为好:

qqnorm(qnorm(rbeta(5000, 3000, 7000)))

shapiro.test(qnorm(rbeta(5000, 3000, 7000)))
#> 
#>  Shapiro-Wilk normality test
#> 
#> data:  qnorm(rbeta(5000, 3000, 7000))
#> W = 0.99954, p-value = 0.2838

为了更深入地探讨正态性,我执行了2,000次仿真,每次都模拟 5,000个值,然后执行测试以将其与正常值进行比较。(我选择5K值是因为这是可以处理的最大值,并且可以最大程度地检测出偏离规范的能力)。Yshapiro.test

如果分布确实是正态分布,我们将期望p值是均匀的(因为null为true)。它们确实接近均匀,表明分布非常接近正态:

hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 3000, 7000)))$p.value))

一些实验表明,β越高,分布越接近于正态分布(例如,离正态分布很远,但是尝试一下,它似乎介于两者之间)。αβrbeta(5000, 3, 7)hist(replicate(2000, shapiro.test(qnorm(rbeta(5000, 30, 70)))$p.value))


2
这里没有任何有趣的事情。当β变大时,我们假设它们保持相同的比例,或者至少α /α + β 远离01。然后,Beta α β 分布变为正态并集中在任意狭窄的范围内。 Φ - 1,为微,成为基本上是线性的,从那里你只是在寻找一个接近正常变量的线性变换。这个结果无非是用做Φ - 1αβα/(α+β)01(α,β)Φ1Φ1本身,不添加有关Beta分布的信息。
Whuber

1
@whuber这对于较大的β是有意义的(我进行了一些模拟,使我认为这比近似于beta的等效法线更接近于法线,但是重新运行时,我认为我当时有一个错误)。关于α = 2的任何想法; β = 2?Dist与正常值相差很远,但是它的qnorm非常接近。αβα=2β=2
大卫·罗宾逊

1
@whuber例如尝试hist(replicate(1000, shapiro.test(rbeta(5000, 2, 2))$p.value)),然后hist(replicate(1000, shapiro.test(qnorm(rbeta(5000, 2, 2)))$p.value))。换句话说,当这是正常的,因为贝塔是均匀的;当αβ高时,这是因为贝塔是大致正常的;但是为什么当它们相等且介于两者之间时,它却能工作?正常还是不统一?α=β=1αβ
大卫·罗宾逊

5
绝对更有趣!您是正确的,尽管Beta的参数很小,但Beta并非非常接近Normal,但变换近似于Normal。与正态性的偏差在尾部变得明显,大约或更大,但在整个分布主体中都非常小。最终,这可以追溯到Beta尾部的幂律行为。Z=±3
Whuber

Answers:


7

概要

您已重新发现样本中位数的中心极限定理中描述的结构的一部分,该原理说明了样本中位数的分析。(该分析显然比照适用于所有分位数,而不仅仅是中位数)。因此,对于较大的Beta参数(对应于较大的样本),在问题中描述的变换下会出现正态分布也就不足为奇了。有趣的是,即使对于较小的 Beta参数,分布也接近于正态分布。 值得解释。

我将在下面进行分析。为了使这篇文章保持适当的长度,它涉及很多建议性的挥手:我只是想指出关键思想。因此,让我在这里总结一下结果:

  1. 接近β时,一切都是对称的。这使转换后的分布看起来已经很正常。αβ

  2. 形式的功能看在第一位置相当正常,即使对于小的值αβ(提供均超过1和它们的比率是不太接近01)。Φα1(x)(1Φ(x))β1αβ101

  3. 变换后的分布的表观正态性是由于以下事实:其密度包括正态密度乘以(2)中的函数。

  4. 随着β的增加,可以从对数密度的泰勒级数的余项中测量出偏离正态性。的顺序的术语Ñ正比于下降Ñ - 2 / 2的幂αβ。这意味着最终,对于足够大的αβ,所有幂n = 3或更大的项都变得相对较小,仅剩下二次方:这恰好是正态分布的对数密度。αβn(n2)/2αβαβn=3

总的来说,这些行为很好地解释了为什么即使对于较小的β,同构正态样本的非极端分位数也看起来近似于正态。αβ


分析

尽管可以将F = Φ记为F,但由于将其归纳是有用的,因此使任意分布函数。FF=Φ

根据定义,Beta α β 变量的密度函数g(y)(α,β)

yα1(1y)β1dy.

是概率积分变换的X和写入˚F的衍生物的˚F,它是直接的是X的密度成比例y=F(x)xfFx

G(x;α,β)=F(x)α1(1F(x))β1f(x)dx.

因为这是强单峰分布(β)的单调变换,所以除非非常奇怪,否则变换后的分布也将是单峰的。要研究其与法线的接近程度,让我们检查其密度的对数,F

(1)logG(x;α,β)=(α1)logF(x)+(β1)log(1F(x))+logf(x)+C

其中是不相关的归一化常数。C

展开泰勒级数中的的分量,以围绕值x 0(将接近于模式)将3排序。例如,我们可以将log F的扩展写为logG(x;α,β)x0logF

logF(x)=c0F+c1F(xx0)+c2F(xx0)2+c3Fh3

对于一些| h | | x x 0 | 。对log 1 - F log f使用类似的表示法。 h|h||xx0|log(1F)logf

线性项

因此,的线性项变为(1)

g1(α,β)=(α1)c1F+(β1)c11F+c1f.

G x0,该表达式为零。注意,因为系数是 x 0的连续函数,所以随着 α β的变化,模式 x 0也将连续变化。而且,一旦 α β足够大,则 c f 1项变得相对无关紧要。如果我们的目标是研究极限 α →交通 β →交通针对 α β在不断的比例停留 γG(;α,β)x0αβx0αβc1fαβ α:βγ,我们可能因此一劳永逸选择一个基准点的这x0

γc1F+c11F=0.

一个很好的情况是,其中α = βF大约对称于0。在这种情况下,很明显X 0 = ˚F 0 = 1 / 2γ=1α=βF0x0=F(0)=1/2

我们已经实现了一种方法,其中(a)在极限中,泰勒级数的一阶项消失,并且(b)在刚刚描述的特殊情况下,一阶项始终为零。

二次项

这些是总和

g2(α,β)=(α1)c2F+(β1)c21F+c2f.

相对于一个正态分布,其二次项是,我们可以估计- 1 /2 2α β 是近似的方差ģ。让我们通过按x的平方根缩放比例来标准化G。我们真的不需要细节;足以理解此重新缩放将乘以x(1/2)(xx0)2/σ21/(2g2(α,β))GGx在由泰勒展开- 1 /2 2α β ñ / 2(xx0)n(1/(2g2(α,β)))n/2.

剩余期限

重点是:根据我们的记号,泰勒展开式中的阶数项是n

gn(α,β)=(α1)cnF+(β1)cn1F+cnf.

标准化后,变为

gn(α,β)=gn(α,β)(2g2(α,β))n/2).

两个都是αβ的仿射组合。通过将分母提高到n / 2次方,净行为在αβ中的阶数均为- n - 2 / 2。随着这些参数变大,第二个泰勒展开式中的每个项在第二个之后渐近减小为零。 特别地,三阶余项变得任意小。giαβn/2(n2)/2αβ

当案件是正常的F

为标准正态时,余项的消失特别快,因为在这种情况下,f x 纯粹是二次的:它对余项没有任何贡献。因此,偏差ģ从常态仅取决于之间的偏差˚F α - 11 - ˚F β - 1和正常性。Ff(x)GFα1(1F)β1

This deviation is fairly small even for small α and β. To illustrate, consider the case α=β. G is symmetric, whence the order-3 term vanishes altogether. The remainder is of order 4 in xx0=x.

Here is a plot showing how the standardized fourth order term changes with small values of α>1:

Figure

The value starts out at 0 for α=β=1, because then the distribution obviously is Normal (Φ1 applied to a uniform distribution, which is what Beta(1,1) is, gives a standard Normal distribution). Although it increases rapidly, it tops off at less than 0.008--which is practically indistinguishable from zero. After that the asymptotic reciprocal decay kicks in, making the distribution ever closer to Normal as α increases beyond 2.


2

Convergence

Suppose that α=β and let α and take any small ε>0. Then var(X)0. By Chebyshev's inequality we have P[|X0.5|>ε]0 and P[|Y|>ε]0. This means that Y converges in probability (not in distribution actually it converges in distribution - to singleton).

Exact distribution

Denote by fX the density of beta distribution. Then your variable Y has density

fY(y)=fX(Φ(y))ϕ(y).
Since Φ does not have a closed form I believe that this is the furthest you can get (analytically). You can try to put it into FullSimplify function in Wolfram Mathematica to see if it finds some better form.

Here is the density in R so you can plot it instead of histogram.

f_y <- function(x, alpha, beta) {
  dbeta(pnorm(x), alpha, beta) * dnorm(x)
}

Modification

However, you are maybe interested in distribution of

Z=Φ1(αX)
. (still assuming α=β) This may be useful because var(αX)1/8 (useful because it is not zero).

1

Here I present a heuristic explanation (which can be made rigorous at least asymptotically). For simplicity, take kN, k2. Let XBeta(k,k). I want to argue that Y=Φ1(X) is approximately normal.

Now let n=2k1. We start by drawing n i.i.d. uniformly distributed random variables U1,,Un. Next, form the order statistics U(1)U(n).

It is well known that U(k)Beta(k,n+1k), thus:

U(k)Beta(k,k)

In other words: The sample median of n i.i.d. uniformly distributed random variables is Beta(k,k) distributed.

Now let's transform by Zi=Φ1(Ui). Then by the probability integral transform, the Zi are i.i.d. normally distributed. Also form the order statistics of the Zi (Z(1)Z(n)). Since Φ1 is strictly increasing, it follows that:

Φ1(U(k))=Z(k)

Therefore, to show that Y is approximately normal, we just have to argue that the sample median of n i.i.d. normal random variables is approximately normal.

For k large, this can be made precise by a central limit theorem for sample medians. For k small, say k=2, I will let everyone's gut feeling do the speaking.

For ab (but not too different) one can argue similarly by using corresponding quantiles.

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.