伽玛分布与正态分布之间的关系


26

我最近发现有必要为平均值为0的正常随机变量的平方导出pdf。无论出于什么原因,我都选择不预先对方差进行归一化。如果我正确执行此操作,则此pdf如下:

N2(x;σ2)=1σ2πxex2σ2

我注意到这实际上只是伽马分布的参数化:

N2(x;σ2)=Gamma(x;12,2σ2)

然后,从两个伽玛(具有相同比例参数)的总和等于另一个伽玛的事实出发,可以得出该伽玛等于平方正态随机变量的总和。k

NΣ2(x;k,σ2)=Gamma(x;k2,2σ2)

这让我有些惊讶。即使我知道分布(即标准正态RV 平方和的分布)是伽玛的一种特例,但我没有意识到伽玛本质上只是一个允许归纳和任何方差的随机变量。这也导致了我以前从未遇到过的其他特征,例如指数分布等于两个平方正态分布之和。χ2

这对我来说有点神秘。以我上面概述的方式,正态分布对伽马分布的推导至关重要吗?我检查的大多数资源都没有提到这两个分布在本质上是相关的,甚至就此而言,它还描述了伽玛的推导方式。这使我认为有些简单的事实正在发挥作用,我只是以复杂的方式强调了这些事实?


6
许多有关概率论的大学教科书都提到了上述所有结果;但是也许统计文本没有涵盖这些想法?无论如何,随机变量只是,其中是标准的普通随机变量,因此(对于iid变量)只是一个缩放的随机变量,对于那些研究概率论的人来说并不奇怪。ÿ σ X X Σ Ŷ 2 = σ 2 Σ X 2 N(0,σ2)YiσXiXiiYi2=σ2iXi2 χ2
Dilip Sarwate 2012年

我来自计算机视觉背景,因此通常不会遇到概率论。我的教科书(或维基百科)都没有提到这种解释。我想我也在问,两个正态分布的平方和有什么特别之处,这使其成为等待时间的良好模型(即指数分布)。仍然感觉像我在想一些更深的东西。
timxyz 2012年

3
由于Wikipedia 在en.wikipedia.org/wiki/Chi-squared_distribution#Definition上将卡方分布定义为法线平方的总和,并且提到卡方是Gamma的特例(en.wikipedia.org/wiki / Gamma_distribution#Others),几乎无法断言这些关系不是众所周知的。在所有情况下,方差本身仅建立度量单位(比例参数),因此根本不增加任何复杂性。
ub

3
尽管这些结果在概率和统计领域是众所周知的,但您对@timxyz做得很好,可以在您自己的分析中重新发现它们。
恢复莫妮卡

这种联系并不是神秘的,因为它们是指数分布族的成员,其显着特性是可以通过替换变量和/或参数来获得它们。请参阅以下示例的详细答案。
卡尔

Answers:


18

正如Sarwate教授的评论所指出的,法线平方和卡方之间的关系是一个非常广泛传播的事实-卡方只是Gamma分布的特例,这也应成为事实:

XN(0,σ2)X2/σ2χ12X2σ2χ12=Gamma(12,2σ2)

Gamma的scale属性之后的最后一个等式。

关于与指数的关系,准确地说,是两个平方的零均值法线的总和,每个法线均由另一个的方差缩放,从而得出指数分布:

X1N(0,σ12),X2N(0,σ22)X12σ12+X22σ22χ22σ22X12+σ12X22σ12σ22χ22

σ22X12+σ12X22σ12σ22χ22=Gamma(1,2σ12σ22)=Exp(12σ12σ22)

但怀疑有“一些特别的东西”,或者两种总和“更深” 的平方零个均值法线说:“让他们一个很好的模型,等待时间”是没有根据的:首先,有什么特别之处指数分布,使是“等待时间”的好模型吗?当然没有记忆力了,但是这里有什么“更深的”东西,或者仅仅是指数分布函数的简单函数形式以及的属性?独特的属性散布在整个数学中,并且在大多数情况下,它们不反映某些“更直观的理解”或“结构”,它们只是存在(幸运地)。e

其次,变量的平方与其水平几乎没有关系。只需考虑 in,例如:[ 2 f(x)=x[2,2]

在此处输入图片说明

…或将标准法线密度与卡方密度作图:尽管它们密切相关,但它们反映并代表了完全不同的随机行为,因为第二个是变量的密度,即第一个的平方。法线可能是我们为随机行为建模而开发的数学系统的一个非常重要的支柱-但是,一旦将其平方,它就完全不一样了。


感谢您特别解决我上一段中的问题。
timxyz 2014年

2
别客气。我必须承认,我很高兴我的回答在问题发布26个月后就达到了最初的OP。
Alecos Papadopoulos 2014年

11

让我们解决提出的问题,这对我来说有点神秘。正态分布是伽马分布推导的基础吗?确实不是一个谜,只是正态分布和伽马分布是指数分布的成员,该族由通过替换参数和/或变量在方程形式之间转换的能力定义。因此,有许多的转换通过置换分布之间,一个其中总结如下图。

在此处输入图片说明LEEMIS,劳伦斯·M。Jacquelyn T.MCQUESTON(2008年2月)。“单变量分布关系”(PDF)。美国统计学家。62(1):45–53。doi:10.1198 / 000313008x270448 引用

这是两个更详细的正态分布和伽马分布关系(在其他数量未知的分布中,如通过卡方和贝塔分布)。

首先,是伽马分布(GD)与正态分布(ND)之间的直接关系,均值为零。简而言之,随着GD形状参数的增加,它的形状变得正常。证明情况确实如此。对于GD,

GD(z;a,b)={baza1ezbΓ(a)z>00other.

随着GD形状参数,GD形状变得更加对称和法线,但是,随着平均值随增加而增加,我们必须将GD左移持有它固定,最后,如果我们希望保持同样的标准偏差为我们的移动GD,我们必须减少尺度参数()成正比。aa(a1)1akb1a

也就是说,要将GD转换为极限情况ND,我们通过让并将GD左移,将标准偏差设置为常数()。代入的零模式然后kb=1akz=(a1)1ak+x .

GD((a1)1ak+x; a, 1ak)={(ka)aeaxka+1((a1)ka+x)a1Γ(a)x>k(1a)a0other.

请注意,在极限为中,此GD的非负值是非零。即,半无限 GD支持变为无限。将极限作为重新参数化的GD,我们发现Xaxa

lima(ka)aeaxka+1((a1)ka+x)a1Γ(a)=ex22k22πk=ND(x;0,k2)

对于和,图形方式显示GD为蓝色,而限制为橙色,下面k=2a=1,2,4,8,16,32,64ND(x;0, 22)

在此处输入图片说明

其次,我们要指出的是,由于这些分布之间形式的相似性,人们可以通过将它们从稀薄的空气中抽出而在很大程度上发展伽玛分布与正态分布之间的关系。也就是说,我们接下来开发正态分布的“展开”伽玛分布概化。

首先请注意,是伽马分布的半无限支持阻碍了与正态分布的更直接关系。但是,在考虑半正态分布时也可以消除该障碍,该分布也具有半无限的支持。因此,可以先将正态分布(ND)折叠成半正态(HND),然后将其与广义伽马分布(GD)关联起来,然后将 “展开”(HND和GD)从而形成广义ND(GND)。

广义伽玛分布

GD(x;α,β,γ,μ)={γe(xμβ)γ(xμβ)αγ1βΓ(α)x>μ0other,

可以重新参数化为半正态分布

GD(x;12,πθ,2,0)={2θeθ2x2ππx>00other=HND(x;θ)

请注意,因此,θ=πσ2.

ND(x;0,σ2)=12HND(x;θ)+12HND(x;θ)=12GD(x;12,πθ,2,0)+12GD(x;12,πθ,2,0),

这意味着

GND(x;μ,α,β)=12GD(x;1β,α,β,μ)+12GD(x;1β,α,β,μ)=βe(|xμ|α)β2αΓ(1β),

是正态分布的一般化,其中是位置,是比例,并且是形状,其中产生正态分布。当时,它包括Laplace分布。随着,密度逐点收敛到上的均匀密度。下面是的蓝色正态分布,正常情况下为(橙色)。μα>0β>0β=2β=1β(μα,μ+α)α=π2,β=1/2,1,4α=π2,β=2

在此处输入图片说明

可以将以上内容视为广义正态分布版本1,并在不同的参数化中将其称为指数幂分布和广义误差分布,这又是其他几种广义正态分布之一


2

从正态分布推导卡方分布与从指数分布推导伽马分布非常相似。

我们应该可以将其概括为:

  • 如果是来自幂系数为的广义正态分布的自变量,则可以与某个缩放的卡方分布有关(“自由度”等于)。XimY=inXimn/m

类比如下:

正态分布和卡方分布与平方和有关

  • 多个独立标准正态分布变量的联合密度分布取决于xi2
    f(x1,x2,...,xn)=exp(0.5i=1nxi2)(2π)n/2

  • 如果XiN(0,1)

    然后i=1nXi2χ2(ν)

指数和伽马分布与正则和有关

  • 多个独立指数分布变量的联合密度分布取决于 xi

    f(x1,x2,...,xn)=exp(λi=1nxi)λn

  • 如果XiExp(λ)

    然后i=1nXiGamma(n,λ)


可以通过更改变量而不是对所有积分而仅对求和项积分(这是皮尔森在1900年所做的)来完成推导。在两种情况下,这都非常相似。x1,x2,...xn

对于分布:χ2

fχ2(n)(s)ds=es/2(2π)n/2dVdsds=es/2(2π)n/2πn/2Γ(n/2)sn/21ds=12n/2Γ(n/2)sn/21es/2ds

其中是半径为平方的n球的n维体积V(s)=πn/2Γ(n/2+1)sn/2s

对于伽马分布:

fG(n,λ)(s)ds=eλsλndVdsds=eλsλnnsn1n!ds=λnΓ(n)sn1eλsds

其中是的n多面体的n维体积ΣX<小号V(s)=snn!xi<s


伽马分布可以看作是泊松过程中第个事件的等待时间,它是指数分布变量之和的分布。ñ ñYnn

正如Alecos Papadopoulos所指出的那样,没有更深层次的联系使平方正态变量的和成为“等待时间的良好模型”。伽玛分布是广义正态分布变量之和的分布。这就是两者在一起的方式。

但是总和的类型和变量的类型可能不同。当伽马分布从指数分布(p = 1)导出时,可以得到指数分布(等待时间)的解释,但是您不能反向并返回平方高斯变量的总和并使用相同的解释。

等待时间的密度分布呈指数下降,高斯误差的密度分布呈指数下降(平方)。这是看到两者相互联系的另一种方式。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.