特殊概率分布


12

如果是在上具有非零值的概率分布,则对于哪种类型,存在常数,使得 对于所有吗?p(x)[0,+)p(x)c>00p(x)logp(x)(1+ϵ)p(x(1+ϵ))dxcϵ20<ϵ<1

上面的不等式实际上是分布及其压缩版本之间的Kullback-Leibler散度。我发现这种不等式适用于指数分布,伽玛分布和威布尔分布,并且我想知道这是否适用于更大的概率分布类别。1 + ϵ p x 1 + ϵ p(x)(1+ϵ)p(x(1+ϵ))

知道不平等意味着什么吗?


3
由于为正,它将被压缩(沿x方向)而不是被拉伸。ϵ
Glen_b-恢复莫妮卡2015年

2
这个问题是模棱两可的:您的量词是什么?您是否希望对所有至少一个或其他东西保持这种不等式?被给予先验或你的意思是,应该存在至少一个这样的价值的?而且,由于您提到了概率分布的类别,因此用“ ”表示一个特定的分布,或者您可能表示它们的参数族?ε Ç Ç p X ϵ ϵccp(x)
ub

2
@whuber感谢您的评论。我对问题陈述进行了更正,以澄清上述问题。我的意思是,上述不等式对于是什么?答案可能是引入分布的参数族,或提出足以满足并给出所需不等式的微分方程。p x p(x)p(x)
Sus20200 2015年

2
对于任何连续且具有无限支持的p(x),这种不等式都行不通吗?您正在计算参数族内的KL散度(。如果KL在0处是可微的,则其导数为0。将设为曲率的最大值KL(对于),我们具有界。通过额外的工作,可能有可能从p的属性绑定CÇ ε &Element; [ 0 1 ]ϵp(x(1+ϵ))Cϵ[0,1]
Guillaume Dehaene

1
只要它就可以是无穷大。KL的一阶展开是L=limx0p(x)x=0Lϵ+O(ϵ2)
Arthur B.

Answers:


4

初赛

Ip(ϵ)=0p(x)log(p(x)(1+ϵ)p(x(1+ϵ)))dx.

对数以及和之间的关系建议将及其参数都表示为指数。为此,定义p(x)p(x(1+ϵ))p

q(y)=log(p(ey))

对于定义了右手边且在等于所有实数。注意,变量需要并且(以为分布的密度)总概率定律可以表示为yx = e y d x = e y d y pp(ey)=0x=eydx=eydyp

(1)1=0p(x)dx=Req(y)+ydy.

让我们假设时。ý ± eq(y)+y0y± p0p1 这排除了概率分布,其中密度在或附近有无限多个尖峰。特别是,如果的尾部最终是单调的,则暗含了这一假设,表明它不是严格的假设。p0p(1)

为了使对数运算更容易,还要注意

1+ϵ=eϵ+O(ϵ2).

因为将执行以下计算直至倍数,所以请定义ϵ2

δ=log(1+ϵ).

我们也可以用替换,其中对应,正对应正。Ë δ δ = 0 ε = 0 δ ε1+ϵeδδ=0ϵ=0δϵ

分析

不等式失败的一种明显方法是使积分偏离某个,例如,如果存在正数的任何适当间隔,无论多么小,在间隔中都等于零而不为零。以正概率无限。ε&Element; 01][ùv]pp[ü-εv-ε]Ip(ϵ)ϵ(0,1][u,v]pp[uϵ,vϵ]

因为关于的性质的问题是不确定的,所以我们可能陷入有关平滑度的技术问题。让我们避免这种问题,仍然希望获得一些见识,方法是假设所有地方的都有尽可能多的导数。(如果是连续的,则两个就足够了。)因为保证在任何有界集合上仍然是有界的,所以这意味着永远不会为零p q q ' ' q p X X > 0ppqqqp(x)x>0

请注意,这个问题确实与从上方接近零时的行为有关。由于该积分是在间隔中的连续函数,因此当限制为任何正间隔时,它将获得一些最大,这使我们能够选择,因为显然Ip(ϵ)ϵϵ(0,1]Mp(a)ϵ[a,1]c=Mp(a)/a2

cϵ2=Mp(a)(ϵa)2Mp(a)Ip(ϵ)

使不平等起作用。这就是为什么我们只需要关心模的计算。ϵ2

使用可变的改变从到,从到,和到,让我们计算通过第二顺序(或在实现的希望)简化。为此定义xypqϵδIp(ϵ)ϵδ

R(y,δ)δ2=q(y+δ)q(y)δq(y)

是围绕的泰勒展开式的阶余数。2qy

Ip(ϵ)=Req(y)+y(q(y)q(y+δ)δ)dy=Req(y)+y(δ+δq(y)+R(y,δ)δ2)dy=δReq(y)+y(1+q(y))dyδ2Req(y)+yR(y,δ)dy.

如后面的假设所述,在左侧积分中将变量更改为表示变量必须消失。在右手积分中将变量更改回q(y)+y(1)x=ey

Ip(ϵ)=δ2Rp(x)R(log(x),δ)dy=δ2Ep(R(log(x),δ)).

当且仅当在右侧的的系数是有限的时,不等式成立(在我们的各种技术假设下)。δ2

解释

这是停止的好时机,因为它似乎揭示了一个基本问题:恰好在的泰勒展开式中的二次误差不成立时受的二次函数限制。接近爆炸(相对于分布)Ip(ϵ)ϵqy±

让我们检查问题中提到的一些情况:指数分布和伽玛分布。(指数是Gamma的特例。)我们不必担心比例参数,因为它们仅改变测量单位。仅非比例参数很重要。

在此,因为对于,,所以 围绕任意的泰勒展开式是带有余数的泰勒定理表明对于足够小的由主导。由于的期望是有限的,所以不等式适用于Gamma分布。p(x)=xkexk>1

q(y)=ey+kylogΓ(k+1).
y[R 日志XδÈý+δ/2<XδX
Constant+(key)δey2δ2+.
R(log(x),δ)ey+δ/2<xδx

相似的计算暗示了Weibull分布,半正态分布,对数正态分布等的不等式。实际上,要获得反例,我们将需要违反至少一个假设,迫使我们研究在某个间隔消失或为分布。不能连续两次微分,或者具有无限多种模式。这些易于测试,可以应用于统计建模中常用的任何分布族。p

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.