概率比率与PDF比率


12

我正在使用贝叶斯解决聚类问题。经过一些计算,我最终需要获得两个概率的比率:

P(A)/P(B)

以获得。这些概率是通过将两个不同的2D多元KDE集成而获得的,如以下答案所示P(H|D)

P(A)=x,y:f^(x,y)<f^(ra,sa)f^(x,y)dxdy
P(B)=x,y:g^(x,y)<g^(rb,sb)g^(x,y)dxdy

其中f^(x,y)g^(x,y)是KDE,并且对低于阈值f^(ra,sa)g^(rb,sb)。两个KDE都使用高斯内核。可以在这里看到与我正在使用的KDE类似的KDE代表性图像:在2D中集成内核密度估计器

我通过stats.gaussian_kde python函数来计算KDE,因此我假设它具有以下一般形式:

KDE(x,y)=1ni=1n12h2e(xxi)2+(yyi)22h2

n我的点阵列的长度在哪里,h使用的带宽是多少。

上面的积分是使用蒙特卡洛过程计算的,该过程在计算上非常昂贵。我已经读过某处(忘了在哪里,对不起),在这种情况下,可以用在阈值点评估的PDF(KDE)比率替换概率比率,以获得同样有效的结果。我对此感兴趣,因为计算KDEs的比率要比计算MC积分的比率要快几个数量级。

因此问题被简化为该表达式的有效性:

P(A)P(B)=f^(ra,sa)g^(rb,sb)

在什么情况下(如果有的话)我可以说这种关系是正确的?

[固定错字(编辑)]


添加

基本上是相同的问题,但以更数学的形式提出。


1
注意,适当的是通过积分的均值定理来保证的。ra,b,sa,b
戴夫

1
我相信米尔斯比率可能是相关的。
ub

@whuber这个比率显然要求我知道P(X)我要避免计算的值。您能否扩大该参数的相关性?
加百利

Answers:


3

KDE是正态分布的混合。让我们看看其中一个。

的定义和表示它们的值是下飞机的翻译和rescalings不变的,所以只须考虑与PDF标准正态分布。不平等P(A)P(B)f

f(x,y)f(r,s)

相当于

x2+y2r2+s2.

引入极坐标允许重写积分ρ,θ

P(r,s)=12π02πr2+s2ρexp(ρ2/2)dρdθ=exp((r2+s2)/2)=2πf(r,s).

现在考虑混合物。因为是线性的

P(r,s)=1ni2πf((rxi)/h,(syi)/h)=2πh2(1ni1h2f((rxi)/h,(syi)/h))=2πh2KDE(r,s).

实际上,是成比例的。 比例常数为。fP2πh2


Pf可以通过考虑一个简单的反例来理解之间的这种比例关系是特殊的。令在单位面积的可测量集合上具有均匀分布,而在与不相交并且具有面积的可测量集合上具有均匀分布。然后,PDF的混合物在上具有常数,在上具有在其他地方为零。需要考虑三种情况:f1A1f2A2A1μ>1f=f1/2+f2/21/2A11/(2μ)A2

  1. (r,s)A1。在此,达到最大值,而。比率。f(r,s)=1/2P(r,s)=1f(r,s)/P(r,s)=1/2

  2. (r,s)A2。这里严格小于但大于。因此,积分区域是的补数,并且所得积分必须等于。比率。f(r,s)1/20A11/2f(r,s)/P(r,s)=(1/(2μ))/(1/2)=1/μ

  3. 在其他地方,为零,积分为零。fP

显然,比率(在定义时)不是恒定的,并且在到 μm1之间变化。尽管此分布不是连续的,但可以通过向其添加正态分布来实现。通过使两个特征值都变小,这将几乎不会改变分布并产生定性相同的结果-仅现在比率的值将包括区间中的所有数字。。11/μ1(0,Σ)Σf/P[1,1/μ]


此结果也不会推广到其他维度。 从本质上来说,开始此答案的相同计算表明是不完整的伽马函数,并且显然与。可以注意到两个维度是特殊的,可以注意到中的积分本质上与距离有关,并且当距离为正态分布时,距离函数具有分布-这是指数分布。 指数函数与它自己的导数成正比,因此它是唯一的,因此,被积和积分必须成比例。PfPχ2(2)fP


这是一个令人难以置信的答案,非常感谢。我需要一段时间才能完全处理您在此处编写的所有内容,但是我完全相信您的计算,这意味着我已将该问题标记为已解决。干杯。
加百利
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.