解释概率测度之间的Radon-Nikodym导数?


11

我在某些点上已经看到了相对于另一种概率度量使用Radon-Nikodym导数,最明显的是在Kullback-Leibler散度中,其中它是模型对某些任意参数的概率度量的导数。关于真实参数:θ 0θθ0

dPθdPθ0

这些都是在参数值条件下对数据点空间的概率度量。Pθ(D)=P(D|θ)

在Kullback-Leibler散度中或更普遍地在两个概率测度之间,这种Radon-Nikodym导数的解释是什么?

Answers:


12

首先,我们不需要概率测度,只需要 -finiteness。因此,令为可测量的空间,令和为有限度量。中号 = Ω ˚Fμ ν σ 中号σM=(Ω,F)μνσM

拉东-尼科迪姆定理指出,如果对所有,记,则存在一个非负波雷尔函数使得 所有。˚F μ » ν ˚F ν = ˚Fμ(A)=0ν(A)=0AFμνf˚F

ν(A)=Afdμ
AF

这就是我想这个的方式。首先,对于上的任意两个度量,让我们定义表示。这是一个有效的等价关系,我们说和在这种情况下是等效的。为什么这对措施是明智的?度量只是功能,但是它们的域很难可视化。如果两个普通函数具有此属性,即怎么办?好吧,定义 并注意在任何地方的支持 μ ν μ = 0Mμνμ νμ(A)=0ν(A)=0μν ˚F X = 0f,g:RRħ X = { ˚F X /X X 0 π ë o.w. ħ = ˚F ħ = 0 ·&π Ê = 0 = ˚F ˚F ħ ˚F 0f(x)=0g(x)=0

h(x)={f(x)/g(x)g(x)0πeo.w.
g我们有,并且在的支持范围之外(因为和共享支持),所以让我们将重新缩放为。正如@whuber所指出的那样,这里的关键思想不是以某种方式“安全”地执行或忽略,而是当时无关紧要,因此我们可以任意定义它(例如成为,在这里没有特殊的意义),事情仍然有效。此外,在这种情况下,我们可以定义类似的功能与使得gh=fg gh=0πe=0=ffghgf= 0 ħ π ë0/0g=0hπe/ ˚F ˚F ħ ' = hg/ffh=g

接下来,假设,但另一个方向不一定成立。这意味着我们之前对定义仍然有效,但是现在不起作用,因为它将实际除以。因此,我们可以通过重新缩放为,但是我们不能朝另一个方向前进,因为我们需要将缩放为非零值。ħ ħ ' 0 ˚F ħ = ˚F 0g(x)=0f(x)=0hh0gfgh=f0

现在让我们回到和并用表示我们的RND 。如果,则直观地意味着一个可以重新缩放为另一个,反之亦然。但是通常,我们只希望朝这个方向发展(即将像Lebesgue度量这样的很好的度量重新缩放为更抽象的度量),因此我们只需要就能做有用的事情。重新调整规模是RND的核心。ν ˚F μ ν μ » νμνfμνμν

回到评论中的@whuber的要点,还有一个微妙之处,就是为什么可以安全地忽略问题。那是因为使用度量,我们只能定义直到度量集合,因此在任何集合,我们都可以使RND取任何值,例如。因此,并不是说本质上是安全的,而是说我们将拥有任何地方都是一组度量 wrt因此我们可以将RND定义为一个不错的值而不影响任何东西。0 μ = 0 1 0 / 0 0 / 0 0 μ0/00Aμ(A)=010/00/00μ

例如,假设对于某些,。然后 所以我们得到是RND(这可以通过测度定理的变化更正式地证明)。这很好,因为我们已经完全恢复了比例因子。ķ > 0 ν = kμ=νk>0˚F X = ķ = d ν

ν(A)=Adν=Akdμ
f(x)=k=dνdμ

这是第二个示例,以强调在度量集上更改RND 不会如何影响它们。令,即,如果输入是有理数,则它是标准普通PDF加上,而是具有此密度的RV。这意味着 因此,实际上仍然是标准的高斯RV。它不以任何方式影响更改上的的分布,因为它是一组度量 wrt˚F X = φ X + 1点QX 1 X P X 0f(x)=φ(x)+1Q(x)1X

P(XA)=A(φ+1Q)dλ
X X
=Aφdλ+λ(Q)=Aφdλ
XXQ0λ

作为最后一个示例,假设和并令和为它们各自的分布。回想一下,相对于计数度量,pmf是RND ,并且由于具有的属性,因此事实证明 Ý Ñ p P X P ÿXPois(η)YBin(n,p)PXPYccc(A)=0A=

dPYdPX=dPY/dcdPX/dc=fYfX

因此我们可以计算出

PY(A)=AdPY
=AdPYdPXdPX=AdPYdPXdPXdcdc
=yAdPYdPX(y)dPXdc(y)=yAfY(y)fX(y)fX(y)=yAfY(y).

因此,由于在的支持下所有,我们可以将泊松分布的积分重新缩放为二项式分布的积分,尽管由于所有事物都是离散的,所以看起来很平凡结果。P(X=n)>0nY


我回答了您的更笼统的问题,但没有涉及吉隆坡的分歧。至少对我而言,我发现从假设检验(例如@kjetil b halvorsen 在这里的答案)方面更容易解释KL差异。如果并且存在一个度量占主导地位,则使用我们可以用密度恢复表格,所以对我来说,这更容易。PQμdPdQ=dP/dμdQ/dμ:=p/q


3
我喜欢这个博览会(因为我喜欢你们所有的贡献),但从最底层看,它似乎是基于(重复的)断言,即具有某种意义,但事实并非如此。度量发生了某些事情,这些事情并不会自动发生在实数值的函数中:您可能只是忽略了在度量零集上发生的事情。 这样一来,您就不必在Radon-Nikodym导数设置中避免使用意义。0 / 00/00/0
ub

1
@whuber非常感谢您的评论,这真的很有帮助。我已尝试更新以解决该问题
jld
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.