为什么我们要讨论不同拓扑中不同估计量的收敛行为?


14

在《代数几何与统计学习理论》一书的第一章中,讨论了不同函数空间中的估计的收敛性,其中提到贝叶斯估计对应于Schwartz分布拓扑,而最大似然估计对应于超范数拓扑(第7页):

例如sup-norm, -norm,希尔伯特空间弱拓扑,Schwartz分布拓扑等。是否收敛成立,很大程度上取决于函数空间的拓扑。贝叶斯估计对应于Schwartz分布拓扑,而最大似然或后验方法对应于超范数。这种差异会强烈影响单一模型的学习结果。大号p大号2ķñwķw

其中和分别是真实模型与参数模型(参数)之间的经验KL散度(观测值之和)和真实KL散度(数据分布的总和)。Kn(w)K(w)w

谁能解释一下,或暗示我书中哪个地方有道理?谢谢。

更新:版权内容已删除。


什么是和?ķ ñKKn
泰勒,

@Taylor我添加了一些必要的信息。
ziyuang

我会稍后再回答您的问题,我对渡边的书比较了解。但是我强烈不喜欢你引用书的方式。如果直接在此处放置部分,可能会导致潜在的版权问题。使用页码和键入带有适当围兜的引文将是一个更好的选择。
Henry.L 2016年

@ Henry.L谢谢,并删除了版权内容。
ziyuang,2013年

@亨利:尽管我认为谨慎和尽责地复制受版权保护的作品有一定的价值,但我认为在这种情况下,紫苑绝对不用担心。OP将小节摘录用于学术评论的做法完全属于(美国)“合理使用”原则。实际上,精确复制有时会特别有价值,因为它消除了内容重述可能引起的任何歧义。(话虽如此,IANAL。)
主教

Answers:


2

要理解渡边的讨论,重要的是要认识到他所说的“奇异性”。(严格)奇点与他的理论中的奇异度量的几何概念一致。

第10页[渡边]:“一个统计模型被认为是常规的,如果它是可识别的,并具有正定度量如果统计模型是不规律的,那么它被称为严格奇异。”p(xw)

实际上,当由模型诱导的Fisher信息度量在模型定义的流形上退化时,通常会出现奇异性,例如“机器学习”工作中的低秩或稀疏情况。

Watanabe关于经验性KL散度与其理论值的收敛的说法可以理解如下。差异概念的起源之一是强大的统计数据。的M估计,其包括MLE与对比度函数的特殊情况,通常使用弱拓扑讨论。讨论在空间M X)上使用弱拓扑在波兰空间X上定义的所有可能量度的集合的收敛行为是合理的ρ(θ,δ(X))=logp(Xθ)M(X)X),因为我们想研究MLE的鲁棒性。在一个经典的定理[胡伯]表示,与良好分离的散度函数inf | θ - θ 0 | ε| d θ 0θ - d θ 0θ 0|> 0D(θ0,θ)=Eθ0ρ(θ,δ)

inf|θθ0|ϵ(|D(θ0,θ)D(θ0,θ0)|)>0
和对比度功能发散的良好经验逼近, 有规律以来,我们可以产生在感一致性 ^ θ Ñ=一个ř
supθ|1niρ(θ,δ(Xi))D(θ0,θ)|0,n
将收敛到 θ 0在概率 P θ 0。如果我们在贝叶斯估计的弱一致性方面与Doob的结果[Doob]进行比较,则需要更精确的条件。
θn^:=argminθρ(θ,δ(Xn))
θ0Pθ0

因此,这里的贝叶斯估计量和MLE有所不同。如果我们仍然使用弱拓扑来讨论贝叶斯估计量的一致性,那是没有意义的,因为贝叶斯估计量始终(以概率1)与Doob是一致的。因此,更合适的拓扑是Schwarz分布拓扑,它允许弱导数和von Mises的理论开始起作用。巴伦(Barron)在这个主题上有一篇非常不错的技术报告,我们如何使用Schwartz定理获得一致性。

从另一个角度来看,贝叶斯估计量是分布,它们的拓扑应该有所不同。那么散度在这种拓扑中扮演什么样的角色?答案是,它定义了先验的KL支持,这使贝叶斯估计量具有很强的一致性。D

“奇异学习结果”受到影响是因为,正如我们所看到的,Doob的一致性定理可确保贝叶斯估计量在弱拓扑中是弱一致的(即使在奇异模型中),而MLE应该满足相同拓扑中的某些要求。

[Watanabe]一词不适合初学者。它对真实的分析集有深远的影响,与大多数统计学家相比,它需要更多的数学成熟度,因此在没有适当指导的情况下阅读它可能不是一个好主意。

[渡边]渡边淳美。代数几何与统计学习理论。卷 25.剑桥大学出版社,2009年。

[Huber] Huber,PeterJ。“非标准条件下最大似然估计的行为。” 第五届伯克利数学统计和概率研讨会论文集。卷 1.第1. 1967年。

[Doob] Doob,Joseph L.“ of理论的应用”。概率计算及其应用(1949):23-27。


我试图为部分答案提供一些直觉,如果我错了,请纠正我。如果我们将贝叶斯估计量视为点估计量(MAP,而不是概率分布),则该估计是一致的。由于先验地充当正则化,因此它比MLE直观地需要更少的条件来保持其一致性。另一方面,当我们将贝叶斯估计量视为分布时,Schwartz分布拓扑更合适,它还有助于在MLE和贝叶斯估计量的一致性之间建立更紧密的关系,因此不会发生一个发散而另一个收敛的情况。
ziyuang '17

抱歉,我认为您的解释不正确。先验可作为正则化,但不一定控制收敛速度。实际上,先验的平缓实际上会减慢收敛速度。它们只是两种不同的拓扑。
Henry.L
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.