要理解渡边的讨论,重要的是要认识到他所说的“奇异性”。(严格)奇点与他的理论中的奇异度量的几何概念一致。
第10页[渡边]:“一个统计模型被认为是常规的,如果它是可识别的,并具有正定度量如果统计模型是不规律的,那么它被称为严格奇异。”p(x∣w)
实际上,当由模型诱导的Fisher信息度量在模型定义的流形上退化时,通常会出现奇异性,例如“机器学习”工作中的低秩或稀疏情况。
Watanabe关于经验性KL散度与其理论值的收敛的说法可以理解如下。差异概念的起源之一是强大的统计数据。的M估计,其包括MLE与对比度函数的特殊情况,通常使用弱拓扑讨论。讨论在空间M (X)上使用弱拓扑(在波兰空间X上定义的所有可能量度的集合)的收敛行为是合理的ρ(θ,δ(X))=−logp(X∣θ)M(X)X),因为我们想研究MLE的鲁棒性。在一个经典的定理[胡伯]表示,与良好分离的散度函数。inf | θ - θ 0 | ≥ ε(| d (θ 0,θ )- d (θ 0,θ 0)|)> 0D(θ0,θ)=Eθ0ρ(θ,δ)
inf|θ−θ0|≥ϵ(|D(θ0,θ)−D(θ0,θ0)|)>0
和对比度功能发散的良好经验逼近,
有规律以来,我们可以产生在感一致性
^ θ Ñ:=一个ř克supθ∣∣∣1n∑iρ(θ,δ(Xi))−D(θ0,θ)∣∣∣→0,n→∞
将收敛到
θ 0在概率
P θ 0。如果我们在贝叶斯估计的弱一致性方面与Doob的结果[Doob]进行比较,则需要更精确的条件。
θn^:=argminθρ(θ,δ(Xn))
θ0Pθ0
因此,这里的贝叶斯估计量和MLE有所不同。如果我们仍然使用弱拓扑来讨论贝叶斯估计量的一致性,那是没有意义的,因为贝叶斯估计量始终(以概率1)与Doob是一致的。因此,更合适的拓扑是Schwarz分布拓扑,它允许弱导数和von Mises的理论开始起作用。巴伦(Barron)在这个主题上有一篇非常不错的技术报告,我们如何使用Schwartz定理获得一致性。
从另一个角度来看,贝叶斯估计量是分布,它们的拓扑应该有所不同。那么散度在这种拓扑中扮演什么样的角色?答案是,它定义了先验的KL支持,这使贝叶斯估计量具有很强的一致性。D
“奇异学习结果”受到影响是因为,正如我们所看到的,Doob的一致性定理可确保贝叶斯估计量在弱拓扑中是弱一致的(即使在奇异模型中),而MLE应该满足相同拓扑中的某些要求。
[Watanabe]一词不适合初学者。它对真实的分析集有深远的影响,与大多数统计学家相比,它需要更多的数学成熟度,因此在没有适当指导的情况下阅读它可能不是一个好主意。
■
[渡边]渡边淳美。代数几何与统计学习理论。卷 25.剑桥大学出版社,2009年。
[Huber] Huber,PeterJ。“非标准条件下最大似然估计的行为。” 第五届伯克利数学统计和概率研讨会论文集。卷 1.第1. 1967年。
[Doob] Doob,Joseph L.“ of理论的应用”。概率计算及其应用(1949):23-27。