MAP是


10

我在其中一门在线课程中遇到了这些幻灯片(第16和#17号幻灯片)。讲师试图解释最大后验估计(MAP)实际上是解决方案L(θ)=I[θθ],其中θ是真实参数。

有人可以解释一下如何进行吗?

编辑:添加了幻灯片,以防链接断开。 在此处输入图片说明

在此处输入图片说明

Answers:


3

通过浏览您共享的幻灯片,在我看来,这个主意是要解释如何使用MAP估计来估计后验的不同属性,例如均值,众数和中位数。我将尝试在斯蒂芬·M·凯(Stephen M.Kay)的书《统计信号处理基础》中介绍的通用贝叶斯估计器的背景下对此进行解释。

让我们从考虑与估计参数θ相关的三种风险(即成本函数)开始:

  1. C(e)=e2
  2. C(e)=|e|
  3. if-δ<Ë<δCË=0 ; 否则CË=1个

其中,Ë=θ-θ^,其中θ是所述估计值和θ是真实参数。在贝叶斯估计中,目标是最大程度地降低预期风险,即:θ^θ

Ë[CË]=XθCËpXθdθdX=X[θCËpθ|Xdθ]pXdX

因为我们只关心θ,我们将集中于内积分θθCËpθ|Xdθ

现在,根据我们选择的CË,估计器将为我们提供后验的不同属性。例如,如果我们选择第一种情况下,CË=Ë2,则最小化θθCËpθ|Xdθ,是平均。因为你的问题是关于指示器功能一世[θ^θ],我将解决上面提到的第三种风险(如果您考虑δ0,等同于使用指标)。

对于上述情况3:

θCËpθ|Xdθ=-θ^-δpθ|Xdθ+θ^+δpθ|Xdθ=1个-θ^+δθ^+δpθ|Xdθ

这对于δ0时为最小θ对应于后的模式。θ^


2
谢谢您的精彩解释。此外,未来的读者也可以在类似的教科书中读到相同的内容:《机器学习的概率论》的第5章,作者:凯文·墨菲(Kevin Murphy)
honeybadger,

您可以在指定此限制参数的详细信息吗?您是说当δ变为零时的手术极限还是后路损失极限?δδ
西安

我指的是期望的极限。Ë[CË]
idnavid

10

在具体情况下的参数空间是有限的或可数无限Θ = { θ 1θ 2... }与指示器相关联的损失后损耗等于被错误的概率Pθθ | X 和当的是正确的后验概率它最小化Pθ = θ | X 被最大化。这意味着,θ是后验分布或MAP的模式。Θ

Θ={θ1个θ2}
Pθ^θ|XPθ^=θ|Xθ^

然而,MAP的这种关系,并的损失是“无名氏定理”,它是在最不正确的设置,也就是说,它并不适用于连续参数空间,其中Pθ = θ | X = 0所有θ的,并与结果进一步的冲突Druihlet和马林(BA,2007年),谁指出,MAP最终取决于主导措施的选择。(即使Lebesgue度量被隐式选择为默认值。)0-1个Pθ^=θ|X=0θ^

例如,Evans和Jang 在2011年发表了一份arXiv论文,讨论了MAP,最小相对意外(或最大轮廓似然)估计量和损失函数之间的联系。问题的核心是,至少在连续参数空间中,无论是MAP估计器还是MLE都没有真正通过决策理论方法证明其合理性。正如Druihlet和Marin在2007年所证明的那样,在参数空间上任意选择的支配度量会影响MAP的值。它们以损失函数 ,其中他们考虑通过d来估计变换Ψ(θ),并由该变换的边际先验反加权。在身份变换的特殊情况下,此损失函数导致MLE作为贝叶斯估计器。在一般情况下,贝叶斯估计器是最大轮廓似然估计器(LRSE)。但是,这种损失函数不能推广到无数(显然是连续的)参数空间,在这种情况下,作者只能提供LRSE作为贝叶斯程序的极限。在可数情况下采用的损失函数例如是 Lθ d = I { Ψ

大号θd=一世{Ψθd/πΨΨθ
与结合地降低到零。在连续的情况下,指示器不再起作用,因此作者的选择是通过特定选择直径λ为零的球的分隔来离散化空间Ψ(Θ)。按照Druihlet和Marin的精神,这种选择取决于度量标准(以及其他规则性条件)。此外,LRSE本身 最大ψ π ψψ | X / π ψθ
大号θd=一世{Ψθd}/最大值{ηπΨΨθ}
不依赖于选择用于密度(如果不是上的主导度量的版本),除非一个强加到处贝叶斯平等 π ψψ | X / π ψθ = ˚F X | ψ /X 到处,当 f x | ψ = { θ ; Ψ θ = ψ } f x |
最大值ψπψψ|X/πψθ
πψψ|X/πψθ=FX|ψ/X
X = ˚F X | θ π θ d θ 在的精神我们的野蛮-迪基悖论纸
FX|ψ={θ;Ψθ=ψ}FX|θπθdθ
X=FX|θπθdθ

Robert Bassett和Julio Deride 在2016年发表了一篇论文,讨论了MAP在贝叶斯决策理论中的位置。

“……我们为MAP估计量的普遍接受概念提供了一个反例,它是损失为0-1的Bayes估计量的极限。”

作者提到了我的《贝叶斯选择》一书,其中指出了该属性,而没有采取进一步的预防措施,我完全同意在这方面大意!困难在于最大化者的极限不一定是极限的最大化者。本文包括一个具有上述效果的示例,该示例具有先验条件,与不依赖参数的采样分布相关联。其中提出的充分条件是后部密度几乎肯定是适当的或准凹的。

||ķü^-ü||2+2dπü^ü
产生MAP作为贝叶斯估计量。也许人们仍然会对主导度量感到疑惑,但是损失函数和结果估计量显然都取决于主导度量的选择……(损失取决于先前度量,但这本身并不是一个缺点。)

1

我将在第5章,贝叶斯统计,机器学习:概率观点中给出有关此问题的文章摘要-Murphy

Xpθ|X

与均值或中位数不同,这是一个“非典型”点,因为在估计时不会考虑所有其他点。在估计均值/中位数的情况下,我们会考虑所有其他要点。

因此,正如预期的那样,在高度偏斜的后验分布中,MAP(以及扩展为MLE)不能真正代表实际的后验。

那么,如何使用均值/中位数/众数等点估计来总结后验呢?

大号θθ^θθ^

大号θθ^一世θ^θ|Xθ一世θ^=θ|Xθ

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.