解决模型不确定性


25

我想知道在CrossValidated社区中的贝叶斯主义者如何看待模型不确定性问题,以及他们希望如何处理它?我将尝试分两个部分提出我的问题:

  1. (根据您的经验/观点)处理模型不确定性有多重要?我在机器学习社区中没有找到任何有关此问题的论文,所以我只是想知道为什么。

  2. 处理模型不确定性(奖励点,如果提供参考)的常用方法是什么?我听说过贝叶斯模型平均,但是我不熟悉这种方法的特定技术/局限性。还有哪些?为什么您偏爱另一个?


1
一种不太流行的方法(但越来越受欢迎)是评分规则,用于评估模型的预测性能。

Answers:


17

在处理模型选择时出现两种情况:

  • 当真实模型属于模型空间时。

    使用BIC处理起来非常简单。结果表明,BIC很有可能选择真实的模型。

但是,实际上,我们很少知道真正的模型。我必须指出,BIC常常因此而被滥用(可能的原因是它的外观与AIC相似)。这些问题以前已在本论坛以各种形式解决。这里是一个很好的讨论。

  • 当真实模型不在模型空间中时。

    这是贝叶斯社区研究的活跃领域。但是,已经确认人们知道在这种情况下使用BIC作为模型选择标准是危险的。高维数据分析的最新文献表明了这一点。这样的例子就是这个。贝叶斯因子在高尺寸方面肯定表现出色。已经提出了对BIC的一些修改,例如mBIC,但尚未达成共识。Green的RJMCMC是进行贝叶斯模型选择的另一种流行方法,但是它也有其自身的缺点。您可以对此进行更多跟进。

在贝叶斯世界中还有另一个阵营,建议对模型进行平均。值得注意的是,Raftery博士。

  • 贝叶斯模型平均。

    Chris Volinksy的此网站提供了贝叶斯模型平均的全面信息。其他一些作品在这里

同样,贝叶斯模型选择仍然是研究的活跃领域,根据您问谁,您可能会得到截然不同的答案。


关于贝叶斯因子在高维度上表现良好,但BIC表现不佳的说明,可能是由于忽略了BIC近似所做出的行列式项所致。BIC近似为其中被信息,而是预期信息。当参数空间的维数较大时,的近似值较差,尤其是在各个模型的参数维数变化很大的情况下。A n A 1日志| A 1 | = O 1 日志|一种ñ|日志|ñ一种1个|=p日志ñ+日志|一种1个|一种ñ一种1个日志|一种1个|=Ø1个
概率

这也可能是由于拉普拉斯(Laplace)近似效果也很差所致
概率

11

“真正的”贝叶斯算法将通过边缘化(积分)所有可能的模型来处理模型不确定性。因此,例如在线性脊回归问题中,您将对回归参数(具有高斯后验,因此可以通过分析来完成)进行边际化,然后通过例如MCMC对超参数(噪声水平和正则化参数)进行边际化方法。

一种“较小”的贝叶斯解决方案将是对模型参数进行边际化,但通过最大化模型的边际可能性(也称为“贝叶斯证据”)来优化超参数。但是,这可能导致比预期的更多的过度拟合(例如参见Cawley和Talbot)。有关机器学习中证据最大化的信息,请参阅David MacKay的工作。作为比较,请参阅Radford Neal关于“将所有内容整合起来”方法以解决类似问题的工作。请注意,证据框架对于整合出计算量太大的情况非常方便,因此这两种方法都有一定的范围。

贝叶斯有效地整合而不是乐观。理想情况下,我们将陈述关于解决方案特征(例如,平滑度)的先验信念,并在不实际创建模型的情况下名义上进行预测。机器学习中使用的高斯过程“模型”就是这个想法的一个例子,协方差函数编码了我们对解的先验信念。参见拉斯穆森和威廉姆斯的出色著作。

对于实用的贝叶斯算法,总会有交叉验证,这在大多数情况下都是不容错过的!


11

我在“模型不确定性”世界中发现的有趣事情之一就是“真实模型”的概念。这隐含地意味着我们的“模型命题”具有以下形式:

中号一世1个ith模型是真实模型

从中我们计算出后验概率。在概念上,此过程在我看来非常可疑。假设命题是详尽无遗的,这是一个很大的要求(或不可能的计算)。对于您可以生成的任何模型集,肯定会有一个您尚未想到的替代模型。无限回归也是如此...M 1 iP中号一世1个|d一世中号一世1个

在这里,穷举非常关键,因为这可以确保概率加1,这意味着我们可以使模型边缘化。

但这仅是概念上的-模型平均具有良好的性能。因此,这意味着必须有一个更好的概念。

我个人将模型视为工具,例如锤子或钻头。模型是用于对我们可以观察到的事物进行预测或描述的思维构造。说“真正的锤子”听起来很奇怪,而说“真正的精神构想”也很奇怪。基于此,“真实模型”的概念对我来说似乎很奇怪。考虑“好”模型和“坏”模型,而不是“正确”模型和“错误”模型,似乎更为自然。

从这种观点出发,我们从选择的模型中同样可以不确定“最佳”模型的使用。因此,假设我们改为对推论进行推理:

中号一世2在所有指定的模型中,
ith模型是最好的模型

现在,这是思考“模型不确定性”的更好方法。我们不确定要使用哪种模型,而不是哪种模型是“正确的”。这也使模型平均似乎是一件更好的事情(无论如何对我来说)。据我所知,使用BIC 进行的后验是一个很好的粗略,简单的近似。并且进一步地,命题是详尽除了被独占中号一世2中号一世2

但是,在这种方法中,您确实需要某种拟合优度度量,以便评估“最佳”模型的优良程度。这可以通过两种方式来完成,即通过对“确定性”模型进行测试,这些模型等于通常的GoF统计信息(KL散度,卡方等)。衡量这一点的另一种方法是在您的模型类别中包括一个非常灵活的模型-可能是具有数百个组件的普通混合物模型,或者是Dirichlet过程混合物。如果此模型是最好的模型,则其他模型可能不足。

本文进行了很好的理论讨论,并逐步介绍了如何实际选择模型的示例。


大+1。非常周到,清晰的分析。
ub

好答案。我应该提到,从特定类别的模型来看,BIC很棒。但是,正如您提到的,大多数时候,真正的模型不在模型空间之内。然后,正如您所提到的,真实模型与“最佳模型”之间的紧密联系才有意义。这些是AIC和其他IC试图回答的答案。BMA有效,但是它也显示不起作用。这并不是说不好,但是在将其视为通用替代品时,我们应该小心。
suncoolsu 2011年

1
C[R一种P=C[R一种P=1个ñ一世=1个ñC[R一种P一世

4

正如suncoolsu所说,我知道人们使用DIC和贝叶斯因子。我很感兴趣,当他说“有结果表明BIC很有可能选择真正的模型”(参考文献?)。但是,我只使用由安德鲁·盖尔曼(Andrew Gelman)倡导的事后预测检查,即我所知道的。如果您对安德鲁·盖尔曼(Andrew Gelman)和后验预测检查进行了搜索,您会发现很多东西。我看看克里斯蒂安•罗伯特 Christian Robert 在美国广播公司(ABC )上写的关于模特选择的作品。无论如何,这是我喜欢的一些参考,以及Gelman博客中的一些最新帖子:

博客

DIC和AIC ; 有关DIC的更多信息模型检查和外部验证

关于后验检查的论文:

盖尔曼,安德鲁。(2003a)。“探索性数据分析和拟合优度测试的贝叶斯公式”。国际统计评论,第一卷。71,n.2,第389-382页。

盖尔曼,安德鲁。(2003b)。“复杂模型的探索性数据分析”。计算和图形统计杂志,第一卷。13,4,第755/779页。

盖尔曼,安德鲁;梅切伦,伊文·范;VERBEKE,Geert;海地,丹尼尔·F。MEULDERS,米歇尔。(2005)。“用于模型检查的多重插补:带有缺失和潜在数据的完整数据图。” Biometrics 61,74-85,3月

盖尔曼,安德鲁;孟小丽;斯特恩,哈尔 (1996)。“通过实际差异对模型适应性进行后验预测”。Statistica Sinica,6,第733-807页。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.