贝叶斯关于过度拟合的思考


20

我花了很多时间来开发用于验证传统的频繁统计领域中的预测模型的方法软件。将更多的贝叶斯思想付诸实践和教学时,我发现需要拥抱一些关键差异。首先,贝叶斯预测模型要求分析人员认真考虑可能针对候选特征进行定制的先验分布,这些先验将拉近模型(即,针对不同的预测特征对缩略/惩罚/正则化进行不同程度的惩罚) )。其次,“真实”贝叶斯方法不会产生单个模型,而是会获得整个后验分布以进行预测。

考虑到这些贝叶斯特征,过度拟合意味着什么?我们应该评估一下吗?如果是这样,怎么办?我们如何知道贝叶斯模型何时可用于现场?还是当我们使用我们为预测而开发的模型时,后验将带有所有谨慎的不确定性,这是一个有争议的问题吗?

如果我们强制将贝叶斯模型提炼为单个数字,例如后均值/众数/中位数风险,那么思维将如何改变?

在这里看到一些相关的想法。在这里可以找到平行讨论。

后续问题::如果我们完全是贝叶斯模型,并且在查看数据之前花了一些时间在先验上,并且我们在适当地指定了数据似然性的情况下拟合了模型,那么我们是否必须对模型过度拟合感到满意?还是我们需要做一些我们在常人世界中所做的事情,在该世界中,随机选择的主题在平均水平上可能会被很好地预测,但是如果我们选择一个预测值非常低或预测值非常高的主题,则会出现回归是什么意思?



1
安德鲁· 盖尔曼
Frank Harrell

Answers:


6

我可能首先要说的是,贝叶斯模型不能系统地过拟合(或欠拟合)从先前的预测分布中得出的数据,这是在将贝叶斯软件应用于从收集到的数据中之前验证其是否正确运行的过程的基础。世界。

但这可能会过度拟合从先前的预测分布中提取的单个数据集或从世界上收集的单个数据集,因为从某种意义上说,应用于您所依据的数据的各种预测指标看起来要比应用于未来数据的那些预测指标更好。通过相同的过程生成。理查德·麦克埃尔瑞斯(Richard McElreath)的贝叶斯第6章专门讨论过拟合。

良好的先验可以降低过度拟合的严重性和频率,尤其是那些对效果的规模具有指导意义的先验。通过将消失的先验概率置于难以置信的大值上,您可以阻止后验分布因您所依据的数据的某些特质方面而过于兴奋,这可能表明产生了难以置信的巨大影响。

检测过度拟合的最佳方法包括留一法交叉验证,该验证可以从后验分布近似进行,而后验分布实际上并不会将任何观察结果排除在条件集中之外。有一个假设,即您所依据的单个“观察” [*]对后验分布没有太大影响,但是可以通过评估广义Pareto分布中形状参数估计值的大小来检验该假设,即适合重要性抽样权重(这是从后验分布的每次抽奖评估的观察值的对数似然得出的)。如果满足此假设,则可以为每个观察值获得预测值,就像该观察值已被省略一样,后验是根据剩余的观察条件而得出的,而后验预测分布是为省略的观察而构造的。如果您对遗漏的观测结果的预测受到影响,那么您的模型就太过适合了。这些想法在厕所 为R,其包括引用如在这里那里

就提炼成单个数字而言,我喜欢计算落入50%预测间隔内的观测值的比例。如果要消除包含指标功能中的噪声,您需要进行大量观察,但该比例在一定程度上超出了一半,因此该模型是过度拟合的。为了比较不同的模型(可能过度拟合),预期对数预测密度(由loo中loo函数计算)包)是一个很好的衡量标准(由IJ Good提出),因为它考虑了以下可能性:较灵活的模型可能比较不灵活的模型更适合可用数据,但预计对未来数据的预测会更糟。但是这些想法可以应用于任何预测性措施的期望(对从业者来说可能更直观)。请参阅loo包中的E_loo功能。

[*]您必须选择在分层模型中构成观察的内容。例如,您对预测新患者或现有患者的新时间点感兴趣吗?您可以使用任何一种方法来执行此操作,但是前者要求您(重新)编写似然函数以整合出患者特定的参数。


2
本非常有信息。非常感谢您抽出宝贵时间来详细答复。为了回答您有关范围的问题,我指的是新患者。我剩下的是一个一般的哲学问题,该问题已添加到原始问题的末尾。
弗兰克·哈雷尔

2
我倾向于认为这样的检查反映了我们先前的信念的某些方面,即我们没有或不能建立在使用的先前分布中。例如,原则上,您应该在所有参数上指定一个联合的先验PDF,但是几乎总是有很多假设,认为这是独立于该先验 PDF的,不是因为您真的相信它们是独立的,而是因为指定了多元依赖结构非常困难。诸如预测之类的多元函数可以帮助您在事后告诉您输入是否共同有意义。
本·古德里奇

这很有道理,而且很有见地。对于“极端”主题(即那些具有非常低或非常高的预测值的主题)的预测准确性的评估,我仍然有些困惑。[对于贝叶斯,它可以预测值。是后移分布发生变化的受试者,还是后平均值低/高的受试者?]
弗兰克·哈雷尔

1
对此有另一种想法:在许多情况下,从业者对于贝叶斯规则的分母有相当连贯且无争议的信念。例如,如果某人患有这种或那种癌症,那么在没有任何其他条件的情况下,他们的生存时间分布如何?但是,指定贝叶斯规则的分子将变得更加困难且更具争议性,这样,如果您对所有参数进行积分,则剩下的就是分母。预测检查(先验和后验)是一种使分子与贝叶斯规则的分母对齐的方法。
本·古德里奇

1

过度拟合意味着该模型在训练集上运行良好,但在测试集上表现较差。恕我直言,它来自两个来源:数据和我们使用的模型(或我们的主观性)。

ķ

结果,如果我们是常客,那么过拟合的来源就来自MLE。如果我们是贝叶斯,那么这来自先验分布的(主观)选择(当然还有可能性的选择)。因此,即使您使用后验分布/均值/中值,也从一开始就已经过度拟合,并且这种过度拟合也会继续进行。正确选择先验分布和可能性将有所帮助,但它们仍然是模型,您永远无法避免过度拟合。


忽略数据可能性(这是常客和贝叶斯方法的共同点),过拟合来自于先验的选择这一观点很有见地。这意味着没有办法检查过度拟合,因为如果我们事先已经对先验进行了所有数据前的思考,就没有办法也不需要检查先验。但是,我仍然有一种下沉的感觉,即极端的预测将显示过度拟合(回归均值)。先验是关于参数,而不是关于数据的极限。
弗兰克·哈雷尔
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.