模型选择中的悖论(AIC,BIC,是解释还是预测?)


18

阅读了加利特·斯穆利(Galit Shmueli)的“解释或预测”(2010),我为明显的矛盾感到困惑。一共有三个前提

  1. 基于AIC的与基于BIC的模型选择(第300页的结束-第301页的开始):简而言之,应使用AIC选择用于预测的模型,而应使用BIC选择用于解释的模型。另外(我们不在上面的文章中),我们知道在某些条件下BIC会在候选模型集中选择真实模型。真正的模型是我们在解释模型中寻求的(第293页末)。
  2. 简单的算法:对于大小为8或更大的样本,AIC将选择比BIC 更大的模型由于AIC与BIC的复杂度惩罚不同,因此满足)。ln(n)>2
  3. “真实”模型(即用正确的回归量和正确的函数形式,但不完全估计系数模型)可能不是预测的最佳模式(P 307):回归模型缺少的预测可能是一个更好的预测模型-由于缺少估计变量而导致的偏差可能会因估计不准确而导致方差减少而被抵消。

要点1.和2.表明较大的模型可能比较简约的模型更适合预测。同时,第3点给出了一个相反的例子,其中更简约的模型比较大的模型更适合预测。我感到困惑。

问题:

  1. 点之间如何出现明显的矛盾{1。和2.}和3.被解释/解决?
  2. 鉴于第3点,您能否就AIC选择的较大模型实际上比BIC选择的更简约模型更好地进行预测进行直观的解释?

2
我没有悖论/矛盾。AIC是有效的(渐近地将预期的预测误差最小化),而BIC则是一致的(渐近地选择真实顺序)。第3点)说,偏差可能会因方差而被抵消。显然,不能保证在某个样本中一个人比另一个人更好。因此,您的“悖论”似乎是对于给定的样本,AIC可能不是最适合预测的,这不足为奇。对于您的Q2:如果BIC较小的模型引起的偏差增加大于AIC较大的模型引起的偏差增加,则AIC更好。
hejseb

2
我建议您看一下Nils Hjort和Gerda Claeskens撰写的“模型选择和模型平均”的第一章,也许这样可以使事情变得清楚。
hejseb '16

Answers:


1

它们不应在同一上下文中使用;点1和2具有不同的上下文。对于AIC和BIC,首先要探索哪种参数组合中哪个数字产生最佳索引(当我使用索引一词时,有些作者会感到癫痫发作。在这种情况下。在第2点中,AIC是更丰富的模型,其中更丰富的意思是选择带有更多参数的模型(仅在某些情况下),因为最优AIC模型经常与BIC具有相同数量的参数模型,选择。也就是说,如果AIC和BIC选择具有相同参数数量的模型,则可以说AIC的预测将比BIC更好。但是,如果BIC在选择较少的参数模型的情况下达到最大值(但没有保证),则可能发生相反的情况。Sober(2002)得出结论,AIC衡量预测准确性,而BIC衡量拟合优度,其中预测准确性可能意味着在x的极值范围之外预测y。在外面的时候 通常,较弱的AIC预测参数较弱的AIC会比其选定模型中更多参数的最佳AIC指数更好地预测外推值。顺带一提,我注意到AIC和ML并没有消除对外推误差测试的需要,后者是针对模型的单独测试。这可以通过从“训练”集中保留极值并计算外推“训练后”模型与保留数据之间的误差来实现。

现在,BIC被认为是在x的极值范围内的 y值的较小误差预测指标。拟合优度的提高通常是以回归的偏见(用于外推)为代价的,其中通过引入该偏倚来减少误差。这将,例如,往往变平的斜率分裂平均左右节的符号f(x)y残差(一侧考虑更多的负残差,另一侧考虑更多的正残差),从而减少了总误差。因此,在这种情况下,我们要求给定x值的最佳y值,而对于AIC,我们更紧密地要求x和y之间的最佳功能关系。两者之间的一个区别是,例如,在其他参数选择相等的情况下,BIC将在模型和数据之间具有更好的相关系数,而对于给定的外推x值,AIC将具有更好的作为y值误差的外推误差。

第3点是某些情况下的有时陈述

  • 当数据非常嘈杂时(大);σ

  • 当左出参数的真实绝对值(在我们的
    示例中)是小;β2

  • 当预测因子高度相关时;和

  • 当样本量较小或遗漏变量的范围较小时。

2222

我要指出这些说法是乐观的。通常,模型是错误的,并且更好的模型通常会强制执行无法与AIC或BIC一起使用的规范,或者为它们的应用假设错误的残差结构,并且需要替代措施。在我的工作中,情况总是如此。


1
我不确定您是否在回答问题。我知道信息标准的一般限制,但这不是我要问的。此外,如果AIC和BIC具有相同数量的参数,那么我不理解您的观点,那么,有人声称AIC的预测要比BIC更好。当备选模型具有相同数量的参数时,AIC和BIC比较归结为比较似然,并且AIC和BIC将选择相同的备选。您能否详细说明更好的模型将强制实施AIC或BIC无法使用的规范
理查德·哈迪

续:只要我们具有可能性和自由度,就可以计算AIC和BIC。
理查德·哈迪

@RichardHardy True:只要我们具有可能性和自由度,我们就可以计算AIC和BIC。但是,如果残差是Student-T,则计算将不是最优的,并且会产生误导,并且我们没有对Student-T使用AIC和BIC。与Student-T不同,ML的残差分布可能是未发布的,例如Gamma,Beta等
Carl

谢谢你的澄清!我认为,对于以上问题,应该存在一个非常简单和笼统的答案。更具体地说,我认为不需要涉及“丑陋”的案例以及AIC和BIC的失败。相反,我认为应该有一个相当基本的案例,可以说明为什么这种悖论只是显而易见的而不是真实的。同时,您的第二段似乎朝相反的方向发展。并不是说它本身就没有价值,但恐怕它会使我们从这里的根本问题中分散出来。
理查德·哈迪

@RichardHardy通常,实际问题对于AIC来说是棘手的。例如,比较具有不同规范和/或数据转换的相同或不同模型,或分析复杂规范,例如,减少派生参数的Tikhonov正则化错误,通用逆等。 ,BIC错误。
卡尔,
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.