变量选择与模型选择


12

因此,我知道变量选择是模型选择的一部分。但是,模型选择究竟由什么组成?它不只是以下内容:

1)为您的模型选择一个分布

2)选择解释变量

我之所以这么问,是因为我正在阅读伯纳姆和安德森的文章:AIC与BIC,他们在模型选择中谈论AIC和BIC。阅读本文后,我意识到我一直在将“模型选择”视为“变量选择”(参考注释BIC是否试图找到一个真正的模型?

从文章摘录中,他们讨论了“通用性”程度不断提高的12个模型,当针对12个模型绘制KL-Information时,这些模型显示出“渐缩效应”(图1):

不同的哲学和目标模型 ...尽管BIC的目标比AIC的目标模型更通用,但是BIC在这里最常选择的模型将不如Model 7通用,除非n非常大。它可能是模型5或模型6。众所周知(从大量的论文和模拟文献中),在渐缩效应的情况下(图1),AIC的性能优于BIC。如果这是真实数据分析的上下文,则应使用AIC。

如何BIC 曾经选择一个模型,模型选择我不明白,比AIC更复杂!什么是“模型选择”?什么时候BIC选择比AIC更“通用”的模型?

如果我们谈论的是变量选择,那么BIC必须确保始终选择变量数量最少的模型,对吗?BIC中的项总是比AIC中的项对附加变量的惩罚更多。但是,当“ BIC的目标是比AIC的目标模型更通用的模型 ”时,这是否合理?2ln(N)k2k

编辑

从“意见”中评论的讨论中,是否有理由比其他更喜欢AIC或BIC?我们在评论中看到了@Michael Chernick和@ user13273之间的一小段讨论,这使我相信这并不是一件小事:

我认为将这种讨论称为“特征”选择或“协变量”选择更为合适。对我而言,模型选择范围更广,涉及到误差分布的规范,链接函数的形式以及协变量的形式。当我们谈论AIC / BIC时,通常会处于模型构建的所有方面都是固定的情况,除了协变量的选择。– user13273 2012年8月13日在21:17

确定要包含在模型中的特定协变量通常是用模型选择一词来完成的,书名中有许多带有模型选择的书主要决定了模型中应包含哪些模型协变量/参数。–迈克尔·切尔尼克(Michael Chernick)2012年8月24日14:44


3
好问题!解决方案的至少一部分是要区分本文术语中BIC的“目标”-真正的模型(它将在非常大的样本量中选择)-以及它恰好在特定样本中选择的模型尺寸。那么,当考虑嵌套序列号增加的嵌套序列时,就没有矛盾了。参数,在说,目标 BIC的是具有9个参数的模型,即使以适中的样本大小的BIC挑选具有4个参数模型,&的AIC的一个与6
Scortchi -恢复莫妮卡

1
@Scortchi:很好的例子,但是当我们谈论嵌套模型时,目标模型的概念不是不是完全多余吗?如果上下文是一组嵌套模型(那么我们在谈论变量选择):BIC可能具有更复杂的目标模型,但永远不会比AIC选择更复杂的模型。在任何其他情况下(我们正在谈论模型选择)(样本量较大),本文声称BIC将选择比AIC更复杂(“通用”)的目标模型。具体如何发生,我仍然不清楚。
Erosennin '16

@Erosennin您是否曾经设法找到您这个一般性问题的答案?
zipzapboing

Answers:


3

有时建模者会将变量选择分离为模型开发中的不同步骤。例如,他们将首先进行探索性分析,研究学术文献和行业实践,然后提出一系列候选变量。他们称此步骤为变量选择

接下来,他们将使用许多不同的变量组合(例如OLS模型)运行一堆不同的规范: 其中表示模型变量。他们会挑选最好的全系车型的型号出手动或自动程序。因此,这些人将称为后期模型选择

yi=jmXijmβjm+εi,
jmjmm

这类似于机器学习中人们提出变量时谈论特征工程的方式。您可以将这些功能插入LASSO或类似框架中,在其中使用这些功能(变量)构建模型。在这种情况下,将变量选择分为一个单独的步骤是有意义的,因为您让算法为变量选择正确的系数,并且不消除任何变量。您的判断(关于哪个变量进入模型)在变量选择步骤中被隔离,然后其余的取决于拟合算法。

在您引用的论文中,这都是无关紧要的。本文使用BIC或AIC在不同的型号规格之间进行选择。在这种情况下,是否将变量选择作为单独的步骤都没有关系。重要的是哪个变量在任何特定的模型规格,然后查看它们的BIC / AIC以选择最佳变量。他们考虑了样本数量和变量数量。m

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.