为什么需要变量选择?


31

常见的基于数据的变量选择过程(例如,向前,向后,逐步,所有子集)倾向于产生具有不良特性的模型,包括:

  1. 系数偏离零。
  2. 标准误差太小,置信区间太窄。
  3. 测试不具有广告含义的统计信息和p值。
  4. 对模型拟合的估计过于乐观。
  5. 可能无意义的包含术语(例如,排除低阶术语)。

但是,变量选择过程仍然存在。考虑到变量选择的问题,为什么需要这些程序?是什么促使他们使用它?

一些提议开始讨论。

  • 是否希望获得可解释的回归系数?(在具有多个IV的模型中被误导了吗?)
  • 消除不相关变量引入的方差?
  • 在自变量中消除不必要的协方差/冗余吗?
  • 减少参数估计的数量(功效,样本量)

还有其他吗?变量选择技术所解决的问题是否比变量选择程序所引入的问题重要?什么时候应该使用它们?什么时候不应该使用它们?


我认为,要清楚地讨论问题,我们需要先以某种很好的方式对其进行说明,然后以适当的数学形式来表述它,以便我们可以有一个清晰讨论该问题的框架。对于例如线性回归模型的变量选择问题。首先修复模型并研究(i)变量选择的优点/缺点(例如,估计或预测的改进/改进)似乎是合理的?(ii)与LS估计相比,变量选择程序的优势是什么?

Answers:


17

变量选择(没有惩罚)只会使情况变得更糟。变量选择几乎没有机会找到“正确的”变量,并导致剩余变量影响的高估和标准误差的低估。认为以常规方式完成变量选择可以帮助解决“大p小n”问题是错误的。最重要的是,最终模型在各个方面都具有误导性。这与我在一份流行病学论文中读到的惊人声明有关:“我们没有足够的样本量来开发多变量模型,因此我们对2x2表执行了所有可能的测试。”

任何时候使用现有数据集消除变量,同时使用Y进行决策时,所有统计量都会失真。典型的变量选择是海市rage楼。

编辑:(从下面复制被折叠隐藏的注释)

L2L1L1L2Y


6
我认为通过提供一些有关如何进行的提示将可以改善此答案。答案做出了非常广泛和明确的陈述(我通常都同意其中的许多陈述),而没有提及将支持这些主张的资源。当然,惩罚也不是万能的,如果走这条路,还有很多选择。
主教

3
请参阅上面我提供的更多信息。陈述问题的最简单方法是“选择”变量的主要原因是因为其影响被高估了。
弗兰克·哈雷尔

2
L2L1L2

2
L2L2L1pn

2
L2

14

首先,您提到的缺点是功能选择错误(例如,过拟合,未完成或过冲)的影响。

eYYYeY

所有相关级别都可以洞悉真正驱动给定过程的原因,因此具有解释价值。最小的最佳水平(通过设计)可提供尽可能不混乱的数据的非过度拟合模型。

现实世界中的FS只想实现这些目标之一(通常是后者)。


4
我假设您是指删除变量而不使用现有数据。您不能使用手头的数据集来执行此操作。这将是不可靠的,并且会扭曲统计推断。
Frank Harrell

如我所写,这只是问题的理论基础(来自贝叶斯网络)。实现这一点的确切方法显然是不可能的,我当然同意统计建模因RFE和类似内容的盲目使用而遭受了很多损失-但机器学习具有一些启发式算法,这些算法当然也不是没有希望的(即,进行稳定的选择和建模)证明在公平测试中并不过分)。

什么是RFE ?????????
kjetil b halvorsen

@kjetilbhalvorsen递归功能消除

@mbq Thx为您提供有趣的答案!您可以提供任何参考资料(书籍,论文等)吗?感谢您的回覆!
凯尔2015年

10

变量选择是必然的,因为大多数模型不能很好地处理大量不相关的变量。这些变量只会将噪声引入模型,或更糟糕的是,会导致您过度拟合。最好将这些变量排除在分析之外。

此外,您不能包含每个分析中存在的所有变量,因为那里有无数个变量。在某些时候,您必须划清界限,最好以严格的方式进行。因此,所有关于变量选择的讨论。

变量选择的大多数问题都可以通过交叉验证或使用带有内置惩罚和特征选择的模型(例如线性模型的弹性网)来解决。

如果您对与导致过度拟合的多个变量相关的一些经验结果感兴趣,请在Kaggle上查看“ 请勿过度拟合”竞赛的结果。


1
我认为第一段对这个问题有很大的误解。变量选择对​​任何问题都无济于事,它只会隐藏它们。变量选择会导致巨大的过拟合问题,尽管正如您稍后将提到的,有一些方法可以诚实地惩罚自己,以免变量选择造成的损害。
Frank Harrell

3
@Frank Harrell:您如何确定要从模型中排除哪些变量?
Zach

11
(1)在查看数据集之前使用主题知识;(2)使用对Y不了解的冗余分析/数据缩减;(3)使用适当地惩罚因进行特征选择而导致的巨大的多重比较问题的方法(请参阅此页面的其他地方)。
Frank Harrell
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.