为什么特征选择对于分类任务很重要?


11

我正在学习功能选择。我明白了为什么它对于模型构建非常重要和有用。但是,让我们专注于监督学习(分类)任务。为什么特征选择对于分类任务很重要?

我看到许多关于特征选择及其在监督学习中的使用的文献,但这使我感到困惑。功能选择与确定要丢弃的功能有关。直观地讲,丢弃某些功能似乎是自欺欺人的:它是在丢弃信息。似乎抛出信息应该无济于事。

即使删除某些功能确实有帮助,但如果我们抛弃某些功能,然后将其余功能馈入有监督的学习算法中,为什么我们需要自己做,而不是让有监督的学习算法来处理呢?如果某个功能没有帮助,难道没有任何像样的监督学习算法会隐式地发现这一点并学习不使用该功能的模型吗?

因此,从直觉上讲,我希望功能选择是毫无意义的练习,永远无济于事,有时甚至会受伤。但是,事实是如此广泛地使用和撰写,使我怀疑我的直觉是错误的。在进行监督学习时,任何人都可以提供任何直觉来说明为什么功能选择有用且重要吗?为什么它可以提高机器学习的性能?是否取决于我使用的分类器?

Answers:


10

您的直觉是正确的。在大多数情况下,特征选择代表着对以下三种误解的简单解释的需求:

  1. 分析人员没有意识到“所选”特征集非常不稳定(即非稳健),并且在另一个数据集上进行选择时将导致完全不同的特征集。数据通常不具有选择“正确”功能所需的信息内容。如果存在共线性,这个问题将变得更加严重。
  2. 在不受控制的实验中,途径,机制和过程很复杂;人类的行为和自然是复杂的而不是简约的。
  3. 要求数据告诉您什么是重要特征,以及“重要” 特征与的关系如何,会损害预测准确性。最好“使用每个变量的一点”比使用所有一些变量而不使用其他变量(即使用收缩/惩罚)更好。Y

一些研究方法:

  1. 套索弹性网和标准二次惩罚之间进行更多的预测准确性比较(岭回归)
  2. 引导来自随机森林的变量重要性评估并检查其稳定性
  3. 计算潜在特征等级上的自举置信区间,例如,部分关联测试(或诸如单变量Spearman或)的等级,并看到这些置信区间非常宽,直接通知您任务的难度。从http://biostat.mc.vanderbilt.edu/rms链接的我的课程笔记中有一个使用OLS自举预测变量的排名顺序的示例。χ2ρDxy

所有这些都适用于分类以及更普遍和有用的预测概念。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.