了解哪些功能对逻辑回归最重要


17

我建立了一个逻辑回归分类器,该分类器对我的数据非常准确。现在,我想更好地理解它为什么运行得如此出色。具体来说,我想对哪些功能做出最大的贡献(哪些功能最重要)进行排名,并且理想情况下,量化每个功能对整个模型的准确性有多大的贡献(或类似的东西)。我该怎么做呢?

我首先想到的是根据系数对它们进行排名,但是我怀疑这是不对的。如果我有两个同样有用的功能,但是第一个的散布是第二个的十倍,那么我希望第一个的系数要比第二个低。有没有更合理的方法来评估功能的重要性?

请注意,我不是要了解功能中的小变化会对结果的可能性产生多大的影响。相反,我试图了解每个功能在使分类器准确无误方面的价值。另外,我的目标不是执行特征选择或构建具有较少特征的模型,而是试图为学习的模型提供一些“可解释性”,因此分类器不仅仅是一个不透明的黑匣子。


我认为随机森林也是一种很好的技术。您可以检查森林上的顶部裂缝,以直观了解哪些要素对预测的贡献最大。

Answers:


14

首先要注意的是,您不使用逻辑回归作为分类器。Y是二进制的事实与使用这种最大似然方法对观察值进行实际分类绝对无关。一旦超过了这一点,就可以专注于金标准信息度量,这是最大似然的副产品:似然比χ2统计量。您可以生成一个图表,显示每个预测变量根据其部分\ chi ^ 2的部分贡献。χ2统计。这些统计信息具有最大的信息/功能。一旦考虑到其他预测变量,就可以通过获取每个预测变量所提供的预测信息等级的置信区间,来使用引导程序来显示选择“优胜者”和“失败者”的难度。我的课程笔记的第5.4节中有一个示例-单击讲义,然后再次单击讲义。

如果您具有高度相关的功能,则可以进行“块测试”以结合其影响。图15.11给出了执行此操作的图表,其中size代表4个独立预测变量的组合贡献。


6

简短的答案是,没有单一的“正确”方法来回答这个问题。

有关问题的最佳评论,请参见Ulrike Groemping的论文,例如,基于方差分解的线性回归中的相对重要性估计量。她讨论的选项从简单的启发式方法到复杂的CPU密集型多元解决方案。

http://prof.beuth-hochschule.de/fileadmin/prof/groemp/downloads/amstat07mayp139.pdf

Groemping在一个名为RELAIMPO的R包中提出了自己的方法,这也值得一读。

https://cran.r-project.org/web/packages/relaimpo/relaimpo.pdf

我使用的一种快速而肮脏的启发式方法是对与每个参数关联的卡方(F值,t统计量)求和,然后用该总和重新分配各个值。结果将是可排名的相对重要性的度量。

话虽如此,但我从来都不喜欢“标准化贝塔系数”,尽管它们经常被专业人士推荐并被广泛使用。这是它们的问题:标准化是单变量的,并且在模型解决方案的外部。换句话说,这种方法不能反映模型结果的条件性质。


感谢您的回答和链接!您能否详细说明或帮助我理解“模型解决方案外部”和“模型结果的条件性质”是什么意思?(a,我不是统计学专家。)
DW

1
别担心。模型如何“控制”模型中其他因素或条件的概念可能是许多统计学家实际上可以同意的事情之一。这个站点上也有很多评论,这也是一个话题。这里是到这样一个线程的链接: stats.stackexchange.com/questions/17336/…其中最好的评论之一是@whuber,他说:“您可能会认为“控制”是“会计”(至少是平方的意思)。 ),以说明该变量对所有其他变量的贡献/影响/效果/关联。
Mike Hunter

谢谢!我熟悉“控制”某些因素的概念。它与“模型解决方案外部”或“模型结果的条件性质”的含义如何相关或有助于理解?
DW

标准化预测变量以创建“标准化beta”通常是在构建模型之前完成的,对吗?因此,该转换是模型解决方案的“外部”。到目前为止和我在一起?
Mike Hunter

好。我现在可以理解您所说的“外部”是什么意思,谢谢您的解释。您能解释为什么这是一个问题吗?“条件性...”是什么意思?(也许这两个问题是同一个问题,答案都相同...)很抱歉让您遇到问题!我很想了解你写的内容。
DW

3

一种相当健壮的方法是尝试N次拟合模型,其中N是要素数量。每次使用N-1个功能,而忽略一个功能。然后,您可以使用自己喜欢的验证指标来衡量每个功能的包含或排除对模型性能的影响。根据您拥有的功能数量,这在计算上可能会很昂贵。


4
这不能很好地处理相关功能。很容易设计出两个特征高度相关的情况,因此删除其中任何一个对预测能力的影响最小,而删除两个对它的影响则很严重。本质上,两个预测变量携带几乎相同但重要的信息。
马修·德鲁里

2
我同意。在检查系数时,这也是一种危险。
丹尼尔·约翰逊

1
确实如此。确实如此。
马修·德鲁里

2

|βj^||βj^|σ^jxj。一个问题是,当您不再使用数字预测变量时,它会崩溃。

关于您的最后一点,当然,变量可能对估计的对数几率有很大贡献,而实际上并没有对“真实”对数几率产生太大影响,但是我认为如果我们对产生估计的程序有信心。


0

您为什么不应该使用系数作为相关性度量是正确的,但是如果将它们除以标准误差,则绝对可以!如果您已经用R估算了模型,那么已经为您完成了!您甚至可以从模型中删除最不重要的功能,并查看其工作方式。

研究变量中不同的变化如何改变结果的一种更启发式的方法就是这样做:尝试不同的输入并研究其估计的概率。但是,由于您的模型非常简单,因此我建议不要这样做

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.