逻辑回归中变量的重要性


11

我可能正在处理一个可能已经解决了一百次的问题,但是我不确定在哪里可以找到答案。

当使用逻辑回归时,给定许多特征并尝试预测二进制分类值,我对选择可以很好地预测的特征子集感兴趣。 y yx1,...,xnyy

是否可以使用类似于套索的程序?(我只看到套索用于线性回归。)

查看拟合模型的系数是否表明了不同特征的重要性?

编辑-看到一些答案后的澄清:

  1. 当我指的是拟合系数的大小时,我指的是那些拟合到归一化(均值0和方差1)特征的系数。否则,正如@probabilityislogic指出的那样,1000x的重要性似乎不如x。

  2. 我对仅寻找最佳k子集(如@Davide所提供的)不感兴趣,而是权衡不同功能之间的相对重要性。例如,一个特征可能是“年龄”,而另一个特征可能是“年龄> 30”。它们的增量重要性可能很小,但两者都可能很重要。

Answers:


8

DWin的回答提供了答案,但缺乏洞察力,因此我认为提供一些解释可能很有用。

如果您有两个类,则基本上是在尝试估计。这就是您所需要的,逻辑回归模型假设:p=P(yi=1|X=xi)

logp1p=logP(yi=1|X=xi)P(yi=0|X=xi)=β0+β1Txi

我认为特征的重要性意味着您如何影响或换句话说。jppxij

经过一小段转换,您可以看到

p=eβ0+β1Txi1+eβ0+β1Txi

计算完导数后,您会看到

pxij=βjeβ0+β1Txi

显然,这取决于所有其他变量的值。但是,您可以观察到系数的SIGN可以按照您想要的方式进行解释:如果为负,则此功能会降低概率p。

现在,在您的估计过程中,您正在假设模型正确的情况下尝试估计。通过正则化,您会在这些估计中引入一些偏差。对于岭回归和自变量,您可以获得封闭式解决方案:β

βr^=β^β^+λ

如您所见,这可以更改系数的符号,从而使解释破裂。


1
eq1分母中的错字?
Fernando

7

您最后一个问题的答案是否定号。系数的大小绝不是重要性的量度。套索可用于逻辑回归。您需要更加刻苦地研究该地区。您需要研究的方法是涉及“惩罚”方法的方法。如果您正在寻找发现“阴影”预测变量的检测方法,该术语可能在某处定义但未普遍使用,那么您需要寻找一种方法来检查预测变量空间内的相互作用和非线性结构。结果链接到该空间。在弗兰克·哈雷尔(Frank Harrell)的文章“回归建模策略”中,对这些问题和方法进行了大量讨论。

向后选择策略将无法传递有效结果(尽管确实会传递结果)。如果您查看了一个100个事件的20个随机预测变量的情况,则可能会发现2个或3个将通过向后选择过程进行选择。现实世界中普遍存在向后选择的现象,反映的不是仔细的统计思想,而是反映了它在SAS和SPSS中的易用性,以及这些产品的用户群的复杂性。R用户群体很难访问将这些请求发布到邮件列表中的方法和用户,因此通常会向他们告知与向后(或正向)选择方法有关的问题。


1
我知道我应该-非常感谢您从哪里开始的一些指导。
Guy Adini

我将添加一个示例来备份此示例。假设我们设置。然后对于(unpenalised)估计系数将比用于(unpenalised)估计系数较小倍。但是请注意,这两个预测变量的强度将完全相同。 x n + 1 1000 x 1xn+1=1000x1xn+11000x1
概率

请参阅上面的我的评论(使用规范化功能)。谢谢。
Guy Adini 2013年

谢谢。我会调查的。您是否可以列举出一些用于“检查预测变量空间中的相互作用和非线性结构”的常用算法,或者这是一种非常个案的情况?
Guy Adini 2013年

您可以使用回归样条来搜索非线性,并且样条项可以“交叉”,从而可以识别仅限于2D预测空间的一个区域的效果。您还可以使用局部回归方法。在R中,最常用的局部回归方法可能是'mgcv'软件包,但是较旧的'locfit'软件包仍然可用。
DWin

-4

英语不是我的母语,所以我可能不了解您的问题,但是如果您需要找到最佳模型,则可以尝试使用向后过程(并最终添加交互),从所有协变量的模型开始。然后,您可以查看residuals_vs_predicted值和qq图图,以检查模型是否很好地描述了您的现象


谢谢!我认为您的建议是逐步添加最相关的功能。这是有道理的,但并不能帮助我理解特征“比特征B多多少”。例如,假设我有一个特征x,而另一个特征x + <small noise>。两者实际上都是有用的功能,但是其中一个被另一个遮盖了。我希望也显示x + <noise>的方法很重要。
Guy Adini 2013年

不,向后过程从具有所有协变量的模型开始,然后逐步删除协变量(系数不显着)(除非您的模型通常只有显着系数)。我猜想有更多更复杂的方法可以实现相同的目标,但是我只是一个学士学位的学生!
戴维德
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.