如何用p量化Logistic回归中的相对变量重要性?


11

假设使用逻辑回归模型来预测在线购物者在单击一组在线广告(预测变量:Ad1,Ad2和Ad3)后是否将购买产品(结果:购买)。

结果是一个二进制变量:1(已购买)或0(未购买)。预测变量也是二进制变量:1(单击)或0(未单击)。因此,所有变量的比例都相同。

如果得出的Ad1,Ad2和Ad3的系数分别为0.1、0.2和03,则可以得出结论:Ad3比Ad2更重要,而Ad2比Ad1更重要。此外,由于所有变量的大小相同,因此标准化和非标准化系数应该相同,并且我们可以进一步得出结论,就其对logit(对数奇数)水平的影响而言,Ad2比Ad1重要两倍。

但是实际上,我们更关心如何根据p(购买概率)级别而不是logit(log-odds)水平比较和解释变量的相对重要性。

因此,问题是:是否有任何方法可以根据p量化这些变量的相对重要性?


我发现这篇文章很有用。它很好地描述了六种不同的方法,可用于根据逻辑回归模型定义预测变量的重要性,以及每种方法的相关利弊。
gchaks

Answers:


5

对于线性模型,可以为每个模型参数使用t统计量的绝对值。

另外,您可以使用随机的forrest之类的东西,并获得非常重要的功能重要性列表。

如果您使用R签出(http://caret.r-forge.r-project.org/varimp.html),如果您使用python签出(http://scikit-learn.org/stable/auto_examples /ensemble/plot_forest_importances.html#example-ensemble-plot-forest-importances-py

编辑:

由于logit没有直接的方法可以执行此操作,因此可以为每个预测变量使用ROC曲线。

为了分类,在每个预测变量上进行ROC曲线分析。对于两个类别的问题,将一系列截止值应用于预测变量数据以预测类别。计算每个临界值的敏感性和特异性,并计算ROC曲线。梯形规则用于计算ROC曲线下的面积。该区域用作变量重要性的度量

在R中如何工作的一个示例是:

library(caret)
mydata <- data.frame(y = c(1,0,0,0,1,1),
                 x1 = c(1,1,0,1,0,0),
                 x2 = c(1,1,1,0,0,1),
                 x3 = c(1,0,1,1,0,0))

fit <- glm(y~x1+x2+x3,data=mydata,family=binomial())
summary(fit)

varImp(fit, scale = FALSE)

1
感谢您的回复!是的,对于线性模型和随机森林来说,这很容易,您是否知道在Logistic回归案例中该如何做?非常感谢!
xyhzc 2014年

请参阅上面的编辑。
mike1886

似乎尚未解决有关比率级别比较的问题。即使我们知道仅使用x1的AUC为.6,仅使用x2的AUC为.9,我们也很难说x2的重要性要大50%。我也不认为这会增加(1-10%/ 40%)= 75%。我们也不能仅仅使用敏感性或特异性来做类似的事情。我也对Wald统计信息在这里的适用性表示怀疑。最有用的也许是标准系数的解释(请参阅Scott Menard的在线书)。
rolando2

谢谢rolando2!该问题中的变量都是在相同度量标准下的度量,因此标准化和非标准化系数应相同。此外,尽管我们可以使用标准化系数来比较logit(对数奇数)水平上的变量,但是我们如何解释P(在这种情况下,在线购物者购买的可能性)上的变量?非常感谢!
xyhzc 2014年

1
我没有看到它回答问题。
HelloWorld

4

由于您专门要求对概率等级进行解释:在逻辑回归中,估计成功概率由下式给出:

π^X=ËXpβ0+βX1个+ËXpβ0+βX

β0βX

ËXp0.11个+ËXp0.1=0.52

仅点击了广告3的用户:

ËXp0.31个+ËXp0.3=0.57

但是,如果该人单击了广告1或广告3,但又单击了广告2(如果这是摆布的情况),则概率变为

ËXp0.1+0.21个+ËXp0.1+0.2=0.57

ËXp0.3+0.21个+ËXp0.3+0.2=0.62

在这种情况下,概率的变化均为0.05,但通常对于不同级别的组合,此变化并不相同。(如果您使用与上述相同的方法,但是系数为0.1、1.5、0.3,则很容易看到这一点。)因此,变量在概率标度上的重要性取决于观察到的其他变量水平。这可能很难(不可能?)在概率规模上提出绝对的,定量的,可变重要性的度量。


感谢您的解释!那么您是否知道有任何间接方法可以量化预测变量的相对重要性?mike1886在回答中提到了“ ROC曲线分析”,但有rolando2提到的一些问题。非常感谢!
xyhzc 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.