我有几个功能的二进制分类问题。(正规化的)逻辑回归的系数是否具有可解释的含义?
考虑到这些功能已预先标准化,我认为它们可以表明影响的大小。但是,在我的问题中,系数似乎敏感地取决于我选择的特征。甚至系数的符号也会随着选择为输入的不同特征集而变化。
检查系数的值是否有意义,找到最有意义的系数并用词表示其含义的正确方法是什么?某些拟合模型及其系数的符号是否错误-即使它们对数据进行排序也是如此?
(我在要素之间具有的最高相关性仅为0.25,但这肯定起了作用吗?)
我有几个功能的二进制分类问题。(正规化的)逻辑回归的系数是否具有可解释的含义?
考虑到这些功能已预先标准化,我认为它们可以表明影响的大小。但是,在我的问题中,系数似乎敏感地取决于我选择的特征。甚至系数的符号也会随着选择为输入的不同特征集而变化。
检查系数的值是否有意义,找到最有意义的系数并用词表示其含义的正确方法是什么?某些拟合模型及其系数的符号是否错误-即使它们对数据进行排序也是如此?
(我在要素之间具有的最高相关性仅为0.25,但这肯定起了作用吗?)
Answers:
输出的系数确实具有含义,尽管对大多数人来说不是很直观,对我而言当然不是。这就是为什么人们将其更改为优势比。但是,优势比的对数是系数。等效地,指数系数为比值比。
该系数对于插入公式中最有用,该公式给出了在因变量的每个级别中的预测概率。
例如在 R
library("MASS")
data(menarche)
glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age,
family=binomial(logit), data=menarche)
summary(glm.out)
年龄的参数估计为1.64。这是什么意思?好吧,如果将其与截距的参数估计值(-21.24)结合使用,则可以得到一个预测初潮可能性的公式:
但是这个公式(即使只有一个变量!)也无法很好地了解年龄与初潮的关系。如果我们使用优势比(即 这意味着,每增加一岁,初潮的几率就大5.16倍(不完全是5.16倍,但经常使用这种解释)。
直接解释系数很困难并且可能会产生误导。您无法保证如何在变量之间分配权重。
快速示例,类似于您描述的情况:我已经研究了用户与网站交互的模型。该模型包括两个变量,分别代表用户会话的第一个小时和第二个小时的“点击”次数。这些变量彼此高度相关。如果这些变量的两个系数均为正,则我们很容易误导自己,并认为较高的系数可能表示“较高”的重要性。但是,通过添加/删除其他变量,我们可以很容易地得出一个模型,其中第一个变量具有正号,另一个变量具有负号。我们最终得出的理由是,由于大多数可用变量对之间存在一些显着(尽管很低)的相关性,因此我们无法使用系数就变量的重要性得出任何可靠的结论(很高兴向社区学习这种解释是正确的)。
如果您想获得一个更容易解释的模型,则可以使用Lasso(L1范数的最小化)。由于变量之间的相关性较低,因此导致解决方案稀疏。但是,这种方法不会轻易选择上一个示例中的两个变量-一个零加权。
如果您只是想评估特定变量或一组变量的重要性,我建议直接使用某些功能选择方法。这样的方法可以得出更有意义的见解,甚至可以基于某些标准对变量的重要性进行全球排名。
系数无疑具有含义。在某些软件包中,可以以两种方式中的任何一种来指导模型以产生两种类型的系数中的任一种。例如,在Stata中,可以使用Logistic命令或logit命令。在使用一个模型时,模型给出传统系数,而在使用另一个模型时,模型给出优势比。
您可能会发现一个对您而言比另一个有意义得多。
关于您的问题,“ ...系数似乎取决于灵敏度...”。
您是说结果取决于您在模型中放置的变量吗?
如果是这样,是的,这是进行回归分析时的生活事实。这样做的原因是,回归分析正在查看大量数字并以自动方式对其进行处理。
结果取决于变量之间的相互关系以及未测量的变量。它既是一门艺术,又是一门科学。
此外,如果与样本量相比,该模型的预测变量过多,则信号可能会以疯狂的方式翻转-我认为这是说该模型正在使用对“调整”其估计值影响很小的变量具有很大的效果(例如使用较小的音量旋钮进行较小的校准)。发生这种情况时,我倾向于不相信效果很小的变量。
另一方面,当您添加新的预测变量时,信号可能最初发生了变化,因为您越来越接近因果事实。
例如,让我们想象格陵兰白兰地可能对人的健康有害,而收入对人的健康有利。如果忽略了收入,而更多的有钱人喝白兰地,那么该模型可能会“捡拾”所忽略的收入影响,并“说”酒精对您的健康有益。
毫无疑问,系数取决于所包含的其他变量是生活中的事实。要了解更多信息,请查看“遗漏的变量偏差”和“虚假关系”。如果您以前从未遇到过这些想法,请尝试查找满足您需求的统计课程的入门-这可能会在建模方面产生巨大的差异。