分析逻辑回归系数


12

这是逻辑回归系数的列表(第一个是截距)

-1059.61966694592
-1.23890500515482
-8.57185269220438
-7.50413155570413
 0
 1.03152408392552
 1.19874787949191
-4.88083274930613
-5.77172565873336
-1.00610998453393

我发现截距如此之低如此奇怪,并且我的系数实际上等于0。我不确定如何解释这一点。0是否表示特定变量对模型完全没有影响?但是,通过输入某列进行的拦截真的很重要吗?还是我的数据只是废话而模型无法正确地适应它。


2
您其他变量的范围或标准偏差是多少?与零估计相比,具有零估计的变量的标准偏差之间有较大差异吗?如果标准偏差比其他偏差小(数字精度),则可能期望系数为零。基本上,拦截也意味着您拥有平均数较大(远离零)的变量。将变量居中将提供更可解释的截距,并且不会更改其他变量的beta(不包括迭代算法错误)。
概率

1
如果要从第六个变量的所有值中减去1027,则截距将非常接近0。这会让您感觉更好吗?:-)
豪伯

4
显示完全没有上下文的这样的系数列表可能会说:“乔有31个,不是很多吗?” 不说31 什么。31辆车?很多。31个孩子?很多很多!31美元?不多。
彼得·弗洛姆

1
关于零系数:我可以看到这是在将所有系数粘贴到此处之前先将所有系数放入XL的产物,这似乎与我们通常看到的小数位数较高相符。也许那些XL单元之一被设置为四舍五入为整数,得出零。我曾经发生过类似的事情。
rolando2 2012年

感谢大家的投入!我真的很感谢你们每一个人!我的很多问题都得到了回答
shiu6rewgu 2012年

Answers:


16


logit=β0+β1x1+β2x2+...+βkxk
e2.718281828
e2=7.389056
7.3890561+7.389056=0.880797

9.8×103050/(1+0)),再次给我们0。因此,您的输出告诉您的是,当所有变量都等于0时,根本不会发生您的事件(无论发生什么)。当然,这取决于我们在说什么,但是我发现并没有什么特别值得注意的这个。标准逻辑回归方程式(例如,没有平方项)必须假定协变量和成功概率之间的关系是单调增加或单调减少。这意味着它总是变得越来越大(或越来越小),因此,如果您在一个方向上走得足够远,您将得到的数字是如此之小,我的计算机无法分辨出它们与0的区别。野兽的性质。碰巧的是,对于您的模型而言,真正意义深远的是协变量值等于0的地方。

至于系数0,确实意味着该变量没有影响,正如您所建议的那样。现在,很合理的一点是,变量将不起作用,但是,您基本上将永远不会获得正好为0的系数。评论提供了一些可能的建议。我可以提供另一个,那就是该变量可能没有变化。例如,如果您有一个编码为性别的变量,但样本中只有女性。我不知道这是否是真正的答案(例如,R NA在这种情况下会返回,但是软件会有所不同),这只是另一个建议。


2
请注意,您可以将自然对数赔率乘以以10为底的赔率3067003746010460

10

解释拦截

您可以将逻辑回归看作是后验概率为“ 1”。截距表示从数据集派生的类别的先验:具体而言,当模型只有截距时,它是对数log(p(Y = 1)/ p(Y = 0)的经验估计,对于当存在分类协变量时,并且对于协变量更普遍为0的情况(但可解释性较差),则使用“参考”类。因此,您的强烈负数可能告诉您在样本中特征为“ 1”的情况很少见,具有0同样所有协变量,有可能是没有意见存在,所以它不值得担心的截距值。 这种讨论是相当明确的。

由于这些参数之间的关注点易于分离,因此您可以通过训练更好的平衡样本并仅调整截距来校正类别不平衡。详见金和曾


与“此讨论”的链接似乎已消失。有机会恢复此链接吗?
阿列克谢·格里戈列夫

1
@ alexey-grigorev我更新了UCLA链接
conjugateprior

并赢得了反对 很奇怪。
conjugateprior
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.