Logistic回归系数的意义是什么?


42

我目前正在阅读一篇有关2000年和2004年大选的投票地点和投票偏好的论文。其中有一个显示逻辑回归系数的图表。从几年前的课程和一点阅读开始我了解逻辑回归是描述多个自变量与二进制响应变量之间关系的一种方式。鉴于下表,我感到困惑的是,因为南方的对数回归系数为.903,这是否意味着90.3%的南方人投票支持共和党?由于度量的后勤性质,这种直接相关不存在。取而代之的是,我假设您只能说,以.903表示的南方对共和党的投票比对山地/平原的投票多,而回归值为.506。考虑到后者的情况,在这种逻辑回归系数的情况下,我怎么知道什么是重要的,什么不是,以及是否可以推断出一定比例的共和党选票。 表格显示逻辑回归系数

附带说明,如果有任何不正确的陈述,请编辑我的帖子


这更像是一个后续问题(我可能不应该发布它),但是您是否找到了一个很好的方法来“可以推断百分比”,因为这几乎是我想要的。
Stefan Andersson

2
我认为最好将其表述为一个独立的问题,然后单独发布而不是在此处作为答案。
主教

如果你想知道有关的文件,它是SC麦基和JM Teigen的探测红色和蓝色:部门主义,并在2000年和2004年美国总统大选的选民位置(2009)政治地理
亚历克斯·尼尔森

Answers:


36

那笔者迫使某人周到,你有问一个问题一样,这是为什么实践引人注目插图-仍然方式太常见了-限制的回归模型结果报告,以这样的表是如此不可接受的。

  1. 正如所指出的那样,您可以尝试将logit系数转换成某种有意义的指示,以指示所讨论的预测变量所估计的效果,但这很麻烦,并且无法传达有关预测精度的信息,这通常在预测中非常重要。逻辑回归模型(特别是在投票方面)。

  2. 而且,使用多个星号来报告重要性的“水平”会加剧误解,即p值是效应大小的某种有意义的指标(“哇-一个星号有3个星号!!”);对于大声喊叫,w / N为10,000到20,000,在p <.001等等时,完全无关紧要的差异将是“显着的”。

  3. 绝对没有必要以这种方式神秘化。逻辑回归模型是一个方程式,可用于(通过确定的计算或更好的静态模拟)通过预测值的指定值来预测结果的概率,该值受测量误差的影响。所以研究者应该报告感兴趣的预测变量对感兴趣的结果变量和相关CI的概率有什么影响,以单位表示,可以很容易地掌握其实际重要性。为确保随时掌握,结果应以图形方式显示。例如,在这里,研究人员可能报告说,相对于城市选民而言,农村居民将共和党(其他所有条件相同)的投票率提高了X个百分点(我估计2000年为17;“除以4”为合理的启发式方法)在0.95的置信度下+/- x%-如果这是有用的知识。

  4. 伪R ^ 2的报告也表明建模者正在从事统计仪式,而不是试图进行阐明。有很多方法可以计算“伪R ^ 2”。有人可能会抱怨这里没有指定使用的那个,但是为什么要麻烦呢?几乎没有意义。任何人使用伪R ^ 2的唯一原因是,他们或正在折磨他们的审阅者了解到(可能是25年前或更早以前)OLS线性回归是统计的圣杯,并认为唯一尝试弄清楚的事情是“解释差异”。有很多可辩护的方法来评估整体模型是否适合逻辑分析,并且似然比可传达有意义的信息,以比较反映替代假设的模型。King,G. 如何不撒谎统计。上午。J.波尔 科学 30,666-687(1986)。

  5. 如果您阅读的论文或多或少局限于这样的表格,请不要混淆,不要被吓倒,也不要被打动。取而代之的是生气并告诉研究人员他或她做得很糟糕(特别是如果他(她)在用神秘主义和敬畏的态度污染您的当地知识环境时,惊奇地发现有多少完全平庸的思想者欺骗聪明的人以为他们只知道某些东西。 / c他们可以生成后者无法理解的表)。有关这些想法的巧妙而温和的阐述,请参见King,G.,Tomz,M。&Wittenberg。,J. 充分利用统计分析:改进解释和表示。上午。J.波尔 科学 44,347-361(2000);以及Gelman,A.,Pasarica,C.和Dodhia,R.让我们实践一下我们所讲的东西:将表变成图表。上午。统计 56,121-130(2002)。


19

plogp/(1p)

x=1/(1+ez)z=logx1xf1(x)=logx1xx0.3log0.3/0.70.85β00.9030.85+0.904=0.05plogp/(1p)f(0.05)1/(1+e0.05)0.510.4311.0511.05/0.43e0.903

0.85+0.37+0.68=+0.20f(0.20)=1/(1+e0.20)=0.55


2
启发式:除以4-logit coeff / 4的概率约为pct-pt差异。从1个单位更改。这与说“具有βsubn特征的人= z的可能性为x%”不同。不仅(如上所述)必须添加βsub0并减去与ref类关联的可能性。还必须考虑预测变量的共线性。B / c是南方与其他预测因素相关的,概率不是真的。南部投票共和制的百分比是βsub0-NE的转换对数赔率加上South的转换对数赔率。最好说,“所有其他相等的东西,都来自南方,预示着概率的x pct点变化”
dmk38 2011年

1
实际赔率从0.43下降到1。0.43首先来自吗?
莫妮卡·赫德内克

0.30.3/(10.3)0.43

6

与参考类别相比,逻辑回归中的系数表示给定区域/人口统计学对共和党的投票倾向。正系数表示该地区更有可能投票给共和党人,反之亦然。绝对值越大,表示趋势越小。

参考类别为“东北”和“城市选民”,因此所有系数代表与此特定选民类型的对比。

通常,即使在绝对值上,逻辑回归中的系数也没有限制为[0,1]。请注意,Wikipedia文章本身有一个逻辑回归示例,系数为-5和2。


5

您还问“我怎么知道什么是重要的,什么不是重要的”。(我认为您的意思是统计学上有意义的,因为实际或实质意义是另一回事。)表中的星号指的是脚注:某些影响被认为具有较小的p值。这些是使用每个系数的显着性的Wald检验获得的。假设随机抽样,p <.05意味着,如果在较大的总体中没有这种影响,则在这种规模的样本中看到与观察到的连接一样强或更强的连接的可能性将小于.05 。你会看到在这个网站的线程讨论的微妙而重要的相关点p <.05确实 意味着在较大的人群中没有联系的可能性为0.05。


5

让我只强调rolando2和dmk38两者都指出的重要性:重要性通常被误读,并且以表格形式显示结果的可能性很高。

Paul Schrodt 最近对这个问题做了很好的描述:

研究人员发现几乎不可能坚持对显着性检验的正确解释。p值仅告诉您在原假设的[通常]完全不现实的条件下得到结果的可能性。这不是您想知道的-在给定数据的情况下,您通常想知道自变量影响的大小。这是贝叶斯问题,而不是常问问题。取而代之的是,我们不断地看到p值被解释为好像赋予了联系的力量:这是无处不在的弥漫于星际和P值的神秘崇拜。(fn)p值并不是在说,也永远不会。

以我的经验,几乎不可能避免该错误:即使是非常认真地了解问题的分析人员,在口头讨论其结果时也经常会切换模式,即使他们书面避免了问题。而且,我们甚至不用猜测在校正研究生论文时所花费的数千小时和加仑的墨水。

(fn)脚注还提到了dmk38提到的另一个问题:“ [无处不在的恒星和P值的神秘崇拜]取代了先前(同等普遍)的最高R2崇拜,由King(1986)拆除。。”


哦,我刚刚在编辑后的回复中添加了King引用。即使确实有统计学意义(对于OLS回归),该文章的确确实消除了R ^ 2躁狂症(计量经济学仍然流行)。金还指出,伪R ^ 2是胡言乱语,其制造目的是为了扩展与“解释方差”相关的无意识。
dmk38 2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.