从exp(系数)到几率及其对数Logistic回归的解释


14

我根据SAT分数和家庭/种族背景对大学的录取率进行了线性回归。数据是虚构的。这是对先前已回答问题的跟进。这个问题的重点是在为简单起见而撇开SAT分数时收集和解释优势比的方法。

变量是Accepted(0或1)和Background(“红色”或“蓝色”)。我设置了数据,以便具有“红色”背景的人们更容易进入:

fit <- glm(Accepted~Background, data=dat, family="binomial")
exp(cbind(Odds_Ratio_RedvBlue=coef(fit), confint(fit)))

                        Odds_Ratio_RedvBlue             2.5 %       97.5 %
(Intercept)             0.7088608                     0.5553459   0.9017961
Backgroundred           2.4480042                     1.7397640   3.4595454

问题:

  1. 0.7是接受“蓝色”背景的人的比例吗?我之所以这样问是因为,Backgroundblue如果我改为运行以下代码,也会获得0.7的“ ”:

    fit <- glm(Accepted~Background-1, data=dat, family="binomial")
    exp(cbind(OR=coef(fit), confint(fit)))
  2. 一种CCËpŤËd/[RËd一种CCËpŤËd/üËØddsüË=1个/Ødds[RËd


1
什么R明确要求的系数(通过函数coef),你在呼唤你的输出中的“优势比”。这表明您可能想回顾一下两者之间的区别。
ub

我确实阅读了您超链接上的文章。
安东尼帕雷拉达,2015年

系数取幂:exp(coef(fit))。
安东尼帕雷拉达,2015年

是的:正如我在该线程回答中所解释的,截距的求幂使您具有参考案例的几率
ub

Answers:


13

我一直在通过手动计算比值和比值比来回答我的问题:

Acceptance   blue            red            Grand Total
0            158             102                260
1            112             177                289
Total        270             279                549

因此,进入红色学校超过蓝色学校的几率是:

Ødds 一种CCËpŤ 一世F [RËdØdds 一种CCCËpŤ 一世F üË=177/102112/158=1.73530.7089=2.448

这是以下内容的Backgroundred返回:

fit <- glm(Accepted~Background, data=dat, family="binomial")
exp(cbind(Odds_and_OR=coef(fit), confint(fit)))

                      Odds_and_OR                         2.5 %      97.5 %
(Intercept)             0.7088608                     0.5553459   0.9017961
Backgroundred           2.4480042                     1.7397640   3.4595454

(Intercept)112/158=0.7089

如果相反,我运行:

fit2 <- glm(Accepted~Background-1, data=dat, family="binomial")
exp(cbind(Odds=coef(fit2), confint(fit2)))

                        Odds            2.5 %      97.5 %
Backgroundblue     0.7088608        0.5553459   0.9017961
Backgroundred      1.7352941        1.3632702   2.2206569

该收益恰恰是赔率在为“蓝色”获得的:Backgroundblue(0.7089)和赔率被接受为“红色”: Backgroundred(1.7353)。那里没有几率。因此,两个返回值不希望是倒数。

最后,如果分类回归变量中包含3个因素,如何读取结果?

相同的手动与[R]计算:

我以相同的前提创建了一个不同的虚拟数据集,但是这次存在三个种族背景:“红色”,“蓝色”和“橙色”,并且运行相同的顺序:

一,列联表:

Acceptance  blue    orange  red   Total
0             86        65  130     281
1             64        42  162     268
Total        150       107  292     549

并计算出每个族裔进入的几率

  • 如果红色= 1.246154,则接受赔率;
  • 如果蓝色= 0.744186,则接受赔率;
  • 如果橙色= 0.646154,则赔率接受

以及不同的赔率

  • 或红色v蓝色= 1.674519;
  • 或红色v橙色= 1.928571;
  • 或蓝色v红色= 0.597186;
  • 或蓝色v橙色= 1.151717;
  • 或橙色v红色= 0.518519; 和
  • 或橙色v蓝色= 0.868269

并继续进行现在的常规逻辑回归,然后对系数求幂:

fit <- glm(Accepted~Background, data=dat, family="binomial")
exp(cbind(ODDS=coef(fit), confint(fit)))

                      ODDS     2.5 %   97.5 %
(Intercept)      0.7441860 0.5367042 1.026588
Backgroundorange 0.8682692 0.5223358 1.437108
Backgroundred    1.6745192 1.1271430 2.497853

产生“蓝色”作为的获胜几率,橙色与蓝色(Intercept)赔率之比Backgroundorange,红色与蓝色之Backgroundred

另一方面,无截距的回归可预测地仅返回三个独立的几率

fit2 <- glm(Accepted~Background-1, data=dat, family="binomial")
exp(cbind(ODDS=coef(fit2), confint(fit2)))

                      ODDS     2.5 %    97.5 %
Backgroundblue   0.7441860 0.5367042 1.0265875
Backgroundorange 0.6461538 0.4354366 0.9484999
Backgroundred    1.2461538 0.9900426 1.5715814

恭喜,您已经搞清楚了。
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.