逻辑回归和拐点


11

我们有带有二进制结果和一些协变量的数据。我使用逻辑回归对数据进行建模。只是简单的分析,没什么特别的。最终输出应该是剂量响应曲线,在该曲线中,我们显示了特定协变量的概率如何变化。像这样:

在此处输入图片说明

我们从内部审核员(不是纯粹的统计学家)那里收到一些批评,选择逻辑回归。逻辑回归假设(或定义)S形曲线在概率标度上的拐点处于概率0.5。他认为,没有理由假定拐点确实在0.5的概率上,我们应该选择一个不同的回归模型,该模型允许拐点发生变化,以使实际位置受数据驱动。

起初我因为他的论点而措手不及,因为我从未考虑过这一点。我没有任何论点说明为什么将拐点设为0.5是合理的。经过研究后,我仍然没有这个问题的答案。

我遇到了5参数逻辑回归,其中拐点是一个附加参数,但似乎在产生具有连续结果的剂量反应曲线时通常使用此回归模型。我不确定是否以及如何将其扩展为二进制响应变量。

我想我的主要问题是为什么或何时可以确定逻辑回归的拐点为0.5?有关系吗 我从未见过有人适合逻辑回归模型并明确讨论拐点问题。是否有其他方法可以创建拐点不一定为0.5的剂量反应曲线?

为了完整起见,用于生成上面图片的R代码:

dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")

编辑1:

只是补充了Scortchi在其中一项评论中所说的内容:审稿人确实确实认为,从生物学上讲,曲率变化发生的可能性可能早于0.5。因此,他抵抗假设拐点为0.5。

编辑2:

作为对弗兰克·哈雷尔(Frank Harrell)评论的回应:

例如,我修改了上面的模型以在gre其中包含一个二次项和一个三次项(在此示例中为“剂量”)。

logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+  gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")

在此处输入图片说明

尽管gre在这种情况下添加二次项和三次项可能没有意义,但我们看到剂量响应曲线的形式已经改变。实际上,我们现在在0.25和0.7附近有两个拐点。


2
这不仅与要求调查预测变量与响应的对数奇数的非线性关系相同吗?
Scortchi-恢复莫妮卡

Answers:


8

正如@scortchi所提到的那样,审阅者的错误印象是,在逻辑回归的背景下,无法对预测变量对logit规模的非线性影响进行建模。原始模型很快就假定了所有预测变量的线性。通过放宽线性假设,例如使用受限的三次样条曲线(自然样条曲线),曲线的整个形状将变得灵活,并且拐点不再是问题。如果只有一个预测变量,并且使用回归样条对其进行扩展,则可以说逻辑模型仅假设观测值的平滑性和独立性。


我必须承认我对样条回归并不十分熟悉。我将如何与Logistic回归一起进行此操作(在R中)。我修改了原始文章(编辑2),将多项式项包含在预测变量中。我可以用它代替样条平滑吗?当然,我没有花键那样的灵活性。
弗朗西斯

1
@弗兰科:弗兰克·哈雷尔(Frank Harrell)自己的回归建模策略- 图书网站R包 -应该可以帮助您。对一些回归样条的优势简要讨论是在这里 ; 但您当然是对的,多项式是另一种选择。
Scortchi-恢复莫妮卡

4

在我看来,审阅者只是在寻找要说的东西。在检查规范的诸如隐含拐点之类的特征之前,我们已经做出了大量假设,以便得出可估计的模型。所有人都可能受到质疑和辩论-使用逻辑函数本身是可能的主要目标:谁告诉我们底层错误项的条件分布是逻辑的?没有人。

因此,问题在于:曲率变化意味着什么?对于正在研究的现实世界现象,曲率变化发生的时间可能有多重要,因此我们可以考虑使其成为“数据驱动”的?进一步远离简约原则?

问题不是“为什么拐点应该在0.5?” 但是“如果将其保留为0.5,可能会对我们的结论产生误导?”。


2
这似乎有点不明智。我们不知道审稿人没有充分的理由挑战这个假设,而不是他可能提出质疑的其他理由。一方面,将其放在拐点方面,再加上对逻辑回归的可能误解,这是一种奇怪的方式,他基本上是在问为什么模型让曲线移动和伸展而不是弯曲,这很可能值得回答。
Scortchi-恢复莫妮卡

@Scortchi“奇怪的表达方式” ...“对逻辑回归的一种可能的误解” ...如果这是使审稿人的评论合理化的前提,那么他根本不应该审阅该论文。
Alecos Papadopoulos

1
与@Scortchi一样,我觉得这太尖锐了。这里许多较活跃的人都有各种科学背景,而不是主流统计资料。单纯地或以其他方式成为一名统计学家既没有必要,也不足以给出好的建议(尽管在几乎所有情况下,显然都会有所帮助)。
Nick Cox

@尼克·考克斯(Nick Cox)我接受“尖锐”,我刚刚删除了最后一句话,以表示共识。我的观点是,以普遍的方式质疑模型的假设没有价值-模型总是错误的。因此,如果曲率变化的可能性对于正在研究的现实世界现象至关重要,那么审阅者确实很正确地要求这一点成为数据驱动。但是,如果审阅者只是评论“为什么在p = 0.5而不是其他地方?”,则此评论不是建设性的。
Alecos Papadopoulos

2
谢谢你 我同意你的一般立场:(a)讨论不同方法的优点,(b)讨论如何讨论这些方法都是公平的。相比之下,对个人甚至群体的评论通常没有帮助(尽管我有时也很生气地越界...)。
Nick Cox

0

在mho中,logit回归是剂量反应的合理选择。当然,您可以使用probit,log-log,c-log-log链接,并比较拟合优度(DEV,BIC,CAIC等)。但是,最简单的logit回归可以轻松地正式评估拐点LD50 = -b0 / b1。我们记得这是一个特定的点,为此我们获得了最小的不确定性(请参阅LD16,LD84,其他任何一个都将具有更大的CI,请参阅Finney的“ Probit analysis”,1947年,1977年)。总是(?)最好使用剂量的对数,然后只转换原始比例的95%CI。模型中其他协变量的性质是什么?我暗示使用多模型方法的可能性...当然,样条线是灵活的,但是形式参数很容易解释!

参见http://www.epa.gov/ncea/bmds/bmds_training/software/overp.htm


0

0.5拐点只是一个较大问题的一小部分:逻辑方程是对称构造的。并且在大多数派生中,建模效果都有一个对称的理由。例如,当一个玩家获胜而另一个玩家失败时,或者造成饱和的效应与造成初始增长的物理效应相同,等等。因此,如果有一个原因,那么低X行为的起源就是相同的起源由于行为举止敏捷或出于其他任何原因,问题是对称的,那么您就有理由了。

如果不是,那么下一个最简单的模型就是广义逻辑方程。它具有更多参数,您可能需要添加约束,因此它们并非全部都是自由参数。这可能比您添加的kudges更合乎需要,因为那些添加的kkudges会增加一阶导数来回振荡的架子-如果您尝试优化此值的期望值,则这种情况往往会产生虚构的局部均衡虚假点分配。广义形式将打破对称性,但以一种平滑的方式。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.