泊松回归估计二元结果的相对风险


42

简要总结

为什么在具有二元结果的队列研究中使用逻辑回归(具有比值比),而不是与泊松回归(具有相对风险)相比,更普遍?

背景

根据我的经验,本科生和研究生的统计和流行病学课程通常会讲逻辑回归应用于对具有二元结果的数据进行建模,风险估计值以比值比报告。

但是,泊松回归(以及相关的:拟泊松,负二项式等)也可以用于对具有二元结果的数据进行建模,并通过适当的方法(例如鲁棒的三明治方差估计器)提供有效的风险估计和置信度。例如,

通过泊松回归,可以报告相对风险,其中一些人认为相对风险比与比值比更容易解释,尤其是对于频繁的结局,尤其是对于没有统计学背景的个人而言。请参见张J.和于克芬,相对风险是多少?一种校正常见结局队列研究中的优势比的方法,JAMA。1998年11月18日; 280(19):1690-1。

通过阅读医学文献,在具有二元结果的队列研究中,似乎似乎更普遍的是通过逻辑回归报告比值比,而不是通过泊松回归报告相对风险。

问题

对于具有二元结果的队列研究:

  1. 是否有充分的理由报告逻辑回归的优势比,而不是泊松回归的相对风险?
  2. 如果不是,医学文献中具有相对风险的Poisson回归频率不高是否可以归因于科学家,临床医生,统计学家和流行病学家在方法论理论与实践之间的滞后?
  3. 中间统计学和流行病学课程是否应包括更多关于二元结果的泊松回归的讨论?
  4. 我是否应该鼓励学生和同事在适当的时候考虑使用泊松回归而不是逻辑回归?

如果您想要相对风险,为什么不只将二项式回归与对数(而不是对数)链接一起使用?如果您以每个观测值可能发生的事件为条件,那么泊松族的均值-方差关系就没有多大意义了。
安德鲁·M

@AndrewM您将如何通过日志链接应用二项式回归?回归变量的正值表示概率值大于
1。– Rufo

[0,1]

@AndrewM是的,我提到了线性预测器,谢谢:)。但是即使您设法实现模型,我也不确定它是否足够。正如我在第一个答案的评论中所指出的那样,如果将0换为1,反之亦然换成响应变量,则由于对数链接在0.5左右不对称,因此相对风险的估计值是不同的(exp(beta_M1) =/= 1/exp(beta_M2))。这让我很不安。
Rufo

1
P(Y|X)/P(Y|Xc)P(Y|X)/P(Y|Xc)P(Yc|X)/P(Yc|Xc)

Answers:


28

对所有四个问题的解答,并带有注释:

对于现代流行病学研究而言,从队列研究的对数回归得出比值比实际上并不是那么普遍。它仍然是病例对照研究的首选回归技术,但是现在,更复杂的技术已成为主要流行病学期刊(例如流行病学AJEIJE)进行分析的事实上的标准。他们将更有可能出现在报告观察性研究结果的临床期刊中。还有一些问题,因为泊松回归可以在两种情况下使用:您所指的是二项式回归模型的替代品,以及在事件发生时间的情况下,这对于同类群来说是非常普遍的学习。特定问题答案中的更多详细信息:

  1. 对于队列研究,并不是完全没有。在某些极端特定的情况下,可能使用了分段逻辑模型,但这是异常值。同类研究的全部重点是,您可以直接测量相对风险或许多其他相关指标,而不必依赖于优势比。但是,我将做两点说明:泊松回归通常是估算利率,而不是风险,因此,由此产生的效果估计值通常会记为比率(主要是我的想法,因此您仍可以简称RR)或发生率比率(IRR或IDR)。因此,请确保您在搜索中实际上是在寻找正确的术语:有许多使用生存分析方法进行的队列研究。对于这些研究,泊松回归提出了一些有问题的假设,尤其是危险是恒定的。因此,使用Cox比例风险模型而不是Poisson模型来分析队列研究并报告随后的风险比(HR)更为常见。如果按下以命名用于分析队列的“默认”方法,我会说流行病学实际上是由Cox模型主导的。这有其自身的问题,一些非常好的流行病学家想改变它,

  2. 可能将不频率归因于两件事-在您建议的范围内,我不一定认为存在不频率。一个是肯定的-“流行病学”作为一个领域并没有完全封闭,您会从临床医生,社会科学家等以及具有不同统计背景的流行病学家那里获得大量论文。通常讲授物流模型,以我的经验,许多研究人员将转向熟悉的工具,而不是更好的工具。

    第二个问题实际上是关于“同类”研究的含义的问题。诸如Cox模型或Poisson模型之类的东西需要对人时的实际估计。在特定时期内,可能会有一些人群较为封闭的队列研究,尤其是在早期的“ Epi简介”示例中,像Poisson或Cox模型这样的生存方法并不是那么有用。物流模型可以用来估计在疾病患病率足够低的情况下接近相对危险度的比值比。直接估计它的其他回归技术(如二项式回归)具有收敛性问题,很容易使新学生脱轨。请记住,您引用的Zou论文都是使用Poisson回归技术来解决二项式回归的收敛性问题。但是,适合二项式的同类研究实际上只是“同类研究”的一小部分。

  3. 是。坦率地说,生存分析方法应比通常更早提出。我的宠物理论是并非这样的原因是逻辑回归之类的方法更容易编码。较易编码的技术,但对效果估算的有效性提出了更大的警告,被称为“基本”标准,这是一个问题。

  4. 您应该鼓励学生和同事使用适当的工具。通常,对于该领域,我认为最好还是建议对Poxson回归考虑Cox模型,因为大多数评论家都会(并且应该)迅速提出对持续危害假设的担忧。但是,是的,您越早可以摆脱“我如何将我的问题变成逻辑回归模型?” 我们所有人都会过得更好。但是,是的,如果您不花时间看研究,则应向学生介绍二项式回归和其他方法,例如Poisson回归,这些方法可用于解决收敛问题。


当您说其他可以直接估计相对风险的回归技术(我认为是相对风险),如二项式回归具有收敛性问题时,您将如何应用二项式回归以给您带来相对风险?@AndrewM建议使用日志链接,但是我看不到如何避免成功概率估计值大于1的问题
。– Rufo

@Rufo在队列中运行时,具有日志链接的二项式模型将估计相对风险。这些模型有时估计的概率大于1,这确实是二项式模型比理想模型难于实现的原因之一。但是我已经成功使用了它们- 数据经常具有远低于1的概率很有帮助,因此该模型可能永远不会出现您担心的问题。
Fomite '17

p

9

当相对风险模型更合适时,我也推测了逻辑模型在文献中的普遍性。作为统计学家,我们都非常熟悉遵守惯例或坚持“下拉菜单”分析。这些造成的问题远远超过解决的问题。逻辑回归被视为分析二进制结果的“现成的标准工具”,其中个体具有是/否类型的结果,例如死亡或残疾。

经常讲授Poisson回归作为分析计数的方法。需要强调的是,这种概率模型在模拟0/1结果时非常有效,特别是在罕见的情况下。但是,逻辑模型也可以很好地应用于罕见结果:比值比大约是风险比,即使与案例对照研究一样,结果依赖抽样也是如此。相对风险或泊松模型不能说相同。

当个体的“结果”可能不止一次,并且您可能对累积发生率(例如疱疹暴发,住院或乳腺癌)感兴趣时,泊松模型也很有用。因此,指数系数可以解释为相对比率。弄清比率和风险之间的区别:如果每千人年有100例,但所有100例都发生在一个人中,则发生率(比率)仍然是每十人年1例。在医疗保健环境中,您仍然需要治疗100例病例,并且为80%的人群接种疫苗可降低80%的发病率(先验)。但是,至少一项结果的风险为1/1000。结果的性质和问题共同决定哪种模型合适。

var(y)=E(y)(1E(y))

log(E[Y|X])=β0+β1Xvar(Y)=E[Y](1E[Y])

顺便说一句,Zhang的文章基于相对风险估计提供了一种有偏倚的推断估计,该估计并未考虑拦截项的可变性。您可以通过自举来校正估算器。

要回答具体问题:

  1. 如果结果很少,则它们大致相同。如果结果是共同的,则来自Poisson的相对比率估计量的方差可能会过分夸大,并且我们可能更喜欢将比值比作为二元结果与若干风险之间的有偏但有效的关联估计。我还认为,病例对照研究证明使用优势比作为一种衡量标准是合理的,该比例不会随结果依赖抽样而变化。Scott和Wild 97讨论了有关此问题的方法。当然,其他期刊可能没有专门的统计审稿人。

2.3。我认为您在对医学评论和学术界发生的事情负责,并承担了过多的责任。

  1. 您应该始终鼓励学生尽可能使用适当的模型。

http://biostats.bepress.com/cgi/viewcontent.cgi?article=1128&context=uwbiostat


2
“我的理解是,如果科学兴趣在于估算相对比率,则有一个混合模型:相对风险回归,这是使用逻辑对数结构和泊松均值结构的GLM”:也称为带有对数链接的二项式回归。
Andrew M

2
@AndrewM确实。实际上,我认为这是首选语言。感谢您指出了这一点。我已经编辑了该问题,以包括对Thomas Lumley的工作论文的参考,该论文强调了泊松模型是“工作模型”,因为它是错误的假设均值-方差关系。
AdamO '16

您的意思是“如果结果很少见,则结果大致相同”?为了使用OR而不是RR来估计患病率,“罕见”结果的最大百分比是多少?
vasili111

1
@ vasili111这是一个热门话题,没有明确答案。如今,当发生率并不是那么罕见的时候(例如超过1/30),人们会批评很多人做出“稀有”假设。有了多元模型,一切就变了!
AdamO
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.