在泊松模型中,将时间用作协变量或偏移量有什么区别?


18

最近,我发现了如何使用(例如)时间的对数作为Poisson回归中的偏移量来建模随时间变化的曝光量。

我知道偏移量对应于时间与系数1协变量。

我想更好地了解使用时间作为偏移量或作为正常协变量(从而估算系数)之间的区别。在哪种情况下我应该使用一种方法或另一种方法?

升级:我不知道这是否有趣,但是我使用重复重复500次的随机拆分数据对这两种方法进行了验证,我注意到使用offset方法会导致更大的测试错误。

Answers:


25

偏移量可以在任何回归模型中使用,但是在处理响应变量的计数数据时,偏移量更为常见。偏移量只是在模型中被迫具有系数的变量。(另请参见以下出色的CV线程:何时在Poisson回归中使用偏移量?1个

与计数数据一起正确使用时,这将使您可以对费率进行建模而不是对counts进行建模。如果对此感兴趣,那么这是要做的事情。因此,这是最常使用偏移的上下文。让我们考虑带有日志链接(这是规范链接)的Poisson GLiM。

lnλ=β0+β1个XCØüñŤslnλŤ一世Ë=β0+β1个X[R一种ŤËslnλ-lnŤ一世Ë=β0+β1个Xlnλ=β0+β1个X+1个×lnŤ一世ËsŤ一世 [R一种ŤËslnλ=β0+β1个X+β2×lnŤ一世ËwHËñ β21个CØüñŤs 一种G一种一世ñ

(如您所见,正确使用偏移量的关键是使成为偏移量,而不是。) 中号ËlnŤ一世ËŤ一世Ë

当的系数不为,就不再是建模速率。但是由于提供了更大的灵活性来拟合数据,因此通常不使用作为偏移量的模型更好地适合(尽管它们也可能过度适合)。 1 β 2- 1 1 LN 中号ëlnŤ一世Ë1个β2-1个1个lnŤ一世Ë


您是否应该对计数或费率进行建模实际上取决于您的实质性问题。您应该对与您想知道的内容相对应的模型进行建模。

至于不为可能意味着什么,请考虑一个示例,其中时间不是所讨论的变量。想象一下在不同医院研究手术并发症的数量。一家医院报告了更多的外科手术并发症,但他们可能声称这种比较是不公平的,因为他们要进行更多的手术。因此,您决定尝试对此进行控制。您只需使用手术次数的对数作为偏移量,就可以研究每次手术的并发症发生率。您还可以将手术次数的日志用作另一个协变量。假设系数与显着不同。如果 1 1 β 2 > 1 β 2 < 1β21个1个β2>1个,那么做更多外科手术的医院的并发症发生率就会更高(可能是因为他们急于完成更多工作)。如果,则操作最多的医院每次手术的并发症更少(也许他们有最好的医生,所以做得更多并且做得更好)。 β2<1个

如果所讨论的变量是时间,那么看看如何发生会更加复杂。的泊松分布产生于泊松过程,其中事件之间的时间被指数分布,因此存在要生存分析的自然连接。在生存分析中,事件发生的时间通常不呈指数分布,但是随着时间的推移,基线危害可能会变大或变小。因此,考虑一种情况,在这种情况下,您将模拟在某个自然起点之后发生的事件数。如果,则意味着事件的速率正在加快,而如果,则意味着事件的速率正在减慢。 β 2 < 1β2>1个β2<1个

对于前者的一个具体示例,想象一下一次扫描,该扫描计算出手术切除了最初的肿瘤后一段时间内癌细胞的数量。对于某些患者,自手术以来已经花费了更多时间,您需要考虑到这一点。由于一旦癌症重新站稳脚跟,它将开始呈指数增长,因此自从接受手术以来,未经其他治疗的发病率将不断增加。

对于后者的具体例子,考虑一下我们没有得到治疗的死于疾病暴发的人数。最初,许多人死于这种疾病,或者是因为他们的免疫系统已经受损,等等。随着时间的流逝,随着剩余人口对这种疾病的敏感性降低,死亡率会下降。(对不起,这个例子很病态。)


非常感谢Gung的全面答复!请告诉我我是否了解。如果使用时间作为偏移量,则假定时间与事件之间的线性正关系,其角系数由其他预测变量给定。相反,如果我们使用对数时间作为协变量,则会估计时间对事件的指数影响,可以是正或负。(续...)ÿ=Ť一世Ë经验值1个pβpXp+CØñsŤÿ=Ť一世ËβŤ一世Ë经验值1个pβpXp+CØñsŤ
巴卡堡

1
因此,为什么要假设时间和事件之间的关系是线性的并且在增长?在每种情况下估计这种关系的形式会更好吗?我还有两个问题:1.使用不记录转换时间作为协变量是什么意思?2.(也许我应该对此问题进行编辑或提出一个新的问题)我读到泊松模型实际上也可以不使用整数y来使用。因此,我可以在R中编写:glm(I(y / time)〜cov.1 + ... + cov.n,泊松),并得到与使用offset(log(time))相同的结果。我试过了,但是得到了不同的系数。
巴卡堡2015年

泊松分布仅适用于整数;您不应在LHS上输入分数。不使用对数变换意味着对每单位时间的事件速率进行建模,这在现实世界中可能永远是不明智的。
gung-恢复莫妮卡

1
@Bakaburg,时间可能与他们有关。这与任何其他回归建模情况没有任何不同。我在这里看不到问题。您是否对建模平均利率感兴趣,或者您没有兴趣。
gung-恢复莫妮卡

1
@tatami,如果您打算将时间用作协变量(而不是偏移量),则无需获取时间日志。但是,如果要将结果与偏移量进行比较,则需要使用日志以使其具有可比性。
gung-恢复莫妮卡

7

通常可以将时间偏移量视为模型来估算每单位时间事件的发生率,而偏移量控制着观察不同主题的时间。

在泊松模型中,您始终会估算出某种情况发生的速率,但是您永远无法直接观察到该速率。您确实可以观察事件在一定时间内发生的次数。偏移量使这两个概念联系起来。

例如,您观察到对象在不同的​​时间内投篮,并计算了每个对象成功投篮的次数。您真正感兴趣的是每个受试者沉没的频率,即每个受试者期望每分钟沉没的成功筐的数量,因为这是衡量他们技能的客观指标。然后,您实际观察到的篮子的数量将是此估计的速率乘以您观察对象尝试的时间。因此,您可以考虑响应的单位,即每分钟的篮

很难想到一种情况,在泊松回归中您将观察到的时间用作协变量,因为从本质上来说,您是在估算速率。

例如,如果我想评估美国人对欧洲的影响(非常愚蠢的例子),那么将时间作为协变量可以让我从投篮时间开始“独立”评估这种影响,不是它?此外,它还可以估计时间对结果的影响。

这是一个希望可以突出此危险的示例。实际上,假设美国人和欧洲人每分钟沉没相同数量的篮子。但是,说我们观察到每个欧洲人的时间是每个美国人的两倍,因此,平均而言,我们观察到每个欧洲人的篮子数量是两倍。

如果我们建立一个模型,其中包含观察到的时间的参数,包含“是欧洲”的指标,则这两个模型都可以解释数据:

Ë篮子=2CŤ+0X欧裔
Ë篮子=0Ť+2CX欧裔

(其中是一个常数,这是两种类型的玩家上篮的真实比率)。C

作为一名统计学家,我们确实希望在这种情况下,我们的模型能够告知我们,欧洲人制造篮子的比率与美国人制造篮子的比率之间没有统计差异。但是我们的模型未能做到这一点,我们感到困惑。

问题是,我们知道的东西,我们的模型也不会知道。就是说,我们知道,如果我们观察同一个人的时间是原来的两倍,那么,他们的预期结果将是原来的两倍。既然我们知道这一点,就需要告诉我们的模型。这就是偏移量所完成的。

当我们知道事件随时间均匀发生时,也许使用偏移方法是合适的!

是的,但这是泊松模型本身的假设。从Poisson发行版的Wikipedia页面上

泊松分布是以法国数学家SiméonDenis Poisson的名字命名的,是一种离散的概率分布,表示如果这些事件以已知的平均速率发生并且独立于自上一事件以来的时间


2
感谢您的回答。但是将时间用作协变量会不会给我相同的答案?例如,如果我想评估美国人对欧洲的影响(非常愚蠢的例子),那么将时间作为协变量可以让我从投篮时间开始“独立”评估这种影响,不是它?此外,它还可以估计时间对结果的影响。有时时间对于计数变量并不总是很重要,例如,当事件在观察期开始时全部发生时。
巴卡堡2015年

当我们知道事件随时间均匀发生时,也许使用偏移方法是合适的!
巴卡堡2015年

1
@Bakaburg我添加了尝试的响应。希望对您有所帮助!
马修·德鲁里
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.