Answers:
偏移量可以在任何回归模型中使用,但是在处理响应变量的计数数据时,偏移量更为常见。偏移量只是在模型中被迫具有系数的变量。(另请参见以下出色的CV线程:何时在Poisson回归中使用偏移量?)
与计数数据一起正确使用时,这将使您可以对费率进行建模,而不是对counts进行建模。如果对此感兴趣,那么这是要做的事情。因此,这是最常使用偏移的上下文。让我们考虑带有日志链接(这是规范链接)的Poisson GLiM。
(如您所见,正确使用偏移量的关键是使成为偏移量,而不是。) 吨我中号Ë
当的系数不为,就不再是建模速率。但是由于提供了更大的灵活性来拟合数据,因此通常不使用作为偏移量的模型更好地适合(尽管它们也可能过度适合)。 1 β 2 ∈ (- ∞ ,1 )∪ (1 ,∞ )LN (吨我中号ë)
您是否应该对计数或费率进行建模实际上取决于您的实质性问题。您应该对与您想知道的内容相对应的模型进行建模。
至于不为可能意味着什么,请考虑一个示例,其中时间不是所讨论的变量。想象一下在不同医院研究手术并发症的数量。一家医院报告了更多的外科手术并发症,但他们可能声称这种比较是不公平的,因为他们要进行更多的手术。因此,您决定尝试对此进行控制。您只需使用手术次数的对数作为偏移量,就可以研究每次手术的并发症发生率。您还可以将手术次数的日志用作另一个协变量。假设系数与显着不同。如果 1 1 β 2 > 1 β 2 < 1,那么做更多外科手术的医院的并发症发生率就会更高(可能是因为他们急于完成更多工作)。如果,则操作最多的医院每次手术的并发症更少(也许他们有最好的医生,所以做得更多并且做得更好)。
如果所讨论的变量是时间,那么看看如何发生会更加复杂。的泊松分布产生于泊松过程,其中事件之间的时间被指数分布,因此存在要生存分析的自然连接。在生存分析中,事件发生的时间通常不呈指数分布,但是随着时间的推移,基线危害可能会变大或变小。因此,考虑一种情况,在这种情况下,您将模拟在某个自然起点之后发生的事件数。如果,则意味着事件的速率正在加快,而如果,则意味着事件的速率正在减慢。 β 2 < 1
对于前者的一个具体示例,想象一下一次扫描,该扫描计算出手术切除了最初的肿瘤后一段时间内癌细胞的数量。对于某些患者,自手术以来已经花费了更多时间,您需要考虑到这一点。由于一旦癌症重新站稳脚跟,它将开始呈指数增长,因此自从接受手术以来,未经其他治疗的发病率将不断增加。
对于后者的具体例子,考虑一下我们没有得到治疗的死于疾病暴发的人数。最初,许多人死于这种疾病,或者是因为他们的免疫系统已经受损,等等。随着时间的流逝,随着剩余人口对这种疾病的敏感性降低,死亡率会下降。(对不起,这个例子很病态。)
通常可以将时间偏移量视为模型来估算每单位时间事件的发生率,而偏移量控制着观察不同主题的时间。
在泊松模型中,您始终会估算出某种情况发生的速率,但是您永远无法直接观察到该速率。您确实可以观察事件在一定时间内发生的次数。偏移量使这两个概念联系起来。
例如,您观察到对象在不同的时间内投篮,并计算了每个对象成功投篮的次数。您真正感兴趣的是每个受试者沉没的频率,即每个受试者期望每分钟沉没的成功筐的数量,因为这是衡量他们技能的客观指标。然后,您实际观察到的篮子的数量将是此估计的速率乘以您观察对象尝试的时间。因此,您可以考虑响应的单位,即每分钟的篮数。
很难想到一种情况,在泊松回归中您将观察到的时间用作协变量,因为从本质上来说,您是在估算速率。
例如,如果我想评估美国人对欧洲的影响(非常愚蠢的例子),那么将时间作为协变量可以让我从投篮时间开始“独立”评估这种影响,不是它?此外,它还可以估计时间对结果的影响。
这是一个希望可以突出此危险的示例。实际上,假设美国人和欧洲人每分钟沉没相同数量的篮子。但是,说我们观察到每个欧洲人的时间是每个美国人的两倍,因此,平均而言,我们观察到每个欧洲人的篮子数量是两倍。
如果我们建立一个模型,其中既包含观察到的时间的参数,又包含“是欧洲”的指标,则这两个模型都可以解释数据:
(其中是一个常数,这是两种类型的玩家上篮的真实比率)。
作为一名统计学家,我们确实希望在这种情况下,我们的模型能够告知我们,欧洲人制造篮子的比率与美国人制造篮子的比率之间没有统计差异。但是我们的模型未能做到这一点,我们感到困惑。
问题是,我们知道的东西,我们的模型也不会知道。就是说,我们知道,如果我们观察同一个人的时间是原来的两倍,那么,他们的预期结果将是原来的两倍。既然我们知道这一点,就需要告诉我们的模型。这就是偏移量所完成的。
当我们知道事件随时间均匀发生时,也许使用偏移方法是合适的!
是的,但这是泊松模型本身的假设。从Poisson发行版的Wikipedia页面上
泊松分布是以法国数学家SiméonDenis Poisson的名字命名的,是一种离散的概率分布,表示如果这些事件以已知的平均速率发生并且独立于自上一事件以来的时间。