随机效应模型处理冗余


9

我正在尝试使用重复的二进制结果来处理事件分析。假设到达事件的时间以天为单位,但目前我们将时间离散为几周。我想使用重复的二进制结果来近似估计Kaplan-Meier估计量(但允许协变量)。这似乎是一个回旋的路,但是我正在探索这如何扩展到顺序结果和复发事件。

如果您创建了一个二进制序列,对于在3周内被审查的某人,它看起来像000;对于在4w时被审查的某人,它看起来像0000,而对于在5w时失败的主题,它看起来像是0000111111111111...。(1扩展到最后一个主题然后在研究中进行计算),当您计算特定于周的比例为1s时,您将获得普通的累积发生率(直到获得可变的审查时间,这仅是近似值,但并不等于Kaplan-Meier累积发生率估算值)。

我可以使用GEE用二元逻辑模型拟合重复的二元观测值,而不是像上面那样使时间离散,而要使用时间样条。群集三明治协方差估计器工作得相当好。但是我想通过使用混合效果模型来获得更精确的推断。问题在于第一个1之后的1是多余的。有谁知道一种指定随机效应或指定一种模型的方法,该模型考虑了冗余,从而不会缩小标准误差?

请注意,此设置与Efron的设置不同,因为他使用逻辑模型来估计风险集中的条件概率。我正在估计无条件概率。

Answers:


3

据我所见,无论是GEE还是用于重复二元观测的混合模型,您都会遇到一个问题,即在观察到第一个“ 1”之后,该模型将为“ 0”分配正概率。

无论如何,假设您希望从混合效应逻辑回归中获得与GEE相同的解释(请参阅此处以获取更多信息),则可以使用GLMMadaptive包中的mixed_model()函数拟合模型,然后使用。有关示例,请参见此处marginal_coefs()


1
感谢Dimitris。对于带有冗余1的情况(为了使均值函数正确),我认为我需要修改后的模型或奇怪的随机效果设置。GLMMadaptive对于更通用的设置,该软件包看起来很棒。
Frank Harrell

2

关于此的一些想法:

  1. 看来,混合效应模型从根本上说是“有条件的”概率模型,即,某个事件发生该事件的危险性的概率是多少。

  2. 我们知道第一个“ 1”之后的“ 1”概率为1。因此,后续的“ 1”值中没有其他信息。

  3. 似乎因为后续的“ 1”值不包含任何其他信息,所以它们不应对似然函数产生任何影响,因此对基于似然的估计量的标准误差或估计量本身都不会造成影响。确实,如果p(y ='1'| x)= 1,则无论随后的模型参数值如何,都不会对后续的'1'值产生影响。

  4. 通过向模型中添加标记后续变量的指标协变量并强制其系数,我们也许可以强制这种行为(即p(y ='1'| x)= 1)并保留所需的均值函数很大,因此有效地p(y ='1'| x)= 1。

  5. 正如您提到的,也许还有一种方法可以强制第一个“ 1”和后续的响应具有100%的相关性。但是在二项式模型中,对于后续响应,这与p(y ='1'| x)= 1相同。


1
谢谢马特。如果我不想要完整的模型,但对估算方程式感到满意,那么您要获得的结果是将重复的响应添加到得分函数中,以获得均值函数,而不是将其添加到信息函数中。我认为我无法添加指标协变量,因为这可能来自治疗效果。我认为混合效应模型更多是无条件模型。当事件不是吸收状态时,您将以时间相关的方式对边际效应建模。
弗兰克·哈雷尔

1

我不确定您要做什么,但是您可以拟合汇总的Logistic回归模型(https://www.ncbi.nlm.nih.gov/pubmed/2281238)吗?在这种情况下,您只需要在终端事件的间隔中包括1,就不会在事件发生后重复。您将以灵活的方式将时间包括在模型中(例如,使用样条线扩展)。


1
嗨,布莱恩-我真的很喜欢汇集逻辑回归并且经常使用它。但是,如果您在结束事件时终止了对象的观察,并且在没有事件的情况下又跟踪了其他对象,则将得到均值函数(P(事件与时间t))错误。我想至少在特殊情况下可以获得均值函数的近Kaplan-Meier累积发生率估计。
弗兰克·哈雷尔
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.