有关离散时间生存分析的基本问题


18

我正在尝试使用逻辑回归模型进行离散时间生存分析,但不确定我是否完全理解该过程。对于一些基本问题,我将不胜感激。

设置如下:

我正在寻找五年内的小组成员。每个成员都有该成员在组中每个月的月度记录。我正在考虑所有成员都是在五年窗口内开始的(以避免与较早加入的成员出现“左审查”问题)。每条记录将按时间编制索引,时间是成员加入的月份。因此,一个住了两年半的会员将拥有三十条月度记录,从一个到三十个。每条记录还将被赋予一个二进制变量,对于成员资格的最后一个月,该变量的值为1,否则为零。二进制变量的值为1表示成员已离开组的事件。对于其成员资格持续超过五年分析窗口的每个成员,

因此,建立了逻辑回归模型来预测二进制事件变量的值。到目前为止,一切都很好。评估二进制预测模型的一种典型方法是测量保留样本的提升。对于我用来预测成员资格结束事件的逻辑回归模型,我计算了非事件与事件的比率为五比一的保留数据集的提升。我将预测值按十分位排序。预测值最高的十分位数包含百分之七十,升幅超过四倍。前两个十分之一加起来占保留中所有总数的百分之六十五。在某些情况下,这将被认为是相当不错的预测模型,但我想知道它是否足以进行生存分析。

h[j,k]为个体j在月的危险函数k,令S[j,k]为个体j生存于月的概率k

这是我的基本问题:

  1. 离散风险函数h[j,k]是每个月非生存(离开小组)的条件概率吗?

  2. 危险函数的逻辑回归模型估计值中的预测值是否是?(即,h[j,k]等于月k中单个的模型预测值,还是需要做更多的工作才能获得危险函数估计值?)jk

  3. 个体直到q月的生存概率j等于1减去从一月到的危害函数的乘积q,即 S[j,q]=(1h[j,1])(1h[j,2])(1h[j,q])

  4. 每次k时所有个体j的平均值是否是总体总体平均生存概率的合理估计?S[j,k]jk

  5. 总体人口图的平均生存概率是否应该类似于每月的Kaplan-Meier图?

如果对这些问题中的任何一个的回答是否定的,那么我有一个严重的误解,可以真正使用一些帮助/解释。此外,对于产生准确的生存状况,二进制预测模型需要达到多好的水平有任何经验法则吗?


也许可以帮助您解决一些问题
jujae

Answers:


7

假设Kk的最大值(即,您的数据中观察到的最大月份/期间)。

  1. 这里是随着时间的全离散的参数化风险函数,并用参数的矢量B调节变量的向量Xhj,k=eαk+BX1+eαk+BX。危险函数也可以围绕时间的其他参数设置(例如,在模型中包括k或将其作为变量的函数)或围绕两者的混合建立。

    基线分对数风险函数描述了事件发生的时间的概率k在已经存活时间条件k。向模型添加预测变量(X)进一步约束了这种条件。

  2. 不,回归估计(α^1α ķ)是没有危险的功能本身。逻辑回归模型:分对数ħ Ĵ ķ= α ķ + X,并且需要执行在(1)的抗分对数变换上述得到危险估算值。α^KB^(hj,k)=αk+BX

  3. 是。虽然我谱写它小号 Ĵ q = Π q = 11 - ħ Ĵ 。生存函数是在时间k之前未经历事件的概率,当然也可以以X为条件。S^j,q=i=1q(1hj,i)kX

  4. 这是一个微妙的问题,不确定我是否有答案。我确实有问题。:)由于权利检查和事件的发生,每个时间段的样本量都会随着时间的推移而减少:您会在计算平均生存时间时考虑到这一点吗?怎么样?“人口”是什么意思?招募到您的研究中的个人可以概括为哪些人群?还是您指的是某种统计上的“超级人口”概念?推理是一个很大的在这些模型的挑战,因为我们估计β S和它们的标准误差,但需要做的增量方法背翻转得到标准误^ h Ĵ ķ,并(从我自己的工作)推导出有效的标准错误小号 Ĵh^j,kS^j,k仅适用于纸(我不能得到正确的CI覆盖率为小号 Ĵ ķ在有条件的型号)。S^j,k

  5. 您可以使用类似Kaplan-Meier的阶跃函数图,也可以使用直线图(即,将时间段之间的点连接成一条线)。仅当“离散时间”的概念本身承认细分时间的可能性时,才应使用后一种情况。您也可以绘制/沟通的估计累计发生(这是1Sj,k。......至少流行病学家往往会界定“累计发生”这样的术语在竞争风险模型中使用不同的术语摄取还可能在这里使用。)。


我认为在问题2中,OP询问的是逻辑模型的预测值,而不是回归系数的估计值。可能是相关的
jujae

@jujae我明确地给了我答案的逻辑函数#2,和导演OP注意使用反Logit模型来Logit模型参数估计值转换成H ^牛逼,所以我不理解你的评论。h^(t)
Alexis

Logistic模型的预测值不是二进制rv成功的概率,这样就不需要蚂蚁对数了。也就是说ypred=exp(βTx)/(1+exp(βTx))
jujae

回到最初的问题2,OP询问:“危害函数的逻辑回归模型估计中的预测值是否是?” 我会说是(如果我对预测值的理解是正确的)。您说不,并提出这样的论点,即估计系数与危害估计不同。我同意您的说法,它们是正确的,但这不是OP根据我的理解所要求的。
jujae

kS^j(k)S(k)
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.