有关离散时间生存分析的基本问题
我正在尝试使用逻辑回归模型进行离散时间生存分析,但不确定我是否完全理解该过程。对于一些基本问题,我将不胜感激。 设置如下: 我正在寻找五年内的小组成员。每个成员都有该成员在组中每个月的月度记录。我正在考虑所有成员都是在五年窗口内开始的(以避免与较早加入的成员出现“左审查”问题)。每条记录将按时间编制索引,时间是成员加入的月份。因此,一个住了两年半的会员将拥有三十条月度记录,从一个到三十个。每条记录还将被赋予一个二进制变量,对于成员资格的最后一个月,该变量的值为1,否则为零。二进制变量的值为1表示成员已离开组的事件。对于其成员资格持续超过五年分析窗口的每个成员, 因此,建立了逻辑回归模型来预测二进制事件变量的值。到目前为止,一切都很好。评估二进制预测模型的一种典型方法是测量保留样本的提升。对于我用来预测成员资格结束事件的逻辑回归模型,我计算了非事件与事件的比率为五比一的保留数据集的提升。我将预测值按十分位排序。预测值最高的十分位数包含百分之七十,升幅超过四倍。前两个十分之一加起来占保留中所有总数的百分之六十五。在某些情况下,这将被认为是相当不错的预测模型,但我想知道它是否足以进行生存分析。 令h[j,k]h[j,k]h[j,k]为个体jjj在月的危险函数kkk,令S[j,k]S[j,k]S[j,k]为个体jjj生存于月的概率kkk。 这是我的基本问题: 离散风险函数h[j,k]h[j,k]h[j,k]是每个月非生存(离开小组)的条件概率吗? 危险函数的逻辑回归模型估计值中的预测值是否是?(即,h[j,k]h[j,k]h[j,k]等于月k中单个的模型预测值,还是需要做更多的工作才能获得危险函数估计值?)jjjkkk 个体直到q月的生存概率jjj等于1减去从一月到的危害函数的乘积qqq,即 S[j,q]=(1−h[j,1])⋅(1−h[j,2])⋅…⋅(1−h[j,q])S[j,q]=(1−h[j,1])⋅(1−h[j,2])⋅…⋅(1−h[j,q])S[j,q] = (1 - h[j,1]) \cdot (1 - h[j,2]) \cdot \ldots \cdot (1 - h[j,q])? 每次k时所有个体j的的平均值是否是总体总体平均生存概率的合理估计?S[j,k]S[j,k]S[j,k]jjjkkk 总体人口图的平均生存概率是否应该类似于每月的Kaplan-Meier图? 如果对这些问题中的任何一个的回答是否定的,那么我有一个严重的误解,可以真正使用一些帮助/解释。此外,对于产生准确的生存状况,二进制预测模型需要达到多好的水平有任何经验法则吗?