我正在尝试使用逻辑回归模型进行离散时间生存分析,但不确定我是否完全理解该过程。对于一些基本问题,我将不胜感激。
设置如下:
我正在寻找五年内的小组成员。每个成员都有该成员在组中每个月的月度记录。我正在考虑所有成员都是在五年窗口内开始的(以避免与较早加入的成员出现“左审查”问题)。每条记录将按时间编制索引,时间是成员加入的月份。因此,一个住了两年半的会员将拥有三十条月度记录,从一个到三十个。每条记录还将被赋予一个二进制变量,对于成员资格的最后一个月,该变量的值为1,否则为零。二进制变量的值为1表示成员已离开组的事件。对于其成员资格持续超过五年分析窗口的每个成员,
因此,建立了逻辑回归模型来预测二进制事件变量的值。到目前为止,一切都很好。评估二进制预测模型的一种典型方法是测量保留样本的提升。对于我用来预测成员资格结束事件的逻辑回归模型,我计算了非事件与事件的比率为五比一的保留数据集的提升。我将预测值按十分位排序。预测值最高的十分位数包含百分之七十,升幅超过四倍。前两个十分之一加起来占保留中所有总数的百分之六十五。在某些情况下,这将被认为是相当不错的预测模型,但我想知道它是否足以进行生存分析。
令为个体在月的危险函数,令为个体生存于月的概率。
这是我的基本问题:
离散风险函数是每个月非生存(离开小组)的条件概率吗?
危险函数的逻辑回归模型估计值中的预测值是否是?(即,等于月k中单个的模型预测值,还是需要做更多的工作才能获得危险函数估计值?)
个体直到q月的生存概率等于1减去从一月到的危害函数的乘积,即 ?
每次k时所有个体j的的平均值是否是总体总体平均生存概率的合理估计?
总体人口图的平均生存概率是否应该类似于每月的Kaplan-Meier图?
如果对这些问题中的任何一个的回答是否定的,那么我有一个严重的误解,可以真正使用一些帮助/解释。此外,对于产生准确的生存状况,二进制预测模型需要达到多好的水平有任何经验法则吗?