对于数据集中的每条记录,我都有以下信息
其中是要素,如果目标事件发生,为1,否则为0,为发生事件的时间戳。特别是,如果没有事件或未设定后续行动的时间,则可能会丢失。
我想为数据集中的每条记录计算一个风险指数。
我当时正在考虑使用功能来预测类的分类模型。但是,很重要:如果事件可能很快发生,则风险应该更高。
这就是为什么生存分析应该适合这个问题的原因。我不需要的完整估计,而只需要一个代表单个记录风险的单个索引。
可以为每条记录计算的平均生存时间似乎是一个不错的风险指数-风险越低越低。
我的问题是:
- 生存分析是否适合我的目的?
- 如何评估模型的性能?
关于问题(2):例如,我很想使用Harrell的 -index,但是我不确定要使用哪个预测结果来进行计算。从Harrell的书《回归建模策略》第247页:
该指数[...]被拍摄到所有可能对这样一个主题作出回应,其他的都没有计算。该指数是这样的对的比例,其中响应者具有比非响应者更高的预测响应概率。
如果发现生存分析是正确的选择,我认为使用某种标准方法引入时变协变量应该很容易。