生存分析以进行事件预测


9

对于数据集中的每条记录,我都有以下信息

(X1 , ,Xm ,δ ,T )

其中是要素,如果目标事件发生,为1,否则为0,为发生事件的时间戳。特别是,如果没有事件或未设定后续行动的时间,则可能会丢失。XiδTT

我想为数据集中的每条记录计算一个风险指数。

我当时正在考虑使用功能来预测类的分类模型。但是,很重要:如果事件可能很快发生,则风险应该更高。XiδTδ

这就是为什么生存分析应该适合这个问题的原因。我不需要的完整估计,而只需要一个代表单个记录风险的单个索引。S(t)=P(T>t)

可以为每条记录计算的平均生存时间似乎是一个不错的风险指数-风险越低越低。

我的问题是:

  1. 生存分析是否适合我的目的?
  2. 如何评估模型的性能?

关于问题(2):例如,我很想使用Harrell的 -index,但是我不确定要使用哪个预测结果来进行计算。从Harrell的书《回归建模策略》第247页:c

该指数[...]被拍摄到所有可能对这样一个主题作出回应,其他的都没有计算。该指数是这样的对的比例,其中响应者具有比非响应者更高的预测响应概率。c

如果发现生存分析是正确的选择,我认为使用某种标准方法引入时变协变量应该很容易。Xi(t)

Answers:


3

生存分析是否适合我的目的?

使这似乎不太适用于生存分析的唯一原因是:

... 如果没有事件或未设定随访时间,则可能会丢失。TT

您将需要知道大多数模型在该个体上还活着的最后一个时期。否则,它应该很简单并且适用于使用生存分析。例如survival::coxphR中的Cox比例风险或R中的参数模型survival::survreg

可以为每条记录计算的平均生存时间似乎是一个不错的风险指数-风险越低越低。

是的,您可以将平均生存时间或线性预测变量用于前面提到的两个(类)模型。

如何评估模型的性能?

对于AUC来说,“索引对我来说似乎是一个明智的选择。请注意,它是使用R在R中实现的。cHmisc::rcorr.cens

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.