如何确定缺少数据的生存模型是否合适?


9

稍微简化一点,我有大约一百万条记录,记录了系统中大约十年的人员进入和退出时间。每个记录都有一个进入时间,但不是每个记录都有一个退出时间。系统中的平均时间约为1年。

缺少退出时间的原因有两个:

  1. 捕获数据时,该人尚未离开系统。
  2. 没有记录该人的离开时间。碰巧是记录的50%

感兴趣的问题是:

  1. 人们在系统上花费的时间更少了吗?
  2. 是否记录了更多的退出时间,以及有多少。

我们可以通过说出口被记录的概率随时间线性变化,并且系统中的时间具有一个威布尔(Weibull),其参数随时间线性变化来对此建模。然后,我们可以对各种参数进行最大似然估计,并仔细研究结果并认为它们是合理的。我们选择了Weibull分布,因为它似乎用于测量寿命,并且说起来有趣,而不是比说gamma分布更好地拟合数据。

我应该在哪里寻找有关如何正确执行此操作的线索?我们在数学上有些精明,但在统计学上却不是很精明。

Answers:


5

查看数据是否为Weibull的基本方法是绘制累积危害的对数与时间的对数,并查看一条直线是否合适。可以使用非参数Nelson-Aalen估计量来发现累积危害。如果您使用协变量拟合数据,则可以使用类似的韦伯回归图形诊断

克莱因&Moeschberger文本是相当不错的,占地面积与参数和半参数模型建模/诊断大量的地面(虽然主要是后者)。如果您在R中工作,那么Theneau的书非常不错(我相信他写了生存包)。它涵盖了很多Cox PH和相关模型,但是我不记得它是否涵盖了很多参数模型,例如您正在构建的模型。

顺便说一句,这是一百万个主题,每个主题都有一个较小的人群进入/退出或反复出现的进入/退出事件吗?您是否正在限制考虑审查机制的可能性?


谢谢,这正是我想要的。这实际上是一百万个主题,每个主题都有进入和退出时间。是的,我们正在考虑审查问题。
deinst 2010年

2

您可以使用估计的模型来预测系统中所有人员的退出时间。然后,您可以将估计的退出时间与实际的退出时间(您有此数据)进行比较,并计算一个指标(例如RMSE)来评估您的预测效果如何,从而反过来给您带来模型拟合的感觉。另请参阅此链接


1
使用millon点和8参数模型,像卡方检验这样的拟合优度告诉我,该模型基本上是正确的。(这并不奇怪,因为模型中没有影响现实的无穷无尽的因素。)RMSE使我感觉到模型对数据的拟合程度如何,但没有使我感觉到是否存在更好的模型
deinst

为了找出是否有更好的模型,您可以尝试使用不同的公式,也可以使用各种图表(例如,出口时间与时间)来查看数据是否与模型假设一致。您还可以绘制相对于实际时间随机选择的小样本的预测退出时间,以提出模型改进思路。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.