稍微简化一点,我有大约一百万条记录,记录了系统中大约十年的人员进入和退出时间。每个记录都有一个进入时间,但不是每个记录都有一个退出时间。系统中的平均时间约为1年。
缺少退出时间的原因有两个:
- 捕获数据时,该人尚未离开系统。
- 没有记录该人的离开时间。碰巧是记录的50%
感兴趣的问题是:
- 人们在系统上花费的时间更少了吗?
- 是否记录了更多的退出时间,以及有多少。
我们可以通过说出口被记录的概率随时间线性变化,并且系统中的时间具有一个威布尔(Weibull),其参数随时间线性变化来对此建模。然后,我们可以对各种参数进行最大似然估计,并仔细研究结果并认为它们是合理的。我们选择了Weibull分布,因为它似乎用于测量寿命,并且说起来有趣,而不是比说gamma分布更好地拟合数据。
我应该在哪里寻找有关如何正确执行此操作的线索?我们在数学上有些精明,但在统计学上却不是很精明。