我正在寻找一个用于预测客户流失的预测模型,并希望使用一个适合于个人期间训练数据集的离散时间生存模型(每个客户一行,他们处于危险状态的离散时期,带有事件指标–等于1如果流失发生在那个时期,则为0)。
- 我使用Singer和Willet的技术使用普通逻辑回归拟合模型。
- 客户流失可以在一个月内的任何地方发生,但是直到月底我们才知道(例如,他们离开该月的某个时间)。24个月用于培训。
- 使用的时间变量是样本的原始时间-截至2008年12月31日,所有活跃的客户-截至2009年1月,他们都收到t = 0(这不是经典的实现方式,但我相信构建时的方式预测模型与传统统计模型的对比)。使用的协变量是客户在该时间点的任期。
构造了一系列协变量-有些协变量在数据集的行中(对于给定的客户)不会改变,而有些则会。
这些时变协变量是问题所在,也是使我质疑生存率预测的生存模型的原因(与常规分类器相比,该分类器根据当前快照数据预测未来x个月的波动)。时不变的描述了前一个月的活动,预计将是重要的触发因素。
至少基于我当前的想法,这种预测模型的实现是在每个月底为客户群打分,计算下个月某个时间流失的可能性/风险。然后在接下来的1,2或3个月内再次使用。然后用于接下来的1,2,3,4,5,6个月。对于3个月和6个月的客户流失率,我将使用估计的生存曲线。
问题:
在考虑评分时,我该如何纳入时变预测变量?似乎我只能对时不变的预测变量评分,或者包括那些时不变的预测变量,您必须使它们成为时不变的-设置为“现在”值。
有人对这种生存模型的使用有经验或想法吗?
基于@JVM的更新:
问题不在于估计模型,解释系数,使用训练数据绘制有趣的协变量值的危险/生存图等。问题在于使用模型来预测给定客户的风险。说在本月底,我想给仍然是该模型活跃客户的每个人评分。我想预测该风险估计x个周期(下个月月底关闭帐户的风险。从现在起两个月末关闭帐户的风险,等等)。如果存在随时间变化的协变量,则它们的值在以后的任何时期都是未知的,那么如何利用该模型?
最终更新:
人员时间段数据集将为每个人以及每个处于风险期间的时间段都有一个条目。假设有J个时间段(可能是J = 1 ... 24,为24个月),我建立了一个离散的时间生存模型,为简单起见,我们将时间T视为线性,并且有两个协变量X和Z,其中X是时间-不变,这意味着第一个人在每个周期中都是恒定的,并且Z是随时间变化的,这意味着第一个人的每个记录都可以采用不同的值。例如,X可能是客户性别,Z可能是上个月他们对公司的价值。第j个时间段中第i个人的危害的logit模型为:
因此,问题在于,当使用时变协变量并使用新数据进行预测(到尚未看到的未来)时,是未知的。
我能想到的唯一解决方案是:
- 不要使用像Z这样的时变协变量。这会大大削弱模型来预测搅动事件,尽管例如,因为看到Z的减少会告诉我们客户正在脱离并可能准备离开。
- 使用随时间变化的协变量但滞后(如Z在上方),这使我们能够预测出我们滞后了变量的多个周期(再次考虑对新的当前数据进行评分的模型)。
- 使用随时间变化的协变量,但在预测中将其保留为常数(因此,该模型适合于变化的数据,但对于预测,我们将其保留为常数,并模拟这些值的变化(如果稍后实际观察到的话)将如何影响搅动风险。
- 使用时变协变量,但根据已知数据的预测来估算其未来值。例如,预测每个客户的。