是否有任何方法可以纠正由非随机选择的样本引起的Cox比例风险模型中的偏差(类似于Heckman校正)?
背景:可以
说情况如下:
-在最初的两年中,所有客户都被接受。
-两年后,建立了Cox PH模型。模型预测客户将使用我们的服务多长时间。
-根据公司的政策,从现在开始,只有生存3个月大于0.5的客户被接受,其他客户则被拒绝。
-再过两年,需要建立一个新模型。问题在于我们仅将目标客户指定为接受的客户,并且仅使用这些客户可能会导致一些严重的偏差。
是否有任何方法可以纠正由非随机选择的样本引起的Cox比例风险模型中的偏差(类似于Heckman校正)?
背景:可以
说情况如下:
-在最初的两年中,所有客户都被接受。
-两年后,建立了Cox PH模型。模型预测客户将使用我们的服务多长时间。
-根据公司的政策,从现在开始,只有生存3个月大于0.5的客户被接受,其他客户则被拒绝。
-再过两年,需要建立一个新模型。问题在于我们仅将目标客户指定为接受的客户,并且仅使用这些客户可能会导致一些严重的偏差。
Answers:
有针对参数危害模型的建议解决方案。看看这些:
詹姆斯·普里格(James Prieger),2000年。“非正态数据的广义参数选择模型,”工作论文00-9,加利福尼亚大学戴维斯分校经济系。
在Stata中有后续文件的代码,打包为“ dursel”
但是,我不知道半参数Cox模型的解决方案。
简单的答案是加权。也就是说,您可以使用权重将“已接受”组中的组标准化为感兴趣的人群。在第一个和第二个第二年阶段的合并分析中使用此类权重所引起的问题是,估计的人口权重和参数现在是相关的。通常使用伪似然方法(在这种情况下,它将是某种伪局部似然),在这种情况下,您会忽略样本权重和参数估计值之间的依赖关系。但是,在许多实际情况下(这一点没有什么不同),必须考虑这种依赖性。据我所知,建立一个有效的危险比估算器是一个困难的问题。
两阶段分层样本的模型参数的改进Horvitz-Thompson估计:在流行病学中的应用。
本文讨论了通常用于逻辑回归的调查方法,但是您也可以权衡生存数据。您忽略的一些重要考虑因素是您是否有兴趣创建适用于整个人口的预测,还是要基于两年估算得出的“合格”人口,还是基于结果得出的“合格”人口?模型。您还没有确切提到如何从Cox模型创建这种“预测”模型,因为Cox模型的拟合值不能解释为风险。我假设您估算危险比,然后获得基线危险函数的平滑估算。