考克斯比例风险模型和非随机选择的样本

9

是否有任何方法可以纠正由非随机选择的样本引起的Cox比例风险模型中的偏差（类似于Heckman校正）？

背景：可以
说情况如下：
-在最初的两年中，所有客户都被接受。
-两年后，建立了Cox PH模型。模型预测客户将使用我们的服务多长时间。
-根据公司的政策，从现在开始，只有生存3个月大于0.5的客户被接受，其他客户则被拒绝。
-再过两年，需要建立一个新模型。问题在于我们仅将目标客户指定为接受的客户，并且仅使用这些客户可能会导致一些严重的偏差。

bias cox-model

— 托梅克·塔钦斯基（Tomek Tarczynski）
source

1

分析的重点是什么？除非您合并一些平滑方法或参数化建模，否则Cox PH模型不会明确预测失效时间。此模型中有哪些分层/调整变量？

— AdamO '02

4

有针对参数危害模型的建议解决方案。看看这些：

詹姆斯·普里格（James Prieger），2000年。“非正态数据的广义参数选择模型，”工作论文00-9，加利福尼亚大学戴维斯分校经济系。

Boehmke，Frederick J.，Daniel Morey和Megan Shannon。2006。“选择偏差和连续时间持续时间模型：后果和建议的解决方案。” 美国政治科学杂志50（1）：192-207。

在Stata中有后续文件的代码，打包为“ dursel”

但是，我不知道半参数Cox模型的解决方案。

— 乔普普
source

用半参数Cox模型估算参数方法的问题在于，此特定问题实际上与丢失的数据有关。尽管作者尚未描述他如何从Cox模型获得绝对风险预测，但鉴于我们具有基于模型参数（以及基线危害函数的估计值），数据第二阶段包含概率的此类风险预测，收集取决于原始风险预测，因此缺失取决于观察到的变量，即随机数据缺失。

— AdamO 2012年

2

简单的答案是加权。也就是说，您可以使用权重将“已接受”组中的组标准化为感兴趣的人群。在第一个和第二个第二年阶段的合并分析中使用此类权重所引起的问题是，估计的人口权重和参数现在是相关的。通常使用伪似然方法（在这种情况下，它将是某种伪局部似然），在这种情况下，您会忽略样本权重和参数估计值之间的依赖关系。但是，在许多实际情况下（这一点没有什么不同），必须考虑这种依赖性。据我所知，建立一个有效的危险比估算器是一个困难的问题。

两阶段分层样本的模型参数的改进Horvitz-Thompson估计：在流行病学中的应用。

本文讨论了通常用于逻辑回归的调查方法，但是您也可以权衡生存数据。您忽略的一些重要考虑因素是您是否有兴趣创建适用于整个人口的预测，还是要基于两年估算得出的“合格”人口，还是基于结果得出的“合格”人口？模型。您还没有确切提到如何从Cox模型创建这种“预测”模型，因为Cox模型的拟合值不能解释为风险。我假设您估算危险比，然后获得基线危险函数的平滑估算。

— 亚当
source