如果这种模型的目标是预测,那么您就不能使用未加权逻辑回归来预测结果:您将过度预测风险。逻辑模型的优势在于,优势比(OR)(用于衡量逻辑模型中风险因素与二元结果之间的关联的“斜率”)与结果相关采样不变。因此,如果以10:1、5:1、1:1、5:1、10:1的比例与控件进行采样,那就没关系了:只要无条件采样,两种情况下的OR均保持不变曝光(这会引入伯克森的偏见)。实际上,当完全不可能进行完全简单的随机抽样时,取决于结果的抽样是一种节省成本的工作。
为什么使用逻辑模型与结果依赖抽样相比,风险预测存在偏差?结果依赖抽样影响逻辑模型中的截距。这导致S形关联曲线通过总体中的简单随机样本中的样本对数奇数和伪样本中的样本对数奇数之差“向上滑动x轴” -您的实验设计。(因此,如果您要控制的案例为1:1,则有50%的机会在此伪总体中采样案例)。在罕见的结果中,这是一个很大的差异,为2或3倍。
当您说这种模型是“错误的”时,您必须关注目标是推理(正确)还是预测(错误)。这也解决了结果与案例的比率。关于该主题,您倾向于看到的语言是将这样的研究称为“案例控制”研究,该研究已经进行了广泛的介绍。也许我最喜欢该主题的出版物是Breslow and Day,这是一项具有里程碑意义的研究,描述了罕见的癌症原因的危险因素(由于事件的罕见性,以前是不可行的)。案例对照研究引发了围绕频繁误解发现的争议:特别是将OR与RR(夸大发现)混为一谈,还把“研究基础”作为样本和总体的中介,从而增强了发现。对他们提出了很好的批评。但是,没有批评声称病例对照研究本质上是无效的,我的意思是你怎么可能?他们在无数种途径中促进了公共卫生。Miettenen的文章擅长指出,您甚至可以在依赖结果的抽样中使用相对风险模型或其他模型,并在大多数情况下描述结果与总体水平发现之间的差异:这并不算糟,因为OR通常是硬参数解释。
克服风险预测中过采样偏差的最佳和最简单的方法可能是使用加权似然。
Scott和Wild讨论了权重,并表明它可以纠正截距项和模型的风险预测。当事先了解人口中病例的比例时,这是最好的方法。如果结果的发生率实际上是1:100,并且您以1:1的方式将病例抽样到对照中,则只需将控件加权100即可获得总体一致的参数和无偏风险的预测。这种方法的缺点是,如果在其他地方估计有误差,则无法说明人口患病率的不确定性。Lumley和Breslow是开放式研究的广阔领域关于两阶段采样和双稳健估计器的理论已经走得很远。我认为这是非常有趣的东西。Zelig的程序似乎只是权重功能的实现(由于R的glm函数允许权重,因此似乎有点多余)。