2
多元回归如何真正“控制”协变量?
我们都熟悉观察性研究,这些研究试图通过在多元回归模型中包含所有可能的潜在混杂因素,在非随机预测变量X和结果之间建立因果关系。该论点认为,通过“控制”所有混杂因素,我们可以分离出感兴趣的预测变量的影响。 我对这个想法越来越感到不适,主要是根据我的统计课程的各个教授的副言。它们分为几个主要类别: 1.您只能控制您认为和测量的协变量。 这是显而易见的,但是我想知道它是否真的是所有最有害和不可克服的。 2.这种做法在过去导致了丑陋的错误。 例如,Petitti&Freedman(2005)讨论了数十年经过统计学调整的观察性研究如何得出关于激素替代疗法对心脏病风险的影响的灾难性错误结论。后来的RCT发现了几乎相反的效果。 3.当您控制协变量时,预测结果与结果之间的关系可能会表现得很奇怪。 Tu Yu-Kang Tu,Gunnell和Gilthorpe(2008) 讨论了一些不同的表现形式,包括Lord悖论,Simpson悖论和抑制变量。 4.单一模型(多元回归)很难充分调整协变量并同时对预测结果关系建模。 我听说这是因为倾向得分和对混杂因素进行分层等方法具有优越性的原因,但是我不确定我是否真的理解。 5. ANCOVA模型要求相关的协变量和预测变量是独立的。 当然,我们会精确地调整混杂因素,因为它们与感兴趣的预测因素相关联,因此,看起来该模型在我们最想要的确切实例中不会成功。有观点认为,调整仅适用于随机试验中的降噪。Miller&Chapman,2001年作了很好的评论。 所以我的问题是: 这些问题和我可能不知道的其他问题有多严重? 当我看到一项研究“控制一切”时,我应该有多害怕? (我希望这个问题不会在讨论中冒出太大的麻烦,并乐意邀请任何改进它的建议。) 编辑:我找到新参考文献后添加了第5点。