多元回归如何真正“控制”协变量?


45

我们都熟悉观察性研究,这些研究试图通过在多元回归模型中包含所有可能的潜在混杂因素,在非随机预测变量X和结果之间建立因果关系。该论点认为,通过“控制”所有混杂因素,我们可以分离出感兴趣的预测变量的影响。

我对这个想法越来越感到不适,主要是根据我的统计课程的各个教授的副言。它们分为几个主要类别:

1.您只能控制您认为和测量的协变量。
这是显而易见的,但是我想知道它是否真的是所有最有害和不可克服的。

2.这种做法在过去导致了丑陋的错误。

例如,Petitti&Freedman(2005)讨论了数十年经过统计学调整的观察性研究如何得出关于激素替代疗法对心脏病风险的影响的灾难性错误结论。后来的RCT发现了几乎相反的效果。

3.当您控制协变量时,预测结果与结果之间的关系可能会表现得很奇怪。

Tu Yu-Kang Tu,Gunnell和Gilthorpe(2008) 讨论了一些不同的表现形式,包括Lord悖论,Simpson悖论和抑制变量。

4.单一模型(多元回归)很难充分调整协变量并同时对预测结果关系建模。

我听说这是因为倾向得分和对混杂因素进行分层等方法具有优越性的原因,但是我不确定我是否真的理解。

5. ANCOVA模型要求相关的协变量和预测变量是独立的。

当然,我们会精确地调整混杂因素,因为它们与感兴趣的预测因素相关联,因此,看起来该模型在我们最想要的确切实例中不会成功。有观点认为,调整仅适用于随机试验中的降噪。Miller&Chapman,2001年作了很好的评论。

所以我的问题是:

  1. 这些问题和我可能不知道的其他问题有多严重?
  2. 当我看到一项研究“控制一切”时,我应该有多害怕?

(我希望这个问题不会在讨论中冒出太大的麻烦,并乐意邀请任何改进它的建议。)

编辑:我找到新参考文献后添加了第5点。


1
对于问题2,我认为“控制一切”是规范的一个更一般的问题。我很难想到正确指定参数模型的情况。话虽如此,模型简化了现实,这就是这种研究的艺术所在。研究人员必须决定模型中什么是重要和什么不重要。
2012年

4
有了这个问题,您使我迷了。
rolando2 '11

1
我认为这提出了一些很好的观点。但我认为答案不在严格的统计范围内。因此,任何统计结果,如果1)被复制2)实质上可行等,都将更有价值。另请参阅MAGIC标准和Abelson提出的一般性论点。
彼得·弗洛姆

1
第5点绝对是错误的。米勒和查普曼的论文是完全错误的,句号。
Jake Westfall '18

1
@ half-pass除了论文的中心主张(即,焦点预测变量X和协变量C必须不相关)以外,不知道该说些什么,这是不正确的。请注意,ANCOVA只是一个回归模型,因此同一条推理线显然也会使几乎所有在现实世界中使用多元回归的方法都失效!几个月前,我就这个糟糕的论文在Twitter上进行了讨论:twitter.com/CookieSci/status/902298218494644228
Jake Westfall

Answers:


4

可能有一种被广泛接受的,非统计性的答案-人们需要做出哪些假设才能声称一个人确实控制了协变量。

这可以通过Judea Pearl的因果图和微积分来完成

参见 http://ftp.cs.ucla.edu/pub/stat_ser/r402.pdf 以及其网站上的其他资料。

现在,作为统计学家,我们知道所有模型都是错误的,真正的统计问题是那些确定的假设可能不太错误,因此我们的回答大致可以。珀尔意识到了这一点,并在他的工作中进行了讨论,但也许没有明确地并且经常地进行讨论,以至于避免声称声称有答案的许多统计学家(我相信他会做出一个什么样的假设?)。

(目前,ASA提供了将这些方法包括在统计课程中的教材的奖励,请参阅此处


非常感谢优雅的图形表示形式,谢谢。
半点通过

0

回答问题1:

  • 最好通过情境评估严重程度 (即应考虑所有有助于有效性的因素)。
  • 严重程度不应以绝对方式进行评估。一个例子是研究设计的推理层次概念(例如,案例报告最低,RCT绝对最高)。这种类型的方案在医学院经常被教导为一种容易的启发式方法,以快速识别高质量的证据。这种思维的问题在于,它实际上是算法和过分确定性的,答案本身就是过分确定的。发生这种情况时,您可能会错过设计较差的RCT会比设计良好的观察性研究产生更差结果的方法。
  • 请从流行病学家的角度查看这篇易于阅读的综述,以全面讨论上述观点(Rothman,2014年)

对问题2的回答:

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.