从统计学的角度来看,能否通过观察性研究使用倾向评分来推断因果关系?


27

问题:从统计学家(或从业者)的角度来看,可以通过观察研究(而非实验)使用倾向评分来推断因果关系吗?

拜托,不要发动火焰战争或狂热的辩论。

背景:在统计博士计划中,我们仅通过工作组和一些主题会议来探讨因果关系。但是,其他部门(例如HDFS,社会学)中有一些非常杰出的研究人员正在积极使用它们。

我已经目睹了关于此问题的一些激烈辩论。我的目的不是在这里开始。也就是说,您遇到了哪些参考资料?你有什么观点?例如,我听说过有人反对将倾向得分作为一种因果推理技术,这是由于忽略了变量偏差而无法推断因果关系的原因-如果遗漏了一些重要内容,则会打破因果关系链。这是一个无法解决的问题吗?

免责声明:这个问题可能没有正确的答案-单击cw会很酷,但是我个人对响应非常感兴趣,并希望获得一些很好的参考,其中包括实际示例。

Answers:


16

在一篇旨在促进在流行病学中使用PS的文章的开头,Oakes和Church(1)引用了Hernán和Robins关于流行病学中混杂效应的主张(2):

您能否保证观察研究的结果不受不可测混杂因素的影响?流行病学家只能提供“否”的答案。

这不仅意味着我们不能确保观察研究的结果是公正的或无用的(因为,正如@propofol所说,它们的结果对于设计RCT很有用),而且PS肯定不会为此提供完整的解决方案问题,或者至少不一定比其他匹配或多变量方法产生更好的结果(例如参见(10))。

倾向得分(PS)从结构上讲是概率而非因果指标。进入倾向得分函数的协变量的选择是确保其可靠性的关键因素,正如已经说过的那样,它们的弱点主要在于不控制未观察到的混杂因素(在回顾性研究或病例对照研究中很有可能) 。还必须考虑其他因素:(a)模型规格不正确会影响直接效应估计(不过,实际上并没有比OLS情况更大),(b)协变量水平上可能缺少数据,(c)PS确实有不能克服已知会影响因果解释的协同效应(8,9)。

至于参考资料,我发现罗杰·纽森(Roger Newson)的幻灯片- 因果关系,混杂因素和倾向性得分 -在使用倾向性得分的利弊方面有相对较好的平衡,并有来自真实研究的插图。两年前在《医学统计学》上也有几篇好的论文讨论了倾向评分在观察研究或环境流行病学中的使用,并在结尾处附上几个(3-6)。但是我喜欢Pearl的评论(7),因为它对因果关系问题提供了更大的视角(PS在第117和130页中进行了讨论)。显然,通过研究应用研究,您会发现更多插图。我想补充一下William R Shadish最近在安德鲁·盖尔曼(Andrew Gelman)网站上发表的两篇文章(11,12)。讨论了倾向得分的使用,但是这两篇论文更多地侧重于观察性研究中的因果推断(以及与随机环境的比较)。

参考文献

  1. Oakes,JM和Church,TR(2007)。特邀评论:流行病学倾向得分方法的发展美国流行病学杂志 165(10),1119-1121。
  2. Hernan MA和Robins JM(2006)。因果推理工具:流行病学家的梦想? 流行病学,17,360-72。
  3. Rubin,D.(2007年)。因果关系设计的观察研究与分析:与随机试验的设计平行医学统计学,26,20–36。
  4. Shrier,I.(2008年)。给编辑的信医学统计学,27,2740–2741。
  5. Pearl,J.(2009年)。倾向性评分方法评述医学统计学,28,1415–1424。
  6. 斯图尔特(Stuart),EA(2008)。制定使用倾向评分的实用建议:Peter Austin对“ 1996年至2003年医学文献中倾向评分匹配的严格评估”的讨论医学统计学,206,2062-2065年。
  7. Pearl,J.(2009年)。统计中的因果推断:概述统计调查,第3,96-146页。
  8. Oakes,JM和Johnson,PJ(2006)。倾向得分匹配的社会流行病学。在社会流行病学方法中,JM Oakes和S. Kaufman(编辑),第364-386页。乔塞斯·巴斯。
  9. 霍夫勒,男(2005)。基于反事实的因果推理BMC医学研究方法论,第5卷,第28期。
  10. Winkelmayer,WC和Kurth,T.(2004年)。倾向得分:帮助还是炒作? 肾脏透析透析,19(7),1671-1673。
  11. WR的Shadish,MH的Clark和PM的Steiner(2008)。非随机实验能否得出准确的答案?比较随机和非随机分配的随机实验JASA,103(484),1334-1356。
  12. Cook,TD,Shadish,WR和Wong,VC(2008)。实验和观察研究产生可比的因果估计的三种条件:研究内比较的新发现政策分析与管理杂志,27(4),724–750。

11

倾向得分通常用于匹配文献中。倾向得分使用治疗前的协变量来估计接受治疗的可能性。本质上,因为您的结果和治疗前变量是您的协变量,所以使用回归(仅是常规OLS或logit,概率等)来计算治疗的倾向评分。一旦获得了倾向得分的良好估计,具有相似倾向得分但接受了不同治疗的受试者就会相互匹配。治疗效果是这两组之间的均值差异。

Rosenbaum和Rubin(1983)表明,仅使用倾向评分来匹配治疗和对照受试者就足以消除由于观察到的用于构建评分的协变量而对治疗效果的估计中的所有偏差。请注意,此证明要求使用真实倾向得分,而不是估计值。这种方法的优点是,它可以将多个维度上的匹配问题(每个预处理协变量一个)转换为单变量匹配情况-大大简化了。

罗森鲍姆(Rosenbaum),保罗·R(Paul R.)和唐纳德·鲁宾(Donald B. Rubin)。1983年。“ 倾向得分在因果效应观察研究中的核心作用。”。Biometrika。70(1):41--55。


8

只有前瞻性随机试验才能确定因果关系。在观察性研究中,总会有不可估量或未知的协变量的可能性,从而无法确定因果关系。

但是,观察性试验可以提供x和y之间有很强关联的证据,因此可用于假设的产生。这些假设随后需要通过随机试验加以证实。


我完全同意你的看法。观察性研究可能会发现一些关联,这些关联又可以使用更严格的框架进行测试(如您所建议的随机试验)。
Sympa

整洁的表情。x和y之间的“强”关联这个词与您更加不同意。
凯文·康

7

这个问题似乎涉及两件事情,实际上应该分别考虑。首先是一个人是否可以从一项观察性研究中推断出因果关系,然后就可以对比一下Pearl(2009)的观点。Pearl认为是,只要您可以正确地对过程建模,而@propofol则可以。在实验学科中找到许多盟友,他们也许会分享Gerber等人(2004年)在论文中表达的一些思想(虽然有些晦涩但还是不错的)。其次,假设您确实认为可以从观测数据中推断出因果关系,那么您可能想知道倾向评分方法是否有用。倾向得分方法包括各种调节策略以及倾向加权。Lunceford和Davidian(2004)给出了很好的评论。

不过有一点皱纹:倾向分值匹配和加权也用于随机实验的分析中,例如,当有兴趣计算“间接效应”时,以及在存在潜在的非随机损耗或掉线问题时(在这种情况下,您的研究类似于观察性研究。

参考文献

Gerber A等。2004年。“从观察性研究中学习的错觉。” 在Shapiro I等人的《政治研究中的问题和方法》,剑桥大学出版社。

Lunceford JK,Davidian M.,2004年。“通过倾向得分对因果治疗效果进行评估的分层和加权:一项比较研究。” 医学统计学 23(19):2937-2960。

Pearl J.2009。《因果关系》(第2版),剑桥大学出版社。


很好,您引用了Pearl的整本书。
chl 2010年

0

传统观点认为,只有随机对照试验(“真实”实验)才能确定因果关系。

但是,事情并非如此简单。

随机化可能不够的一个原因是,在“小”样本中,大数定律还不够“强”以确保每个差异都平衡。问题是:什么是“太小”,什么时候开始“足够大”?Saint-Mont(2015)在这里认为,“足够大”很可能从成千上万个开始(n> 1000)!

毕竟,关键是平衡组之间的差异,以控制差异。因此,即使在实验中,也应格外小心,以平衡组之间的差异。根据Saint-Mont(2015)的计算,很可能在较小的样本中使用匹配的(手动平衡)样本会更好。

至于概率。当然,概率永远无法给出结论性的答案-除非概率是极端的(零或一)。但是,在科学界,我们发现自己经常遇到各种情况,因为事情难以解决,因此我们无法提供结论性的答案。因此,需要概率。概率不过是在陈述中表达不确定性的一种方式。因此,它类似于逻辑。看到布里格斯(2016)在这里

因此,概率将帮助我们,但不能给出确定的答案,没有确定性。但这很有用-表达不确定性。

还要注意,因果关系主要不是统计问题。假设两个方法“显着”不同。并不是说分组变量是测量变量差异的原因吗?不(不一定)。无论使用哪个特定统计数据(倾向得分,p值,贝叶斯因子等等),此类方法(实际上)都不足以支持因果关系声明。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.