在没有仪器的情况下,关于观测数据的模型我们能说些什么?


10

过去,我曾在多个领域对发表的论文提出过一些问题,这些领域在观测数据(即非受控实验产生的数据)上使用了回归(以及相关模型,例如面板模型或GLM) ,在许多情况下-但并非总是-随时间推移观察到的数据),但没有尝试引入工具变量。

作为回应,我提出了许多批评(例如,当重要变量可能缺失时描述带有偏见的问题),但是由于此处的其他人无疑比我对这方面的知识要了解得多,我想问一下:

  1. 在这种情况下,试图得出有关关系的结论(特别是但不限于因果结论)有哪些主要问题/后果?

  2. 在没有仪器的情况下,适合此类模型的研究能做些有用的事情吗?

  3. 关于这种建模的问题有哪些好的参考文献(书或论文)(最好具有明显的非技术动机来进行后果分析,因为通常提出问询的人具有各种背景,有些人没有很多统计资料)一篇论文?用仪器讨论预防措施/问题也将很有用。

(有关工具变量的基本参考资料在此处,但是如果您要在其中添加任何内容,那也会有所帮助。)

指向发现和使用工具的良好实践示例的指针将是一个好处,但不是这个问题的中心。

[在出现此类问题时,我可能会在这里指出其他任何好的答案。我可能会添加一两个示例。]

Answers:


8

因此,我领域的绝大多数人(尽管不是我从事的大部分工作)都与此有关-将GLM类型的模型拟合到观测数据。在大多数情况下,由于缺乏对技术的了解,或者更重要的是,缺乏良好的工具,工具变量很少见。为了按顺序解决您的问题:

  1. 当然,主要的问题是由与观察到的暴露和结果相关的未观察到的变量造成的某种残留混杂。普通的语言版本是您的答案可能是错误的,但是您不一定知道如何或为什么。根据该信息做出的决策(例如是否使用特定的处理方法,环境中的X事物是否危险等)是使用错误信息做出的决策。

  2. 我断言对此的答案是肯定的,因为在大多数情况下,这些研究试图得出的结论是,不一定有一个好的仪器,或者不可能进行随机化。因此,当涉及到它时,替代方案是“仅凭猜测”。这些模型是我们思想的形式化,是我们接近答案的坚实尝试,并且更容易应对。

例如,您可以询问要定性改变答案的偏见有多严重(即“是,X对您不利...”),并评估您是否认为合理,存在未知因素潜伏在数据之外的力量。

例如,发现HPV感染与宫颈癌极为相关,这一发现是一项重要发现,而一个无法衡量的因素的强度必须令人难以置信,因为这种因素会一直偏向零位。

此外,应该指出的是,一种仪器并不能解决这个问题-它们也只能在没有一些无法衡量的关联的情况下工作,甚至是随机试验也存在问题(治疗和对照之间的差异下降,随机化后的任何行为改变,对实际情况的普遍适用性)目标人群)。

  1. 罗斯曼,格陵兰和拉什撰写了最新版的《现代流行病学》,从本质上讲,是一本书,旨在尽力做到最好。

8

与Fomite从流行病学家的角度来看相反,工具变量是经济学中必不可少的工具包,在早期就已被教授。其原因是,当今人们非常重视尝试回答经济研究中的因果问题,甚至在甚至没有关联的情况下,这种因果关系也得到了扩展。主要的局限性在于,经济学是一个本质上很难进行随机实验的领域。如果我想知道父母早逝对孩子长期教育成果的影响,那么大多数人会反对通过随机对照试验这样做-的确如此。这讲义从MIT课程大纲3-5什么其他问题,也有与实验结果页面上。

依次解决每个问题:

  1. 根据要回答的问题,不只是省略变量,这些变量可能会使对观测数据的分析无效,而无需使用非实验方法。选择问题,测量误差,反向因果关系或同时性可能同样重要。主要问题是数据分析人员需要了解此设置的局限性。这主要是指业务案例,因为在学术场景中这将很快被发现。有时我会看到市场分析师想要估算价格弹性以告知客户(例如,如果我们将价格提高需求会减少多少)x%),因此他们估算了一个需求方程,而完全忘记或忽略了一个事实,即需求和供给是同时确定的,并且一个因素会影响另一个因素。因此,后果更多地取决于研究人员/数据分析师对数据局限性的认识,而不是数据本身的局限性,但由此产生的后果可能不尽相同,甚至会严重影响人们的生活。

  2. Di您可以计算该处理的效果,对不可观察对象执行相同的操作,并询问不可观察对象的偏移量必须多大才能解释观察到的治疗效果。如果未观察到的变化必须很大,那么我们可以对我们的发现更加信任。对此的参考是Altonji,Elder和Taber(2000)
  3. 大概任何应用经济学家都会推荐Angrist和Pischke(2009) “最无害的计量经济学”。即使这本书主要是为研究生和研究人员准备的,也可以跳过其中的数学部分,而只是获得直觉,这也很好地解释了。他们首先介绍了实验环境的概念,然后倾向于OLS及其在遗漏变量,同时性,选择等方面对内生性的局限性,然后广泛讨论了工具变量,并从应用文献中分享了很多实例。他们还讨论了工具变量的问题,例如弱工具或使用过多工具。安格里斯特和克鲁格(2001) 还提供了仪器变量和潜在陷阱的非技术概述,并且还提供了一个表格,该表格总结了一些研究及其仪器。

可能所有这些都比这里的典型答案要长得多,但是问题非常广泛。我只想强调一点,即工具变量(通常很难找到)不是我们口袋里的唯一子弹。还有其他非实验方法可以从观测数据中发现因果效应,例如差异差异,回归不连续性设计,匹配或固定效应回归(如果我们的混杂因素是时不变的)。所有这些都在Angrist和Pischke(2009)以及与之相关的讲义中进行了讨论。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.