Judea Pearl撰写的《为什么》一书:他为何抨击统计数据?


79

我正在阅读Judea Pearl撰写的《为什么之书》,它正深入我的皮肤1。具体地说,在我看来,他通过提出一个稻草人的论点来无条件地抨击“古典”统计数据,即统计数据永远不会,永远无法研究因果关系,它永远不会对因果关系感兴趣,并且统计数据已成为一种模型盲数据缩减企业”。统计在他的书中成了丑陋的一句话。

例如:

统计人员对于应该控制和不应该控制哪些变量感到非常困惑,因此默认做法是控制所有可以测量的变量。[...]这是一个方便,简单的过程,但是它既浪费,又充满错误。因果革命的一项关键成就就是消除这种混乱。

同时,统计学家从根本不愿谈论因果关系的意义上大大低估了控制权。[...]

但是,因果模型一直以来都是统计数据。我的意思是,一个回归模型可以基本上被使用的因果模型,因为我们基本上假设一个变量是原因,另一个是效果(因此相关性是从回归建模不同的方法),并测试该因果关系是否解释了观察到的模式。

另一句话:

尤其难怪统计学家发现这个难题[蒙蒂·霍尔问题]很难理解。正如RA Fisher(1922)所说,他们习惯于“减少数据”,而忽略了数据生成过程。

这让我想起安德鲁·盖尔曼(Andrew Gelman)写给著名的xkcd卡通有关贝叶斯和常客的回答:“不过,我认为该卡通整体上是不公平的,因为它将明智的贝叶斯人与常客统计学家相比,后者盲目地遵循浅薄的教科书的建议。 ”。

我认为,在Judea Pearls一书中存在的s词的错误陈述的数量使我怀疑是否因果推论(迄今为止,我认为这是组织和检验科学假设2的有用且有趣的方式)是否值得怀疑。

问题:您是否认为Judea Pearl歪曲了统计数据,如果是,为什么?只是为了使因果推理听起来比实际更大?您是否认为因果推论是一场R大的革命,它确实改变了我们的所有思维?

编辑:

上面的问题是我的主要问题,但是,由于它们是公认的,因此请回答以下具体问题(1)“因果革命”的含义是什么?(2)它与“正统”统计有何不同?

也因为他是如此谦虚。
2.我的意思是科学而非统计意义。

编辑:安德鲁·盖尔曼(Andrew Gelman)在《犹太珍珠》(Judea Pearls)的书上写了这篇博客文章,我认为他在解释这本书的问题上比我做得更好。这是两个引号:

Pearl和Mackenzie在这本书的第66页上写道,统计数据“成为了模型盲的数据约简企业。”嘿!你他妈在说什么??我是统计学家,从事统计工作已有30年,从事从政治到毒理学的研究。“模型盲数据缩减”?那只是胡扯。我们一直在使用模型。

还有一个:

Look. I know about the pluralist’s dilemma. On one hand, Pearl believes that his methods are better than everything that came before. Fine. For him, and for many others, they are the best tools out there for studying causal inference. At the same time, as a pluralist, or a student of scientific history, we realize that there are many ways to bake a cake. It’s challenging to show respect to approaches that you don’t really work for you, and at some point the only way to do it is to step back and realize that real people use these methods to solve real problems. For example, I think making decisions using p-values is a terrible and logically incoherent idea that’s led to lots of scientific disasters; at the same time, many scientists do manage to use p-values as tools for learning. I recognize that. Similarly, I’d recommend that Pearl recognize that the apparatus of statistics, hierarchical regression modeling, interactions, poststratification, machine learning, etc etc., solves real problems in causal inference. Our methods, like Pearl’s, can also mess up—GIGO!—and maybe Pearl’s right that we’d all be better off to switch to his approach. But I don’t think it’s helping when he gives out inaccurate statements about what we do.


41
线性回归不是因果模型。简单线性回归成对相关相同唯一的区别是标准化。因此,如果您说回归是因果的,那么对于相关性也应如此。是因果关系吗?您可以使用回归来预测任意变量之间的任何无意义的关系(偶然有很多“有意义的”结果)。
蒂姆

8
Pearl,Rubin,Heckman和其他人之间,关于统计因果关系的哪种推理方法最有价值的分歧似乎已经恶化,而且我确实认为Pearl的语气变得越来越傲慢。不要让他从他所提供的真正见识中分散注意力。阅读他早先的《因果关系》一书,它会减少您的皮肤。
CloseToC

7
@CloseToC我要补充一点,Pearl,Rubin和Heckman在某种程度上都在同一框架内工作(即,逻辑上等效的框架,请参见stats.stackexchange.com/questions/249767/…),因此他们之间的争议是不同的诸如“线性回归是因果模型”之类的观点。
卡洛斯·辛纳利

9
我自己被这本书激怒了。那里有一些简单的虚假统计声明(现在不能援引,这本留有我的笔记的书在家里),这使我想知道,仅是帮助Pearl撰写本书的记者还是Pearl本人都不是统计学家。(不用说,在如此受人尊敬的科学家的工作中发现如此公然的错误,我感到很惊讶。)他的论文好得多,尽管没有人会指责Pearl谦虚……
理查德·哈迪

15
我有点担心,这个线索已经把(a)一位非常聪明的人的特定书卷缠在一起(b)那个聪明人的人格和辩论风格(c)某个观点是正确的,夸张的,还是其他。
尼克·考克斯

Answers:


59

我完全同意,珀尔的语气是傲慢的,他对“统计学家”的刻画是简单而单一的。另外,我认为他的著作并不特别清晰。

但是,我认为他有一点。

因果推理不是我的正式培训(MSc)的一部分:我最接近该主题的是实验设计的选修课,即任何因果关系主张都要求我物理控制环境。珀尔的书《因果关系》是我第一次驳斥这一想法。显然我不能代表所有的统计学家和课程,但从我自己的角度来看,我赞成Pearl的看法,即因果推理不是统计学中的优先事项。

的确,统计学家有时会控制超出绝对必要数量的变量,但这很少导致错误(至少以我的经验)。

这也是我在2010年获得统计学硕士学位后坚持的信念。

但是,这是非常不正确的。当您控制一个共同的效果时(在书中称为“对撞机”),您可以引入选择偏差。这种认识对我来说是非常惊人的,并且确实使我相信将因果假设表示为图形的有用性。

编辑:我被要求详细说明选择偏见。这个主题非常微妙,我强烈建议您仔细阅读因果图上的edX MOOC,这是对的很好介绍,其中有一章专门介绍选择偏差。

举一个玩具的例子,为解释该书中引用的这篇论文:考虑变量A =吸引力,B =美女,C =能力。假设B和C在一般人群中没有因果关系(即,美丽不引起能力,能力不引起美丽,并且美丽和能力不具有共同的原因)。还假设B或C中的任何一个足以吸引人,即A是对撞机。对A的条件会在B和C之间创建虚假关联。

一个更严重的例子是“出生体重悖论”,据此,如果婴儿体重不足(U),母亲在怀孕期间吸烟(S)似乎会降低婴儿的死亡率(M)。提出的解释是,出生缺陷(D)也会导致出生体重偏低,并且也会导致死亡。相应的因果图为{S-> U,D-> U,U-> M,S-> M,D-> M},其中U是对撞机;以它为条件会引入虚假关联。这背后的直觉是,如果母亲是吸烟者,出生体重偏低的可能性就较小。


8
+1。您能否详细说明一下它如何引入选择偏见?也许有一个具体的例子可以使大多数读者明白。
变形虫

2
感谢您的修改。这些是非常清楚的例子。
变形虫

因此,吸烟者婴儿的低出生体重的直觉是正确的,对吗?
Malady

@Malandy:此模型与数据一致,并且直观。我不知道这是否正确。
mitchus


71

您的问题恰好反映了Pearl在说什么!

简单的线性回归本质上是因果模型

ÿXžË[ÿX]Ë[Xÿ]Ë[ÿXž]Ë[žÿX]

另一方面,线性结构方程是因果模型。但是第一步是要了解统计假设(对观察到的联合概率分布的约束)和因果假设(对因果模型的约束)之间的差异。

您是否认为Judea Pearl歪曲了统计数据?如果是,为什么?

不,我不这么认为,因为我们每天都会看到这些误解。当然,Pearl做出了一些概括,因为一些统计学家确实进行了因果推理(唐·鲁宾是促进潜在结果的先驱……我也是统计学家!)。但是他说得很对,传统的统计学教育大部分都避免因果关系,甚至正式地定义因果关系是什么。

ÿXË[ÿ|X] Ë[ÿX]Ë[ÿ|dØX]

您从书中带出的报价也是一个很好的例子。在传统的统计书中,您不会找到关于混杂因素的正确定义,也不会提供有关何时应该(或不应该)调整观察研究的协变量的指南。通常,您会看到“相关标准”,例如“如果协变量与治疗和结果相关,则应对其进行调整”。这种混淆最显着的例子之一是在辛普森悖论中出现的情况—当面对两个相反符号的估计时,应使用调整后的还是未调整的?答案当然取决于因果模型。

珀尔说这个问题结束了,这是什么意思?在通过回归进行简单调整的情况下,他指的是后门标准(请参阅此处的更多内容)。对于一般的识别-除了简单的调整-他的意思是我们现在有了用于识别任何给定半马尔可夫DAG的因果关系的完整算法。

这里的另一点值得一提。即使在实验研究中(传统统计学肯定在实验设计中做了大量重要工作!),最终,您仍然需要因果模型 实验可能会因缺乏合规性,缺乏跟进,选择偏见而遭受苦难……而且,大多数情况下,您不想将实验结果限制在所分析的特定人群中,而是想将自己的结论概括化针对更广泛/不同人群的实验结果。在这里,又有人可能会问:您应该适应什么?您是否具有足够的数据和实质知识来进行此类推断?所有这些都是因果概念,因此您需要一种语言来正式表达因果假设,并检查它们是否足以让您做自己想做的事情!

总而言之,这些误解在统计和计量经济学中很普遍,在“交叉验证”中有几个示例,例如:

还有很多。

您是否认为因果推论是一场R大的革命,它确实改变了我们的所有思维?

考虑到许多科学的当前状况,我们取得了多少进步,事物正在发生多快的变化以及我们仍然可以做多少,我想这确实是一场革命。

PS:Pearl在UCLA的因果关系博客上建议了他的两篇帖子,这些帖子对此讨论很感兴趣,您可以在此处此处找到这些帖子。

PS 2:正如January在他的新编辑中提到的那样,Andrew Gelman在他的博客中有新帖子。除了Gelman博客上的辩论之外,Pearl还在Twitter上回答了(如下):

盖尔曼(Gelman)对#Bookofwhy的评论应该引起人们的兴趣,因为它代表了一种使统计研究人员广泛瘫痪的态度。我的初步反应现在发布在https://t.co/mRyDcgQtEc相关文章:https://t.co/xUwR6eCGrZhttps://t.co/qwqV3oyGUy

-Judea Pearl(@yudapearl)2019年1月9日


4
谢谢。但是–好吧,简单地说,我可以计算E [X | Y]和E [Y | X],但是我可以在DAG中写X←Y和X→Y。无论如何,我必须从科学的假设或模型开始。我的假设,我的模型–我的选择。我可以做某事这一事实并不意味着我应该做。
1

3
@January并不意味着您应该这样做,这里的重点仅在于能够准确表达您想要估计的内容(因果估计),准确表达您的因果假设(明确因果和统计假设的区别),检查这些因果假设的逻辑含义,并能够理解您的因果假设+数据是否足以回答您的查询。
卡洛斯·辛纳利

3
Xÿ

4
我认为是这样的:建议您的平均统计学家虽然精通受控实验的因果推理,但似乎并没有混淆因果关系的危险,但是对于观察性因果推理可能有点不稳定,这似乎并不完全不公平。数据。我最后引用的是引语的内容(我还没有读过这本书),这是该帖子的某些读者可能无法接受的内容。
Scortchi

5
@January简而言之,“调整协变量” 并不一定意味着您已经消除了因变量引起的因果效应估计中的偏差。
亚历克西斯

31

我是犹太作家的粉丝,并且读过《因果关系》(爱)和《为什么之书》(如)。

我不认为Judea正在打击统计数据。很难听到批评。但是,对于没有受到批评的任何人或领域,我们能说些什么呢?他们从伟大到自满。您必须问:批评是否正确,必要,有用,是否提出了替代方案?所有这些答案都是强调的“是”。

1个

需要吗 媒体上充斥着看似相互矛盾的有关主要暴露对健康的影响的说法。与数据分析的不一致使证据停滞不前,使我们缺乏有用的政策,医疗程序和改善生活的建议。

有用?犹大的评论恰当而具体,足以让人停下来。它与任何统计学家或数据专家可能会遇到的任何数据分析都直接相关。

是否提出替代方案?是的,Judea实际上讨论了高级统计方法的可能性,甚至讨论了如何将它们简化为已知的统计框架(例如结构方程模型)以及它们与回归模型的联系。归结为要求对指导建模方法的内容知识进行明确声明。

Judea并非只是暗示我们定义所有统计方法(例如回归)。相反,他是说我们需要接受一些因果理论来证明模型的合理性。

1个


3
好答案。请注意,不是统计学家,而是多年来一直从事统计学与生物学之间的联系,对我而言,对统计学家的任何批评确实不那么容易听到;-)但是,您是否真的认为“正统统计学”不能处理因果关系完全如Pearl明确指出的那样?
1

4
@January AU恰恰相反。我认为统计学家在接受因果推理时缺乏分析力,这直接与他们在理解惯常论证方面的缺乏直接相关。缺乏反事实推理。
AdamO

4
+1“的‘调整’的方法包括选择变量,因为它们是从DD钦点为‘有用’,‘相关’,‘重要’或其他的废话,而无需实际结合有关它们之间的具体因果关系正式假设(一拉的DAG的正式使用)。” 编辑已添加。:)
Alexis

评论不作进一步讨论;此对话已转移至聊天
Scortchi

23

我没有读过这本书,所以我只能判断您提供的特定报价。但是,即使以此为基础,我也同意你的看法,这对统计行业来说似乎是极其不公平的。实际上,我认为统计学家在强调统计关联(相关性等)与因果关系之间的区别方面一直做得非常出色,并警告不要将两者混为一谈。实际上,以我的经验,统计学家通常是抵抗因果关系之间普遍存在的混淆的主要专业力量。宣称统计学家“根本不愿谈论因果关系”是完全错误的(甚至是诽谤)。我明白了为什么您会因为阅读如此傲慢的杂物而感到恼火。

我想说的是,对于非统计学家来说这很普遍他们使用统计模型对统计关联和因果关系之间的理解较差。有些人从其他领域接受了良好的科学训练,在这种情况下,他们也许也很清楚这个问题,但是肯定有一些使用统计模型的人对这些问题不太了解。在许多应用科学领域,从业人员都接受了统计学方面的基础培训,但并未深入学习,这是正确的。在这些情况下,通常是专业的统计学家提醒其他研究人员这些概念与其适当关系之间的区别。统计人员通常是RCT和其他涉及隔离因果关系控制的实验的主要设计者。通常会要求他们解释诸如随机,安慰剂,以及其他用于尝试与潜在混淆变量切断关系的协议。的确,统计学家有时会控制超出绝对必要数量的变量,但这很少导致错误(至少以我的经验)。我认为大多数统计学家都知道为了进行因果推断,他们在进行回归分析时混淆了变量对撞变量,即使它们并不总是建立完美的模型,他们以某种方式避免考虑因果关系的想法也简直是荒谬的。

我认为朱迪亚·珀尔(Judea Pearl)在因果关系方面的工作为统计工作做出了非常宝贵的贡献,我感谢他所做的出色贡献。他构建并研究了一些非常有用的形式主义,这些形式主义有助于隔离因果关系,他的工作已成为良好统计教育的主要内容。我读了他的书《因果关系》当我还是研究生时,它在我的书架上,并且在许多其他统计学家的书架上。自从正式将其形式化为代数系统以来,这种形式主义在很大程度上回响了统计学家直觉知道的事情,但是无论如何它都是非常有价值的,并且超出了显而易见的范围。(我实际上认为,在将来,我们将看到“做”运算与概率代数在公理级上的合并,并且这最终可能会成为概率论的核心。我很乐意将其直接构建到统计学教育中,以便在了解概率测度时了解因果模型和“ do”运算。)

这里要记住的最后一件事是,统计学的许多应用中,目标是可预测的,而从业人员并不试图推断因果关系。这些类型的应用程序在统计中极为常见,在这种情况下,重要的是不要将自己局限于因果关系。在金融,人力资源,劳动力建模以及许多其他领域的大多数统计应用中,都是如此。人们不应该低估不能或不希望控制变量的上下文数量。


更新:我注意到我的答案与Carlos提供的答案不同。也许我们不同意什么是“经过定期培训的统计学家/计量经济学家”。我称之为“统计学家”的任何人通常都至少具有研究生水平的教育,并且通常具有大量的专业培训/经验。(例如,在澳大利亚,要成为我们国家专业机构的“合格统计学家”,要求获得荣誉学位后至少需要四年的经验,或者获得常规学士学位后必须至少具有六年的经验。)无论如何,学生学习统计并不是统计员

我注意到,作为据称统计学家缺乏对因果关系的证据,卡洛斯的回答指向CV.SE上的几个问题,这些问题询问回归中的因果关系。在每种情况下,问题都是由显然是新手的人(不是统计学家)提出的,而Carlos和其他人给出的答案(反映正确的解释)则是高度支持的答案。确实,在某些情况下,卡洛斯已详细说明了因果关系,他的回答受到了最高的评价。这无疑证明统计学家确实了解因果关系

其他一些张贴者指出,因果关系分析通常不包括在统计课程中。没错,这是一个很大的耻辱,但是大多数专业统计学家都不是应届毕业生,他们学到的知识远远超出了标准硕士课程的学习范围。再次,在这方面,似乎我对统计学家的平均知识水平有更高的见解。


12
我是一位非统计学家,其统计学的正式培训是由同一领域的非统计学家进行的,并且我与应用统计学的非统计学家进行教学和研究。我可以向您保证,(例如)相关性不是因果关系的原则曾经是并且曾经是我所在领域的一贯口头禅。的确,我没有遇到这样的人:看不到降雨与小麦单产之间的相关性,并不需要说出降雨与小麦单产之间的关系。通常,根据我的经验,很久以来,非统计学家都曾考虑过这一点。
尼克·考克斯

8
作为流行病学家,我越来越被这种口头禅所困扰。就像@NickCox所说的,即使非科学家也明白这一点。我的问题是,当每个人都跳上“关联不等于因果关系”的潮流时,每当发表观察性研究(例如病例对照研究)时。是的,相关性并不意味着因果关系,但是研究人员通常都非常了解这一点,并且会尽一切努力设计和分析研究,使得因果关系的解释至少是合理的。
COOLSerdash

5
@尼克·考克斯(Nick Cox):我经过编辑后更准确地指出,有很多非统计学家对此非常了解。我无意将分散性强加于其他专业上,只是要强调说统计学家对这一问题极为了解。

7
@NickCox Pearl关于因果关系的贡献远不止“关联不是因果关系”。我和卡洛斯在一起。关于因果关系,有足够的知识可以理解,这应该是一个完整的过程。据我了解,大多数统计部门都不提供这种课程。
尼尔·G

12
@Ben:Pearl并不指责统计人员混淆相关性和因果关系。他指责他们大都避免因果推理。我同意你的看法,他的语气傲慢自大,但我认为他有道理。
mitchus

11

简单的线性回归本质上是因果模型

这是我想到的一个示例,其中线性回归模型没有因果关系。比方说,一个先验的是药物在时间0(采取T = 0),并且它具有对心脏在攻击率没有影响 T = 1。在心脏发作t = 1时影响在心脏发作t = 2时(即,先前的损伤使心脏更容易受到损害)。t = 3时的生存率仅取决于人们在t = 2时是否患有心脏病-t = 1时的心脏病发作实际上会影响t = 3时的生存率,但是为了达到这一目的,我们没有箭简单。

这是传说:

DAG传奇

这是真正的因果图: 对撞机偏差

假设我们不知道在t = 1时心脏病发作与在t = 0时服用药物无关,因此我们构建了一个简单的线性回归模型来估计t = 0时该药物对心脏病的影响。在这里,我们的预测变量为Drug t = 0,而我们的结果变量为Heart t = 1。我们仅有的数据是在t = 3生存的人,因此我们将对该数据进行回归。

这是药物t = 0的95%贝叶斯可信区间: 95%可信区间,对撞机偏差

我们看到的大部分概率都大于0,因此看起来有效果!但是,我们先验地知道效果为0。犹大·珀尔(Judea Pearl)等人开发的因果关系数学使我们更容易看到此示例中存在偏差(由于对撞机的后代进行了条件处理)。Judea的工作表明,在这种情况下,我们应该使用完整的数据集(即不要看那些只能幸存的人),这将消除有偏见的道路:

没有偏见

当查看完整的数据集时(即不以生存者为条件),这是95%的可信区间。

95%可信区间,无偏差

它以0为中心,实际上根本没有关联。

在现实生活中,事情可能并非如此简单。可能还有更多的变量可能导致系统性偏差(混杂,选择偏差等)。Pearl分析了要在分析中调整的内容。算法可以建议要调整的变量,甚至可以告诉我们何时调整不足以消除系统偏差。有了这种形式化的理论,我们不需要花费太多时间来讨论要调整什么和不调整什么。我们可以迅速得出关于我们的结果是否正确的结论。我们可以更好地设计实验,可以更轻松地分析观测数据。

这是MiguelHernàn 提供的有关因果DAG在线免费课程。它有许多现实生活中的案例研究,其中教授/科学家/统计学家对眼前的问题得出了相反的结论。其中一些可能看起来像是悖论。但是,您可以通过Judea Pearl的d分隔后门准则轻松解决它们。

作为参考,以下是数据生成过程的代码以及上面显示的可靠间隔的代码:

import numpy as np
import pandas as pd
import statsmodels as sm
import pymc3 as pm
from sklearn.linear_model import LinearRegression

%matplotlib inline

# notice that taking the drug is independent of heart attack at time 1.
# heart_attack_time_1 doesn't "listen" to take_drug_t_0
take_drug_t_0 = np.random.binomial(n=1, p=0.7, size=10000)
heart_attack_time_1 = np.random.binomial(n=1, p=0.4, size=10000)

proba_heart_attack_time_2 = []

# heart_attack_time_1 increases the probability of heart_attack_time_2. Let's say
# it's because it weakens the heart and makes it more susceptible to further
# injuries
# 
# Yet, take_drug_t_0 decreases the probability of heart attacks happening at
# time 2
for drug_t_0, heart_attack_t_1 in zip(take_drug_t_0, heart_attack_time_1):
    if drug_t_0 == 0 and heart_attack_t_1 == 0:
        proba_heart_attack_time_2.append(0.1)
    elif drug_t_0 == 1 and heart_attack_t_1 == 0:
        proba_heart_attack_time_2.append(0.1)
    elif drug_t_0 == 0 and heart_attack_t_1 == 1:
        proba_heart_attack_time_2.append(0.5)
    elif drug_t_0 == 1 and heart_attack_t_1 == 1:
        proba_heart_attack_time_2.append(0.05)

heart_attack_time_2 = np.random.binomial(
    n=2, p=proba_heart_attack_time_2, size=10000
)

# people who've had a heart attack at time 2 are more likely to die by time 3

proba_survive_t_3 = []
for heart_attack_t_2 in heart_attack_time_2:
    if heart_attack_t_2 == 0:
        proba_survive_t_3.append(0.95)
    else:
        proba_survive_t_3.append(0.6)

survive_t_3 = np.random.binomial(
    n=1, p=proba_survive_t_3, size=10000
)

df = pd.DataFrame(
    {
        'survive_t_3': survive_t_3,
        'take_drug_t_0': take_drug_t_0,
        'heart_attack_time_1': heart_attack_time_1,
        'heart_attack_time_2': heart_attack_time_2
    }
)

# we only have access to data of the people who survived
survive_t_3_data = df[
    df['survive_t_3'] == 1
]

survive_t_3_X = survive_t_3_data[['take_drug_t_0']]

lr = LinearRegression()
lr.fit(survive_t_3_X, survive_t_3_data['heart_attack_time_1'])
lr.coef_

with pm.Model() as collider_bias_model_normal:
    alpha = pm.Normal(name='alpha', mu=0, sd=1)
    take_drug_t_0 = pm.Normal(name='take_drug_t_0', mu=0, sd=1)
    summation = alpha + take_drug_t_0 * survive_t_3_data['take_drug_t_0']
    sigma = pm.Exponential('sigma', lam=1)           

    pm.Normal(
        name='observed', 
        mu=summation,
        sd=sigma,
        observed=survive_t_3_data['heart_attack_time_1']
    )

    collider_bias_normal_trace = pm.sample(2000, tune=1000)

pm.plot_posterior(collider_bias_normal_trace['take_drug_t_0'])

with pm.Model() as no_collider_bias_model_normal:
    alpha = pm.Normal(name='alpha', mu=0, sd=1)
    take_drug_t_0 = pm.Normal(name='take_drug_t_0', mu=0, sd=1)
    summation = alpha + take_drug_t_0 * df['take_drug_t_0']
    sigma = pm.Exponential('sigma', lam=1)           

    pm.Normal(
        name='observed', 
        mu=summation,
        sd=sigma,
        observed=df['heart_attack_time_1']
    )

    no_collider_bias_normal_trace = pm.sample(2000, tune=2000)

pm.plot_posterior(no_collider_bias_normal_trace['take_drug_t_0'])

4

有两篇论文(第二篇是经典论文)帮助(我认为)进一步阐明了犹太的观点和更广泛的主题。这是由某人反复使用SEM(相关性和回归)并引起他的批评引起的:

https://www.sciencedirect.com/science/article/pii/S0022103111001466

http://psycnet.apa.org/record/1973-20037-001

从本质上说,论文描述了为什么通常不能将相关模型(回归)视为暗示任何强烈的因果推论。关联的任何模式都可以拟合给定的协方差矩阵(即,未指定方向和/或变量之间的关系)。因此,需要诸如实验设计,反事实主张等之类的东西。甚至当人们对它们的数据具有时间结构,而假定的原因在假定的效果之前及时出现时,这也适用。


1

“ ...因为我们本质上是假设一个变量是原因,另一个是结果(因此相关性与回归建模的方法不同)...”

回归建模绝对不会做这个假设。

“ ...并测试这种因果关系是否可以解释观察到的模式。”

如果您假设因果关系并根据观察结果对其进行验证,那么您正在进行SEM建模,或者Pearl称之为SCM建模。是否要调用统计数据的这一部分尚有待商.。但我认为大多数人都不会称之为古典统计。

我相信,Pearl不会批评一般的统计数据,而只是批评统计学家对解决因果语义的沉默。他认为这是一个严重的问题,因为卡尔·萨根(Carl Sagan)称之为“进出”现象,在该研究中,您放弃了一项研究,指出“肉类消费与性欲增加密切相关,p <.05”,然后他便知道在公众心目中,这两个结果将因果相关。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.