关联并不表示因果关系,因为可能有很多解释。但是因果关系是否暗示相关性?凭直觉,我认为因果关系的存在必然意味着一定的相关性。但是我的直觉并不总是在统计学上对我有用。因果关系暗示吗?
关联并不表示因果关系,因为可能有很多解释。但是因果关系是否暗示相关性?凭直觉,我认为因果关系的存在必然意味着一定的相关性。但是我的直觉并不总是在统计学上对我有用。因果关系暗示吗?
Answers:
如以上许多答案所述,因果关系并不意味着线性相关。由于许多相关性概念来自严重依赖线性统计的领域,因此通常将相关性视为等于线性相关性。在维基百科的文章是这样一个正常的来源,我真的很喜欢这个形象:
看一下底行中的一些图形,例如第四个示例中的抛物线形状。这就是@StasK答案中发生的事情(添加了一点噪音)。Y可能完全由X引起,但是如果数值关系不是线性和对称的,则相关性仍为0。
您要查找的词是相互信息:这是相关性的一般非线性版本。在这种情况下,您的说法将是正确的:因果关系意味着相互之间的信息高度一致。
严格的答案是“不,因果关系不一定意味着相关性”。
考虑和。因果关系没有得到任何更强:决定。然而,和之间的相关性为0。证明:这些变量的(共同)矩为: ; ; 使用标准正态分布的特性是它的奇数矩都等于零(例如,可以很容易地从其矩生成函数中得出)。因此,相关性等于零。ÿ = X 2〜χ 2 1 X ý X ÿ ë [ X ] = 0 ë [ ÿ ] = ë [ X 2 ] = 1 c ^ ö v [ X ,ÿ ] = ë [ (X - 0 )(Y - 1 )] =
为了解决一些评论:该参数起作用的唯一原因是因为的分布以零为中心,并且围绕0对称。实际上,具有这些特性的任何其他分布将有足够的矩数会起作用代替,例如,在均匀的或拉普拉斯。过于简单的说法是,对于每一个正值,有一个同样有可能负值相同幅度的,所以当你方的,你不能说的更大的值与更大或更小值相关联的。但是,如果您说,则,,和。这是完全合理的:对于每个值都小于零的值,值很有可能大于零,因此的较大值与较大值相关联。(后者具有非中心分布;如果您感兴趣,可以从Wikipedia页面提取方差并计算相关性。)X - X X ÿ χ 2
本质上是。
关联不表示因果关系,因为可能有其他原因导致的关联解释。但是为了使A成为B的原因,它们必须以某种方式关联。意味着它们之间存在相关性-尽管相关性不一定是线性的。
正如一些评论者所建议的那样,使用“依赖”或“关联”之类的术语而不是关联可能更合适。尽管正如我在评论中所提到的那样,我已经看到“相关并不意味着因果关系”,远远超出了简单的线性相关性,因此,从本质上讲,我已经将“相关性”扩展到了A和B之间的关联。
考虑以下因果模型:
现在让:
简而言之,我会说:(i)因果关系表明依赖;但是(ii)依赖关系是功能/结构依赖关系,它可能会或可能不会转化为您正在考虑的特定统计依赖关系。
除非原因的发生率和大小完全没有变化,并且因果力没有任何变化,否则原因和结果将是相关的。唯一的其他可能性是,原因是否与另一个因果变量完全相关,而结果却恰好相反。基本上,这些都是思想实验条件。在现实世界中,因果关系将以某种形式暗示依赖性(尽管可能不是线性相关)。
这里有很好的答案。Artem Kaznatcheev,Fomite和Peter Flom指出,因果关系通常意味着依赖而不是线性相关。Carlos Cinelli给出了一个示例,其中没有依赖关系,因为生成函数是如何设置的。
我想补充一点,在您可能很好地使用的各种数据集中,这种依赖关系如何在实践中消失。像卡洛斯的例子那样的情况不仅限于“思想实验条件”。
在自我调节过程中,依赖性消失了。例如,动态平衡可确保您的体内温度与室温无关。外部热量会直接影响您的体温,但同时也会影响身体的冷却系统(例如出汗),从而使体温保持稳定。如果我们以极快的时间间隔对温度进行采样并使用非常精确的测量,我们就有机会观察因果关系,但是在正常采样率下,体温和外部温度似乎是独立的。
自调节过程在生物系统中很常见。它们是由进化产生的。无法调节体温的哺乳动物可以通过自然选择去除。研究生物学数据的研究人员应注意,因果关系可能会在其数据集中消失。