相关与因果关系


19

在Wikipedia页面上标题为“ 相关性”并不表示因果关系

对于任何两个关联事件A和B,不同的可能关系包括:

  1. A导致B(直接因果关系);
  2. B导致A(反向因果关系);
  3. A和B是共同原因的结果,但不会相互导致。
  4. A和B都导致C(显式或隐式)为条件。
  5. A原因B,B原因A(双向或循环因果关系);
  6. A导致C导致B(间接因果关系);
  7. A和B之间没有连接;相关性是巧合。

第四点是什么意思。A和B都导致C,这是(显式或隐式)条件。如果A和B导致C,为什么必须将A和B关联起来。


8
与xkcd相关的强制性文件:xkcd.com/552
Todd Wilcox

2
尽管有这样的说法,我希望相关性和因果关系之间存在高度相关性……
Mehrdad17年


Answers:


18

“条件”是概率论中的一个词:https : //en.wikipedia.org/wiki/Conditional_probability

以C为条件意味着我们仅关注C为真的情况。“含蓄地”意味着我们可能没有明确表明这一限制,有时甚至没有意识到这样做的含义。

关键是,当A和B都导致C时,如果在C为真的情况下观察到A和B之间的相关性,则并不意味着A和B之间存在真实的关系。这只是基于C的条件(可能不情愿)创建人为的关联。

让我们举个例子。

在一个国家中,完全存在两种疾病,完全独立。称呼A:“人患有第一病”,B:“人患有第二病”。假设P P一种=0.1P=0.1

现在,患有这些疾病之一的任何人都只能去看医生。呼叫C:“人们去看医生”。我们有C=一种 要么 

现在让我们计算一些概率:

  • PC=0.19
  • P一种|C=P|C=0.10.190.53
  • P(A and B|C)=0.010.190.053
  • P(A|C)P(B|C)0.28

显然,当以C为条件时,B相距很远。事实上,空调上C,Ñ Ò ABnotA似乎“原因” B

如果使用由医生记录的人员列表作为数据源进行分析,则疾病B之间似乎存在很强的相关性。您可能没有意识到数据源实际上是一个条件。这也称为“选择偏差”。AB


13

第四点是伯克森悖论的一个例子,也称为对撞机条件,也被称为“ 解释性现象”

例如,考虑一个年轻女性,这个年轻女性经常被年轻男性约会,她必须决定接受还是拒绝每个约会提议。年轻人在魅力和魅力上各有不同,让我们假设这两个特征在提出约会的男人中是独立的。自然,年轻女人越倾向于接受约会对象,男人越有魅力。因此,对于这种情况的因果模型可能看起来像:

AttractiveAcceptCharming
也就是说,C h a r m i n g两者都导致A c c e p tAttractiveCharmingAccept,如果女性拒绝或接受约会建议,则其值分别为0或1。 。

AttractiveCharmingAccept=1。现在,假设我告诉您一个男人,那个女人同意和他约会,并且我告诉您,他(在女人看来)根本没有吸引力。好吧,我们知道那个女人无论如何都同意和他约会,所以我们可以合理地推断他确实确实很迷人。相反,如果我们了解到一个约会对象被接受但不迷人的男人,我们可以合理地推断他一定很有吸引力。

Accept=1AttractiveCharmingAccept


5

辛普森悖论伯克森悖论都可以给出“ A和B都导致C的示例,而C显式或隐式地取决于”

例如,假设我有 1000 我收藏的邮票 100 很少(10)和 200 漂亮(20)。如果稀有性与美感之间没有内在联系,那可能会证明20 我的邮票既漂亮又稀有。

如果我现在显示我的 280 有趣的邮票,即稀有或精美的邮票,或两者兼有,稀有度与美感之间将存在明显的负相关关系(20 显示的稀有邮票很漂亮 100 显示的普通邮票相当漂亮)完全是出于对趣味性的考虑。


这是伯克森悖论的一个例子,而不是辛普森悖论(请参阅我的回答)。
杰克·韦斯特伦

@JakeWestfall你可能是对的-我知道我之前在某个地方写过邮票的例子,但忘了在哪里,原来这是伯克森悖论的维基百科页面
Henry

4

该段以“对于任何两个相关事件,A和B,...”开头,因此我猜测是在开始时就假定了相关性。换句话说,不需要将它们同时导致C关联,但是如果将它们关联并且都导致C,则并不意味着它们之间存在因果关系。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.