如果相关性并不意味着因果关系,那么知道两个变量之间的相关性有什么价值?


11

假设某位企业主(或市场营销人员或了解散点图的任何人)显示了两个变量的散点图:过去5年(或其他时间范围)的广告数量与每月产品销售数量的比较还有更多样本。我只是制作了一个)。

现在,他/她看到了散点图,并被告知相关系数(corr)为:

  1. 1或
  2. 0.5或
  3. 0.11或
  4. 0或
  5. -0.75或
  6. -1

基本上任何有效值 corr

问题:这甚至对散点图的决策者或任何消费者意味着什么?仅以此为基础就可以做出哪些决定?

即:看到任何两个变量之间的相关性有什么用?一个人可以孤立地处理这些信息吗?仅仅是看什么而不考虑将其包括在回归分析中还是有更实际的用途?

很好奇,我一直都在使用这种技术,但是有人告诉我,关联本身并没有多大用处-那么“ IS”有什么用?

Answers:


12

一些想法:

  • 关于相关性不是因果关系的陈词滥调只是故事的一半。相关性可能不是因果关系,但是两个变量之间某种形式的关联是显示因果关系的必经步骤,而相关性可以帮助表明这一点。
  • 它有助于指出趋势。展示给企业主,他们可能会说:“是的,这很有意义,您会看到Widget X和Widget Y最终都被特定的人群使用,即使它们之间并没有真正的联系。或者他们可能会说“很奇怪”,这时您提示需要进一步调查。
  • 这样看。关联是一种工具。锤子本身并没有那么有用。当然,它本身不会盖房子。但你可曾试图建立一个房子没有锤子?

5
在您的第一个项目符号中,您说关联是因果关系的必要条件-事实并非如此。如果两个变量之间存在非单调关系,则它们可能不相关-这并不排除因果关系。

@Macro -真实,和编辑
传染体

@Macro True,但实际上,您可以将函数应用于变量以使要测试的关系单调。如果您不了解此功能,那么...您对所需的信息不了解
RockScience 2011年

@EpiGrad:假定两个变量的XY相关图看起来像是一个开心的笑脸(或其他任何形状)。相关系数实际上会很小,但是肯定会有一些相互关系,对吗?在这种情况下应该如何/做什么?
博士

@Nupul除了线性以外,还对XY进行了更为复杂的探索。
Fomite

7

从赌博的角度来看它。假设我们知道,平均来说,穿着工作靴上班的人在工作中会受到1.5的伤害,而穿着便鞋的人平均在工作中将受到0.05的伤害。或者,也许穿着工作靴的人受伤的机会是0.85,而穿着便鞋的人受伤的机会是1.。

如果我从人群中随机选择一个人,并告诉您该人穿着工作靴,并就您去年是否因工作场所受伤而向您提供均匀的赌注,您会打赌吗?好吧,如果您能够打赌他们受伤了,那您就打赌。85%的时间您会赢,甚至可以赚钱。

关键是,知道那条信息可以为我们提供有关它们是否可能在工作中受到伤害的信息。。鞋子与鞋子无关,实际上,工作靴可以防止受伤。。但是这里令人困惑的变量是工作靴所伴随的工作类型。也许其他事情,例如人可能更鲁ck。


6

短语“相关并不意味着因果关系”被夸大了。(正如科恩(Cohen)所写,“这真是一个巨大的暗示”。)由于人类心灵固有的偏见,我们把这句话打成学生。当您听到“犯罪率与贫困率相关”之类的信息时,您不禁会认为这是贫困导致犯罪的原因。人们自然会假设这一点,因为这就是思维的方式。我们一遍又一遍地使用这个短语,以期消除这种情况。但是,一旦您吸收了这个主意,该词便失去了其大部分价值,现在是时候进行更深入的了解了。

当两个变量之间存在相关性时,就有两种可能性:全部是巧合,或者工作中存在某种因果关系。将世界上的模式称为巧合是一个糟糕的解释框架,应该是您的最后选择。留下因果关系。问题在于我们不了解这种因果模式的性质。贫穷很可能导致犯罪,但也可能是犯罪导致贫穷(例如,人们不想生活在高犯罪率地区,因此他们搬出去,财产价值下降,等等)。也可能有一些导致犯罪和贫困的第三变量或第三组变量,但实际上没有 直接变量。犯罪与贫困之间的因果关系(称为“共同原因”模型)。这是特别有害的,因为在统计模型中,所有其他变化来源都被归入因变量的误差项中。结果,自变量与误差项相关(由其引起),从而导致内生性问题。这些问题非常困难,不应掉以轻心。尽管如此,即使在这种情况下,也必须认识到工作中存在真正的因果关系。

简而言之,当您看到相关性时,您应该认为某个地方可能存在某种因果关系,但您不知道该因果关系模式的本质。


4

我以为我对这些事情很了解,但是直到上个月我才在字典中“暗含”地查找,发现它具有两种截然不同的含义。1.建议和2.必要。(!)很少需要因果关系,但肯定可以提出因果关系。正如@EpiGrad指出的那样,这是建立因果关系的必要条件,但还不够充分。

随着时间的流逝,人们希望在将关联视为最终事物和完全无用之间找到中间立场。在解释相关结果时,要考虑到特定于主题/领域/内容的知识。很少有人会怀疑看到您描述的广告销售结果时至少存在某种因果关系。但是对其他可能性,其他可能至少部分解释所观察到的关系的变量持开放态度总是好事。有关变量,有效性等混杂因素的读物获得了丰厚的回报。例如,库克和坎贝尔的旧经典准实验在有效性和对有效性的威胁方面有很好的论述。


1
正如我向@EpiGrad指出的那样,关联不是因果关系的必要条件。数据分析中有一个广泛的概念,即变量之间的关系总是指单调关系,这是通过暗示关联是因果关系的必要条件而默认的。

1
很公平。那么说“统计关联”是必要的。
rolando2

2

如果您想知道X的值对Y的值有多大的了解,则相关系数和其他关联度量一样有用。这与知道是否将X设置为特定值不同,这是有用的。您将获得的Y值(这是因果关系的反事实解释的本质)。

然而,在许多情况下(例如预测),基于相关性的推理本身就很有价值。黄牙与肺癌相关(因为它们都是由癌症引起的)。两者之间没有因果关系:牙齿增白不能治愈肺癌。但是,如果您需要对可能患有肺癌的人进行快速筛查,那么第一步就是检查黄牙。

相关系数是否是最佳的关联度量是一个不同的问题,但我认为问题更多是关于了解非因果关联的价值是什么。

顺便说一句,不仅相关性不足以证明因果关系,而且也没有必要。两个变量可以因果相关,但在任何特定数据集中均不显示相关性(例如,由于选择偏见或混杂因素)。


1

关联本身并没有多大用处-那么“ IS”有什么用?

让我不同意这个短语,相关让我们知道2个变量之间的关联程度。然后,在尝试解释此类变量之间的关系时很有用。另一方面,(如Macro所写),关联不是因果关系的必要条件,但是,足以说明关联的级别。此外,您可以测试变量的独立性,但是相关性可以为您提供另一个有用的信息,即确定系数。

不过,分析人员必须知道领域才能解释这种关系。


我不确定您的意思是什么:Furthermore, you can test the independence of the variables, but correlation can give you another useful information, the coefficient of determination
博士

我的意思是:“您可以测试变量的独立性”,但是无论如何,即使不测试独立性,相关性信息和系数。确定性是“有用的”,以理解和解释变量之间的关系。
Jose Zubcoff 2011年

1

我认为数据收集和研究设计也可能在回答这个问题上起作用。即使在观察性研究中,您也不会设计研究并收集彼此完全不相关的数据集。因此,“相关性并不意味着因果关系”可能是合理的。即使不是因果关系,也可能存在关联。

但是,如果您谈论的是两个完全不相关的数据集,但是您仍然想使用相关性来解释关联和因果关系,那么可能不合适。例如,如果两个数据集都具有下降趋势(例如冰淇淋销售和结婚次数),则相关系数可能会很高。但是,有必要意味着一种联系吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.