相关性的非传递性:性别与大脑大小之间以及大脑大小与智商之间的相关性,但性别与智商之间没有相关性


18

我在博客上找到了以下解释,我想获得有关相关性的非传递性的更多信息:

我们有以下不争的事实:

  • 平均而言,男性和女性的大脑容量存在差异
  • 智商与大脑大小之间存在相关性。相关系数为0.33,因此相当于智商变异性的10%

从这些前提1和2看来,逻辑上是这样的:女性平均智商比男性低。但这是谬论!在统计中,相关性不是传递的。证明是,您只需要查看智商测试的结果,即可证明男人和女人的智商平均没有差异。

我想更深入地了解这种相关性。

如果智商与大脑大小之间的相关性是0.9(我知道不是(1)),那么推断女性平均智商比男性低会仍然是谬论吗?

拜托,我不是在这里谈论智商(以及测试的局限性),性别歧视,女性刻板印象,自大等(2)。我只想了解谬论背后的逻辑推理。


(1)据我所知并非如此:尼安德特人的大脑比智人的大脑更大,但并不聪明。

(2)我是一个女人,总的来说,我不认为自己,或者其他女人不如男人聪明,我不在乎智商测试,因为什么才是人们的价值所在,而不是基于人的价值。智力能力。


法语原文

毫无疑问,顽固的杀手iv:

  • 女人与女人之间的差异
  • 气质与体积的关系 相关系数估计为0.33,对应的变量为10%

《预案》第1期和第2期,以“découlerdécouler”的形式进行质问:“ les femmes ont en moyenne un QIinférieuraux hommes”。

Mais c'est une erreur de raisonnement!从统计上看,所有关联都没有和解。拉普里夫(La Preuve),最令人心动的媒体,无意为QI进行测试的人,以及ceux-ci montrent QUE homs et des femmes nediffèrentpas en moyenne。

在此处输入图片说明


5
我完全不了解这些陈述与关联之间有什么关系(在这种情况下,提到“传递性”似乎完全不合适)。毕竟,结论与均值差异有关。该统计信息(这是第一时刻)完全独立于相关性(这是从第二时刻得出的)。即使相关性是完美的也无法基于第一个变量的均值差得出任何关于第二个变量的均值差的结论。±1
ub

5
可以证明(Langford,Schwertman和Owens(2001)),如果平方相关的总和大于1,则正相关是可传递的:ρXY2+ρYX2>1ρXZ>0
CloseToC 2015年

2
@whuber:是的,但这不是关于X和Y的均值(大脑大小和智商)之间的关系的问题,而是关于两个不同聚类中Y的均值之间的关系的问题...我认为这很明显如果大脑大小和智商之间的相关关系是完美的(即智商是大脑大小的线性函数),并且如果男女的平均大脑大小不同,那么男女的平均智商也会不同。
变形虫说恢复莫妮卡

2
@Amoeba谢谢您的解释。报价开始有意义(最终!)。但是将其称为“相关的传递性”太模糊了,以至于坦率地误导了人们。(原始法语中有该词组,所以我们甚至不能怪翻译。)
whuber

3
@amoeba这是合理的。但是我认为您必须花很多时间才能到达那里!引文并没有将性别和大脑大小之间的关系描述为“相关性”,而只是将这两组之间的均值差异(顺便说一句,这不是相关性的标准量度)。但是我想我们应该从广义上将“相关性”理解为“缺乏依赖性”或类似的东西。
ub

Answers:


16

是的,这仍然是一个谬论。

这是一个非常简单的图,显示了四种不同的情况。在每种情况下,红色圆点表示女性,蓝色圆点表示男性,水平轴表示大脑大小,垂直轴表示智商。我生成了所有四个数据集,使得:

  • 男性()和女性(任意单位)的平均大脑大小总是存在相同的差异。这些是总体均值,但是在任何合理的样本量下,这种差异都足以在统计学上具有统计学意义。282228

  • 男女之间的平均智商总是零差异(均为),而性别与智商之间的关联也为零。100

  • 如图所示,大脑大小与智商之间的相关强度有所不同。

相关性

在左上子图中,性别相关性(分别针对男性和女性分别计算,然后取平均值)为,就像您引用的报价一样。在右上子图中,整体相关性(男性和女性在一起)为。请注意,您的报价未指定所指的数字。在左下子图中,性别相关性为,就像您的假设示例中一样;在右下子图中的整体相关性是。0.3 0.33 0.9 0.90.30.30.330.90.9

因此,您可以具有任何相关值,并且是整体计算还是组内计算都没有关系。无论相关系数如何,性别与智商之间的相关性很可能为零,而平均智商中的性别差异则为零。


探索非传递性

让我们按照@kjetil建议的方法探索所有可能性。假设您有三个变量和(不失一般性),假设和之间的相关性是而和之间的相关性是。问题是:和之间的相关性的最小可能正值是多少?有时必须为正,还是总是为零?X 1 X 2> 0 X 2 X 3 b > 0 λ X 1 X 3x1,x2,x3x1x2a>0x2x3b>0λx1x3

相关矩阵为,它必须具有非负行列式,即这意味着必须位于如果两个根都为正,则的最小可能值等于较小的根(并且必须为正!)。如果这两个根之间为零,则可以为零。dË- [R=-λ2+2一个bλ- 一个2+b2-10λ一个b±

R=(1aλa1bλb1)
detR=λ2+2abλ(a2+b21)0,
λλλλ
ab±(1a2)(1b2).
λλλ

我们可以通过数值求解,并针对不同的和绘制的最小可能正值:一个bλab

探索非传递性

非正式地,我们可以说,如果给定和,则相关性是可传递的,可以得出结论。我们看到,对于大多数值和,可以为零,这意味着相关性是不可传递的。但是,对于和一些足够高的值,相关性必须为正,这意味着毕竟存在“某种程度的传递性”,但仅限于非常高的相关性。注意,相关性和都必须很高。b > 0 λ > 0 一个b λ 一个b λ 一个ba>0b>0λ>0abλabλ ab

我们可以计算出这种“传递性”的精确条件:如上所述,较小的根应该为正,即,即等效于。这是一个圆的方程!确实,如果您看一下上图,您会注意到蓝色区域形成了四分之一圆。a2+b2>1ab(1a2)(1b2)>0a2+b2>1

在您的特定示例中,性别与大脑大小之间的相关性非常中等(也许),而大脑大小与智商之间的相关性是,它牢固地位于蓝色区域()内表示可以为正,负或零。b = 0.33 一个2 + b 2 < 1个λa=0.5b=0.33a2+b2<1λ


原始研究的相关数据

您想避免讨论性别和大脑,但是我不禁指出,从原始文章(Gur等人,1999年)的全部数字来看,人们可以看到,尽管语言智商得分没有性别差异,但是空间智商得分明显不同!比较子图D和F。

古尔等。


2
我喜欢你产生的那些情节。
从报纸上

1
@AleksandrBlekh:说实话,我不确定。“热图”?“轮廓图”但有色且没有轮廓?
变形虫说莫妮卡(Monica)恢复2015年

2
谢谢。它在一起。但请允许我指出:(1)在第一组图中,您并未真正证明与性别的相关性为零;(2)最后,尽管您讨论了相关性的“传递性”,但您尚未解释该短语的含义。它当然不具有传递关系的通常数学含义,因此有必要进行一些说明。(最后,顺便说一句,您似乎正在讨论而不是。换句话说,您分析的是绝对相关而不是相关本身。)λ|λ|λ
whuber

1
@whuber:非常好的发言,谢谢。(1)实际上,与性别的相关性在构造上是零!我想我应该更改该数字以报告总体相关性而不是样本相关性。在我自己生成数据时,我可以完全控制总体参数。(2)通过传递性,我非正式地表示和之间以及和之间的正相关意味着和之间的正相关。我的观点是,这通常是错误的,但对于足够强的相关性却是正确的。我会编辑。(3)如果和均为则。ÿ ÿ ž X Ž 一个b 0xyyzxzab0λ0
变形虫说恢复莫妮卡2015年

1
感谢变形虫这个冗长而详细的答案(甚至添加了额外的内容,顺便说一句非常受欢迎)!它使事情变得清晰起来!我的统计未经训练的大脑很难理解这个概念,而您却掩盖了这个问题!非常感谢您花费时间发布您的答案!
MagTun 2015年

8

让我们将和为与两者相关的其他变量(例如大脑体积)。让我们假设 最小的是什么可能值?相关矩阵必须是正半定的,因此其行列式必须是非负的。可以利用它来产生不平等。让我们尝试: 相关矩阵为 然后我们可以计算行列式x1=IQ,x2=genderx3λ - [R =

cor(x1,x2)=λ,cor(x1,x3)=cor(x2,x3)=ρ=0.9
λ
R=(1λρλ1ρρρ1)
ρ通过沿第一行扩展: 导致不等式。值导致。
detR=1(1ρ2)λ(λρ2)+ρ(λρρ)=1λ22ρ2+2λρ20,
ρ2λ+12ρ=0.9λ0.62

更新:

为了回应评论,我对上述答案做了一些更新。现在,我们能做什么呢?根据以上计算,智商与大脑容量之间的相关性为0.9(远大于经验值)。然后,性别与智商之间的相关性必须至少为0.62。这意味着什么?在评论中,有人说这并不意味着有关性别之间的平均差异。但是那不可能是真的!是的,对于正态分布变量,我们可以分配相关性和均值,而无需相关性。但性别是零一个变量,用于这种可变存在相关和平均差异之间的关系。具体来说,智商是(例如)正态分布的,而性别是离散的,零一。让我们假设其平均值p=0.5(实际上)。那么(说)正相关意味着如果智商更高,性别往往会“更高”(即一个)。没有均等的差异就不可能发生!让我们进行代数:首先,为了简化代数,让我们将IQ的中心值设为零而不是通常的100。这不会改变任何相关性或均值差。令和。对于这意味着因为。我们有而是Bernoulli,。μ1=E(x1|x2=1)μ0=E(x1|x2=0)μ=E(x1)μ=0=μ1+μ0μ0=μ1x1N(μ=0,σ2)x2p=1/2

corr(x1,x2)=E(x1μ)E(x2p)σ12=Δ2σ
,其中。在通常值(对于IQ而言)情况下,相关系数等于。因此,相关系数为0.62意味着智商差异为12.4。因此,声称相关性的海报包含Δ=μ1μ0=2μ1σ=10Δ/20关于智商均值差的信息是错误的!如果性别是一个连续变量,那确实是事实,但事实并非如此。请注意,这一事实与以下事实有关:对于二项式分布,方差是均值的函数(必须如此,因为只有一个自由参数可以变化)。上面我们所做的实际上是将其扩展到协方差/相关。

但是,根据OP,的真实值。然后,不等式变为,因此是可能的值。因此,在真实情况下,无法从智商与大脑容量之间的相关性得出关于智商平均差异的结论。ρ=0.33λ0.7822λ=0


1
以及帮助我们推论(尽管很容易出错)?我在这里缺少基本的东西吗?cor(x1,x2)0.62E(x1)E(x2)
2015年

5
+1-但我发现男女智商之间的相关性概念有些令人困惑,因为您永远无法计算出这样的值。
安迪W

1
男女智商之间的相关性应该是什么意思?
变形虫说恢复莫妮卡

是的,@ amoeba对!我可能没有使用正确的词来表达自己的困惑(这很困难,因为我不习惯统计),但变量的确是性别,智商和大脑大小。
MagTun 2015年

7

在这种情况下,我喜欢使用路径图说明直接影响和间接影响,以及这两种情况如何影响整体相关性。

根据原始描述,下面有一个相关矩阵。大脑大小与智商相关性约为0.3,女性和智商彼此相关性为0。我填写的女性和大脑体积之间的负相关性为-0.3(如果我猜这是很多比小,但是这将成为用于说明目的)。

       Brain  Female  IQ
 Brain   1
Female  -0.3    1
    IQ   0.3    0      1

如果我们拟合一个回归模型,其中智商是大脑大小的函数并且是女性,我们可以通过路径图说明这一点。我在箭头上填写了部分回归系数,B节点代表大脑大小,F节点代表女性。

在此处输入图片说明

现在这是多么疯狂-在控制大脑大小时,鉴于这些相关性,女性与智商呈正相关。为什么当边际相关性为零时呢?根据带有线性路径图的规则(Wright,1934年),我们可以在控制大脑大小和间接影响时将边际相关性分解为直接影响的函数:

TotalF,IQ=DirectF,IQ+IndirectF,B,IQ

在此表示法。因此,根据原始定义,我们知道总效果为零。所以现在我们只需要弄清楚直接作用和间接作用。在此图中,间接影响只是跟随另一个通过大脑大小从雌性到智商的箭头,这是雌性和大脑大小的相关性乘以大脑大小和智商的部分相关性TotalF,IQ=Cor(F,IQ)

IndirectF,B,IQ=Cor(F,B)Cor(B,IQ|F)0.099=0.30.33

因为总效果为零,所以我们知道直接效果必须完全是间接效果的正负号和大小,因此在此示例中,直接效果等于0.099。现在,在评估女性的期望智商时,我们遇到一种情况,我们会得到两个不同的答案,尽管可能不是您最初指定问题时所期望的答案。当简单地评估女性与男性的边际期望智商时,您定义的差异为零(相关系数为零)。在评估以大脑大小为条件的预期差异时,女性的智商要高于男性。

给定kjetil在他的答案中显示的限制,您可以在此示例中插入大脑大小和智商之间的较大相关性(或女性和大脑大小之间的较小相关性)。前者的增加使得有条件的智商在男女之间的差距更大,有利于妇女,而后者的减小使差异变小了。


如果您查看提供的图片,它表明女性的大脑容量与智商呈正相关(并且比男性强)。
Alecos Papadopoulos

1
@Andy W我很as愧地问这个愚蠢的问题,但是您使用什么软件绘制了节点图?

1
在inkscape @mugen中这是一项快速的工作。花更多的时间,我认为使用Latex和Tikz制作的效果更好。
安迪W

+1您能否指出第二个公式背后的理论?
Aleksandr Blekh 2015年

2
@AleksandrBlekh-我引用的赖特论文是开创性的资料。尽管有更简单的方法,但朱迪亚·珀尔(Judea Pearl)在其因果关系书中进行了更广泛的评论。(对于线性模型,通常在结构方程模型书籍中对分解进行粗略的处理。)
Andy W

3

为了提供纯抽象的数学答案,请表示脑体积和 IQ指数。使用索引男性,使用索引女性。让我们假设以下事实:vq12

(1)E(v1)>E(v2)=βE(v1),0<β<1,ρ(v1,q1)>0,ρ(v2,q2)>0

请注意,虽然引用的文本通常谈论“大脑容量和智商之间的相关性”,但是提供的图像与两条趋势线有所区别(即,它分别显示了两个子组的相关性)。因此,我们将它们分开考虑(这是正确的方法)。

然后

ρ(v1,q1)>0Cov(v1,q1)>0E(v1q1)>E(v1)E(q1)

(2)E(v1q1)E(q1)>E(v1)

ρ(v2,q2)>0Cov(v2,q2)>0E(v2q2)>E(v2)E(q2)

(3)E(v2q2)βE(q2)>E(v1)

以上获得的不等式是否需要?E(q1)>E(q2)

要进行相反的检查,请假设(4)E(q1)=E(q2)=q¯

那么一定是这样

(5)(2),(4)E(v1q1)q¯>E(v1)

然后

(6)(3),(4)E(v2q2)βq¯>E(v1)

嗯,当然可以是这样的,即不等式和在同一时间举行,所以“平均智商平等”是与最初的假设,我们把事实作为完美兼容。 实际上,很可能发生的情况是,对于的相同事实,我们的女性平均智商可能高于男性。6 1 (5)(6)
(1)

换句话说,式的相关假设/事实根本没有对平均智商之间的关系施加任何约束。和之间的所有可能关系都可以成立,并与的假设兼容。E q 1E q 21 (1)E(q1)E(q2)(1)


2
尽管这里显示了所有计算结果,但我仍然看不到相关性如何揭示关于均值之间关系的任何信息(或施加任何约束)。
ub

@whuber整个答案是关于证明事实并非如此。最后一句话恰好说明了这一点。让我们再添加一个效果。
Alecos Papadopoulos

但这绝对是基本的:不需要一整页的方程来显示它!足以观察到相关系数是位置不变的QED。我在误解这个问题吗?
whuber

1
@whuber受到所有应有的尊重,对任何人都没有冒犯,但我担心您在“误解” OP的知识水平。否则,该问题将不会发布。
Alecos Papadopoulos

4
然后,我鼓励您思考一下,是否以及如何严重依赖数学方程式的答复适合于解决那些似乎要求对基本概念进行基本说明的发帖人。这是一个微妙的问题,因为有时这是正确的方法。此外,人们使用数学的程度以及人们如何阐述数学思想都可能是个人喜好问题。但是恕我直言,这种回答只有在数学清晰并且始终如一地专注于基本思想时才有效。
whuber
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.