两个变量的总和如何比单个变量解释更多的方差?


13

当两个预测变量负相关时,我得到的总和与第三个变量的相关性令人困惑。是什么导致这些令人困惑的结果?

示例1:两个变量的总和与第三个变量之间的相关性

考虑Guildford 1965年文本第427页的公式16.23,如下所示。

困惑的发现:如果两个变量都将.3与第三个变量相关联,并且将-.7彼此相关联,则公式得出的值为.52。如果两个变量各自仅与第三个变量相关联为0.2,那么总和与第三个变量的相关性如何为0.52?

示例2:两个变量和第三个变量之间的多重相关性是什么?

考虑Guildford 1965年文本的404页上的公式16.1(如下所示)。

令人困惑的发现:情况相同。如果两个变量都将.3与第三个变量相关联,并将-.7彼此相关联,则公式得出的值为.52。如果两个变量各自仅与第三个变量相关联为0.2,那么总和与第三个变量的相关性如何为0.52?

我尝试了一个快速的蒙特卡洛模拟,它证实了吉尔福德公式的结果。

但是,如果两个预测变量各自预测第三个变量的方差的4%,那么它们之和如何能预测1/3的方差?

两个变量之和与第三个变量的相关性 两个变量与第三个变量的多重相关

资料来源:《心理学和教育基础统计学》,第四版,1965年。

澄清说明

我正在处理的情况涉及基于现在衡量个人能力来预测他们的未来表现。

下面的两个维恩图显示了我对情况的理解,旨在澄清我的困惑。

该维恩图(图1)反映了x1和C之间的零阶r = .2。在我的领域中,有许多这样的预测变量可以适度地预测标准。

图。1

该维恩图(图2)反映了两个这样的预测变量x1和x2,每个预测变量在r = .2时预测C,并且两个预测变量呈负相关,r =-。7。

图2

我不知所措,无法想象两个r = .2预测变量之间的关系,可以使它们一起预测C的25%的方差。

我寻求帮助来了解x1,x2和C之间的关系。

如果(有人回答我的问题建议)x2充当x1的抑制变量,那么第二维恩图中的哪个区域被抑制?

如果有一个具体的例子会有所帮助,我们可以认为x1和x2是两个人的能力,而C是四年后的四年制大学GPA。

我在设想抑制器变量如何导致两个r = .2零阶r的8%解释方差扩大并解释C的25%方差时遇到了麻烦。一个具体的示例将是一个非常有用的答案。


统计数据中有一条古老的经验法则,即一组独立变量之和的方差等于它们的方差之和。
Mike Hunter

@DJohnson。您的评论与所提问题有何关系?
Joel W.

抱歉,我不明白这个问题。对我来说,它之间的关系很明显。此外,这条评论既没有资格获得赏金,也不需要更深入的阐述。
Mike Hunter

1
@DJohnson。您的评论与所提问题有何关系?对我来说,它之间的关系并不明显。
Joel W.

2
您有关N视图的含义的问题可能会在Meta CV网站上得到更好的答复。
mdewey

Answers:


3

当两个预测变量都包含较大的扰动因子但符号相反时,可能会发生这种情况,因此,将它们相加时,扰动就会抵消,从而使您更接近第三个变量。

让我们用一个更极端的例子来说明。假设是独立的标准正态随机变量。现在让X,YN(0,1)

A=X

B=X+0.00001Y

假设恰好是您的第三个变量,是您的两个预测变量,而是您一无所知的潜在变量。A与Y的相关性为0,B与Y的相关性非常小,接近0.00001。*但是与的相关性为1。A B X A + B YYA,BXA+BY

*对于B的标准偏差略大于1.有微小修正。


社会科学中是否曾出现过这种情况?
乔尔·

1
用社会科学术语来说,这基本上只是一种强效,以某种特定方式将弱效混为一谈。我不是社会科学专家,但我无法想象很难找到一个例子。
Paul

除了物理科学之外,您还有其他例子吗?
Joel W.

您描述的关系可以在维恩图中显示吗?
Joel W.

我个人不会在这里找到维恩图,但如果需要的话,我会把B画成一个矩形,然后将其分成两个子矩形,一个大的胖A和一个瘦的一个Y。将A和B求和为抵消掉大部分A,剩下微小的Y。–
Paul

10

将这三个变量视为其他不相关变量的线性组合可能会有所帮助。 为了提高我们的洞察力,我们可以对它们进行几何描绘,与它们进行代数运算,并根据需要提供统计描述。

想想,那么,三不相关的零均值,单位方差的变量,,和。从这些构造如下:Ÿ žXYZ

U=X,V=(7X+51Y)/10;W=(3X+17Y+55Z)/75.

几何解释

下图是您了解这些变量之间的关系所需的全部信息。

数字

此伪3D图显示了坐标系中的,,和向量之间的角度反映了它们的相关性(相关系数是角度的余弦值)。和之间的较大负相关关系反映在它们之间的钝角上。和与的小的正相关关系反映在它们的垂直度上。但是,和的总和直接位于正下方V W U + V X Y Z U V U V W U V WUVWU+VX,Y,ZUVUVWUVW,形成一个锐角(大约45度):存在出乎意料的高正相关。


代数计算

对于那些想要更严格的人,这里是代数,以备份图形中的几何。

所有这些平方根都位于其中,以使,和也具有单位方差:使得计算它们的相关性变得容易,因为相关性将等于协方差。因此VUVW

Cor(U,V)=Cov(U,V)=E(UV)=E(51XY7X2)/10=7/10=0.7

因为和不相关。同样,XY

Cor(U,W)=3/75=1/5=0.2

Cor(V,W)=(73+1517)/(1075)=1/5=0.2.

最后,

Cor(U+V,W)=Cov(U+V,W)Var(U+V)Var(W)=1/5+1/5Var(U)+Var(V)+2Cov(U,V)=2/51+12(7/10)=2/53/50.5164.

因此,这三个变量确实具有所需的相关性。


统计说明

现在我们可以看到为什么一切都会如此:

  • U和的负相关性很强,为这是因为与的负值成正比,加上的小倍数形式的一点“噪声” 。V7/10VUY

  • U和具有弱正相关性,因为包括一小部分,再加上和的倍数形式的大量噪声。W1/5WUYZ

  • V和具有弱正相关性,因为(当乘以,不会改变任何相关性)是三件事的总和:W1/5W75

    • 17Y,它与正相关;V
    • 3X,它与的相关性降低了整体相关性;V
    • 的倍数会引入很多噪声。Z
  • 不过,与正相关,因为它是不包括的那部分的倍数。WWZU+V=(3X+51Y)/10=3/100(3X+17Y)WWZ


有没有办法在维恩图中显示这一点?尽管有数学运算,但当两个变量之和预测了三个变量的方差的4%时,我仍然看不到两个变量之和的逻辑解释了第三个变量的25%以上的方差。仅将两个变量相加,如何将8%的解释方差变成25%的解释方差?
Joel W.

另外,这种奇怪现象有实际应用吗?
Joel W.

如果维恩图不适合表示解释的方差,您能告诉我为什么它不适合吗?
Joel W.

@JoelW。很好的答案是关于为什么维恩图不能胜任
Jake Westfall

乔恩·科恩(Cohen)使用了一个类似于维恩的图表,称为“ Ballantine”,用于分析方差。例如,请参阅ww2.amstat.org/publications/jse/v10n1/kennedy.html。至于实际应用中去,你应该是问相反的问题:什么样的应用方差和方差分解是实用?
ub

5

另一个简单的例子:

  • zN(0,1)
  • x1N(0,1)
  • 令(因此)x2=zx1z=x1+x2

然后:

  • Corr(z,x1)=0
  • Corr(z,x2).7
  • Corr(z,x1+x2)=1

从几何上讲,正在发生的事情就像在WHuber的图形中一样。从概念上讲,它可能看起来像这样: 在此处输入图片说明

(在您的数学职业的某个时刻,了解随机变量是向量,是内积,因此相关性是两个随机变量之间的角度的余弦值,可能会很有启发性。)E[XY]

x1和不相关,因此它们是正交的。令表示两个向量之间的角度。zθ

  • Corr(z,x1)=cosθzx1=0θz,x1=π2
  • Corr(z,x2)=cosθzx2.7θz,x2=π4
  • Corr(z,x1+x2)=cosθz,x1+x2=1θz,x1+x2=0

要加入Flounderer的评论注释中的讨论,可以将视为某个信号,将视为某些噪声,将有噪声的信号视为信号与噪声。将添加到等效于从噪声信号减去噪声。x 1 x 2 z x 1zx1x2zx1x1x2x1x2


(+1)好例子!
user795305

请说明您回答的前提。假定z = x1 + x2后,为什么说“ then Corr(z,x1)= 0”?您是说Corr(z,x1)= 0是从您的第一个Let语句得出的,还是零相关是另一个假设?如果是附加假设,那么原始问题中的情况为什么需要附加假设?
Joel W.

@JoelW。我说是遵循标准正态分布的随机变量,而是也遵循标准正态分布的独立随机变量。和是独立的,因此它们的相关度恰好为0。然后计算并将其称为。zx1zx1zx1x2
马修·冈恩

@MatthewGunn。您的第三个Let表示z = x1 + x2。这似乎违反了您的前两个说法,那就是说z和x1是独立的。
Joel W.

1
@JoelW。我不同意,因为该说法不正确。看到并不意味着和之间的独立性。z=x1+x2zx1
马修·冈恩

3

解决您的评论:

尽管有数学运算,但当两个变量之和预测了三个变量的方差的4%时,我仍然看不到两个变量之和的逻辑解释了第三个变量的25%以上的方差。仅将两个变量相加,如何将8%的解释方差变成25%的解释方差?

这里的问题似乎是术语“解释了方差”。就像统计中的许多术语一样,选择它的目的是使其听起来比实际意义更重要。

这是一个简单的数值示例。假设某些变量具有值Y

y=(6,7,4,8,9,6,6,3,5,10)

和是小倍数加上一些错误。假设的值比的值大得多。UYRRY

r=(20,80,100,90,50,70,40,30,40,60)

并且,因此U=R+0.1Y

u=(19.4,79.3,100.4,90.8,50.9,70.6,40.6,30.3,40.5,61.0)

并假设另一变量使得V=R+0.1Y

v=(20.6,80.7,99.6,89.2,49.1,69.4,39.4,29.7,39.5,59.0)

然后,和与相关性很小,但是如果将它们加在一起,则对数将精确地为,与完美相关。V ÿ ř 0.2 ÿ ÿUVYr0.2YY

用方差解释,这是很合理的。解释方差的比例很小因为大多数的方差是由于。同样,大多数方差是由于引起的。但是解释了所有方差。这是每个变量的图:U U R V R Y U + VYUURVRYU+V

每个变量的图

但是,当您尝试在另一个方向上使用术语“解释的方差”时,会造成混淆。这是因为说某事“解释”某事是一种单向关系(有很强的因果关系)。在日常语言中,可以解释不解释。教科书的作者似乎借用了“解释”一词来谈论相关性,希望人们不会意识到共享方差成分与“解释”实际上并不相同。B B AABBA


@ naught101创建了一些图来说明您的变量,Flounderer。您可能想看看是否包括它们对您有吸引力。
gung-恢复莫妮卡

当然,可以根据自己的喜好进行编辑。我实际上无法在工作中查看imgur,但我敢肯定会很好!
Flounderer

我拒绝了这个建议,因为没有发现他曾在这里与您联系。不过,您可以通过转到建议的编辑队列来批准它。
gung-恢复莫妮卡

如果精心设计,您提供的示例很有趣,但是我提出的情况更为笼统(数字未精心选择),并且基于2个变量N(0,1)。即使我们将术语从“解释”更改为“共享”,问题仍然存在。如何将两个随机变量(每个变量与第三个变量具有4%的共享方差)组合为一个简单的总和,根据公式,该总和与第三个变量具有25%的共享方差?此外,如果目标是预测,那么在共享方差中这种奇怪的增加是否在现实世界中有实际应用?
Joel W.

嗯,在电子设备中的任何地方,当您(大声+弱信号)+(大声)=微弱信号时,都可以使用此方法。例如,消除噪音的耳机。
Flounderer
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.