线性多元回归方程中所有IV之间的共享方差在哪里?


10

在线性多元回归方程中,如果beta权重反映每个独立变量的贡献超过所有其他IV的贡献,那么在回归方程中,所有IV共享的预测DV的方差是什么?

例如,如果下面显示的维恩图(并取自CV的“关于”页面:https//stats.stackexchange.com/about)被重新标记为3 IV和1 DV,带有星号的区域将输入到哪里进入多元回归方程?

在此处输入图片说明


4
我认为这里不需要投票。我认为这个问题从根本上讲解了多元回归中正在发生的事情,并提供了一个机会来解释有关MR的某些内容,否则这些内容将不会被讨论。
gung-恢复莫妮卡

Answers:


8

为了理解该图可能意味着什么,我们必须定义一些东西。假设维恩图显示4个不同变量之间的重叠(或共享)方差,并且我们希望借助,和知识来预测的水平。也就是说,我们希望能够将的不确定性(即方差)从零方差减小到残差。可以做得如何?这就是维恩图为您解答的问题。 w ^一世ķ一世d一世GGFØ[RüØGw ^一世ķ一世

每个圆代表一组点,从而代表一组变化量。在大多数情况下,我们对中的差异感兴趣w ^一世ķ一世,但该图还显示了预测变量中的方差。关于我们的身材,有几件事需要注意。首先,每个变量具有相同的方差量-它们都具有相同的大小(尽管并非每个人都会如此使用Venn图)。而且,存在相同数量的重叠等,等等。需要注意的更重要的一点是,预测变量之间存在大量重叠。这意味着它们是相关的。在处理辅助(即档案)数据,观测研究或现实世界的预测场景时,这种情况非常普遍。另一方面,如果这是设计好的实验,则可能暗示设计或执行不佳。继续这个示例多一点,我们可以看到我们的预测能力将是中等的。大部分的可变性w ^一世ķ一世在使用了所有变量之后,仍然是剩余的可变性(注视图表,我想)。还要注意的另一件事是,一旦将和输入模型,就不会考虑的可变性。[R2.35d一世GGØGFØ[Rüw ^一世ķ一世

现在,在将具有多个预测变量的模型拟合之后,人们通常希望测试这些预测变量以查看它们是否与响应变量相关(尽管目前尚不清楚这是否像人们认为的那样重要)。我们的问题是要测试这些预测变量,我们必须对平方和进行划分,并且由于我们的预测变量是相关的,因此可以将SS归因于多个预测变量。实际上,在星号区域中,SS可以归因于三个预测因素中的任何一个。这意味着SS 没有唯一的分区,因此也没有唯一的测试。如何处理此问题取决于研究人员使用的SS类型以及研究人员做出的其他判断。由于许多软件应用程序默认返回类型III SS,因此许多人丢弃了重叠区域中包含的信息,而没有意识到他们已经做出了判断。我将解释这些问题,不同类型的SS,并在此处进行一些详细说明。

如上所述,该问题专门询问所有这些因素在beta /回归方程式中的位置。答案是事实并非如此。有关一些信息包含在我的答案在这里(虽然你有行一点点之间阅读)。


您好,宫,谢谢您的发帖。这很有趣,在某些地方让我大开眼界。但是,我在链接到的帖子行之间无法阅读。因此,我的问题仍然存在:在线性多元回归方程中,如果beta权重反映每个独立变量的贡献超过所有其他IV的贡献,则在回归方程中是所有IV所共有的方差预测DV?
Joel W.

是的,这很难看。关键是在以下问题上存在根本的区别:1如何划分SS以进行测试,以及2估算beta。1关于将SS归因于预测因素;2为beta选择最佳值。重叠出现在前者中,而不出现在后者中。如果你退缩了w ^一世ķ一世d一世GG 并保存残差,然后从 FØ[Rü和保存的resids-2等(这是不适当的,顺便说一句),您会看到Beta的波动很大。但是Mult Reg会同时估算所有beta ,因此不会出现。
gung-恢复莫妮卡

如果“重叠出现在前者中而不是后者中”,回归方程如何反映共同的方差?如果在统计上去除所有其他IV的影响时Beta表示每个IV的贡献,那么回归公式的哪一部分反映了去除的共享方差的预测能力?或者,如果重叠部分未反映在Beta中,则如果将IV之一增加1,回归方程如何显示预测的Y会发生什么?第三个问题:在对维恩图基础数据进行MR分析时,论坛beta是否为0?
Joel W.

重叠是在测试中,而不是beta中-我不知道该怎么做。每个beta表示协变量中1单位变化对响应变量的影响,其他所有参数保持不变;如果将其他协变量从模型中删除,则给定的beta几乎肯定不会相同。如果维恩图准确地反映了真实的数据生成过程,则βF=0,但实际上,经验估计基本上永远不会完全等于0。
gung-恢复莫妮卡

1
@MarkWhite,学生的回答基本上可以。当X1和X2完全相关时,它们的beta是一半的说法是不正确的;当r = 1时,模型无法识别(参见此处)。当r接近1时,估计的beta将取决于样本数据中的关系,并且样本之间的差异可能很大。
gung-恢复莫妮卡

5

彼得·肯尼迪(Peter Kennedy)在他的书JSE文章中对Ballentine / Venn图进行了很好的描述,以进行回归,包括可能使您误入歧途的案例。

要点是,仅用于估计和测试斜率系数的星形区域变化会被丢弃。为了预测和计算的目的,重新添加了该变化[R2


+1,我会添加“用于估算” 并测试 “斜率系数”,但关于它的要点包含在[R2是一个好人。
gung-恢复莫妮卡

确实做到了。
Dimitriy V. Masterov 2014年

加星标的区域是否用于计算预测的y?如果是这样,加星标区域在预测公式中对预测y有贡献吗?换句话说,预测公式中的哪个术语反映了加星标的区域?
Joel W.

3

我意识到这是一个(非常)过时的话题,但是由于我的一位同事本周问了我这个同样的问题,并且在网络上找不到我可以指给他的东西,我想我会再加上两美分,“供后代使用”这里。我不相信迄今为止提供的答案可以回答《任择议定书》的问题。

我将简化这个问题,使其仅包含两个独立变量;将其扩展到两个以上是非常简单的。考虑以下情形:两个自变量(X1和X2),因变量(Y),1000个观测值,这两个自变量彼此高度相关(r = .99),并且每个自变量与因变量相关变量(r = .60)。在不失一般性的情况下,将所有变量标准化为均值零和标准偏差为1,因此在每个回归中截距项均为零。

在X1上运行Y的简单线性回归将产生0.36的r平方和b1值为0.6。类似地,在X2上运行Y的简单线性回归将产生0.36的r平方和b1值为0.6。

在X1和X2上执行Y的多元回归将产生仅比0.36高一点的r平方,并且b1和b2都取值为0.3。因此,Y的共享变化被同时捕获到b1和b2中。

我认为OP可能做出了一个错误(但完全可以理解)的假设:即,随着X1和X2越来越接近于完全相关,它们在多元回归方程中的b值越来越接近于零。事实并非如此。实际上,当X1和X2越来越接近于完全相关时,它们在多元回归中的b值越来越接近于其中任一值的简单线性回归中b值的HALF。但是,随着X1和X2越来越接近于完美相关,b1和b2的标准误差越来越接近无穷大,因此t值收敛于零。因此,t值将收敛于零(即X1和Y或X2和Y之间没有唯一的线性关系),

因此,对OP问题的答案是,随着X1和X2之间的相关性趋于一致,即使两个自变量都没有提供对因变量的任何唯一解释,部分斜率系数的EACH也将对Y值的预测做出同等的贡献。变量。

如果您希望凭经验进行检查,请生成具有上述特征的伪造数据集(...我使用了名为Corr2Data.sas ...的SAS宏)。检查b值,标准误差和t值:您会发现它们与此处所述完全相同。

HTH //菲尔


1
这是一个很棒的解释,谢谢。我尝试模拟R中的不同情况,得出的结论是,如果n太大,或者输出(Y)与共享组件(X1和X2)之间的相关性,则无法摆脱共享可变性)太高。但是,为什么t值首先会反映出X1和X2的独特贡献呢?如果回归t值反映了预测变量的独特贡献,那么我们根本不应该看到共享变异性会完全影响t值,但是我们做到了。这是为什么?
Galit
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.