在线性多元回归方程中,如果beta权重反映每个独立变量的贡献超过所有其他IV的贡献,那么在回归方程中,所有IV共享的预测DV的方差是什么?
例如,如果下面显示的维恩图(并取自CV的“关于”页面:https://stats.stackexchange.com/about)被重新标记为3 IV和1 DV,带有星号的区域将输入到哪里进入多元回归方程?
在线性多元回归方程中,如果beta权重反映每个独立变量的贡献超过所有其他IV的贡献,那么在回归方程中,所有IV共享的预测DV的方差是什么?
例如,如果下面显示的维恩图(并取自CV的“关于”页面:https://stats.stackexchange.com/about)被重新标记为3 IV和1 DV,带有星号的区域将输入到哪里进入多元回归方程?
Answers:
为了理解该图可能意味着什么,我们必须定义一些东西。假设维恩图显示4个不同变量之间的重叠(或共享)方差,并且我们希望借助,和知识来预测的水平。也就是说,我们希望能够将的不确定性(即方差)从零方差减小到残差。可以做得如何?这就是维恩图为您解答的问题。
每个圆代表一组点,从而代表一组变化量。在大多数情况下,我们对中的差异感兴趣,但该图还显示了预测变量中的方差。关于我们的身材,有几件事需要注意。首先,每个变量具有相同的方差量-它们都具有相同的大小(尽管并非每个人都会如此使用Venn图)。而且,存在相同数量的重叠等,等等。需要注意的更重要的一点是,预测变量之间存在大量重叠。这意味着它们是相关的。在处理辅助(即档案)数据,观测研究或现实世界的预测场景时,这种情况非常普遍。另一方面,如果这是设计好的实验,则可能暗示设计或执行不佳。继续这个示例多一点,我们可以看到我们的预测能力将是中等的。大部分的可变性在使用了所有变量之后,仍然是剩余的可变性(注视图表,我想)。还要注意的另一件事是,一旦将和输入模型,就不会考虑的可变性。
现在,在将具有多个预测变量的模型拟合之后,人们通常希望测试这些预测变量以查看它们是否与响应变量相关(尽管目前尚不清楚这是否像人们认为的那样重要)。我们的问题是要测试这些预测变量,我们必须对平方和进行划分,并且由于我们的预测变量是相关的,因此可以将SS归因于多个预测变量。实际上,在星号区域中,SS可以归因于三个预测因素中的任何一个。这意味着SS 没有唯一的分区,因此也没有唯一的测试。如何处理此问题取决于研究人员使用的SS类型以及研究人员做出的其他判断。由于许多软件应用程序默认返回类型III SS,因此许多人丢弃了重叠区域中包含的信息,而没有意识到他们已经做出了判断。我将解释这些问题,不同类型的SS,并在此处进行一些详细说明。
如上所述,该问题专门询问所有这些因素在beta /回归方程式中的位置。答案是事实并非如此。有关一些信息包含在我的答案在这里(虽然你有行一点点之间阅读)。
彼得·肯尼迪(Peter Kennedy)在他的书和JSE文章中对Ballentine / Venn图进行了很好的描述,以进行回归,包括可能使您误入歧途的案例。
要点是,仅用于估计和测试斜率系数的星形区域变化会被丢弃。为了预测和计算的目的,重新添加了该变化。
我意识到这是一个(非常)过时的话题,但是由于我的一位同事本周问了我这个同样的问题,并且在网络上找不到我可以指给他的东西,我想我会再加上两美分,“供后代使用”这里。我不相信迄今为止提供的答案可以回答《任择议定书》的问题。
我将简化这个问题,使其仅包含两个独立变量;将其扩展到两个以上是非常简单的。考虑以下情形:两个自变量(X1和X2),因变量(Y),1000个观测值,这两个自变量彼此高度相关(r = .99),并且每个自变量与因变量相关变量(r = .60)。在不失一般性的情况下,将所有变量标准化为均值零和标准偏差为1,因此在每个回归中截距项均为零。
在X1上运行Y的简单线性回归将产生0.36的r平方和b1值为0.6。类似地,在X2上运行Y的简单线性回归将产生0.36的r平方和b1值为0.6。
在X1和X2上执行Y的多元回归将产生仅比0.36高一点的r平方,并且b1和b2都取值为0.3。因此,Y的共享变化被同时捕获到b1和b2中。
我认为OP可能做出了一个错误(但完全可以理解)的假设:即,随着X1和X2越来越接近于完全相关,它们在多元回归方程中的b值越来越接近于零。事实并非如此。实际上,当X1和X2越来越接近于完全相关时,它们在多元回归中的b值越来越接近于其中任一值的简单线性回归中b值的HALF。但是,随着X1和X2越来越接近于完美相关,b1和b2的标准误差越来越接近无穷大,因此t值收敛于零。因此,t值将收敛于零(即X1和Y或X2和Y之间没有唯一的线性关系),
因此,对OP问题的答案是,随着X1和X2之间的相关性趋于一致,即使两个自变量都没有提供对因变量的任何唯一解释,部分斜率系数的EACH也将对Y值的预测做出同等的贡献。变量。
如果您希望凭经验进行检查,请生成具有上述特征的伪造数据集(...我使用了名为Corr2Data.sas ...的SAS宏)。检查b值,标准误差和t值:您会发现它们与此处所述完全相同。
HTH //菲尔