处理相关回归变量


23

在具有高度相关的回归变量的多元线性回归中,最佳方法是使用什么?添加所有相关回归变量的乘积是否合法?


1
抱歉,@ Suncoolsu的答案已删除。它和随后的评论阐明了多重共线性和不良条件之间的区别。此外,Suncoolsu在评论中指出了初步标准化如何有助于多项式回归。如果碰巧再次出现,我将它投票;-)。
ub

@Ηλίας:该产品在许多应用中可能不稳定。如果各个回归变量都有一些零,则可能会遇到许多零。它的绝对值可能有很强的正偏斜,从而导致一些高杠杆点;它可能会放大外围数据,尤其是同时发生的异常值,从而进一步增加其杠杆作用。也可能很难解释,尤其是当回归变量已经是原始变量(例如对数或根)的重新表达时。
ub

Answers:


13

从数学上讲,主要成分具有很大的意义。但是,在这种情况下,我只是使用一些数学技巧,并希望不需要考虑自己的问题,因此会有所警惕。

我建议您考虑一下我拥有什么样的预测变量,自变量是什么,为什么我的预测变量相互关联,我的一些预测变量是否实际上在测量相同的基础现实(如果可以,我是否可以使用一个单一度量以及我的预测变量中哪一个最适合),我正在做的分析是-如果我对推断不感兴趣,仅对预测感兴趣,那么只要将来,我实际上就可以保持现状预测值类似于过去的值。


4
完全同意,+ 1。但是,恕我直言,将PCA刻画为“数学技巧”是不公平的。如果您同意(我不确定您是否同意),按照Srikant的建议,对回归变量组求和或取平均值,是可以接受的,那么PCA应该也可以接受,并且通常可以提高拟合度。此外,主要成分可以提供有关哪些预测变量组之间的关联以及它们如何关联的洞察力:这是您倡导的思维的绝佳工具。
ub

2
@whuber,我明白并同意你的观点,并且我不想贬低PCA,因此肯定是+1。我只是想指出,盲目地使用PCA而不考虑根本的问题(这里没有人提倡)会给我一种不好的感觉……
S. Kolassa-恢复莫妮卡2010年

11

您可以使用主成分或岭回归来处理此问题。另一方面,如果您有两个变量之间的相关度很高,从而导致参数估计出现问题,那么几乎可以肯定地说,可以丢弃这两个变量中的任何一个,而不会在预测方面造成太大损失,因为这两个变量携带相同的信息。当然,只有当问题是由于两个高度相关的独立变量导致时,这才起作用。当问题涉及两个以上几乎共线的变量(其中两个变量可能仅具有中等相关性)时,您可能需要其他方法之一。


2
(+1)现在,问题在于OP并没有指出有多少变量进入模型,因为如果变量太多,则最好通过弹性网准则(结合使用)进行收缩和变量选择套索和里奇点球)。
chl

3

这是斯蒂芬回答的另一个启发:

如果您的某些相关回归变量之间存在有意义的关联(例如,它们是智力的不同度量,即口头,数学等),则可以使用以下一种技术创建一个用于测量同一变量的单个变量:

  • 对回归变量求和(如果回归变量是整体的组成部分则比较合适,例如,语言智商+数学智商=总体智商)

  • 回归变量的平均值(如果回归变量正在测量相同的基础结构,例如左鞋的尺寸,右鞋的尺寸以测量脚的长度,则合适)

  • 因子分析(以解决测量中的错误并提取潜在因子)

然后,您可以删除所有相关的回归变量,并将其替换为以上分析得出的一个变量。


1
如果所有回归变量都以相同的比例进行度量,则这是有意义的。在心理学中,各种子量表通常以不同的量表进行度量(并且仍然是相关的),因此加权总和或平均值(在这里实际上是相同的)将是适当的。当然,可以通过计算最大方差轴将PCA视为提供这种加权。
S. Kolassa-恢复莫妮卡2010年

2

我要说的和上面的斯蒂芬·科拉萨(Stephan Kolassa)差不多(所以赞成他的回答)。我只补充说,有时多重共线性可能是由于使用了广泛的变量,而这些变量都与某种规模的度量高度相关,并且可以通过使用密集变量(即将所有事物除以某种规模的度量)来改善情况。例如,如果您的单位是国家/地区,则可以根据具体情况按人口,地区或GNP进行划分。

哦-回答原始问题的第二部分:添加所有相关回归变量的乘积将是一个好主意,我想不出任何情况。有什么帮助?什么意思


我最初的想法是加考虑回归量的对相互作用
Ηλίας

考虑成对交互通常是一个好主意。但并非所有人都这样:您需要考虑合理的低谷!
kjetil b halvorsen 2014年

1

我不是专家,但是我的第一个想法是对预测变量进行主成分分析,然后使用生成的主成分预测因变量。


ķķ

p

@chl好点。但是由于主要成分是线性组合,因此将拟合的回归模型(=一个线性变换)与投影到各个成分(=另一个线性变换)上组成直接拟合(尽管有时会有些痛苦)以获得可解释的线性模型涉及所有原始变量。这有点类似于正交化技术。还要注意的是,Srikant的最新建议(对回归变量求和或取平均值)本质上近似于主特征向量,但却引起了类似的解释困难。
ub

@whuber是的,我同意你的两个观点。我广泛使用PLS回归和CCA,因此在这种情况下,我们必须处理两边的线性组合(最大协方差或相关标准)。在具有大量预测变量的情况下,解释规范向量是很痛苦的,因此,我们仅查看影响最大的变量。现在,我可以想象没有太多的预测变量,因此您的所有论点(@ Stephan,@ Mike)都有意义。
chl 2010年

-1

X

X一世ĴsŤ一种ñd一种[Rd一世žËd=X一世Ĵ-XĴ¯sĴ

这不是补救措施,但绝对是朝正确方向迈出的一步。


8
线性变换(像这样)永远不会改变相关系数。标准化的重点是改善正常矩阵的条件。
ub

1
标准化变量不会影响自变量之间的相关性,也不会以我能想到的任何方式“降低相关性的影响”。
Brett 2010年

2
@Brett,标准化帮助的一个典型例子是多项式回归。始终建议标准化回归变量。标准化不会更改相关矩阵,但是会使var cov矩阵(现在为correl矩阵)表现良好(通过@whuber进行调理,指向矩阵的条件编号IMHO)。
suncoolsu

同意 输入多项式或交互项之类的高阶项时,居中很有用。此处似乎并非如此,否则将无法解决相关预测变量的问题。
Brett 2010年

我删除了它,是因为我不想使人们误以为是错误的答案。主持人可能再次提出来了。
suncoolsu 2010年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.