多元回归中解释变量之间的线性关系


10

我正在阅读《使用R:基于示例的方法进行数据分析和图形》的多元回归一章,感到有点困惑,以至于发现它建议检查解释变量之间的线性关系(使用散点图),如果没有,牛逼的任何,转化他们,使他们变得更加线性相关的。以下是一些摘录:

6.3拟合多元回归模型的策略

(...)

检查涉及所有解释变量的散点图矩阵。(在这一点上,包括因变量是可选的。)首先看一下解释变量相互之间的关系图中是否存在非线性的证据。

(...)

这一点确定了一种模型搜索策略- 搜索模型,其中解释变量之间的回归关系遵循“简单”线性形式。因此,如果某些成对图显示出非线性的证据,请考虑使用变换来给出更接近线性的关系。尽管不一定可以证明采用这种策略可以对回归关系进行充分建模,但出于以下原因,这是开始进行搜索时遵循的良好策略。

(...)

如果解释变量之间的关系近似线性,也许是在变换之后,则可以放心地将预测变量对响应变量的图进行解释。

(...)

可能无法找到一个或多个说明变量的变换,以确保面板中显示的(成对)关系呈现线性。这就会产生问题无论对于诊断地块解释为任何拟合回归方程的系数的解释在拟合方程。参见Cook和Weisberg(1999)。

我不应该担心因变量之间的线性关系(由于存在多重共线性的风险)而不是积极地追求它们吗?具有近似线性相关变量的优点是什么?

作者将在本章稍后部分讨论多重共线性的问题,但此建议似乎与避免多重共线性有关。

Answers:


8

这里有两点:

  1. 文章建议仅在存在非线性的情况下才将IV转换为线性。IV之间的非线性关系也可能导致共线性,并且更重要的是,可能会使其他关系变得复杂。我不确定我是否同意书中的建议,但这并不傻。

  2. 当然,很强的线性关系可能是共线性的原因,但是高相关性既不需要也不足以引起有问题的共线性。条件索引是诊断共线性的一种好方法。

编辑以回应评论

条件索引在简要描述为“最大特征值的平方根除以最小特征值”。这里有很多关于简历的文章,讨论了它们的优点。关于它们的开创性著作是David Belsley的两本书:《条件诊断学》和《回归诊断学》(也有2005年的新版本)。


1
+1-好的答案,但是您可以扩大条件指标吗?我还没有找到令人满意的方法来处理候选解释变量中的共线性。
格林格林(BGreene)

感谢您提供的丰富答案。您能否详细说明一下expl的非线性还使哪些其他关系复杂化。变量?现在,当作者说expl之间的非线性关系时,您在说什么呢?变量会导致系数解释和诊断图出现问题吗?
里卡多(RicardoC)

我现在无法提供一个示例,但是我已经看到了它的发生。看起来Y和X之间存在非线性关系
Peter Flom

3

每个解释变量和因变量之间的线性关系也将确保解释变量之间的线性关系。反之亦然。

确实,旨在提供近似线性的变换会增加共线性。然而,在没有这种变换的情况下,共线性被隐藏了。坚持保持共线性如此隐藏会导致复杂且无法解释的回归方程式,其中有简单形式的方程式可用。

假设y是接近的线性函数log(x1),在的情况下x在通过的10倍或更多不同的值范围。然后,如果x将其用作回归变量,则将尽可能调用其他解释变量以说明与x1的关系中的非线性。结果可能是具有无法解释的系数的非常复杂的回归关系,代替了捕获所有可用解释力的简单形式的回归方程。

最近的一篇论文很好地说明了由于找不到线性相关变量并无法使用线性相关变量而可能导致的怪异后果,该论文在1950-2012年间在美国上空登陆的94例大西洋飓风的死亡数据中声称,飓风名称效应具有女性特征。参见http://www.pnas.org/content/111/24/8782.abstract。数据可作为补充信息的一部分。注意,使用log(deaths)和使用normaL理论线性模型(R函数lm())大致等同于Jung等人使用负二项式回归模型。

如果log(E[deaths])在上回归log(NDAM),则最小压力变量,雌性变量和相互作用将不存在任何解释。变量log(NDAM)not NDAM出现在散点图矩阵中,与最小压力变量线性相关。它的分布也更不偏斜,更接近对称。

Jung等人回归log(E[deaths])NDAM(归损伤),加上那些其他变量和相互作用。然后出现的等式用来讲述一个故事,其中名字的女性性具有很大的影响。

看看NDAM在结果变量是log(E[deaths]),作图log(deaths+0.5)log(deaths+1)反对的回归中用作解释变量是多么奇怪NDAM。然后用log(NDAM)代替重复该图NDAM。如果将卡特里娜和奥黛丽(Jung等人作为异常值省略)包括在图中,则反差更为显着。通过坚持使用NDAM而非作为解释变量,log(NDAM)Jung等人放弃了寻找一种非常简单的回归关系形式的机会。

注意,E[deaths]即模型预测的死亡人数。

在Jung等人的数据中,可以从所有变量的散点图矩阵中确定所需的转换。尝试spm()在最新版的R汽车载具中使用R transform=TRUE和函数,使用和(deaths作为变量)family="yjPower"。或尝试使用初始散点图矩阵建议的转换。通常,首选建议可能是先寻找满足线性预测变量要求的解释变量,然后再使用car函数关注结果变量invTranPlot()

除了发问者引用的“使用R进行数据分析和图形处理”之外,还请参见:

  • Weisberg:应用线性回归。第四版,Wiley 2014,第185-203页。
  • 福克斯和韦斯伯格:应用回归的R伴侣。第二版,Sage,2011年,第127-148页。

1

我认为这整个段落相当神秘,即使不是完全可疑的。理想情况下,您希望自变量彼此之间尽可能不相关,以便在估计因变量时向模型提供增量信息和其他信息。您通过自变量之间的高度相关性提出了多重共线性问题,并且在这种情况下提出该问题是完全正确的。

检查每个自变量与因变量之间的散点图和相关的线性关系(而不是自变量之间)更为重要。在这样的时间查看此类散点图(独立于X轴和依赖于Y轴)时,无论是通过对数,指数还是多项式形式,都有机会变换自变量以观察更好的拟合。


1
关于第二句话:如果自变量是完全不相关的,那么回归的大部分理由将变得毫无根据。预测变量与Y的每个二元关系都将与控制所有其他预测变量时的关系相同。在这种情况下,为什么要控制?
rolando2 2014年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.