每个解释变量和因变量之间的线性关系也将确保解释变量之间的线性关系。反之亦然。
确实,旨在提供近似线性的变换会增加共线性。然而,在没有这种变换的情况下,共线性被隐藏了。坚持保持共线性如此隐藏会导致复杂且无法解释的回归方程式,其中有简单形式的方程式可用。
假设y是接近的线性函数log(x1),在的情况下x在通过的10倍或更多不同的值范围。然后,如果x将其用作回归变量,则将尽可能调用其他解释变量以说明与x1的关系中的非线性。结果可能是具有无法解释的系数的非常复杂的回归关系,代替了捕获所有可用解释力的简单形式的回归方程。
最近的一篇论文很好地说明了由于找不到线性相关变量并无法使用线性相关变量而可能导致的怪异后果,该论文在1950-2012年间在美国上空登陆的94例大西洋飓风的死亡数据中声称,飓风名称效应具有女性特征。参见http://www.pnas.org/content/111/24/8782.abstract。数据可作为补充信息的一部分。注意,使用log(deaths)和使用normaL理论线性模型(R函数lm())大致等同于Jung等人使用负二项式回归模型。
如果log(E[deaths])在上回归log(NDAM),则最小压力变量,雌性变量和相互作用将不存在任何解释。变量log(NDAM)not NDAM出现在散点图矩阵中,与最小压力变量线性相关。它的分布也更不偏斜,更接近对称。
Jung等人回归log(E[deaths])上NDAM(归损伤),加上那些其他变量和相互作用。然后出现的等式用来讲述一个故事,其中名字的女性性具有很大的影响。
看看NDAM在结果变量是log(E[deaths]),作图log(deaths+0.5)或log(deaths+1)反对的回归中用作解释变量是多么奇怪NDAM。然后用log(NDAM)代替重复该图NDAM。如果将卡特里娜和奥黛丽(Jung等人作为异常值省略)包括在图中,则反差更为显着。通过坚持使用NDAM而非作为解释变量,log(NDAM)Jung等人放弃了寻找一种非常简单的回归关系形式的机会。
注意,E[deaths]即模型预测的死亡人数。
在Jung等人的数据中,可以从所有变量的散点图矩阵中确定所需的转换。尝试spm()在最新版的R汽车载具中使用R transform=TRUE和函数,使用和(deaths作为变量)family="yjPower"。或尝试使用初始散点图矩阵建议的转换。通常,首选建议可能是先寻找满足线性预测变量要求的解释变量,然后再使用car函数关注结果变量invTranPlot()。
除了发问者引用的“使用R进行数据分析和图形处理”之外,还请参见:
- Weisberg:应用线性回归。第四版,Wiley 2014,第185-203页。
- 福克斯和韦斯伯格:应用回归的R伴侣。第二版,Sage,2011年,第127-148页。