我正在阅读《使用R:基于示例的方法进行数据分析和图形》的多元回归一章,感到有点困惑,以至于发现它建议检查解释变量之间的线性关系(使用散点图),如果没有,牛逼的任何,转化他们,使他们也变得更加线性相关的。以下是一些摘录:
6.3拟合多元回归模型的策略
(...)
检查涉及所有解释变量的散点图矩阵。(在这一点上,包括因变量是可选的。)首先看一下解释变量相互之间的关系图中是否存在非线性的证据。
(...)
这一点确定了一种模型搜索策略- 搜索模型,其中解释变量之间的回归关系遵循“简单”线性形式。因此,如果某些成对图显示出非线性的证据,请考虑使用变换来给出更接近线性的关系。尽管不一定可以证明采用这种策略可以对回归关系进行充分建模,但出于以下原因,这是开始进行搜索时遵循的良好策略。
(...)
如果解释变量之间的关系近似线性,也许是在变换之后,则可以放心地将预测变量对响应变量的图进行解释。
(...)
可能无法找到一个或多个说明变量的变换,以确保面板中显示的(成对)关系呈现线性。这就会产生问题无论对于诊断地块解释为任何拟合回归方程的系数的解释在拟合方程。参见Cook和Weisberg(1999)。
我不应该担心因变量之间的线性关系(由于存在多重共线性的风险)而不是积极地追求它们吗?具有近似线性相关变量的优点是什么?
作者将在本章稍后部分讨论多重共线性的问题,但此建议似乎与避免多重共线性有关。