进行多元回归时,何时转换预测变量?


10

我目前正在研究生阶段上我的第一个应用线性回归课程,并且在多元线性回归中努力应对预测变量转换。我正在使用的文本Kutner等人的“应用的线性统计模型”似乎没有涵盖我所遇到的问题。(除了建议使用Box-Cox方法转换多个预测变量外)。

当面对一个响应变量和几个预测变量时,每个预测变量要努力满足什么条件?我了解我们最终正在寻找误差方差和正态分布误差的恒定性(至少在到目前为止所学的技术中)。我进行了许多练习,例如y ~ x1 + (1/x2) + log(x3),解决方案在哪里一个或多个预测变量发生了变化。

我很了解简单线性回归下的基本原理,因为很容易查看y〜x1和相关的诊断(残差的qq图,残差与y,残差与x等),并测试一下y〜log( x1)更符合我们的假设。

在了解许多预测变量的情况下,是否有一个开始了解何时转换预测变量的好地方?

先感谢您。马特

Answers:


3

我认为您的问题是:如何检测何时需要进行适当转换的条件,而不是逻辑条件什么。预定带有探索的数据分析总是很不错的,尤其是图形数据探索。(可以进行各种测试,但这里我将重点介绍图形化EDA。)

对于每个变量的单变量分布的初始概览,内核密度图优于直方图。具有多个变量,散点图矩阵可以很方便。一开始,始终建议使用Lowess。这将使您快速而又肮脏地查看这些关系是否近似线性。约翰·福克斯(John Fox)的汽车包装将以下方面进行了有益的结合:

library(car)
scatterplot.matrix(data)

确保将变量作为列。如果变量很多,则各个图可能很小。最大化绘图窗口,散点图应足够大,以挑选出您要单独检查的绘图,然后制作单个绘图。例如,

windows()
plot(density(X[,3]))
rug(x[,3])
windows()
plot(x[,3], y)
lines(lowess(y~X[,3]))

拟合多元回归模型后,您仍然应该像简单的线性回归一样绘制并检查数据。QQ残差图非常必要,您可以按照与之前类似的步骤对预测值进行残差散点图矩阵处理。

windows()
qq.plot(model$residuals)
windows()
scatterplot.matrix(cbind(model$residuals,X))

如果有任何可疑的地方,请分别绘制并添加abline(h=0),以作为可视指南。如果存在交互,则可以创建X [,1] * X [,2]变量,然后检查该变量的残差。同样,您可以绘制残差与X [,3] ^ 2等的散点图。可以类似地完成除残差与x之外的其他类型的绘图。请记住,这些都忽略了其他未绘制的x尺寸。如果您对数据进行了分组(即来自实验),则除了边际图外,还可以制作局部图来代替/。

希望能有所帮助。


2
我鼓励一种更直接的方法:使用回归样条对预测变量的效果进行建模,以便(1)不假设线性,并且(2)同时估计所有转换。这类似于二次回归-为所有预测变量添加平方项。例如,对于受限的三次样条,对于每个未知的线性预测变量,都会向模型添加一个或多个非线性基函数。
Frank Harrell

@弗兰克我经常喜欢受限的三次样条。唯一的负面影响是解释,这有点棘手,经常使我的客户拒之门外。(在居中之后)添加多项式项似乎更容易解释
Peter Flom

谢谢大家的投入,我非常感谢。我认为您目前对我的评价很高。我的问题实际上是围绕在各个预测变量中寻找什么来知道何时/是否适用转换。例如,如果我有一个带有3个预测变量的严格加法模型,我将如何确定合适的变换?在多重预测变量的情况下,我们是否通常在寻求简单线性回归中所寻找的相同原理?(即有利残差与残差的预测图和qqplot)。
马特

1
Peter回归样条曲线并不比二次曲线复杂。无论如何,当年龄^ 2在模型中时,谁知道如何解释年龄系数?而且我看不到居中的帮助。我用合作者喜欢的图形来解释样条曲线拟合。Matt几乎总是需要进行转换。这只是样本大小是否足以估计足以适合非线性效应的参数的问题。回归样条直接估计转换,并导致对“数据外观”不利的适当置信区间。残差涉及间接方法。
Frank Harrell

抱歉,仍然在这里发布消息。请原谅。解释一下我的最后一条评论:我在一个文本中经过的最近一个例子得到了模型y〜x1 + log(x2),关于变换的唯一注释是“很明显,x2非常适合于对数变换。” 我正在尝试改善何时适用转换的感觉。仅看y〜x_i图并像在单预测器情况下那样进行就足够了吗?我还应该考虑什么?
马特
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.