我认为您的问题是:如何检测何时需要进行适当转换的条件,而不是逻辑条件是什么。预定带有探索的数据分析总是很不错的,尤其是图形数据探索。(可以进行各种测试,但这里我将重点介绍图形化EDA。)
对于每个变量的单变量分布的初始概览,内核密度图优于直方图。具有多个变量,散点图矩阵可以很方便。一开始,始终建议使用Lowess。这将使您快速而又肮脏地查看这些关系是否近似线性。约翰·福克斯(John Fox)的汽车包装将以下方面进行了有益的结合:
library(car)
scatterplot.matrix(data)
确保将变量作为列。如果变量很多,则各个图可能很小。最大化绘图窗口,散点图应足够大,以挑选出您要单独检查的绘图,然后制作单个绘图。例如,
windows()
plot(density(X[,3]))
rug(x[,3])
windows()
plot(x[,3], y)
lines(lowess(y~X[,3]))
拟合多元回归模型后,您仍然应该像简单的线性回归一样绘制并检查数据。QQ残差图非常必要,您可以按照与之前类似的步骤对预测值进行残差散点图矩阵处理。
windows()
qq.plot(model$residuals)
windows()
scatterplot.matrix(cbind(model$residuals,X))
如果有任何可疑的地方,请分别绘制并添加abline(h=0)
,以作为可视指南。如果存在交互,则可以创建X [,1] * X [,2]变量,然后检查该变量的残差。同样,您可以绘制残差与X [,3] ^ 2等的散点图。可以类似地完成除残差与x之外的其他类型的绘图。请记住,这些都忽略了其他未绘制的x尺寸。如果您对数据进行了分组(即来自实验),则除了边际图外,还可以制作局部图来代替/。
希望能有所帮助。