线性回归中变量阶重要吗


9

我正在研究两个变量(和)之间的相互作用。这些变量之间存在很大的线性相关,其中。从问题的本质上,我无法说出因果关系(是否导致或相反)。我想研究与回归线的偏差,以发现异常值。为了做到这一点,我可以建立作为的函数的线性回归,或者。我选择的可变顺序会影响我的结果吗?X1个X2[R>0.9X1个X2X1个X2


在寻找异常值时,您应该首先针对和回归因变量,然后寻找异常值。X1个X2
schenectady 2011年

寻找异常值是您调查的目的吗?如果是这样,则应首先针对和回归因变量,然后执行离群值测试。如果发现可能的原因,则应考虑执行设计的实验。如果实验的目的是找到两个自变量之间的关系,那么查看收集到的数据的偶然性将无法解决问题。X1个X2
schenectady 2011年

我不清楚您所说的异常值是什么意思。如果数据中存在异常值,那么它们将影响回归线的计算。为什么同时在和查找异常值?X1个X2
DQdlM 2011年

@schenectady请在LaTeX中使用$$作为注释。

Answers:


3

它肯定可以(实际上,甚至对数据的假设也很重要-给定协变量,您仅​​对结果的分布进行假设)。因此,您可能会查找“逆向预测方差”之类的术语。无论哪种方式,线性回归都不能说明因果关系!充其量,您可以通过精心设计说出因果关系。



3

标准回归使点和线之间的垂直距离最小化,因此切换2个变量现在将使水平距离最小化(给定散点图)。另一个选择(有多个名称)是最小化垂直距离,这可以使用原理组件来完成。

以下是一些R代码,它们显示了不同之处:

library(MASS)

tmp <- mvrnorm(100, c(0,0), rbind( c(1,.9),c(.9,1)) )

plot(tmp, asp=1)

fit1 <- lm(tmp[,1] ~ tmp[,2])  # horizontal residuals
segments( tmp[,1], tmp[,2], fitted(fit1),tmp[,2], col='blue' )
o <- order(tmp[,2])
lines( fitted(fit1)[o], tmp[o,2], col='blue' )

fit2 <- lm(tmp[,2] ~ tmp[,1])  # vertical residuals
segments( tmp[,1], tmp[,2], tmp[,1], fitted(fit2), col='green' )
o <- order(tmp[,1])
lines( tmp[o,1], fitted(fit2)[o], col='green' )

fit3 <- prcomp(tmp)
b <- -fit3$rotation[1,2]/fit3$rotation[2,2]
a <- fit3$center[2] - b*fit3$center[1]
abline(a,b, col='red')
segments(tmp[,1], tmp[,2], tmp[,1]-fit3$x[,2]*fit3$rotation[1,2], tmp[,2]-fit3$x[,2]*fit3$rotation[2,2], col='red')

legend('bottomright', legend=c('Horizontal','Vertical','Perpendicular'), lty=1, col=c('blue','green','red'))

要查找离群值,您可以绘制主成分分析的结果。

您可能还需要看一下:

Bland和Altman(1986),评估两种临床测量方法之间一致性的统计方法。柳叶刀,307-310页


0

您的x1和x2变量是共线的。在存在多重共线性的情况下,您的参数估计仍然是无偏的,但是它们的方差很大,即,您对参数估计的重要性的推断是无效的,并且您的预测将具有较大的置信区间。

参数估计的解释也很困难。在线性回归框架中,假设模型中的每个其他外生变量保持不变,则x1上的参数估计值是x单位更改中Y的更改。在您的情况下,x1和x2是高度相关的,并且当x1发生变化时您不能保持x2恒定。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.