在线性回归中,当我们仅对交互作用项感兴趣时,为什么还要包含二次项?


10

假设我对线性回归模型,用于

Yi=β0+β1x1+β2x2+β3x1x2
,因为我想看看如果两个协变量之间的相互作用产生作用在Y。

在教授的课程笔记中(我没有与之联系),其中指出:当包括互动术语时,您应该包括他们的第二学位术语。即

Yi=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22
应包含在回归。

当我们仅对互动感兴趣时,为什么要包含第二学位?


7
如果模型具有,则应包括x 1x 2。但是x 2 1x 2 2是可选的。x1x2x1x2x12x22
user158565 '18

6
您教授的观点似乎很不寻常。它可能源于专业背景或经验,因为“应该”绝对不是普遍要求。您可能会发现stats.stackexchange.com/questions/11009很有意思。
whuber

x1x2

@whuber嗨!感谢您的链接!我认为包括主要影响是有道理的,但是我很难将其扩展到必须包括二阶项。// user158565我想上面的链接回答了,谢谢!
fool126 '18

您能否发布数据链接?
詹姆斯·菲利普斯

Answers:


8

这取决于推理的目标。如果您想推断是否存在相互作用,例如在因果关系中(或更广泛地说,如果您想解释相互作用系数),那么您教授的建议确实是有道理的,它来自于事实是函数形式的假设错误可以导致约互动错误的推论

x1x2yx1x1x2

set.seed(10)
n <- 1e3
x1 <- rnorm(n)
x2 <- x1 + rnorm(n)
y <- x1 + x2 + x1^2 + rnorm(n)
summary(lm(y ~ x1 + x2 + x1:x2))

Call:
lm(formula = y ~ x1 + x2 + x1:x2)

Residuals:
    Min      1Q  Median      3Q     Max 
-3.7781 -0.8326 -0.0806  0.7598  7.7929 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.30116    0.04813   6.257 5.81e-10 ***
x1           1.03142    0.05888  17.519  < 2e-16 ***
x2           1.01806    0.03971  25.638  < 2e-16 ***
x1:x2        0.63939    0.02390  26.757  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.308 on 996 degrees of freedom
Multiple R-squared:  0.7935,    Adjusted R-squared:  0.7929 
F-statistic:  1276 on 3 and 996 DF,  p-value: < 2.2e-16

x12

summary(lm(y ~ x1 + x2 + x1:x2 + I(x1^2)))   

Call:
lm(formula = y ~ x1 + x2 + x1:x2 + I(x1^2))

Residuals:
    Min      1Q  Median      3Q     Max 
-3.4574 -0.7073  0.0228  0.6723  3.7135 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.0419958  0.0398423  -1.054    0.292    
x1           1.0296642  0.0458586  22.453   <2e-16 ***
x2           1.0017625  0.0309367  32.381   <2e-16 ***
I(x1^2)      1.0196002  0.0400940  25.430   <2e-16 ***
x1:x2       -0.0006889  0.0313045  -0.022    0.982    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.019 on 995 degrees of freedom
Multiple R-squared:  0.8748,    Adjusted R-squared:  0.8743 
F-statistic:  1739 on 4 and 995 DF,  p-value: < 2.2e-16

当然,这种推理不仅适用于二次项,而且通常还适用于功能形式的错误指定。这里的目标是适当地对条件期望函数进行建模以评估交互。如果要限制使用线性回归建模,则需要手动包含这些非线性项。但一种替代方法是使用更灵活的回归建模,例如内核岭回归


谢谢@CarlosCinelli,总而言之,您是说我们应该包括相同程度的术语-以考虑功能形式的潜在错误指定-并让回归确定哪些术语有意义?
fool126 '18

3
@KevinC这里的主要问题是:您想解释交互作用术语吗?如果这样做,则功能形式的规格错误会是一个现实问题。添加二次项只是捕获非线性的一种简单方法,但是总的问题是对条件期望函数进行适当的建模。
卡洛斯·辛纳利

1
请不要包含rm(list=ls())在此处发布的代码中!如果人们只是复制并粘贴并运行代码,他们可能会感到惊讶……我现在将其删除。
kjetil b halvorsen

3

X1X2

可以这样重新表达第一个模型:

Y=β0+(β1+β3X2)X1+β2X2+ϵ,

X1YX2X1X2X1YX2

第二个模型可以这样重新表达:

Y=β0+(β1+β3X2)X1+β4X12+β2X2+β5X22+ϵ,

X1YX2X1X12X12X2X1X2

X1YX2

X1X2X1X2X12X22

请注意,我简化了用于一致性的表示法,并在两个模型中都明确了该误差项。


2
嗨@IsabellaGhement,谢谢您的解释。总而言之,确实没有“规则”,因为如果我们包含交互作用术语,则应该添加二次项。归根结底,这又回到了我们对模型所做的假设以及分析的结果(即残差图)。它是否正确?再次感谢 :)!
fool126 '18

2
是的,凯文!没有“规则”,因为每个数据集都是不同的,并且还意味着回答不同的问题。因此,对于我们来说重要的是要意识到,我们适合该数据集的每个模型都包含不同的假设,这些假设需要得到数据的支持才能使我们信任模型结果。模型诊断图(例如残差与拟合值的图)有助于我们验证数据在多大程度上(如果有)支持模型假设。
Isabella Ghement,

1
@KevinC:太好了!凯文,也祝您节日快乐!☃🎉🎁🎈
伊莎贝拉Ghement
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.