仅当包含交互项时，共线性诊断才有问题

我对美国各县进行了回归分析，并正在检查“独立”变量中的共线性。Belsley，Kuh和Welsch的回归诊断建议考虑条件指数和方差分解比例：

library(perturb)
## colldiag(, scale=TRUE) for model with interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct inc09_10k:unins09
1    1.000 0.000       0.000     0.000   0.000    0.001             0.002        0.003        0.002       0.002      0.001         0.000            
2    3.130 0.000       0.000     0.000   0.000    0.002             0.053        0.011        0.148       0.231      0.000         0.000            
3    3.305 0.000       0.000     0.000   0.000    0.000             0.095        0.072        0.351       0.003      0.000         0.000            
4    3.839 0.000       0.000     0.000   0.001    0.000             0.143        0.002        0.105       0.280      0.009         0.000            
5    5.547 0.000       0.002     0.000   0.000    0.050             0.093        0.592        0.084       0.005      0.002         0.000            
6    7.981 0.000       0.005     0.006   0.001    0.150             0.560        0.256        0.002       0.040      0.026         0.001            
7   11.170 0.000       0.009     0.003   0.000    0.046             0.000        0.018        0.003       0.250      0.272         0.035            
8   12.766 0.000       0.050     0.029   0.015    0.309             0.023        0.043        0.220       0.094      0.005         0.002            
9   18.800 0.009       0.017     0.003   0.209    0.001             0.002        0.001        0.047       0.006      0.430         0.041            
10  40.827 0.134       0.159     0.163   0.555    0.283             0.015        0.001        0.035       0.008      0.186         0.238            
11  76.709 0.855       0.759     0.796   0.219    0.157             0.013        0.002        0.004       0.080      0.069         0.683            

## colldiag(, scale=TRUE) for model without interaction
Condition
Index   Variance Decomposition Proportions
           (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct
1    1.000 0.000       0.001     0.001   0.000    0.001             0.003        0.004        0.003       0.003      0.001        
2    2.988 0.000       0.000     0.001   0.000    0.002             0.030        0.003        0.216       0.253      0.000        
3    3.128 0.000       0.000     0.002   0.000    0.000             0.112        0.076        0.294       0.027      0.000        
4    3.630 0.000       0.002     0.001   0.001    0.000             0.160        0.003        0.105       0.248      0.009        
5    5.234 0.000       0.008     0.002   0.000    0.053             0.087        0.594        0.086       0.004      0.001        
6    7.556 0.000       0.024     0.039   0.001    0.143             0.557        0.275        0.002       0.025      0.035        
7   11.898 0.000       0.278     0.080   0.017    0.371             0.026        0.023        0.147       0.005      0.038        
8   13.242 0.000       0.001     0.343   0.006    0.000             0.000        0.017        0.129       0.328      0.553        
9   21.558 0.010       0.540     0.332   0.355    0.037             0.000        0.003        0.003       0.020      0.083        
10  50.506 0.989       0.148     0.199   0.620    0.393             0.026        0.004        0.016       0.087      0.279

?HH::vif 表明VIF> 5是有问题的：

library(HH)
## vif() for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         8.378646         16.329881          1.653584          2.744314          1.885095          1.471123          1.436229          1.789454 
    elderly09_pct inc09_10k:unins09 
         1.547234         11.590162 

## vif() for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.859426          2.378138          1.628817          2.716702          1.882828          1.471102          1.404482          1.772352 
    elderly09_pct 
         1.545867

而John Fox的回归诊断建议查看VIF的平方根：

library(car)
## sqrt(vif) for model with interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         2.894589          4.041025          1.285917          1.656597          1.372987          1.212898          1.198428          1.337705 
    elderly09_pct inc09_10k:unins09 
         1.243879          3.404433 
## sqrt(vif) for model without interaction
        inc09_10k           unins09          sqmi_log pop10_perSqmi_log      phys_per100k      nppa_per100k       black10_pct        hisp10_pct 
         1.363608          1.542121          1.276251          1.648242          1.372162          1.212890          1.185108          1.331297 
    elderly09_pct 
         1.243329

在前两种情况下（建议有明确的界限），仅当包含交互项时，该模型才有问题。

到目前为止，带有交互项的模型一直是我的首选规范。

鉴于这些数据怪异，我有两个问题：

交互项是否总是会使数据的共线性恶化？
由于没有交互项的两个变量均不超过阈值，因此可以将模型与交互项一起使用。具体来说，我认为这样做没问题的原因是，我使用的是King，Tomz和Wittenberg（2000）方法来解释系数（负二项式模型），我通常将其他系数取平均值，然后解释当我移动会发生什么我因变量的预测inc09_10k和unins09周围的独立和联合。

r multicollinearity vif variance-decomposition

— 阿里·弗里德曼
source

Answers:

是的，非中心交互通常就是这种情况。快速了解两个自变量及其“相互作用”之间的相关性会发生什么

set.seed(12345)
a = rnorm(10000,20,2)
b = rnorm(10000,10,2)
cor(a,b)
cor(a,a*b)

> cor(a,b)
[1] 0.01564907
> cor(a,a*b)
[1] 0.4608877

然后将它们居中：

c = a - 20
d = b - 10
cor(c,d)
cor(c,c*d)

> cor(c,d)
[1] 0.01564907
> cor(c,c*d)
[1] 0.001908758

顺便提及，在不首先居中的情况下包含多项式项（即）也可能发生相同的情况。 $X,~X^2,~...$

因此，您可以和您的情侣一起试一试。

关于为什么居中有帮助-但让我们回到协方差的定义

\begin{aligned} Cov (X, X Y) & = E [(X - E (X)) (X Y - E (X Y))] \\ = E [(X - μ_{x}) (X Y - μ_{x y})] \\ = E [X^{2} Y - X μ_{x y} - X Y μ_{x} + μ_{x} μ_{x y}] \\ = E [X^{2} Y] - E [X] μ_{x y} - E [X Y] μ_{x} + μ_{x} μ_{x y} \end{aligned}

$\begin{align} \text{Cov}(X,XY) &= E[(X-E(X))(XY-E(XY))] \\ &= E[(X-\mu_x)(XY-\mu_{xy})] \\ &= E[X^2Y-X\mu_{xy}-XY\mu_x+\mu_x\mu_{xy}] \\ &= E[X^2Y]-E[X]\mu_{xy}-E[XY]\mu_x+\mu_x\mu_{xy} \\ \end{align}$

即使给定X和Y的独立性

\begin{aligned} = E [X^{2}] E [Y] - μ_{x} μ_{x} μ_{y} - μ_{x} μ_{y} μ_{x} + μ_{x} μ_{x} μ_{y} \\ = (σ_{x}^{2} + μ_{x}^{2}) μ_{y} - μ_{x}^{2} μ_{y} \\ = σ_{x}^{2} μ_{y} \end{aligned}

$\begin{align} \qquad\qquad\qquad\, &= E[X^2]E[Y]-\mu_x\mu_x\mu_y-\mu_x\mu_y\mu_x+\mu_x\mu_x\mu_y \\ &= (\sigma_x^2+\mu_x^2)\mu_y-\mu_x^2\mu_y \\ &= \sigma_x^2\mu_y \\ \end{align}$

这与您的回归问题并不直接相关，因为您可能没有完全独立的和，并且两个解释变量之间的相关性并不总是导致回归中存在多重共线性问题。但这确实显示了两个非中心自变量之间的相互作用如何导致相关性出现，并且相关性可能导致多重共线性问题。 $X$ $Y$

直觉对我来说，有非中心的变量相互作用只是意味着，当大，则也将是更大的，不论上的绝对规模，所以和将结束相关，同样为。 $X$ $XY$ $Y$ $X$ $XY$ $Y$

— 仿射
source

有趣，谢谢。您对为什么居中很重要有解释或引用吗？

— Ari B. Friedman

我认为这个答案不应该得到全部赏金，但是我想给它半张赏金。不知道是否会发生，除非它再次投票：-/。

— Ari B. Friedman 2013年

@ AriB.Friedman，您（完全）没有选择提供一半的赏金。您无法授予赏金（尽管您仍然会失去代表），并且此帖子可能会自动获得一半的赏金（请参阅帮助页面的相关部分）。但是，为什么这个答案不应该得到赏金呢？仿射就在这里（+1）。

— gung-恢复莫妮卡

@gung我正在寻找预编辑。现在绝对值得。谢谢@Affine！至于半额赏金部分，我的理解是，>=如果未手动授予赏金，则+2答案将获得半额赏金。

— Ari B. Friedman 2013年

@ AriB.Friedman，是的，但是在我发表评论（＆赞成，还有其他人也发表评论）之前，他没有2+赞成。

— gung-恢复莫妮卡

我发现以下有关此主题的出版物很有用：

Robinson＆Schumacker（2009）：交互作用：居中，方差膨胀因子和解释问题

“预测变量的缩放对回归方程系数的影响（中心解决方案与非中心解决方案以及高阶交互效应（三向交互；按连续效应分类））已经被艾肯和韦斯特（1991）涵盖。他们的例子说明了相当大的多重共线性当变量不居中时，它被引入具有交互作用项的回归方程中。”

Afshartous＆Preston（2011）：以居中为中心的交互模型的主要结果

“采用变量居中的动机包括增强系数的解释性，并减少与多重共线性相关的估计的数值不稳定性。”

显然，艾肯和韦斯特（Aiken and West（1991））也涵盖了这一主题，但是我没有他们的书。

— 拍
source