为什么引入随机斜率效应会增大斜率的SE？

我正在尝试分析Year对特定个体组（我有3个组）的变量logInd的影响。最简单的模型：

> fix1 = lm(logInd ~ 0 + Group + Year:Group, data = mydata)
> summary(fix1)

Call:
lm(formula = logInd ~ 0 + Group + Year:Group, data = mydata)

Residuals:
    Min      1Q  Median      3Q     Max 
-5.5835 -0.3543 -0.0024  0.3944  4.7294 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
Group1       4.6395740  0.0466217  99.515  < 2e-16 ***
Group2       4.8094268  0.0534118  90.044  < 2e-16 ***
Group3       4.5607287  0.0561066  81.287  < 2e-16 ***
Group1:Year -0.0084165  0.0027144  -3.101  0.00195 ** 
Group2:Year  0.0032369  0.0031098   1.041  0.29802    
Group3:Year  0.0006081  0.0032666   0.186  0.85235    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.7926 on 2981 degrees of freedom
Multiple R-squared: 0.9717,     Adjusted R-squared: 0.9716 
F-statistic: 1.705e+04 on 6 and 2981 DF,  p-value: < 2.2e-16

我们可以看到Group1显着下降，Groups 2和3上升但不是显着。

显然，个体应该是随机效应，所以我为每个个体引入随机拦截效应：

> mix1a = lmer(logInd ~ 0 + Group + Year:Group + (1|Individual), data = mydata)
> summary(mix1a)
Linear mixed model fit by REML 
Formula: logInd ~ 0 + Group + Year:Group + (1 | Individual) 
   Data: mydata 
  AIC  BIC logLik deviance REMLdev
 4727 4775  -2356     4671    4711
Random effects:
 Groups     Name        Variance Std.Dev.
 Individual (Intercept) 0.39357  0.62735 
 Residual               0.24532  0.49530 
Number of obs: 2987, groups: Individual, 103

Fixed effects:
              Estimate Std. Error t value
Group1       4.6395740  0.1010868   45.90
Group2       4.8094268  0.1158095   41.53
Group3       4.5607287  0.1216522   37.49
Group1:Year -0.0084165  0.0016963   -4.96
Group2:Year  0.0032369  0.0019433    1.67
Group3:Year  0.0006081  0.0020414    0.30

Correlation of Fixed Effects:
            Group1 Group2 Group3 Grp1:Y Grp2:Y
Group2       0.000                            
Group3       0.000  0.000                     
Group1:Year -0.252  0.000  0.000              
Group2:Year  0.000 -0.252  0.000  0.000       
Group3:Year  0.000  0.000 -0.252  0.000  0.000

它产生了预期的效果-斜率的SE（系数Group1-3：Year）现在更低，而剩余SE也更低。

个体的斜率也不同，因此我还介绍了随机斜率效应：

> mix1c = lmer(logInd ~ 0 + Group + Year:Group + (1 + Year|Individual), data = mydata)
> summary(mix1c)
Linear mixed model fit by REML 
Formula: logInd ~ 0 + Group + Year:Group + (1 + Year | Individual) 
   Data: mydata 
  AIC  BIC logLik deviance REMLdev
 2941 3001  -1461     2885    2921
Random effects:
 Groups     Name        Variance  Std.Dev. Corr   
 Individual (Intercept) 0.1054790 0.324775        
            Year        0.0017447 0.041769 -0.246 
 Residual               0.1223920 0.349846        
Number of obs: 2987, groups: Individual, 103

Fixed effects:
              Estimate Std. Error t value
Group1       4.6395740  0.0541746   85.64
Group2       4.8094268  0.0620648   77.49
Group3       4.5607287  0.0651960   69.95
Group1:Year -0.0084165  0.0065557   -1.28
Group2:Year  0.0032369  0.0075105    0.43
Group3:Year  0.0006081  0.0078894    0.08

Correlation of Fixed Effects:
            Group1 Group2 Group3 Grp1:Y Grp2:Y
Group2       0.000                            
Group3       0.000  0.000                     
Group1:Year -0.285  0.000  0.000              
Group2:Year  0.000 -0.285  0.000  0.000       
Group3:Year  0.000  0.000 -0.285  0.000  0.000

但是现在，与预期相反，坡度的SE（系数Group1-3：Year）现在要高得多，甚至比完全没有随机效应的SE高！

这怎么可能？我希望随机效应将“吞噬”无法解释的可变性并增加估计的“确定性”！

但是，残余SE的行为符合预期-低于随机拦截模型中的SE。

如果需要，这是数据。

编辑

现在我意识到了惊人的事实。如果我分别对每个人进行线性回归，然后对所得斜率进行ANOVA，则得到的结果与随机斜率模型完全相同！你知道为什么吗？

indivSlope = c()
for (indiv in 1:103) {
    mod1 = lm(logInd ~ Year, data = mydata[mydata$Individual == indiv,])
    indivSlope[indiv] = coef(mod1)['Year']
}

indivGroup = unique(mydata[,c("Individual", "Group")])[,"Group"]


anova1 = lm(indivSlope ~ 0 + indivGroup)
summary(anova1)

Call:
lm(formula = indivSlope ~ 0 + indivGroup)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.176288 -0.016502  0.004692  0.020316  0.153086 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)
indivGroup1 -0.0084165  0.0065555  -1.284    0.202
indivGroup2  0.0032369  0.0075103   0.431    0.667
indivGroup3  0.0006081  0.0078892   0.077    0.939

Residual standard error: 0.04248 on 100 degrees of freedom
Multiple R-squared: 0.01807,    Adjusted R-squared: -0.01139 
F-statistic: 0.6133 on 3 and 100 DF,  p-value: 0.6079

如果需要，这是数据。

r mixed-model lme4-nlme random-effects-model

— 好奇
source

如果要有year：group交互作用固定效果，则需要年份固定效果。通常，您不能在不包含主要效果的情况下添加互动条件。您是否真的认为年份效应没有固定的组成部分？如果是这样，怎么会有固定的year：group互动？

— 约翰

而且，为什么没有固定的拦截？您可以同时使用固定的和随机的。

— 约翰

@John，此模型完全有效。这仅仅是分类变量的期望编码的问题。这样，是第组的截距，而是第组内的斜率。如果包括Year和截距的主要影响，则估计值将是第组和第1 组的截距之差，并且类似地具有斜率。Group

i

$i$

i

$i$ Group

i

$i$ :Year

i

$i$

i

$i$

— Aniko 2012年

@John，这是我的问题的话题，不过：相信我，这没关系，我对此做了很多实验。我的第一个lm模型完全等效于logInd ~ Year*Group，只有系数的形状不同，仅此而已。取决于您的口味和喜欢的系数形状，仅此而已。在您编写第一个模型时，不排除“年主要影响” ...的logInd ~ Year*Group作用完全相同，因此Year系数不是主要影响，而是Group1：Year。

— 2012年

好的，很整洁，没有考虑0截距和 Group都是分类的。

— 2012年

我认为问题出在您的期望上：)请注意，当您为每个人添加随机截距时，截距的标准误会增加。由于每个人都可以拥有自己的截距，因此团体平均值不太确定。随机斜率也发生了同样的事情：您不再估计一个常见的（组内）斜率，而是估计不同斜率的平均值。

编辑：为什么没有更好的模型给出更精确的估计？

让我们反过来思考：为什么初始模型低估了标准误差？它假设观察结果的独立性不是独立的。第二个模型放宽了这个假设（以影响截距的方式），第三个模型进一步放宽了它。

编辑2：与许多特定于患者的模型的关系

您的观察结果是一个已知属性（如果只有两年，那么随机效应模型将等效于配对t检验）。我认为我无法管理真正的证据，但是写出两个模型可能会使关系更清晰。让我们忽略分组变量，因为它会使符号复杂化。我将使用希腊字母表示随机效果，并使用拉丁字母表示固定效果。

随机效应模型为（ $i$ - 学科， $j$ -在主题内复制）：

ÿ_{一世 Ĵ} = 一个 + α_{一世} + （ b + β_{一世} ） X_{一世 Ĵ} + ϵ_{一世 Ĵ} ，

$Y_{ij} = a + \alpha_i + (b+\beta_i)x_{ij} + \epsilon_{ij},$ 哪里

(α_{i}, β_{i})^{'} \sim N (0, Σ)

$(\alpha_i,\beta_i)'\sim N(0,\Sigma)$ 和

ϵ_{i j} \sim N (0, σ^{2})

$\epsilon_{ij}\sim N(0,\sigma^2)$ 。

当您为每个主题拟合单独的模型时，则

ÿ_{一世 Ĵ} = {一个}_{一世} + b_{一世} X_{一世 Ĵ} + ϵ_{一世 Ĵ} ，

$Y_{ij} = a_i + b_i x_{ij}+ \epsilon_{ij},$ 哪里

ϵ_{i j} \sim N (0, σ_{i}^{2})

$\epsilon_{ij}\sim N(0,\sigma_i^2)$ 。

[注意：以下实际上只是手工操作：]

您可以看到这两个模型之间有很多相似之处 $a_i$ 对应于 $a+\alpha_i$ 和 $b_i$ 至 $b+\beta_i$ 。平均值 $b_i$ 对应于 $b$ ，因为随机效应的平均值为0。随机截距和斜率的无约束相关性导致可以单独拟合模型。我不确定单身 $\sigma$ 假设与特定学科相吻合 $\sigma_i$ ，但我认为 $\alpha_i$ 拾起差价。

— 安妮子
source

谢谢Aniko。没错，我的计算证实了这一点，但是我想知道为什么...这似乎是违反直觉的。我改进了模型-通过引入随机效应，我更好地描述了错误结构。残留错误证实了这一点-越来越低。因此，有了这些更好，更精确的模型，我希望得到更精确的斜率...我知道我在某个地方错了，请帮助我看看。

— 好奇的2012年

谢谢Aniko，这是一个有趣的观点！我只对坡度（Group *：Year）感兴趣，而不在这里进行拦截。所以我引入随机Itcept效果的第一步放宽了独立性假设，并导致SE ..（坡度..）降低，然后进行下一步可能太多（??），却做了相反的事情（甚至更糟的SE ..）..也许我需要考虑一下，谢谢。

— 2012年

现在，我也对一个非常有趣的事实感到惊讶-请参阅我的编辑。你知道为什么吗？

— 2012年

我不认为独立性假设过于宽松！开始是错误的。

— Aniko 2012年

Tomas，“精确”模型并不意味着估算会更加精确。举一个极端的例子，采用您喜欢的任何无数据模型，例如一个预测所有响应为零的模型。该模型的估计值为零是绝对确定的。因此，它尽可能地精确-但它也可能尽可能地错误。因此，给模型更大的范围来拟合参数通常意味着以较低的精度而不是较高的精度拟合这些参数。较好的模型可以量化较差模型无法捕获的不确定性，因此通常会有较大的标准误差。

— ub