线性回归中的显着矛盾:系数的显着t检验与总体F统计量的不显着


35

我正在4个类别变量(每个有4个级别)和一个数值输出之间拟合多元线性回归模型。我的数据集有43个观测值。

回归为每个斜率系数提供了检验的以下:。因此,第4个预测变量的系数在置信度下很重要。pt.15,.67,.27,.02α=.05

另一方面,从我所有斜率系数都为零的零假设的整体检验中,回归给出了值。对于我的数据集,此值为。pFp.11

我的问题:我应该如何解释这些结果?其中p我应该使用值,为什么?在α = 0.05的置信度下,第4个变量的系数是否与0显着不同?α=.05

我已经看到了相关的问题,Ft的回归统计,但有相反的情况:高t -test p -值和低F -test p -值。老实说,我不太了解为什么除了t检验外还需要F检验,以了解线性回归系数是否显着不同于零。t


2
如果您有4个类别变量,每个类别变量具有4个级别,则您的独立变量(加上截距)应具有3 * 4 = 12系数...
boscovich 2012年

@andrea:我决定将它们视为数字变量。
2012年

4
0.02几乎没有意义(尤其是考虑到总共进行了五项测试的事实),而0.11并不是很高。一个慷慨的解释是,只要有更多的功效,整体F检验也将很重要(也许也是第一个系数)。更为保守的解释是,您对这些结果中的任何一个都不应有太大的信心(包括.02 p值的系数)。无论哪种方式,您都不应过多了解.02和.11之间的差异。
晚会

3
对于相反情况的讨论,您还可以在这里看到:除了上面链接的问题之外,回归如何显着但所有预测变量都不重要
gung-恢复莫妮卡

Answers:


37

我不确定多重共线性是怎么回事。当然可以,但是从给出的信息中我无法得出结论,我也不想从这里开始。我的第一个猜测是,这可能是多重比较问题。就是说,如果您运行了足够的测试,即使没有任何显示,也会显示一些内容。

我急切要解决的问题之一是,总是通过检查许多成对比较来讨论多重比较的问题,例如,在每个唯一的水平配对上运行t检验。(要对多个比较进行幽默处理,请看这里。)这给人留下的印象是,这个问题是唯一出现的地方。但这根本不是真的-多重比较的问题随处可见。例如,如果使用4个解释变量运行回归,则存在相同的问题。在一个设计良好的实验中,IV可以是正交的,但是人们通常会担心对先验,正交对比集使用Bonferroni校正,而对三阶因子方差分析则不会三思而后行。我认为这是不一致的。

全局F检验是所谓的“同时”检验。这将检查您所有的预测变量是否都与响应变量无关。同时测试为避免多次比较的问题提供了一定的保护,而不必走掉掉耗电的Bonferroni路线。不幸的是,我对您报告内容的解释是您没有发现任何内容。

有几件事减轻了这种解释。首先,只有43个数据,几乎可以肯定您没有很多功能。很有可能会产生实际效果,但是如果没有更多数据就无法解决它。其次,像@andrea和@Dimitriy一样,我担心将4级分类变量视为数字是否合适。这可能很不合适,并且可能会产生多种影响,包括削弱您检测真实区域的能力。最后,我不确定重要性测试是否如人们所相信的那么重要。甲p.11低; 那里真的有什么事吗?也许!谁知道?—在.05处没有“亮线”将真实效果与单纯的外观区分开来。


24

我想建议,这种现象(尽管有很大的个体变量,但不构成整体的显着检验)可以理解为一种总的“掩盖效应”,尽管可以想象,它可能是由多重共线性的解释变量引起的,但不必这样做。那个。事实证明,这也不是由于多个比较调整引起的。因此,该答案为已经出现的答案增加了一些限定条件,相反,这表明应该将多重共线性或多重比较视为罪魁祸首。

为了确定这些断言的合理性,让我们生成一个完全正交的变量的集合(尽可能不共线),以及一个由明确由第一个解释决定的因变量(加上大量随机误差)独立于其他一切)。在R可以做到这一点(可重复,如果你想实验)作为

set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)

解释变量是二进制的并不重要。重要的是它们的正交性,我们可以检查正交性以检查代码是否正常工作,这可以通过检查它们的相关性来完成。确实,相关矩阵很有趣:较小的系数表明y与第一个变量无关(除第一个变量(这是设计使然)),非对角零则确认了解释变量的正交性:

> cor(cbind(x,y))
     Var1  Var2  Var3   Var4  Var5      y
Var1 1.00 0.000 0.000  0.000  0.00  0.486
Var2 0.00 1.000 0.000  0.000  0.00  0.088
Var3 0.00 0.000 1.000  0.000  0.00  0.044
Var4 0.00 0.000 0.000  1.000  0.00 -0.014
Var5 0.00 0.000 0.000  0.000  1.00 -0.167
y    0.49 0.088 0.044 -0.014 -0.17  1.000

让我们运行一系列回归,仅使用第一个变量,然后使用前两个变量,依此类推。为了简便起见,在每个示例中,我仅显示第一个变量的行和整体F检验:

>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))

#              Estimate Std. Error t value Pr(>|t|)   
1  x[, 1:i]       0.898      0.294    3.05   0.0048 **
F-statistic: 9.29 on 1 and 30 DF,  p-value: 0.00478 

2  x[, 1:i]Var1    0.898      0.298    3.01   0.0053 **
F-statistic: 4.68 on 2 and 29 DF,  p-value: 0.0173 

3  x[, 1:i]Var1   0.8975     0.3029    2.96   0.0062 **
F-statistic: 3.05 on 3 and 28 DF,  p-value: 0.0451 

4  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0072 **
F-statistic: 2.21 on 4 and 27 DF,  p-value: 0.095 

5  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0073 **
F-statistic: 1.96 on 5 and 26 DF,  p-value: 0.118

看一下(a)第一个变量的显着性几乎没有变化,(a')即使在进行多重比较调整时,第一个变量仍保持显着(p <.05)(例如,通过将标称p值乘以b来应用Bonferroni。 (b)第一个变量的系数几乎没有变化,但(c)整体重要性呈指数增长,迅速膨胀到不重要的水平。

我将其解释为表明,包括很大程度上独立于因变量的解释变量可以“掩盖”回归的总体p值。 当新变量与现有变量和因变量正交时,它们将不会更改各个p值。(此处看到的微小变化是因为偶然添加的随机误差y与所有其他变量都略有相关。)从中可以得出的一个教训是,简约性很有价值:根据需要使用尽可能少的变量可以增强结果。

并不是说问题中的数据集必然发生这种情况,关于该数据集的披露很少。但是,了解这种掩盖效应可能发生的知识应该有助于我们对结果进行解释,以及我们进行变量选择和模型构建的策略。


+1,我同意这项分析。FWIW,这是我在回答其他问题时关于权力的讨论中暗示的(也许不是很好)的解释。在这里,我确实有一个关于您的版本的问题,为什么您使用32作为错误项的平均值?这是错字,还是在某种程度上很重要?
gung-恢复莫妮卡

@gung您在哪里看到32?如果您指的是rnorm(2^p, sd=2),请注意,第一个参数是项数,而不是均值。默认情况下,平均值为零,因此未明确指定。
ub

rnorm()N(μ,σ)

@gung我很高兴有机会澄清代码,因此已经编辑了违规行。
ub

11

当您的解释变量之间具有较高的共线性时,经常会发生这种情况。方差分析F是联合测试,所有的回归系数是共同无信息。当您的X包含类似信息时,该模型无法将解释力归因于一个回归变量或另一个回归变量,但是它们的组合可以解释响应变量的大部分变化。

x1y


如果共线性是一个问题,那么您将有很高的标准误差,并且可能会有难以置信的大系数,甚至即使符号错误也是如此。为了确保这是正在发生的情况,请在回归后计算方差膨胀因子(VIF)。一个合理的经验法则是,如果最大VIF大于10,则共线性是个问题。如果是,则在这里确实有两个选择。一种是通过删除一些变量来重新指定模型,以减少接近线性的依赖性。第二个是获取更大和/或更好(不太均匀)的样本。
Dimitriy V. Masterov 2012年

1
(+1)这种解释是一个很好的解释,但没有必要将这种现象归因于多重共线性:关键区别在于共同提供信息个人提供信息之间。 包括其他不相关的回归变量(可避免任何多重共线性)可降低前者,而使后者保持不变。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.