不能改善样本外预测的“显着变量”-如何解释？

我有一个问题，我认为这对很多用户来说都是非常基本的。

我使用线性回归模型来（i）研究几个解释变量与我的反应变量之间的关系，以及（ii）使用解释变量预测我的反应变量。

一个特定的解释变量X似乎对我的响应变量有显着影响。为了测试此解释变量X的增加值，以便对我的响应变量进行样本外预测，我使用了两个模型：模型（a）使用所有解释变量，模型（b）使用所有变量除了变量X。对于这两个模型，我仅报告样本外性能。看起来两个模型的性能几乎一样好。换句话说，添加解释变量X不会改善样本外预测。请注意，我还使用模型（a）（即具有所有解释变量的模型）来发现，解释变量X确实会严重影响我的响应变量。

我现在的问题是：如何解释这一发现？直截了当的结论是，即使变量X似乎使用推论模型显着影响了我的响应变量，但它并不能改善样本外预测。但是，我很难进一步解释这一发现。这怎么可能？对此发现有何解释？

提前致谢！

额外信息：具有“显着影响”是指参数估计的最高95％后验密度间隔中不包含0（即使用贝叶斯方法）。用常客的话来说，这大致对应于p值小于0.05。我仅对所有模型参数使用扩散（无信息）先验。我的数据具有纵向结构，总共包含大约7000个观测值。对于样本外预测，我使用90％的数据来拟合模型，并使用10％的数据使用多次复制来评估模型。也就是说，我多次进行了火车测试拆分，并最终报告了平均性能指标。

— Dubvice
source

因为您使用的是贝叶斯方法，所以结果取决于数据的先验性。由于在之前跌幅的依赖与数据和增加的数额增加的程度的数据和以前不同意，为您提供既对先验分布，数据量，以及如何密切的信息，这将是有用的单独数据符合到先前的分配。

— ub

@whuber我忘了提到我只使用了分散（无信息）先验。因此，我觉得我以前的说明与我的发现没有关系。我很确定，拟合常客线性回归模型将得出完全相同的发现。

— dubvice

谢谢-这有助于排除几种可能的解释。

— ub

您是在将模型重新拟合为保留的数据，还是在使用适合原始数据的模型？无论哪种情况，一个可能的问题是您对保留的数据犯了II型错误。也许该变量是相关的，但是您本来就没有足够的能力（在这种情况下，您可能高估了可能使预测更糟的影响）。或变量无关紧要，并且您犯了Type I错误。发生这种事情的原因有很多。

— 家伙

我使用了多个指标：RSME，MAE和AUC（我还试图预测我的连续变量是否低于某个阈值）。

— dubvice

Answers:

当特定的预测变量在统计上有意义时，并不意味着它也大大改善了模型的预测性能。预测性能与效果大小更相关。例如，下面的函数模拟具有两个预测变量x1和的线性回归模型的数据x2，并拟合两个模型，一个同时包含x1和x2，一个x1单独拟合。在功能中，您可以更改的效果大小x2。该函数报告x1和的系数的置信区间x2，以及两个模型的值，作为预测性能的度量。 $R^2$

该函数是：

sim_ES <- function (effect_size = 1, sd = 2, n = 200) {
    # simulate some data
    DF <- data.frame(x1 = runif(n, -3, 3), x2 = runif(n, -3, 3))
    DF$y <- 2 + 5 * DF$x1 + (effect_size * sd) * DF$x2 + rnorm(n, sd = sd)

    # fit the models with and without x2
    fm1 <- lm(y ~ x1 + x2, data = DF)
    fm2 <- lm(y ~ x1, data = DF)

    # results
    list("95% CIs" = confint(fm1),
         "R2_X1_X2" = summary(fm1)$r.squared,
         "R2_only_X1" = summary(fm2)$r.squared)
}

例如，对于默认值，我们得到

$`95% CIs`
               2.5 %   97.5 %
(Intercept) 1.769235 2.349051
x1          4.857439 5.196503
x2          1.759917 2.094877

$R2_X1_X2
[1] 0.9512757

$R2_only_X1
[1] 0.8238826

因此x2意义重大，并且不将其包括在模型中会对产生重大影响。 $R^2$

但是，如果将效果大小设置为0.3，则会得到：

> sim_ES(effect_size = 0.3)
$`95% CIs`
                2.5 %    97.5 %
(Intercept) 1.9888073 2.5563233
x1          4.9383698 5.2547929
x2          0.3512024 0.6717464

$R2_X1_X2
[1] 0.9542341

$R2_only_X1
[1] 0.9450327

该系数仍然很大，但是的改善很小。 $R^2$

— 迪米特里斯·里佐波洛斯（Dimitris Rizopoulos）
source

统计意义与预测绩效之间的模糊二分法是我分析生活的祸根，而不是一种。（+

— 1-

-1

在多元回归中这是很正常的事情。最常见的原因是您的预测变量彼此相关。换句话说，您可以从其他预测变量的值推断X。因此，虽然它是唯一的预测变量，对预测很有用，但是一旦拥有所有其他预测变量，它就不会提供太多额外的信息。您可以通过在其他预测变量上回归X来检查是否是这种情况。我还将参考免费在线教科书《统计学习的元素》中有关线性回归的章节。

— 登齐洛
source

您似乎在描述一个不重要的解释变量，而不是在解决问题中描述的特定情况。

— ub

我正在描述一个解释变量，它本身与响应密切相关（即，通过简单回归），这就是我认为问题的意思是“ X似乎显着影响了我的响应变量”。

— Denziloe

但是在那种情况下，我不会发现我的解释变量X对我的响应变量有重大影响，对吗？最初我可能并没有在问题中明确指出，但是我使用了一个包含所有解释变量的模型，发现解释变量X对我的响应变量有重大影响。

— dubvice

我认为这个问题的意思是在多元回归的背景下很重要。从对“几个解释变量”的引用看来，这似乎很清楚。我担心您的回答可能会使OP感到困惑。

X

$X$

— ub

是的，您已经正确理解了。这就是我的意思。我希望在我的问题中对此澄清得足够好。

— dubvice