我有一个问题,我认为这对很多用户来说都是非常基本的。
我使用线性回归模型来(i)研究几个解释变量与我的反应变量之间的关系,以及(ii)使用解释变量预测我的反应变量。
一个特定的解释变量X似乎对我的响应变量有显着影响。为了测试此解释变量X的增加值,以便对我的响应变量进行样本外预测,我使用了两个模型:模型(a)使用所有解释变量,模型(b)使用所有变量除了变量X。对于这两个模型,我仅报告样本外性能。看起来两个模型的性能几乎一样好。换句话说,添加解释变量X不会改善样本外预测。请注意,我还使用模型(a)(即具有所有解释变量的模型)来发现,解释变量X确实会严重影响我的响应变量。
我现在的问题是:如何解释这一发现?直截了当的结论是,即使变量X似乎使用推论模型显着影响了我的响应变量,但它并不能改善样本外预测。但是,我很难进一步解释这一发现。这怎么可能?对此发现有何解释?
提前致谢!
额外信息:具有“显着影响”是指参数估计的最高95%后验密度间隔中不包含0(即使用贝叶斯方法)。用常客的话来说,这大致对应于p值小于0.05。我仅对所有模型参数使用扩散(无信息)先验。我的数据具有纵向结构,总共包含大约7000个观测值。对于样本外预测,我使用90%的数据来拟合模型,并使用10%的数据使用多次复制来评估模型。也就是说,我多次进行了火车测试拆分,并最终报告了平均性能指标。