为什么在执行逐步选择后p值会产生误导？

让我们考虑例如线性回归模型。我听说，在数据挖掘中，基于AIC标准执行逐步选择后，查看p值来检验每个真实回归系数为零的零假设是一种误导。我听说应该将模型中剩余的所有变量都视为具有与零不同的真实回归系数。谁能解释我为什么？谢谢。

— 约翰·M
source

这是更多信息。那里引用的参考文献也有帮助。

— S. Kolassa-恢复莫妮卡

在theoryecology.wordpress.com/2018/05/03/…中，我展示了一些R代码，展示了选择AIC之后的I型充气。请注意，它是逐步的还是全局的都没有关系，关键是模型选择基本上是多次测试。

— Florian Hartig

在根据AIC标准执行逐步选择后，查看p值来检验每个真实回归系数为零的零假设是一种误导。

的确，当零假设为真时，p值表示看到检验统计信息的概率至少与您的检验统计信息一样极端。如果为true，则p值应具有均匀分布。 $H_0$

但是，在逐步选择之后（或者实际上，在通过多种其他方法进行模型选择之后），即使我们知道零假设是真实的，保留在模型中的那些项的p值也不具有该属性。

发生这种情况是因为我们选择了具有或倾向于具有较小p值的变量（取决于我们使用的精确标准）。这意味着模型中剩余的变量的p值通常比我们拟合单个模型时的p值小得多。请注意，如果模型类别包括真实模型，或者模型类别具有足够的灵活性以逼近真实模型，那么选择平均而言将选择看起来比真实模型更好的模型。

[此外，出于基本相同的原因，剩余的系数偏离零，标准误差降低。这反过来也会影响置信区间和预测-例如，我们的预测将太窄。]

要查看这些效果，我们可以进行多次回归，其中一些系数为0，有些系数不为0，执行逐步过程，然后对包含变量系数为零的变量的那些模型查看结果的p值。

（在同一模拟中，您可以查看系数的估计值和标准偏差，并发现与非零系数相对应的系数也受到影响。）

简而言之，将通常的p值视为有意义是不合适的。

我听说应该将模型中剩下的所有变量都视为重要变量。

至于是否应该将模型中的所有值逐步“视为有效”，我不确定这在多大程度上是一种有用的观察方法。那么，“重要性”是什么意思？

这是对stepAIC具有n = 100的1000个模拟样本和十个候选变量（没有一个与响应相关）使用默认设置运行R的结果。在每种情况下，都计算模型中剩余的术语数：

选择正确的模型的时间只有15.5％；其余时间，模型包含的项与零没有不同。如果实际上候选变量集中有零系数变量，则我们可能会有几个项，其中模型中的真实系数为零。结果，不清楚将它们全部视为非零是一个好主意。

— Glen_b-恢复莫妮卡
source

用一句话“我听说应该将模型中剩余的所有变量都视为重要变量”，我的意思是：“我听说应该将模型中剩余的所有变量视为具有真正的回归系数，而不是零”

— John M

好的; 我已经添加了模拟的结果。

— Glen_b-恢复莫妮卡

+1我在本周末进行了相同的模拟，以准备关于模型选择方法的课程。我获得了相同的结果模式，探索了至变量，并使用了观察值。下一步是查看Bonferroni校正可能会执行的操作。

k = 3

$k=3$

39

$39$

10 k

$10k$

— ub

@whuber，确实，看到Bonferroni会（在问题的各个方面）产生什么作用，也是我立即倾向于完成上述模拟，但这不是人们实际上倾向于逐步进行的事情，所以我没有解决在这里。听到您讨论模型选择方法，我会着迷。我希望我会学到很多东西。

— Glen_b-恢复莫妮卡

@Glen_b ：（引自您的答案）这意味着模型中剩余的变量的p值通常比如果我们拟合一个模型甚至“如果我们拟合的一个模型碰巧是无论真实模型是否为null，都可以生成数据。”。您能解释一下突出显示的部分吗？在与数据生成过程（真实模型）具有相同规范的模型中，p值怎么可能较小？

— shani

类比可能会有所帮助。当候选变量是表示互斥类别的指示变量（虚拟变量）时的逐步回归（如ANOVA中的变量）完全对应于通过检验找出哪些组差异最小来选择要组合的组。如果原始的ANOVA对所测试，但最终的折叠组对所测试其中所得到的统计不不具有分布和错误的肯定概率将不受控制。 $t$ $F_{p-1, n-p-1}$ $F_{q-1, n-q-1}$ $q < p$ $F$

— 弗兰克·哈雷尔
source