让我们考虑例如线性回归模型。我听说,在数据挖掘中,基于AIC标准执行逐步选择后,查看p值来检验每个真实回归系数为零的零假设是一种误导。我听说应该将模型中剩余的所有变量都视为具有与零不同的真实回归系数。谁能解释我为什么?谢谢。
让我们考虑例如线性回归模型。我听说,在数据挖掘中,基于AIC标准执行逐步选择后,查看p值来检验每个真实回归系数为零的零假设是一种误导。我听说应该将模型中剩余的所有变量都视为具有与零不同的真实回归系数。谁能解释我为什么?谢谢。
Answers:
在根据AIC标准执行逐步选择后,查看p值来检验每个真实回归系数为零的零假设是一种误导。
的确,当零假设为真时,p值表示看到检验统计信息的概率至少与您的检验统计信息一样极端。如果为true,则p值应具有均匀分布。
但是,在逐步选择之后(或者实际上,在通过多种其他方法进行模型选择之后),即使我们知道零假设是真实的,保留在模型中的那些项的p值也不具有该属性。
发生这种情况是因为我们选择了具有或倾向于具有较小p值的变量(取决于我们使用的精确标准)。这意味着模型中剩余的变量的p值通常比我们拟合单个模型时的p值小得多。请注意,如果模型类别包括真实模型,或者模型类别具有足够的灵活性以逼近真实模型,那么选择平均而言将选择看起来比真实模型更好的模型。
[此外,出于基本相同的原因,剩余的系数偏离零,标准误差降低。这反过来也会影响置信区间和预测-例如,我们的预测将太窄。]
要查看这些效果,我们可以进行多次回归,其中一些系数为0,有些系数不为0,执行逐步过程,然后对包含变量系数为零的变量的那些模型查看结果的p值。
(在同一模拟中,您可以查看系数的估计值和标准偏差,并发现与非零系数相对应的系数也受到影响。)
简而言之,将通常的p值视为有意义是不合适的。
我听说应该将模型中剩下的所有变量都视为重要变量。
至于是否应该将模型中的所有值逐步“视为有效”,我不确定这在多大程度上是一种有用的观察方法。那么,“重要性”是什么意思?
这是对stepAIC
具有n = 100的1000个模拟样本和十个候选变量(没有一个与响应相关)使用默认设置运行R的结果。在每种情况下,都计算模型中剩余的术语数:
选择正确的模型的时间只有15.5%;其余时间,模型包含的项与零没有不同。如果实际上候选变量集中有零系数变量,则我们可能会有几个项,其中模型中的真实系数为零。结果,不清楚将它们全部视为非零是一个好主意。