据我了解,基于p值的变量选择(至少在回归上下文中)存在很大缺陷。出于相似的原因,基于AIC(或类似方法)的变量选择似乎也被认为存在缺陷,尽管这似乎还不清楚(例如,请参见我的问题和有关此主题的一些链接:“逐步模型选择”到底是什么?)。
但是说您确实选择了这两种方法之一来选择模型中的最佳预测变量集。
Burnham and Anderson 2002(模型选择和多模型推断:一种实用的信息理论方法,第83页)指出,不应将基于AIC的变量选择与基于假设检验的变量选择混合:“对原假设和信息理论方法的检验应不能一起使用;它们是非常不同的分析范例。”
另一方面,Zuur等。2009年(《具有生态学扩展的混合效应模型,R》第541页)似乎主张使用AIC首先找到最佳模型,然后使用假设检验执行“微调”:“缺点是AIC可能比较保守。 ,一旦AIC选择了最佳模型,您可能需要进行一些微调(使用从方法一获得的假设检验)。”
您会看到这如何使两本书的读者对采用哪种方法感到困惑。
1)这些只是统计思维的不同“阵营”和统计学家之间的分歧话题吗?这些方法之一现在是否只是简单地“过时”,但在撰写本文时被认为适当?还是从一开始就是一个明显的错误?
2)在这种情况下是否适合使用这种方法?例如,我来自生物学背景,我经常试图确定哪些变量似乎影响或推动了我的反应。我经常有很多候选的解释变量,我试图找出哪些是“重要的”(相对而言)。另外,请注意,候选预测变量的集合已经减少到被认为具有某些生物学相关性的变量,但是它可能仍然包括5-20个候选预测变量。