变量选择的方法相互冲突:AIC,p值或两者?


13

据我了解,基于p值的变量选择(至少在回归上下文中)存在很大缺陷。出于相似的原因,基于AIC(或类似方法)的变量选择似乎也被认为存在缺陷,尽管这似乎还不清楚(例如,请参见我的问题和有关此主题的一些链接:“逐步模型选择”到底是什么?)。

但是说您确实选择了这两种方法之一来选择模型中的最佳预测变量集。

Burnham and Anderson 2002(模型选择和多模型推断:一种实用的信息理论方法,第83页)指出,不应将基于AIC的变量选择与基于假设检验的变量选择混合:“对原假设和信息理论方法的检验应不能一起使用;它们是非常不同的分析范例。”

另一方面,Zuur等。2009年(《具有生态学扩展的混合效应模型,R》第541页)似乎主张使用AIC首先找到最佳模型,然后使用假设检验执行“微调”:“缺点是AIC可能比较保守。 ,一旦AIC选择了最佳模型,您可能需要进行一些微调(使用从方法一获得的假设检验)。”

您会看到这如何使两本书的读者对采用哪种方法感到困惑。

1)这些只是统计思维的不同“阵营”和统计学家之间的分歧话题吗?这些方法之一现在是否只是简单地“过时”,但在撰写本文时被认为适当?还是从一开始就是一个明显的错误?

2)在这种情况下是否适合使用这种方法?例如,我来自生物学背景,我经常试图确定哪些变量似乎影响或推动了我的反应。我经常有很多候选的解释变量,我试图找出哪些是“重要的”(相对而言)。另外,请注意,候选预测变量的集合已经减少到被认为具有某些生物学相关性的变量,但是它可能仍然包括5-20个候选预测变量。


3
我想知道Zuur的统计论点在选择AIC之后通过假设检验进行微调是什么。这似乎不是一个统一的模型构建策略。但是我对那些事情还不够了解。
理查德·哈迪

2
我的直觉是,Zuur等人的建议是错误的(为什么您会使用显着性检验进行模型选择?),尽管我不确定伯纳姆和安德森的说法是否正确。这是一个很好的问题,但是为了回答这个问题,我将不得不比迄今为止阅读的更多的技术细节更深入地阅读。
Kodiologist's

我在模型中使用了这两种方法来预测面板销售。根据我的经验,基于AIC的逐步向后回归似乎可以提供更好的结果。
Souptik Dhar

1
@SouptikDhar,当您说“更好”的结果时,您究竟是用哪种方式表示的?
Tilen

答案可能取决于分析的目的吗?在一项观察性研究中,可能希望在给定数据集的情况下找到最省钱的模型,因此例如依赖于“基于AIC的变量选择”。但是,如果目的是对假设进行检验,则该模型是从假设开始就已经确定了模型,该模型是针对假设所关注变量的适当代理的推论。变量选择恕我直言?
Rodolphe

Answers:


6

一个简短的答案。

进行数据驱动的模型选择或调整,然后对选择/调整的模型使用标准推论方法的方法(àla Zuur 等人,以及其他许多受人尊敬的生态学家,例如Crawley),总是得出过分乐观的结果:过于狭窄的置信度间隔(覆盖率较差),p值过小(I型错误较高)。这是因为标准推论方法假定模型是先验指定;他们没有考虑模型调整过程。

这就是为什么像Frank Frank(Regression Modeling Strategies)这样的研究人员强烈反对逐步回归等数据驱动选择技术的原因,并警告人们必须降低模型复杂度(“降维”,例如,计算预测变量的PCA)并通过查看预测变量来选择前几个PCA轴作为预测变量。

如果您对找到最佳的预测模型感兴趣(并且对预测不确定性的任何可靠估计都不感兴趣,这属于推理领域!),那么数据驱动的模型调整就可以了(尽管逐步选择很少是最好的可用选项);机器学习/统计学习算法进行了大量调整,以尝试获得最佳的预测模型。“测试”或“样本外”错误必须在单独的,保持样本外进行评估,否则任何验证方法都必须内置到交叉验证程序中。

关于这个话题的观点似乎确实有历史演变。许多经典的统计教科书,尤其是那些专注于回归的教科书,都提出了逐步的方法,随后采用了标准的推理程序,而没有考虑模型选择的影响[需要引用...]

有许多方法可以量化变量的重要性,并且并非全部都落入变量选择后陷阱中。

  • Burnham和Anderson建议对AIC权重求和。在这种方法上有很多分歧。
  • 您可以拟合完整的模型(具有适当缩放的/无单位的预测变量),并根据估计的幅度[生物学效应大小] Z评分[“明确性/统计效应大小]” 对预测变量进行排名。

1

我来自生物学背景,是一名聘用的生物统计学家,在一家大学医院工作。我在这方面读了很多书,尤其是最近,尤其是Harrell对www的看法以及他的《 Regression Modeling Strategies》。现在不再引用他,而是从经验出发:这与现场高度相关,我认为这是必须要考虑的第一个层次。第二层将是获得良好的理性方法,这意味着您的预测变量应该具有核心意义,以根据科学经验来表达您想要预测的内容。第三是考虑相互作用,这是至关重要的,可以通过采取的统计方法或洞察力加以解决。就我的医院数据而言,选择的方法只有第4种,例如在例如

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.