为什么使用AIC应用模型选择会给我变量的不重要的p值


14

我对AIC有一些疑问,希望您能为我提供帮助。我根据数据对AIC应用了模型选择(向后或向前)。并且某些选定变量的p值> 0.05。我知道有人说我们应该选择基于AIC而不是p值的模型,因此看来AIC和p值是两个不同的概念。有人可以告诉我有什么区别吗?到目前为止,我的理解是:

  1. 对于使用AIC的向后选择,假设我们有3个变量(var1,var2,var3),并且此模型的AIC为AIC *。如果排除这三个变量中的任何一个不会导致AIC明显低于AIC *(就df = 1的方差分布而言),那么我们可以说这三个变量是最终结果。

  2. 在三变量模型中,变量(例如var1)的有效p值表示该变量的标准化效应量显着不同于0(根据Wald或t检验)。

这两种方法之间的根本区别是什么?如果在我的最佳模型中(通过AIC获得)某些变量的p值不显着,该如何解释?

Answers:


13

AIC及其变体更接近变化,然后更接近每个回归变量的p值。更准确地说,它们是对数似然的惩罚形式。R2

您不想使用卡方检验AIC的差异。您可以使用卡方检验对数似然的差异(如果模型是嵌套的)。对于AIC,越低越好(在无论如何,大多数实现中)。无需进一步调整。

如果可能的话,您确实希望避免使用自动模型选择方法。如果必须使用一个,请尝试使用LASSO或LAR。


2
谢谢你的回答。你是对的。AIC不应用任何测试,而是通过添加带有2 * number_of_parameters的对数似然比来简单衡量标准模型是否适合样本,以及模型是否也可以保持简单。也许这解释了为什么选择的模型中保留了p值不重要的变量的原因?
tiantianchen

如果我们有两个具有几乎相同的AIC的模型,但是在一个模型中我们拥有比另一个模型更重要的术语,我们应该选择哪种模型?
阿古斯·卡马乔

随便你。
彼得·弗洛姆

11

实际上,使用AIC一次一次进行单变量逐步选择(至少渐近地)等效于对p值使用大约15.7%的临界值的逐步选择。(这很容易显示-如果将较大模型的AIC减少对数似然比对额外参数2的惩罚要大,则AIC会变小;这对应于如果a中的p值选择较大的模型,瓦尔德卡方比的尾部面积小χ12超过2 ...是15.7%)

因此,如果将它与为p值使用一些较小的临界值进行比较(有时它包含的p值高于该临界值的变量)相比较,就不足为奇了。


您能通过Wal chi-square指向AIC和p值之间的连接的网址或参考吗?谢谢。
meh

通过使用值为2的临界值(对应于15.73%的p值阈值)(相对于使用线性回归逐步选择的情况,当测试的自由度为1时)相对容易显示模型和连续变量)。可以将其计算为1-chi2cdf(2,1)。
乔治

@aginensky尽管实际联系很简单,但还没有看到实际的参考。我想我可以用谷歌搜索一下,等等。
Glen_b-恢复莫妮卡

@aginensky Lindsey,JK&Jones,B.(1998)在适用于医学数据的广义线性模型之间进行选择。医学统计学,17,59-68。...请参阅第62页的中间。还有更多。
Glen_b-恢复莫妮卡

@ Glen_b-谢谢,我以前从未见过这样的东西。
meh

9

请注意,p值或AIC都不是为逐步模型选择而设计的,实际上,在逐步回归的第一步之后,违反了这两个基础的假设(但不同的假设)。正如@PeterFlom所提到的,如果您认为需要自动选择模型,则LASSO和/或LAR是更好的选择。这些方法将偶然性较大的估计(对机会进行逐步奖励)拉回0,因此与阶段性相比偏差较小(剩余偏差倾向于更为保守)。

AIC的一个经常被忽视的大问题是AIC值差异的大小,常见的是看到“越低越好”并停在那里(并且自动过程只是强调这一点)。如果您要比较两个模型,并且它们具有不同的AIC值,那么显然倾向于使用具有较低AIC的模型,但通常我们会有2个(或更多)模型的AIC值彼此接近。在这种情况下,仅使用具有最低AIC值的模型将错过有价值的信息(并且推断与该模型中是否存在但与其他相似模型不同的术语将变得毫无意义或更糟)。来自数据本身的外部信息(例如收集预测变量的难易程度/昂贵程度)可能会使更希望使用具有稍微较高的AIC的模型,而不会造成质量损失。另一种方法是使用相似模型的加权平均值(这可能会产生与岭回归或套索等惩罚方法相似的最终预测,但导致模型的思考过程可能有助于理解)。


谢谢@GregSnow的回答。请问基于p值和基于AIC的模型选择的(不同)假设是什么?应用双向(向前/向后)或尝试整个子集或多或少会解决使用向前或向后逐步选择简单地找到局部最优模型的问题吗?(尽管过拟合的问题始终存在于AIC / p值方法中,而LASSO和/或LAR是更好的选择)
tiantianchen 2012年

由于p值或AIC都不是为模型选择而设计的,因此它们没有模型选择的假设。两者均旨在进行单个比较,考虑一下逐步回归中进行了多少次比较,您是否真的认为每次都采取了“最佳”步骤?
格雷格·斯诺

@GregSnow。我学习AIC的参考是stat.cmu.edu/~larry/=stat705/Lecture16.pdf ,这似乎使AIC进入了模型选择业务。另外,当我看到AIC在时序Arima模型中使用时,总是将其用于模型选择。
meh 18-4-23

@aginensky,是的,AIC(及其他)用于模型选择。这并不意味着AIC是模型选择的代名词,或者它甚至不适合模型选择,也不意味着自动模型选择可以回答一个有意义的问题。我以前用螺丝起子作为锤子,但这并不意味着它通常是个好主意。
格雷格·斯诺

“本文描述了如何使用作者于1971年从Akaike提出的信息标准(AIC)来系统地处理统计模型选择问题,” Aakike着,“统计模型识别的新视角”。因此,即使AIC是用一把螺丝刀可以最好地解决问题的锤子,但这种锤子的设计者还是认为,锤子是解决此问题的正确方法。无论正确与否,AIC都是为模型选择而设计的。我很高兴看到AIC的不同观点。随时回答这个问题,但是我已经完成了。
meh

1

我在AIC上的经验是,如果变量看起来不重要,但仍出现在具有最小AIC的模型中,则结果可能是混杂因素。

我建议您检查是否有混淆。删除这些不重要的变量应该会使剩余的一些估计系数的磁化强度改变超过25%。


请解释OP如何“可以检查混淆”。
吉姆(Jim)

0

我认为最好的模型选择是使用MuMIn包。这将是一步结果,您无需寻找最低的AIC值。例:

d<-read.csv("datasource")
library(MuMIn)
fit<-glm(y~x1+x2+x3+x4,family=poisson,data=d)
get.models(dredge(fit,rank="AIC"))[1]

2
除非您可以解释如何从统计学上解决问题,否则说出可能使用的代码并不能真正回答问题。无论如何,问题中没有什么是特定于软件的。
尼克·考克斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.