AIC模型比较的先决条件


26

要使AIC模型比较正常工作,必须满足哪些先决条件?

当我像这样进行比较时,我只是遇到了这个问题:

> uu0 = lm(log(usili) ~ rok)
> uu1 = lm(usili ~ rok)
> AIC(uu0)
[1] 3192.14
> AIC(uu1)
[1] 14277.29

这样我就证明了log变量的转换usili。但是我不知道在例如因变量不同的情况下是否可以对模型进行AIC比较?

理想的答案应包括先决条件(数学假设)列表。

Answers:


29

您无法比较这两个模型,因为它们没有对同一变量建模(因为您正确地认识了自己)。不过,在比较嵌套模型和非嵌套模型时,AIC都应该起作用。

在继续之前提醒您:高斯对数似然由

log(L(θ))=|D|2log(2π)12log(|K|)12(xμ)TK1(xμ),

K是模型的协方差结构,数据集中的点数,平均响应和因变量。μ X|D|μx

更具体地说,AIC等于,其中是模型中固定效应的数量,似然函数[1]。它实际上比较了建模假设中的方差()和偏差()之间的折衷。这样,在您的情况下,当涉及到偏差项时,它将比较两个不同的对数似然结构。这是因为当您实际上计算对数似然时,您会看两个项:一个拟合项,用和复杂度惩罚项,用ķ 大号2 ķ 2 日志大号- 12k2log(L)kL2k2log(L)-112(xμ)TK1(xμ)12log(|K|)。因此,您会看到两个模型之间的拟合项完全不同;在第一种情况下,您将比较原始数据的残差,而在另一种情况下,将比较记录数据的残差。

除了维基百科,AIC也被定义为等于: [3]; 这种形式更加明显地说明了为什么具有不同因变量的不同模型之间不具有可比性。RSS是两种情况,两者之间是无与伦比的。|D|log(RSS|D|)+2k

Akaike的原始论文[4]实际上很难掌握(我认为)。它基于KL散度(大致来说是两个分布之间的差异),并在证明如何近似数据的未知真实分布并将其与模型所假设的数据分布进行比较方面起作用。这就是为什么“ AIC分数越小越好”的原因;您更接近数据的近似真实分布。

因此,综合起来,使用AIC时要记住的显而易见的事情是三个[2,5]:

  1. 您不能使用它来比较不同数据集的模型。

  2. 您应该对所有候选模型使用相同的响应变量。

  3. 您应该,因为否则您将无法获得良好的渐近一致性。|D|>>k

很抱歉将坏消息告诉您,但是使用AIC来表明您选择的是一个因变量而不是另一个,这在统计上是不行的。检查两个模型中残差的分布,如果记录的数据案例具有正态分布的残差,而原始数据案例则没有,那么您就有了可能需要的所有理由。您可能还想检查原始数据是否对应于对数正态,这也许也足以证明理由。

对于严格的数学假设,游戏是KL散度和信息论。

嗯,还有一些参考资料:

  1. http://en.wikipedia.org/wiki/Akaike_information_criterion
  2. 赤池信息准则,胡树华,(演示文稿第17-18页)
  3. 《应用多元统计分析》,强生公司(Johnson&Wichern),第6版。(第386-387页)
  4. 统计模型识别的新视角,H。Akaike,IEEE自动控制事务,19(6):716–723(1974)
  5. 模型选择教程1:Akaike的信息准则,D。Schmidt和E. Makalic,(演示文稿第39页)

谢谢!我不懂数学,但得到了信息的核心。但是,您能否列出AIC模型比较所需的所有先决条件?只是为了确保下次我不会犯其他错误。我去一一检查。
好奇的

1
恐怕我没有这样的“清单”。参考文献[2] 如果您有兴趣的话,这里有一个非常全面的清单。要记住的主要内容是:1.由于AIC是一种渐近有效的模型选择准则,因此您需要要比和2 大得多。您只能将其用于比较相同从属数据的模型。从数学上来说,您希望是可微的两次,每个候选模型被映射为唯一的并且您的ML估计值是一致的,但是我认为这些假设在显示时是过大的纸...p 大号θ θ p X | θ |d|p大号θθpX|θ
usεr11852说恢复单胞菌

1
感谢您将这三个假设的清单添加到答案中!那就是我所需要的。
好奇的

1
再次查看您的答案:您的观点1. “您不能使用它来比较不同数据集的模型”。您所说的“数据集”是什么意思?如果更改因变量集怎么办?我想在那种情况下,AIC应该仍然具有可比性吗?您能否更新您的答案以澄清这一点?
2013年

1
(对不起,我非常迟到回复!)我想你想说的独立变量...如果你改变你与你搞乱你因变量一次为“模型拟合”(粗略地说,)不与相同的。(花时间回答@Curious,我不会在7月中旬之前收到任何期望!:D)μ X[R小号小号μX
us11r11说恢复Monic的功能2014年

11

uu0一世ÿ一世-1个2一世日志ÿ一世uu0AIC (uu0)+2*sum (log (usili))AIC (uu1)


我不理解您尝试以某种方式“纠正” AIC会采取什么措施,以及您实际上从中得到了什么(如何解释结果)。无论如何,不​​要深入探讨,也没关系,因为我的问题是完全不同的事情:AIC(实际的,未校正的)要具有合理的可比性的一般前提是什么?不要只关注这个特定的例子,这只是一般情况的一个例子。
好奇

1
-2日志pÿ|θX=GÿX=ØGÿAIC()
概率

@probabilityislogic:您是否对您的建议有任何学术参考(AIC(uu0)+ 2 * sum(log(usili))),以便我可以在学术著作中引用它们?谢谢。
2014年

3

取自赤池1978

摘自Akaike 1978的摘录提供了@probabilityislogic支持该解决方案的引用。

Akaike,H.,1978年。《时间序列模型的可能性》。皇家统计学会杂志。系列D(统计学家)27:217-235。


1
抱歉,我不明白,什么是“变量的转换”?它与我的问题有何关系?请解释,谢谢
好奇2016年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.