有没有理由比其他更喜欢AIC或BIC?


222

AIC和BIC都是评估因估计参数数量而受到惩罚的模型拟合的方法。据我了解,与AIC相比,BIC对免费参数的惩罚更多。除了基于标准严格性的偏爱之外,是否还有其他原因更喜欢AIC而不是BIC?


1
我认为将这种讨论称为“特征”选择或“协变量”选择更为合适。对我来说,模型选择范围更广,涉及到误差分布的规范,链接函数的形式以及协变量的形式。当我们谈论AIC / BIC时,我们通常会处于模型构建的所有方面都是固定的情况,除了协变量的选择。

6
确定要包含在模型中的特定协变量通常是用模型选择一词来完成的,书名中有许多带有模型选择的书主要决定了模型中应包含哪些模型协变量/参数。
迈克尔·

我不知道您的问题是否专门适用于系统发育(生物信息学),但如果是这样,这项研究可以提供有关此方面的一些想法:ncbi.nlm.nih.gov/pmc/articles/PMC2925852
tlorin

合并的问题还会询问有关KIC的信息,请更新问题文本并声明KIC的定义,并带有链接。
smci

1
@smci我添加了stats.stackexchange.com/questions/383923/…,以便让人们在感兴趣的情况下深入了解与KIC有关的问题。
russellpierce

Answers:


179

您的问题暗示AIC和BIC试图回答同一问题,这是不正确的。AIC试图选择最能描述未知的高维现实的模型。这意味着现实永远不会在所考虑的候选模型集中。相反,BIC试图在一组候选者中找到TRUE模型。我发现在研究人员沿途建立的模型之一中实例化了现实这一假设很奇怪。对于BIC来说,这是一个实际问题。

尽管如此,仍有很多研究人员说,以模型恢复模拟为依据,BIC比AIC更好。这些模拟包括从模型A和B生成数据,然后使用两个模型拟合两个数据集。当错误的模型比生成的数据更适合数据时,就会发生过度拟合。这些模拟的重点是查看AIC和BIC对这些过拟合的校正程度。通常,结果表明AIC过于宽松,相对于更简单,真实的模型,它仍然经常偏爱更复杂,错误的模型。乍一看,这些模拟似乎确实是一个很好的论据,但是它们的问题在于它们对AIC没有意义。正如我之前说过的,AIC不认为正在测试的任何候选模型都是真实的。根据AIC的说法,所有模型都是逼近现实的,现实永远不应该具有低维度。至少低于某些候选模型。

我的建议是同时使用AIC和BIC。在大多数情况下,他们会就首选模型达成共识,否则,只需报告即可。

如果您对AIC和BIC都不满意并且有空闲时间进行投资,请查找最小描述长度(MDL),这是一种完全不同的方法,可以克服AIC和BIC的局限性。来自MDL的度量有多种,例如归一化最大似然或Fisher信息近似。MDL的问题在于它的数学要求和/或计算强度大。

尽管如此,如果您要坚持简单的解决方案,一种评估模型灵活性的好方法(尤其是在参数数量相等时,使AIC和BIC无效)正在执行Parametric Bootstrap,这很容易实现。这是论文的链接

这里有些人主张使用交叉验证。我个人曾经使用过它,对此没有任何反对意见,但是问题在于,在样本削减规则(留一法,K折等)中进行选择是一种无原则的做法。


7
差可以单纯从数学的角度来看被看作- BIC衍生为log P的渐近扩展其中true模型参数根据任意无处之前消失采样(数据),AIC类似地用保持固定真实参数导出
雅罗Bulatov

4
您说:“有很多研究人员认为BIC比AIC更好,使用模型恢复模拟作为参数。这些模拟包括从模型A和B生成数据,然后将这两个数据集都拟合为两个模型。” 您是否愿意指出一些参考。我对他们很好奇!:)
deps_stats 2011年

2
我不相信这篇文章中的声明。
user9352 2012年

16
(-1)很好的解释,但我想挑战一个断言。@Dave Kellen能否请您参考BIC集合中必须包含TRUE模型的想法?我想对此进行调查,因为在本书中作者给出了令人信服的证据,证明事实并非如此。
gui11aume12年

2
很好的答案,但我强烈不同意“现实永远不应该具有低维度”的说法。这取决于您将yoru模型应用于什么“科学”
David

76

尽管AIC和BIC都是最大似然估计驱动的,并且为了避免过拟合而对免费参数进行惩罚,但是它们这样做的方式会导致明显不同的行为。让我们看一下一种常用的方法版本(结果形式规定了正态分布的错误和其他行为良好的假设):

  • AIC = -2 * ln(似然性)+ 2 * k,

  • BIC = -2 * ln(似然性)+ ln(N)* k,

哪里:

  • k =模型自由度
  • N =观察数

在这两种情况下,进行比较的组中最好的模型是最小化这些分数的模型。显然,AIC并不直接取决于样本量。而且,一般而言,AIC仅仅由于它们如何惩罚自由参数(AIC中的2 * k; BIC中的ln(N)* k)就提出了可能过度拟合的危险,而BIC提出了可能过度拟合的危险。随着时间的流逝,随着数据的引入和分数的重新计算,相对较低的N(小于等于7),BIC对自由参数的容忍度要比AIC高,但是对于较高的N,则较不容忍(因为N的自然对数克服了2)。

此外,AIC的目的是找到未知数据生成过程的最佳近似模型(通过使预期的KL差异最小化)。因此,它无法收敛到真实模型的概率(假设在评估的组中存在一个),而BIC确实会收敛,因为N趋于无穷大。

因此,正如在许多方法学问题中一样,首选方法取决于您要尝试做的事情,可用的其他方法以及是否概述了任何功能(收敛,对自由参数的相对公差,使预期的KL差异最小化) ),说出自己的目标。


8
好答案。BIC表示,AIC和BIC的另一种可能选择是AIC认为随着样本量的增加,“虚假效应”不会变得更容易检测(或者我们不在乎是否有虚假效应进入模型)。从RLS的1994年论文中的OLS角度可以看出,如果AIC的t统计量大于,则BIC的影响在AIC中变得近似“显着”(即,首选较大的模型),而BIC如果其t统计量是大于 | t| >|t|>2|t|>log(n)
概率

2
不错的答案,+ 1。我特别喜欢关于评估组中是否确实存在真实模型的警告。我认为“真正的模型” 永远不会存在。(Box&Draper说“所有模型都是错误的,但有些模型是有用的”,Burnham&Anderson称其为“渐缩效应量”。)这就是为什么我对BIC在不切实际的假设下的融合以及AIC的目标印象不深。在我们实际研究的模型中达到最佳近似。
Stephan Kolassa 2012年

68

我的快速解释是

  • AIC最适合预测,因为它在渐近性上等同于交叉验证。
  • BIC最好用于解释,因为它允许对基础数据生成过程进行一致的估计。

AIC等效于K倍交叉验证,BIC等效于一级单交叉验证。尽管如此,两个定理在线性回归的情况下成立。

5
mbq,它是AIC / LOO(不是LKO或K折),我认为Stone 1977中的证明不依赖于线性模型。我不知道BIC结果的细节。
ARS

11
阿尔斯是正确的。它是AIC = LOO和BIC = K倍,其中K是样本大小的复杂函数。
罗伯·海恩德曼

恭喜,你已经得到我了;我当时急着写那个,所以我犯了这个错误,显然这就是罗布写的。没关系,它来自Shao 1995,当时假设模型是线性的。我将对Stone进行分析,但我仍然认为您可能是对的,因为我所在领域的LOO与各种* IC一样,声誉也很差。

Wikipedia(en.wikipedia.org/wiki/…)上的描述使K折交叉验证看起来像是重复的仿真,以估计参数的稳定性。我可以理解为什么AIC会因LOO而稳定(因为LOO可以穷尽地进行),但是我不明白为什么除非K也能穷举,否则BIC会因K倍而保持稳定。K值所基于的复数公式是否穷举?还是发生了其他事情?
russellpierce

16

以我的经验,当目标是最大程度地发挥预测性歧视作用时,BIC会导致严重的拟合不足,而AIC通常会表现良好。


1
超级延迟,但是由于它在Google上仍然排名很高,您介意详细说明您在哪个领域工作?我只是好奇是否应该考虑域名的某些影响。
verybadatthis

@verybadatthis:临床生物统计学(只是谷歌“弗兰克·哈雷尔”,他有网站)
本·博克

13

布莱恩·里普利(Brian Ripley)提供的AIC和BIC的信息丰富且易于访问的“派生”可以在以下位置找到:http : //www.stats.ox.ac.uk/~ripley/Nelder80.pdf

Ripley对数学结果背后的假设作了一些说明。与其他答案所表明的相反,Ripley强调AIC是基于假设模型为真的。如果模型不正确,则常规计算将显示必须用更复杂的数量代替“参数数量”。Ripleys幻灯片中提供了一些参考。但是请注意,对于线性回归(严格地说,具有已知方差),通常,更复杂的数量简化为等于参数的数量。


3
(+1)但是,Ripley在说模型必须嵌套的观点上是错误的。对于Akaike的原始推导,或更确切地说,使用AIC作为Kullback-Leibler散度的估计量的推导,没有任何限制。实际上,在我正在研究的论文中,我“凭经验”表明AIC甚至可以用于协方差结构的模型选择(不同数量的参数,显然是非嵌套模型)。从数以千计的时间序列的模拟,我用不同的协方差结构跑的,在没有人的AIC得到它错了...
内斯托尔·

...如果“正确”的模型实际上在模型集上(但是,这也意味着对于我正在处理的模型,估计量的方差很小...但是,这只是技术上的详情)。
内斯托尔

1
@Néstor,我同意。关于嵌套模型的观点很奇怪。
NRH 2012年

3
在选择纵向数据的协方差结构时(混合效果模型或广义最小二乘),如果候选结构超过3个,AIC可以轻松找到错误的结构。如果大于3,则必须使用引导程序或其他方法来调整因使用AIC选择结构而引起的模型不确定性。
弗兰克·哈雷尔

8

实际上,唯一的区别是BIC是AIC扩展,以考虑对象(样本)的数量。我要说的是,尽管两者都很薄弱(与例如交叉验证相比),但使用AIC更好,而不是更多的人会熟悉该缩写-的确,我从未见过BIC会在其中发表论文或程序的人被使用(我仍然承认我偏向于此类标准根本行不通的问题)。

编辑:AIC和BIC等效于交叉验证,提供了两个重要的假设-定义它们时,因此,当模型是最大似然时,以及仅对训练数据的模型性能感兴趣时。如果将某些数据折叠成某种共识,则完全可以。
如果为某个实际问题制造预测机,则第一个是错误的,因为您的训练集仅代表有关您要处理的问题的一小部分信息,因此您无法优化模型。第二个是错误的,因为您期望模型将处理新数据,而您甚至无法期望训练集将具有代表性。为此,发明了简历。在面对独立数据时模拟模型的行为。在选择模型的情况下,CV不仅可以为您提供质量近似值,而且还可以提供质量近似值分布,因此它具有很大的优势,可以说“我不知道,无论新数据来了,它们中的任何一个都可以更好。”


这是否意味着对于某些样本量,BIC可能不如AIC严格?
russellpierce

1
严格的词在这里并不是最好的词,而是更能容忍参数。是的,是的,对于常见定义(带有自然对数),它发生在7个及以下的对象上。

AIC渐近等效于交叉验证。
罗布·海恩德曼

5
@mbq-我看不到交叉验证如何克服“非代表性”问题。如果您的训练数据不能代表您将来会收到的数据,则可以交叉验证您想要的所有信息,但是它不能代表您实际要面对的“一般化错误”(如“真”新数据不会由训练数据的非建模部分表示)。如果要做出正确的预测,获取具有代表性的数据集至关重要。
概率

1
@mbq-我的观点是,您似乎“无法接受”基于IC的选择,但无法解决问题。交叉验证是好的(尽管计算值得吗?),但是不能使用数据驱动的流程来处理非代表性数据。至少不可靠。您需要具有先验信息,以告诉您它如何不具有代表性(或更一般地说,“不具有代表性”的数据与您将要观察的实际未来数据之间存在哪些逻辑联系)。
概率

5

正如您提到的,AIC和BIC是惩罚模型以具有更多回归变量的方法。在这些方法中使用惩罚函数,该函数是模型中参数数量的函数。

  • 应用AIC时,惩罚函数为z(p) = 2 p

  • 当应用BIC时,惩罚函数为z(p) = p ln(n),其基于将惩罚解释为源自先验信息(因此称为贝叶斯信息准则)。

n大时,两个模型将产生完全不同的结果。然后,BIC对复杂模型施加更大的惩罚,因此将导致比AIC更简单的模型。但是,正如BIC上的Wikipedia中所述:

应当指出的是,在许多应用中,BIC只是减少到最大似然选择,因为参数的数量对于感兴趣的模型是相等的。


4
请注意,尺寸不变时,AIC也等同于ML。您的答案似乎只适用于BIC。
概率

5

据我所知,AIC和BIC之间没有太大区别。它们都是数学上可以方便地进行的近似,以便有效地比较模型。如果它们为您提供不同的“最佳”模型,则可能意味着您具有较高的模型不确定性,这比您应该使用AIC还是BIC更为重要。我个人更喜欢BIC,因为它会询问更多(更少)模型是否具有满足其参数的更多(更少)数据-就像老师在学生拥有更多(更少)的情况下要求更高(更低)的性能标准)时间来学习该主题。对我来说,这似乎是直观的事情。但是我可以肯定,鉴于AIC的简单形式,它同样也存在着直观而引人注目的争论。

现在,只要您进行近似计算,这些近似值肯定会有些垃圾。对于AIC肯定可以看到这一点,在AIC中存在许多“调整”(AICc)来说明使原始近似值变差的某些条件。对于BIC来说,这也是存在的,因为存在各种其他更精确(但仍然有效)的方法,例如Zellner g先验混合的完全Laplace近似(BIC是积分的Laplace近似方法的近似)。

当您拥有关于任何给定模型中的参数的大量先验信息时,它们都是废话。与需要从数据中估计参数的模型相比,AIC和BIC不必要地惩罚了部分已知参数的模型。

P(D|M,A)P(M|D,A)MMA

Mi:the ith model is the best description of the dataA:out of the set of K models being considered, one of them is the best

然后继续分配相同的概率模型(相同的参数,相同的数据,相同的近似值等),我将获得相同的BIC值集。只有在逻辑字母“ M”上附加某种独特的含义,人们才会被卷入与“真实模型”(“真实宗教”的回声)无关的问题。“定义” M的唯一一件事就是在计算中使用它的数学方程式-而且几乎从来没有一个和一个定义可以被选出来。我同样可以提出关于M的预测命题(“第ith个模型将提供最佳预测”)。我个人看不到这将如何改变任何可能性,以及BIC的好坏(对于该问题,AIC也是如此-尽管AIC基于不同的推导)

此外,该语句有什么问题?如果我正在考虑的是真实模型,那么就有B的可能性为57%。对我来说似乎足够合理,或者您可以使用更“软”的版本,则模型B在考虑的集合中是最好的,这一可能性为57%

最后一个评论:我想您会发现对AIC / BIC的意见和了解他们的人一样多。


4

很少应使用AIC,因为它实际上仅在渐近时有效。它几乎总是最好使用AICC(AIC与Ç orrection为有限的样本大小)。AIC趋于参数化:AICc大大减轻了这个问题。使用AICc的主要例外是,当基础分布严重瘦弱时。有关更多信息,请参阅Burnham&Anderson 所著的Model Selection


1
因此,您要说的是AIC并未充分惩罚参数模型,因此将其用作标准可能会导致参数过多。您建议改为使用AICc。在我最初提出的问题中再说一遍,由于BIC已经比AIC更为严格,是否有理由在BIC上使用AICc?
russellpierce

1
AIC的意思是渐近有效。正如John Taylor所指出的,AIC是不一致的。我认为他给AIC和BIC的对比是最好的选择。我看不到两者与交叉验证相同。它们都具有很好的属性,通常它们在小于最大变量数的模型中达到峰值。但是他们都可以选择不同的模型。
Michael Chernick

4

AIC和BIC是用于比较模型的信息标准。每个尝试平衡模型拟合和简约性,并且对参数数量进行不同的惩罚。

AIC=2k2ln(L)
kL2ln(L)2k

BIC=kln(n)2ln(L)

我还没有听说过KIC。


也没有听说过KIC,但对于AIC和BIC,请查看链接的问题或搜索AIC。stats.stackexchange.com/q/577/442
Henrik

1
(此答复是从一个重复的问题中合并而成的,该重复问题也要求对“ KIC”进行解释。)
whuber

3
这些模型不需要嵌套即可与AIC或BIC进行比较。
2012年

1

非常简短:

  • n
  • P(D|M,A)(D=Data,M=model,A=assumptions)P(M|D,A)nnk=n[11/(log(n)1)]n=样本量(Shao 1997)。BIC有许多不同的版本,但它们可以归结为对边际可能性进行不同的近似估算或采用不同的先验值。例如,EBIC不是使用原始BIC中所有可能模型的先验制服,而是使用固定大小模型的先验制服(Chen和Chen 2008),而BICq使用Bernouilli分布来指定要包括的每个参数的先验概率

lambda=2lambda=log(n),在优化一个目标(LASSO或弹性净回归)之后,根据其他目标调整正则化参数(例如,使交叉验证预测误差,AIC或BIC最小化)。

n1n

请注意,LOOCV误差也可以根据帽子矩阵的残差和对角线进行分析计算,而无需实际执行任何交叉验证。作为LOOCV误差的渐近近似值,这始终是AIC的替代方法。

参考文献

Stone M.(1977)通过交叉验证和Akaike准则选择模型的渐近性。皇家统计学会杂志丛刊B. 39,44–7。

Shao J.(1997)线性模型选择的渐近理论。统计学杂志,221-242。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.