AIC和BIC都是评估因估计参数数量而受到惩罚的模型拟合的方法。据我了解,与AIC相比,BIC对免费参数的惩罚更多。除了基于标准严格性的偏爱之外,是否还有其他原因更喜欢AIC而不是BIC?
AIC和BIC都是评估因估计参数数量而受到惩罚的模型拟合的方法。据我了解,与AIC相比,BIC对免费参数的惩罚更多。除了基于标准严格性的偏爱之外,是否还有其他原因更喜欢AIC而不是BIC?
Answers:
您的问题暗示AIC和BIC试图回答同一问题,这是不正确的。AIC试图选择最能描述未知的高维现实的模型。这意味着现实永远不会在所考虑的候选模型集中。相反,BIC试图在一组候选者中找到TRUE模型。我发现在研究人员沿途建立的模型之一中实例化了现实这一假设很奇怪。对于BIC来说,这是一个实际问题。
尽管如此,仍有很多研究人员说,以模型恢复模拟为依据,BIC比AIC更好。这些模拟包括从模型A和B生成数据,然后使用两个模型拟合两个数据集。当错误的模型比生成的数据更适合数据时,就会发生过度拟合。这些模拟的重点是查看AIC和BIC对这些过拟合的校正程度。通常,结果表明AIC过于宽松,相对于更简单,真实的模型,它仍然经常偏爱更复杂,错误的模型。乍一看,这些模拟似乎确实是一个很好的论据,但是它们的问题在于它们对AIC没有意义。正如我之前说过的,AIC不认为正在测试的任何候选模型都是真实的。根据AIC的说法,所有模型都是逼近现实的,现实永远不应该具有低维度。至少低于某些候选模型。
我的建议是同时使用AIC和BIC。在大多数情况下,他们会就首选模型达成共识,否则,只需报告即可。
如果您对AIC和BIC都不满意并且有空闲时间进行投资,请查找最小描述长度(MDL),这是一种完全不同的方法,可以克服AIC和BIC的局限性。来自MDL的度量有多种,例如归一化最大似然或Fisher信息近似。MDL的问题在于它的数学要求和/或计算强度大。
尽管如此,如果您要坚持简单的解决方案,一种评估模型灵活性的好方法(尤其是在参数数量相等时,使AIC和BIC无效)正在执行Parametric Bootstrap,这很容易实现。这是论文的链接。
这里有些人主张使用交叉验证。我个人曾经使用过它,对此没有任何反对意见,但是问题在于,在样本削减规则(留一法,K折等)中进行选择是一种无原则的做法。
尽管AIC和BIC都是最大似然估计驱动的,并且为了避免过拟合而对免费参数进行惩罚,但是它们这样做的方式会导致明显不同的行为。让我们看一下一种常用的方法版本(结果形式规定了正态分布的错误和其他行为良好的假设):
和
哪里:
在这两种情况下,进行比较的组中最好的模型是最小化这些分数的模型。显然,AIC并不直接取决于样本量。而且,一般而言,AIC仅仅由于它们如何惩罚自由参数(AIC中的2 * k; BIC中的ln(N)* k)就提出了可能过度拟合的危险,而BIC提出了可能过度拟合的危险。随着时间的流逝,随着数据的引入和分数的重新计算,相对较低的N(小于等于7),BIC对自由参数的容忍度要比AIC高,但是对于较高的N,则较不容忍(因为N的自然对数克服了2)。
此外,AIC的目的是找到未知数据生成过程的最佳近似模型(通过使预期的KL差异最小化)。因此,它无法收敛到真实模型的概率(假设在评估的组中存在一个),而BIC确实会收敛,因为N趋于无穷大。
因此,正如在许多方法学问题中一样,首选方法取决于您要尝试做的事情,可用的其他方法以及是否概述了任何功能(收敛,对自由参数的相对公差,使预期的KL差异最小化) ),说出自己的目标。
我的快速解释是
以我的经验,当目标是最大程度地发挥预测性歧视作用时,BIC会导致严重的拟合不足,而AIC通常会表现良好。
布莱恩·里普利(Brian Ripley)提供的AIC和BIC的信息丰富且易于访问的“派生”可以在以下位置找到:http : //www.stats.ox.ac.uk/~ripley/Nelder80.pdf
Ripley对数学结果背后的假设作了一些说明。与其他答案所表明的相反,Ripley强调AIC是基于假设模型为真的。如果模型不正确,则常规计算将显示必须用更复杂的数量代替“参数数量”。Ripleys幻灯片中提供了一些参考。但是请注意,对于线性回归(严格地说,具有已知方差),通常,更复杂的数量简化为等于参数的数量。
实际上,唯一的区别是BIC是AIC扩展,以考虑对象(样本)的数量。我要说的是,尽管两者都很薄弱(与例如交叉验证相比),但使用AIC更好,而不是更多的人会熟悉该缩写-的确,我从未见过BIC会在其中发表论文或程序的人被使用(我仍然承认我偏向于此类标准根本行不通的问题)。
编辑:AIC和BIC等效于交叉验证,提供了两个重要的假设-定义它们时,因此,当模型是最大似然时,以及仅对训练数据的模型性能感兴趣时。如果将某些数据折叠成某种共识,则完全可以。
如果为某个实际问题制造预测机,则第一个是错误的,因为您的训练集仅代表有关您要处理的问题的一小部分信息,因此您无法优化模型。第二个是错误的,因为您期望模型将处理新数据,而您甚至无法期望训练集将具有代表性。为此,发明了简历。在面对独立数据时模拟模型的行为。在选择模型的情况下,CV不仅可以为您提供质量近似值,而且还可以提供质量近似值分布,因此它具有很大的优势,可以说“我不知道,无论新数据来了,它们中的任何一个都可以更好。”
正如您提到的,AIC和BIC是惩罚模型以具有更多回归变量的方法。在这些方法中使用惩罚函数,该函数是模型中参数数量的函数。
应用AIC时,惩罚函数为z(p) = 2 p。
当应用BIC时,惩罚函数为z(p) = p ln(n),其基于将惩罚解释为源自先验信息(因此称为贝叶斯信息准则)。
当n大时,两个模型将产生完全不同的结果。然后,BIC对复杂模型施加更大的惩罚,因此将导致比AIC更简单的模型。但是,正如BIC上的Wikipedia中所述:
应当指出的是,在许多应用中,BIC只是减少到最大似然选择,因为参数的数量对于感兴趣的模型是相等的。
据我所知,AIC和BIC之间没有太大区别。它们都是数学上可以方便地进行的近似,以便有效地比较模型。如果它们为您提供不同的“最佳”模型,则可能意味着您具有较高的模型不确定性,这比您应该使用AIC还是BIC更为重要。我个人更喜欢BIC,因为它会询问更多(更少)模型是否具有满足其参数的更多(更少)数据-就像老师在学生拥有更多(更少)的情况下要求更高(更低)的性能标准)时间来学习该主题。对我来说,这似乎是直观的事情。但是我可以肯定,鉴于AIC的简单形式,它同样也存在着直观而引人注目的争论。
现在,只要您进行近似计算,这些近似值肯定会有些垃圾。对于AIC肯定可以看到这一点,在AIC中存在许多“调整”(AICc)来说明使原始近似值变差的某些条件。对于BIC来说,这也是存在的,因为存在各种其他更精确(但仍然有效)的方法,例如Zellner g先验混合的完全Laplace近似(BIC是积分的Laplace近似方法的近似)。
当您拥有关于任何给定模型中的参数的大量先验信息时,它们都是废话。与需要从数据中估计参数的模型相比,AIC和BIC不必要地惩罚了部分已知参数的模型。
然后继续分配相同的概率模型(相同的参数,相同的数据,相同的近似值等),我将获得相同的BIC值集。只有在逻辑字母“ M”上附加某种独特的含义,人们才会被卷入与“真实模型”(“真实宗教”的回声)无关的问题。“定义” M的唯一一件事就是在计算中使用它的数学方程式-而且几乎从来没有一个和一个定义可以被选出来。我同样可以提出关于M的预测命题(“第ith个模型将提供最佳预测”)。我个人看不到这将如何改变任何可能性,以及BIC的好坏(对于该问题,AIC也是如此-尽管AIC基于不同的推导)
此外,该语句有什么问题?如果我正在考虑的是真实模型,那么就有B的可能性为57%。对我来说似乎足够合理,或者您可以使用更“软”的版本,则模型B在考虑的集合中是最好的,这一可能性为57%
最后一个评论:我想您会发现对AIC / BIC的意见和了解他们的人一样多。
很少应使用AIC,因为它实际上仅在渐近时有效。它几乎总是最好使用AICC(AIC与Ç orrection为有限的样本大小)。AIC趋于参数化:AICc大大减轻了这个问题。使用AICc的主要例外是,当基础分布严重瘦弱时。有关更多信息,请参阅Burnham&Anderson 所著的Model Selection。
非常简短:
,在优化一个目标(LASSO或弹性净回归)之后,根据其他目标调整正则化参数(例如,使交叉验证预测误差,AIC或BIC最小化)。
请注意,LOOCV误差也可以根据帽子矩阵的残差和对角线进行分析计算,而无需实际执行任何交叉验证。作为LOOCV误差的渐近近似值,这始终是AIC的替代方法。
参考文献
Stone M.(1977)通过交叉验证和Akaike准则选择模型的渐近性。皇家统计学会杂志丛刊B. 39,44–7。
Shao J.(1997)线性模型选择的渐近理论。统计学杂志,221-242。