模型的Akaike信息标准(AIC)得分是什么意思?


34

我在这里看到了一些关于外行的含义的问题,但是对于我来说,这些对于我来说太过外行了。我试图从数学上理解AIC分数的含义。

但是同时,我也不想得到一个严格的证据,使我看不到更重要的观点。例如,如果这是微积分,那么我将对无穷小感到满意,而如果这是概率论,那么如果没有度量理论,我将感到满意。

我的尝试

通过在此处阅读以及我自己的一些表示法糖AICm,D是数据集D上模型的AIC准则,如下所示: AIC m D = 2 k m2 ln L m D 其中k m为模型m的参数个数,L m D是模型m在数据集D上的最大似然函数值。mD

AICm,D=2km2ln(Lm,D)
kmmLm,DmD

这是我对上述含义的理解:

m=arg maxθPr(D|θ)

这条路:

  • km是的参数数。m
  • Lm,D=Pr(D|m)=L(m|D)

现在让我们重写AIC:

AICm,D=2km2ln(Lm,D)=2km2ln(Pr(D|m))=2km2loge(Pr(D|m))

显然,是在模型下观察数据集的概率。因此,模型与数据集拟合越好,越大,因此项越小。D m m D Pr D | m 2 log ePr D | m Pr(D|m)DmmDPr(D|m)2loge(Pr(D|m))

显然,AIC会奖励适合其数据集的模型(因为越小越好)。AICm,D

另一方面,术语显然会惩罚带有更多参数的模型。AIC m D2kmAICm,D

换句话说,AIC似乎是一种措施:

  • 对数奖励准确的模型(更适合模型)。例如,它对适应度从提升至奖励比对增加适应度的奖励高至。如下图所示。0.4 0.5 0.8 0.9D0.40.50.80.9
  • 奖励线性减少参数。因此,将参数从减少到的奖励与奖励从减少到奖励一样多。8 2 19821

在此处输入图片说明

换句话说(再次),AIC定义了简单的重要性和适应性的重要性之间的权衡。

换句话说,AIC似乎建议:

  • 健身的重要性降低。
  • 但是,简单性的重要性永远不会减少,而总是永远重要。

问题1:但是一个问题是:为什么我们要关心这种特定的适应性-简单性权衡?

Q2:为什么和为什么?为什么不这样: 即应该在y视图中对同样有用,并且应该能够相对比较不同的模型(只是不按缩放;我们需要这个吗?)。2 log eAIC m D = 2 k m - 2 ln L m D= 2 k m - ln L m DAIC m D2k2loge()AICmDSIMPLEAICmD2

AICm,D=2km2ln(Lm,D)=2(kmln(Lm,D))AICm,D2=kmln(Lm,D)AICm,D,SIMPLE=kmln(Lm,D)
AICm,D,SIMPLEAICm,D2

问题3:这与信息论有什么关系?有人可以从信息理论的出发点得出这一点吗?


2
您在表示法是什么意思?您是否暗示有关型号选择的信息?您上面所说的内容并不真正意味着AIC要求您选择模型。正如您所说,Q2在某种意义上是相当随意的,但它来自于使AIC成为Kullback-Leibler散度的估计,这也与Q1的答案有关,并且对。EXP AIC - 分钟AIC 1... AIC 中号/ 2 m=argmaxθPr(D|θ)exp((AICmmin(AIC1,,AICM))/2)
比约恩

θ d | θ θ d d θ θarg maxθPr(D|θ)表示一直寻找许多直到找到一个使概率最小的值。每个是参数的元组/向量,它们定义了试图解释数据集模型。因此从本质上说:我们有数据集,由参数化的模型生成该数据集的概率是多少?我们的模型本质上是,它解决了这个最大化问题。θPr(D|θ)θDDθmθ
穴居人

3
抱歉,但是您正在查看多个模型(因为您编写了),还是在谈论最大似然估计吗?还要注意,是在给定模型和给定参数下出现数据的概率,而不是由参数化的模型生成数据的概率。m=θ^:=argmaxθPgiven model(D|θ)Pgiven model(D|θ)θ
比约恩

MLE是我的意思。但是我只是想说参数元组非常全面,它也定义了模型。我也可以有多个模型,例如每个模型具有不同的AIC得分。我只是在编造这个符号,因为我认为它更简单。我是完全错误还是不必要地混淆了这一点?(并且感谢您就MLE的含义纠正了我)中号1θm1,m2AIC1,AIC2
穴居人

3
作为一个近似预期KL信息丢失AIC的推导中Pawitan(2001)中给出,在所有的可能性,13章
恢复莫妮卡- Scortchi

Answers:


13

穴居人的这个问题很受欢迎,但是直到我有争议的一个月,才有人尝试了答案。可能下面的实际答案本身并不具有争议性,仅是这些问题是“大量”问题,因为(至少在我看来)该领域似乎是由AIC和BIC的助手组成的,他们宁愿使用OLS比彼此的方法更重要。请查看列出的所有假设以及对数据类型和分析方法的限制,并对其进行评论;解决这个问题,贡献自己的力量。到目前为止,已经有一些非常聪明的人做出了贡献,所以进展缓慢。我感谢Richard Hardy和GeoMatt22所做的贡献,Antoni Parellada的好话,以及Cagdas Ozgenc和Ben Ogorek的英勇尝试,将KL差异与实际差异相关联。

在开始之前,让我们回顾一下AIC是什么,其中一个来源是AIC模型比较的先决条件,另一个来自Rob J Hyndman。具体而言,AIC计算为等于

2k2log(L(θ)),

其中是模型中参数的数量,似然函数。AIC 根据建模假设比较方差()和偏差()之间的权衡。根据AIC的事实和谬论,第 3点: “ AIC并不假设残差是高斯的。只是高斯似然是最常使用的。但是,如果您要使用其他分布,请继续。” AIC是受惩罚的可能性,无论您选择使用哪种可能性。例如,要为学生的t分布残差求解 AIC,我们可以使用学生的t最大似然解。的kL(θ)2k2log(L(θ))通常用于AIC的对数似然性是从高斯对数似然性推导而来的

log(L(θ))=|D|2log(2π)12log(|K|)12(xμ)TK1(xμ),

K是模型的协方差结构,样本量 数据集中的观察数,平均响应和因变量。请注意,严格来说,AIC不需要校正样本大小,因为AIC不用于比较数据集,而仅用于比较使用相同数据集的模型。因此,我们不必研究样本量校正是否正确完成,但是如果我们能够以某种方式将AIC归纳为在数据集之间有用的话,我们将不得不为此担心。类似地,为了确保渐近效率,对做了大量的工作。极简主义的观点可能认为AIC只是一个“索引”,使得|D|μxK>>|D|>2K>|D|相关和不相关的。但是,已经对此提出了一些关注,其形式是建议的更改的AIC 不大于称为AIC请参见下面对问题2的答复的第二段。“措施”的这种泛滥仅强化了AIC是指数的观念。但是,在使用“ i”一词时应谨慎,因为一些AIC提倡者将“索引”一词的使用等同于将其个体发育称为婚外情。K>>|D|K|D|c

问题1:但是一个问题是:为什么我们要关心这种特定的适应性-简单性权衡?

分为两个部分。首先是具体问题。您应该只在乎,因为那是它的定义方式。如果您愿意,没有理由不定义CIC。一个穴居人的信息标准,它不是AIC,但是CIC会产生与AIC相同的答案,它不会影响拟合优度和假设简单性之间的折衷。由于没有参考标准可以强制执行绝对标度,因此必须选择并遵守任何可以用作AIC乘数的常数,包括一次。但是,遵循标准定义并不是任意的,因为对于仅以相对规模定义的数量(例如AIC),只有一个定义或“约定”存在空间。另请参阅下面的AIC假设3。

该问题的第二个答案与AIC在拟合优度和假设简单性之间进行权衡的细节有关,而与如何选择其常数乘数无关。也就是说,什么实际上影响了“权衡”?影响此的原因之一是针对模型中的参数数量重新调整了自由度,这导致定义了一个称为“ AIC ”的“新” AIC ,如下所示:c

AICc=AIC+2k(k+1)nk1=2knnk12ln(L),

其中是样本大小。由于现在比较具有不同参数数量的模型时,权重现在略有不同,因此AIC选择的模型不同于AIC本身,并且当两个模型不同但参数数量相同时,选择的模型与AIC相同。其他方法也会选择不同的模型,例如,“ BIC [sic,贝叶斯信息准则 ]通常比Akaike信息准则更严厉地惩罚自由参数,尽管它取决于...” ANOVA还将使用以下概率来惩罚超数参数:参数值的必不可少,在某些情况下比AIC更可取nc。通常,任何评估模型适用性的方法都有其优点和缺点。我的建议是,比起测试模型本身,要更加有力地测试将任何模型选择方法应用于数据回归方法的性能。有什么疑问吗?是的,在构建或选择任何模型测试以选择在方法上适当的方法时,应格外小心。AIC对于模型评估的子集很有用,有关信息,请参阅下面的Q3。例如,最好使用回归方法1来提取模型A的信息,而对于回归模型2的模型B则最好,其中模型B和方法2有时会产生非物理答案,而两种回归方法都不是MLR,

Q3这与信息论有何关系

MLR假设1。AIC基于对回归问题的最大似然(MLR)适用性的假设。仅在一种情况下,我已经指出普通最小二乘回归和最大似然回归是相同的。那就是当普通最小二乘(OLS)线性回归的残差呈正态分布,而MLR具有高斯损失函数时。在OLS线性回归的其他情况下,对于非线性OLS回归和非高斯损失函数,MLR和OLS可能有所不同。除了OLS或MLR甚至拟合优度以外,还有许多其他回归目标,例如,对于大多数逆问题,一个好的答案通常与这两者无关。。有大量引用的尝试(例如1100次)将广义AIC用于准似然性,以便放宽对最大似然回归的依赖,以接受更多的一般损失函数。而且,Student's-t的MLR尽管不是封闭形式,但仍能很好地收敛。由于学生t残差分布不仅比包括高斯条件更普遍,更通用,因此我认为没有特别的理由对AIC使用高斯假设。

MLR假设2。MLR试图量化拟合优度。有时在不适当时应用。例如,对于修剪的范围数据,当不修剪所使用的模型时。如果我们具有完整的信息覆盖范围,则拟合优度很好。在时间序列中,我们通常没有足够快的信息来完全了解最初发生的物理事件,或者我们的模型可能不够完整,无法检查非常早期的数据。更令人困扰的是,由于缺乏数据,人们常常无法在很晚的时候测试拟合优度。因此,拟合优度可能仅是模拟曲线下面积拟合的30%,在这种情况下,我们将根据数据的位置来判断外推模型,而不在研究这意味着什么。为了推论 我们不仅要看“量”的拟合优度,还要看那些失败的量的导数,而我们没有推断的“优”。因此,诸如B样条曲线之类的拟合技术之所以有用,是因为它们可以在导数拟合时更平稳地预测数据是什么,或者可以采用反问题处理,例如在整个模型范围内进行不适定积分处理,例如误差传播自适应Tikhonov正则化。

另一个复杂的问题是,数据可以告诉我们我们应该怎么做。我们需要拟合优度(如果合适),在标准偏差为距离的意义上,使残差为距离。也就是说,如果两倍于单个标准偏差的残差也不具有两个标准偏差的长度,那么拟合优度就没有多大意义。在应用任何模型选择/回归方法之前,应研究数据变换的选择。如果数据具有比例类型错误,通常不宜在选择回归之前取对数,因为这会将标准偏差转换为距离。或者,我们可以更改规范以使其最小化,以适应拟合的比例数据。泊松误差结构也是如此,我们可以取数据的平方根对误差进行归一化,也可以更改我们的范数进行拟合。如果我们不能改变拟合标准,那么问题就会变得更加复杂甚至棘手,例如,当放射性核素衰变在计数数据与实际质量之间引入基于时间的指数关联时,核衰变的泊松计数统计量将具有如果没有衰减,就发出这些计数。为什么?如果我们对计数率进行反向校正,我们将不再具有泊松统计信息,并且校正计数的平方根的残差(或误差)不再是距离。然后,如果我们要对衰减校正后的数据(例如AIC)执行拟合优度测试,则必须以我谦逊的自我所不知道的某种方式进行。向读者开放的问题,如果我们坚持使用MLR,我们可以更改其规范以解决数据的错误类型(理想),还是必须始终转换数据以允许使用MLR(不是那么有用)?注意,AIC不会比较单个模型的回归方法,而是会比较同一回归方法的不同模型。

AIC假设1。似乎MLR不限于正常残差,例如,请参阅有关MLR和Student's -t的问题。接下来,让我们假设MLR适合我们的问题,以便我们追踪其在理论上用于比较AIC值的用途。接下来,我们假设至少有2个模型具有1)完整的信息,2)残差的相同分布类型(例如,两个正态,两个Student- t)。也就是说,我们偶然地发现两个模型现在应该具有残差的分布类型。那会发生吗?是的,可能,但并非总是如此。

AIC假设2。AIC表示数量的负对数(模型中参数的数量除以 Kullback-Leibler散度)。此假设是否必要?在一般损失函数纸中,使用了不同的“差异”。这使我们提出疑问,其他措施是否比KL差异更笼统,为什么我们不也将其用于AIC?

Kullback-Leibler散度为AIC提供的不匹配信息是“尽管……通常被认为是一种测量概率分布之间距离的方法,但Kullback-Leibler散度并不是真正的度量标准。” 我们很快就会明白为什么。

KL参数达到模型(P)和数据(Q)两者之间的差异

DKL(PQ)=Xlog(dPdQ)dPdQdQ,

我们将其视为“ P”相对于“ Q”的熵。

AIC假设3。不管对数的底数如何,大多数涉及Kullback-Leibler散度的公式都成立。如果AIC一次关联多个数据集,则常数乘数可能具有更多含义。就比较方法而言,如果则任何正数仍将。由于它是任意的,因此将其定义为特定值也不是不适当的。AICdata,model1<AICdata,model2<

AIC假设4。那就是AIC测量Shannon熵或自我信息。“我们需要知道的是,“熵是信息量度所需要的吗?”

为了理解“自我信息”是什么,我们应该在一个物理环境中对信息进行规范化,任何人都可以做到。是的,我希望某种信息具有物理性质。那么在更一般的情况下会是什么样?

吉布斯自由能方程(ΔG=ΔHTΔS)将能量的变化与焓的变化减去绝对温度乘以熵的变化联系起来。温度是成功的标准化信息内容类型的一个示例,因为如果将一块热砖和一块冷砖在热封闭的环境中相互接触,那么热量将在它们之间流动。现在,如果我们不加思索地跳进去,我们就说热是信息。但是,它是预测系统行为的相对信息。信息流直到达到平衡为止,但是什么平衡呢?温度就是这个,不是像某些粒子质量的粒子速度那样的热,我不是在谈论分子温度,我是在说两块质量不同,由不同材料制成,具有不同密度等的砖的总温度,我不需要知道所有这些,我只需要知道总温度就是平衡温度即可。因此,如果一块砖较热,则它具有更多的相对信息内容,而较冷的则具有较少的信息量。

现在,如果我被告知一种砖比另一种砖具有更大的熵,那又如何呢?就其本身而言,将无法预测在与另一块砖块接触时它将获得还是失去熵。那么,仅熵是信息的有用度量吗?是的,但是只有当我们将相同的砖块与其自身(即“自我信息”)进行比较时,才可以。

由此产生了最后一个限制:要使用KL散度,所有砖块必须相同。因此,使AIC成为非典型索引的原因是它在数据集(例如,不同的块)之间不具有可移植性,这不是可以通过标准化信息内容来解决的特别理想的属性。KL散度是线性的吗?也许是,也许不是。但是,这并不重要,我们不需要假设线性即可使用AIC,例如,我认为熵本身与温度没有线性关系。换句话说,我们不需要线性度量即可使用熵计算。

对AIC信息的一个好来源在这个论文。从悲观的角度说:“就给定数据集而言,AIC的值本身没有任何意义。” 从乐观的角度说,可以通过平滑建立置信区间来区分具有接近结果的模型,甚至更多。


1
您能指出新答案和旧删除答案之间的主要区别吗?似乎有很多重叠。
理查德·哈迪

2
答案被删除后,我正在编辑我的答案。与我刚开始时相比,这里发生了很多变化,因为它正在进行中,需要大量的阅读和思考,而我在此站点上的同事似乎并不关心它,但没有帮助回答任何问题。AIC似乎对批判性审查太好了,我怎么敢?我完成了修改并重新发布了它。我想知道我的答案有什么错误。我努力工作,并努力做到诚实,没有其他人打扰过。
卡尔

4
不要生气 我在这里的初次经历也令人沮丧,但后来我学会了以适当的方式提出问题。恕我直言,保持中立态度并避免强硬立场并非硬道理。(顺便说一句,我已对您的问题表示支持,但仍对答案犹豫不决。)
理查德·哈迪

3
+1只为您的序言。现在,我继续阅读答案。
安东尼帕雷拉达

2
@AntoniParellada您为防止删除该问题提供了帮助,我非常感谢。通过AIC进行工作非常困难,我确实需要帮助。当然我的一些见解都不错,但我也有口病蹄,这是其他的头脑更好的莫过于一
卡尔

5

AIC是模型驱动加法项的两倍,是真实分布和近似参数模型之间的预期Kullback-Leibler散度的两倍。fg

KL散度是信息论中的一个主题,可以直观(尽管不严格)地衡量两个概率分布之间的距离。在下面的说明中,我引用的是胡淑华的幻灯片。对于“关键结果”,此答案仍然需要引用。

真实模型和近似模型之间的KL散度为 fgθ

d(f,gθ)=f(x)log(f(x))dxf(x)log(gθ(x))dx

由于真相未知,因此从生成数据,并且最大似然估计得出估计量。在上式中用替换意味着KL散度公式中的第二项以及KL散度本身现在都是随机变量。幻灯片中的“关键结果”是,可以通过似然函数(在MLE处评估)和的维数的简单函数来估算相对于的第二个相加项的平均值˚F θÝ θyfθ^(y)θθ^(y)yLkθ

Ey[f(x)log(gθ^(y)(x))dx]log(L(θ^(y)))+k.

AIC被定义为上述期望值的两倍(HT @Carl),较小的值(更负)对应于真实分布和模型分布之间的较小的KL估计散度。θÝ fgθ^(y)


如您所知,术语“ 偏差”在应用于对数似然时是行话和不精确的。我省略了对此的讨论,因为只有单调性才可以使AIC差异具有比较价值而不是线性。因此,我看不到过分地努力“可视化”可能不存在并且不需要的东西的相关性。
卡尔

2
我认为您的意思是最后一段增加了一个红色鲱鱼,并且我意识到没有人需要说服2 * x与x相同。公平地说,将数量乘以2(按惯例)是否公平?
Ben Ogorek

2
这样的事情。就我个人而言,我会投票赞成“定义为”,因为它最初是用这种方式选择的。或者从时间的角度来看,必须选择并遵守任何可能使用过的常数(包括一次),因为没有参考标准可以强制执行量表。
卡尔

4

对于前两个问题,一个简单的观点是AIC与最大似然模型的预期样本外错误率有关。AIC标准基于以下关系(统计学习方程式7.27的元素) 根据您的符号,其中是模型中参数的数量,其最大似然值为。kmmLmD

2E[lnPr(D|θ)]2NE[lnLm,D]+2kmN=1NE[AICm,D]
kmmLm,D

左边的术语是最大似然模型的预期样本外“错误”率,使用概率的对数作为误差度量。-2因子是用于构造偏差的传统校正方法(很有用,因为在某些情况下它遵循卡方分布)。m={θ}

右手包括根据最大化对数似然估计的样本内“错误”率,以及用于校正最大化对数似然的乐观度,该自由度在某种程度上过拟合数据。2km/N

因此,AIC是样本外“错误”率(偏差)乘以的估计。N

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.