岭回归的AIC:自由度与参数数量


13

我想计算岭回归模型的AICc。问题是参数的数量。对于线性回归,大多数人建议参数的数量等于估计系数的数量加上sigma(误差的方差)。

当涉及到岭回归时,我读到帽子矩阵的迹线(自由度(df))仅用作AIC公式中的参数项数(例如,此处此处)。

它是否正确?我还可以简单地使用df来计算AICc吗?我可以简单地将+1添加到df中以解决误差差异吗?


2
我喜欢这个问题,因为AICc的一般输入是RSS,k和n-但对于相同数量的参数,它倾向于不选择健壮模型而不是最小误差模型。如果对候选模型使用相同的拟合方法,并且对相同数据进行拟合,那么模型选择就是模型选择。我喜欢这样一个问题:如何使用相同的模型和数据,但使用不同的拟合类型(例如最小二乘误差和Huber损失)来衡量信息理论上的最佳拟合。
EngrStudent 2013年

3
@EngrStudent,请注意:RSS是正常可能性的一种特殊情况。如果采用其他(非正态)分布,则AIC将不包含RSS,而是模型的对数似然。另外,拟合类型:您是说用来评估模型的损失函数还是用于拟合模型的损失函数,还是其他?
理查德·哈迪


1
@RichardHardy-您对正常的可能性是正确的!在实践中,中心极限定理被过度使用。在这种情况下,当我说“拟合函数”而你说“损失函数”时,含义相同。我首先考虑伪平方,然后考虑误差度量的最小二乘。在我的思想和交流过程中,这是一个“学习序列”工件。
EngrStudent

1
@EngrStudent,谢谢。还要注意,我为损失函数提供了两种用法:拟合(得出估计量的经验目标函数)和评估(我们希望优化的理论目标函数)。
理查德·哈迪

Answers:


4

在进行某些假设时,可以使AIC和岭回归兼容。但是,没有一种方法可以选择脊收缩的收缩率,因此也没有应用AIC的通用方法。Ridge回归是Tikhonov正则化的子集。有迹象表明,可以应用于选择用于Tikhonov正则化,如平滑因子,许多标准,见。为了在这种情况下使用AIC,有一篇论文对如何执行该正则化做出了非常具体的假设,即基于信息复杂度的正则化参数选择来解决病态逆问题。具体而言,这假设

“在统计框架中,...选择正则化参数α的值,并使用最大惩罚似然(MPL)方法...如果我们考虑方差不相关的高斯噪声,并使用惩罚一个复杂的规范,请参见上面链接,MPL解决方案与Tikhonov(1963)正则化解决方案相同。”σ2p(x)=

问题就变成了,是否应该做出这些假设?所需的自由度问题仅次于是否在一致的情况下使用AIC和岭回归。我建议阅读链接以获取详细信息。我不会回避这个问题,仅仅是一个人可以使用很多东西作为脊目标,例如,一个人可以使用优化AIC本身的平滑因子。因此,一个好问题值得另一个问题:“为什么要在困难的情况下对AIC感到困扰?” 在某些山脊回归的背景下,很难看到如何使AIC具有相关性。例如,岭回归已经以最小化的相对施加的误差传播的,也就是分钟b[SD(b)b] 给出的伽玛分布(GD)

GD(t;a,b)=1tebt(bt)aΓ(a);t0,

根据本文。特别地,这种困难的产生是因为在该纸,它是,在实际上, REA ù的nDer的时间Ç urve(AUC),其被最优化,并且不优度的最大似然(ML)在测得的时间样本之间拟合。明确地说,这样做是因为AUC是一个不适定的积分,否则,例如,使用ML时,伽马分布拟合将缺乏鲁棒性。因此,对于该特定应用,最大似然度(即AIC)实际上是不相关的。(据说AIC用于预测,而BIC用于拟合优度。但是,预测和拟合优度都只是与AUC的可靠度量间接相关。)[0,)[t1,tn]

作为对于问题的答案的问题,在该问题的文本的第一基准认为“主要的一点是要注意,是的递减函数 [ ,平滑因子]与 [ 中,有效数参数的集合,请参见下面的帽子矩阵痕迹],,,。” 这意味着等于参数数量减去估计数量,在没有平滑的情况下,也就是在回归与普通最小二乘相同且减小到无时,等于dfλdf=pλ=0df=0λ=dfdf随着平滑因子增加到。请注意,对于无限平滑而言,拟合是一条平坦的线,与要拟合的密度函数无关。最后,的确切数目是一个函数。df

“可以证明 ),其中{ }是的特征值。”有趣的是,该参考文献将定义为hat矩阵的轨迹,请参见defdfridge=(λi/(λi+λλiXTXdf

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.