我想计算岭回归模型的AICc。问题是参数的数量。对于线性回归,大多数人建议参数的数量等于估计系数的数量加上sigma(误差的方差)。
当涉及到岭回归时,我读到帽子矩阵的迹线(自由度(df))仅用作AIC公式中的参数项数(例如,此处或此处)。
它是否正确?我还可以简单地使用df来计算AICc吗?我可以简单地将+1添加到df中以解决误差差异吗?
我想计算岭回归模型的AICc。问题是参数的数量。对于线性回归,大多数人建议参数的数量等于估计系数的数量加上sigma(误差的方差)。
当涉及到岭回归时,我读到帽子矩阵的迹线(自由度(df))仅用作AIC公式中的参数项数(例如,此处或此处)。
它是否正确?我还可以简单地使用df来计算AICc吗?我可以简单地将+1添加到df中以解决误差差异吗?
Answers:
在进行某些假设时,可以使AIC和岭回归兼容。但是,没有一种方法可以选择脊收缩的收缩率,因此也没有应用AIC的通用方法。Ridge回归是Tikhonov正则化的子集。有迹象表明,可以应用于选择用于Tikhonov正则化,如平滑因子,许多标准,见本。为了在这种情况下使用AIC,有一篇论文对如何执行该正则化做出了非常具体的假设,即基于信息复杂度的正则化参数选择来解决病态逆问题。具体而言,这假设
“在统计框架中,...选择正则化参数α的值,并使用最大惩罚似然(MPL)方法...如果我们考虑方差不相关的高斯噪声,并使用惩罚一个复杂的规范,请参见上面的链接,MPL解决方案与Tikhonov(1963)正则化解决方案相同。”
问题就变成了,是否应该做出这些假设?所需的自由度问题仅次于是否在一致的情况下使用AIC和岭回归。我建议阅读链接以获取详细信息。我不会回避这个问题,仅仅是一个人可以使用很多东西作为脊目标,例如,一个人可以使用优化AIC本身的平滑因子。因此,一个好问题值得另一个问题:“为什么要在困难的情况下对AIC感到困扰?” 在某些山脊回归的背景下,很难看到如何使AIC具有相关性。例如,岭回归已经以最小化的相对施加的误差传播的,也就是分钟 给出的伽玛分布(GD)
根据本文。特别地,这种困难的产生是因为在该纸,它是,在实际上,甲 REA ù的nDer的时间Ç urve(AUC),其被最优化,并且不优度的最大似然(ML)在测得的时间样本之间拟合。明确地说,这样做是因为AUC是一个不适定的积分,否则,例如,使用ML时,伽马分布拟合将缺乏鲁棒性。因此,对于该特定应用,最大似然度(即AIC)实际上是不相关的。(据说AIC用于预测,而BIC用于拟合优度。但是,预测和拟合优度都只是与AUC的可靠度量间接相关。)
作为对于问题的答案的问题,在该问题的文本的第一基准说认为“主要的一点是要注意,是的递减函数 [ 骰,平滑因子]与 [ 骰中,有效数参数的集合,请参见下面的帽子矩阵痕迹],,,。” 这意味着等于参数数量减去估计数量,在没有平滑的情况下,也就是在回归与普通最小二乘相同且减小到无时,等于随着平滑因子增加到。请注意,对于无限平滑而言,拟合是一条平坦的线,与要拟合的密度函数无关。最后,的确切数目是一个函数。
“可以证明 ),其中{ }是的特征值。”有趣的是,该参考文献将定义为hat矩阵的轨迹,请参见def。