使用岭回归时如何估算系数标准误差？

18

我正在对高度多重共线性的数据使用岭回归。使用OLS，由于多重共线性，我在系数上获得了很大的标准误差。我知道岭回归是解决此问题的一种方法，但是在我看过的岭回归的所有实现中，均未报告系数的标准误差。我想通过某种方式来估计岭回归对减少特定系数的标准误差有多大帮助，从而估算出某种程度的帮助。有什么方法可以在岭回归中估算它们？

standard-error ridge-regression

— 詹姆斯·戴维森
source

19

我认为boostrap是获得强大SE的最佳选择。这是在一些应用收缩方法的应用工作中完成的，例如，使用惩罚逻辑回归方法对北美类风湿性关节炎联盟数据进行了分析（BMC Proceedings 2009）。Casella也提供了一篇很好的论文，介绍了SE计算中的惩罚模型，惩罚回归，标准误差和贝叶斯拉索斯（Bayesian Analysis 2010 5（2））。但是他们更关注套索和弹性网处罚。

我一直认为岭回归是一种比标准OLS更好的预测方法，标准OLS的模型通常不精打细算。对于可变选择，套索或elasticnet范围是更合适的，但随后是难以应用的自举程序（因为所选的变量将从一个样本改变到另一个时，而且即使在内部用于优化倍环 / 参数）; 脊回归不是这种情况，因为您总是考虑所有变量。 $k$ $\ell_1$ $\ell_2$

我不知道会提供此信息的R包。它似乎在glmnet软件包中不可用（请参阅Friedman在JSS中的论文，“通过坐标下降的广义线性模型的正则化路径”）。但是，编写受罚软件包的Jelle Goeman也讨论了这一点。在网上找不到原始PDF，因此我只引用他的话：

要求回归系数或其他估计量的标准误差是一个很自然的问题。原则上，这种标准误差可以很容易地计算出来，例如使用引导程序。

尽管如此，该程序包还是故意不提供它们。这样做的原因是，标准误差对于严重偏差的估算（例如由惩罚估算方法产生的估算）不是很有意义。惩罚估计是一种通过引入实质性偏差来减少估计量方差的过程。因此，每个估计量的偏差都是其均方误差的主要组成部分，而其方差可能只占很小的一部分。

不幸的是，在惩罚回归的大多数应用中，不可能获得偏差的足够精确的估计。任何基于引导程序的计算都只能评估估计值的方差。仅当可获得可靠的无偏估计时，才可以使用偏差的可靠估计，而在使用罚分估计的情况下，情况通常并非如此。

因此，报告惩罚性估计的标准误差只能说明部分情况。它可能会给人以非常高的精度的错误印象，而完全忽略了由偏差引起的不准确性。做出仅基于估计方差评估的置信度声明，例如基于引导程序的置信区间，确实是一个错误。

— hl
source

2

感谢您提供此报价。原帖可以发现这里 18页

— 旧金山Arceo

8

假设数据生成过程遵循OLS背后的标准假设，则岭回归的标准误差为：

$\sigma^2 (A^T A + \Gamma^T \Gamma)^{-1} A^T A (A^T A + \Gamma^T \Gamma)^{-1}$

上面的表示法遵循Wiki表示岭回归的表示法。特别，

$A$

$\sigma^2$

$\Gamma$

1

A^{T} A

$A^T A$

A

$A$

1

$\Gamma ^T\Gamma$ $\text{$\lambda $I}$ $\text{I}$ $\lambda$ 积分和其他反问题。“科学中的一个逆问题是从一组观测结果中计算产生它们的因果关系的过程：例如，在计算机断层扫描中计算图像，在声学中重建声源或通过测量地球的重力来计算地球的密度字段。这里 “SPSS包含补充代码，让所有的参数的标准偏差，并且可以使用误差传播作为附录按此在导出附加参数纸。

关于Tikhonov正则化通常被误解的是，平滑量与拟合曲线几乎没有关系，应使用平滑因子以最大程度地减少目标参数的误差。您将不得不解释许多有关要解决的特定问题的信息，以便在某些有效的逆问题上下文中正确使用岭回归，并且许多有关平滑因子选择的论文以及许多已发表的Tikhonov正则化用法有点启发。

而且，Tikhonov正则化只是众多问题中的一种逆问题处理。单击链接到《逆问题》杂志。

— 卡尔
source