这篇文章遵循以下内容:为什么通过向对角线添加一个常数,使岭估计变得比OLS好?
这是我的问题:
据我所知,岭正则化使用 -norm(欧几里德距离)。但是,为什么我们要使用此规范的平方呢?(的直接应用将 beta平方和的平方根)。ℓ 2
作为比较,对于LASSO,它不使用 -norm进行正则化。但是,这里是“真实的”范数(只是beta绝对值的平方的和,而不是该和的平方)。ℓ 1
有人可以帮我澄清一下吗?
这篇文章遵循以下内容:为什么通过向对角线添加一个常数,使岭估计变得比OLS好?
这是我的问题:
据我所知,岭正则化使用 -norm(欧几里德距离)。但是,为什么我们要使用此规范的平方呢?(的直接应用将 beta平方和的平方根)。ℓ 2
作为比较,对于LASSO,它不使用 -norm进行正则化。但是,这里是“真实的”范数(只是beta绝对值的平方的和,而不是该和的平方)。ℓ 1
有人可以帮我澄清一下吗?
Answers:
现在有许多具有各种不同惩罚功能的惩罚方法(岭,套索,MCP,SCAD)。为什么是一种特定形式的问题基本上是“这种惩罚有什么优点/缺点?”。
感兴趣的属性可能是:
1)几乎没有偏见的估计量(请注意,所有受惩罚的估计量都会有偏见)
2)稀疏性(请注意,岭回归不会产生稀疏结果,即不会将系数一直缩小到零)
3)连续性(避免模型预测中的不稳定)
这些只是惩罚函数可能会感兴趣的一些属性。
这是比较容易的工作很多,在推导和理论工作的总和:如和| | β | | 1 = ∑ | β 我| 。想象我们是否有√或(Σ|β我|)2。采取导数(这对于显示理论结果(如一致性,渐近正态性等)是必不可少的),将受到诸如此类的惩罚。
实际上,两者的平方范数和ℓ 1范数来自同一类正规化:‖ β ‖ p p当p > 0。
然后,Ridge回归使用,套索套索p = 1,但可以使用p的其他值。
例如,你有的所有值稀疏溶液,和的值越小p越稀疏的解。
对于值你的目标是不再平滑,因此优化变得更加困难; 对于p < 1,目标是非凸的,因此优化更加困难...
从中可以得出所有的推论。