对岭回归中“矩阵求逆的数值稳定性”的清晰解释及其在减少过拟合中的作用


10

我知道我们可以在最小二乘回归问题中采用正则化

w=argminw[(yXw)T(yXw)+λw2]

并且这个问题有一个封闭形式的解决方案,如:

w^=(XTX+λI)1XTy.

我们看到在第二个方程中,正则化只是在\ boldsymbol {X} ^ T \ boldsymbol {X}的对角线上添加了\ lambda,这样做是为了提高矩阵求逆的数值稳定性。λXTX

我目前对数值稳定性的“粗略”理解是,如果函数变得更加“数值稳定”,则其输出受输入噪声的影响较小。我很难将提高数值稳定性的概念与如何避免/减少过度拟合的问题联系在一起。

我曾尝试查看Wikipedia和其他一些大学网站,但他们没有深入解释为什么会这样。


想到岭回归。 链接
EngrStudent 2016年

Answers:


2

在线性模型,假设均值零且具有完整列秩的不相关误差,则最小二乘估计器是参数的无偏估计器。但是,此估计量可能具有较高的方差。例如,当两列高度相关时。Y=Xβ+ϵX(XTX)1XTYβX

惩罚参数使成为有偏估计量,但会减小其方差。此外,是的后部期望与贝叶斯回归上之前。从这个意义上讲,我们在分析中包含了一些信息,这些信息说的成分不应离零太远。再次,这导致我们得出有偏点估计,但减少了估计的方差。λw^βw^βN(0,1λI)βββ

在高维的设置中,例如,最小二乘拟合将几乎完美地匹配数据。尽管没有偏见,但是此估计将对数据的波动高度敏感,因为在如此高的维度中,将有许多点具有很高的杠杆作用。在这种情况下,某些组件的符号可以通过一次观察来确定。惩罚项具有将这些估计缩减为零的效果,这可以通过减少方差来减少估计量的MSE。XNpβ^

编辑:在我的最初回复中,我提供了指向相关论文的链接,并匆忙将其删除。它在这里:http : //www.jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf


1
以目前的形式,这实际上是一个评论。您认为您可以将其充实为实质性答案吗?
Silverfish

p的底部 第5页右/上。剩下的与图3有关的6,包含了本文中所提出问题的关键讨论。
Mark L. Stone,

这都是正确的,但我不确定它是否可以回答OP的问题。
amoeba

变形虫,请参阅上面的我的评论,它指向的链接随后已根据Eric Mittman的答案jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf进行了编辑。
Mark L. Stone,

1

数值稳定性和过度拟合在某种意义上是相关但不同的问题。

经典的OLS问题:

考虑经典的最小二乘问题:

minimize(over b)(yXb)T(yXb)

解决方案是经典。一个想法是,根据大量定律:b^=(XX)1(Xy)

limn1nXXE[xx]limn1nXyE[xy]

因此,OLS估计也收敛到。(用线性代数术语,这是随机变量在随机变量的线性范围上的线性投影。)b^E[xx]1E[xy]yx1,x2,,xk

问题?

机械上,会出什么问题?有什么可能的问题?

  1. 对于小样本,我们对和的样本估计可能很差。E[xx]E[xy]
  2. 如果列是共线的(由于固有的共线性或较小的样本量),则问题将具有连续的解决方案!解决方案可能不是唯一的。 X
    • 如果排名不足,则会发生这种情况。E[xx]
    • 如果因样本数量相对于回归问题的数量较小而排名不足,也会发生这种情况。XX

问题(1)可能导致拟合过度,因为估计开始反映样本中基础人口中不存在的模式。估算值可能反映和中实际上不在和b^1nXX1nXyE[xx]E[xy]

问题(2)表示解决方案不是唯一的。想象一下,我们正在尝试估计单个鞋子的价格,但双鞋总是一起出售。这是一个不适的问题,但是可以说我们还是在做。我们可能会相信,左鞋价格加上右鞋价格等于50 美元,但是我们如何得出个人价格呢?设置左鞋价格和右鞋价格吗?我们如何从所有可能性中进行选择?pl=45pr=5

引入惩罚:L2

现在考虑:

minimize(over b)(yXb)T(yXb)+λb2

这可以帮助我们解决两种类型的问题。该罚推动我们的估计趋近于零。在系数值的分布围绕居中之前,这可以有效地用作贝叶斯函数。这有助于过度拟合。我们的估计将反映数据和我们最初的相信接近零。L2b0b

L2正则化也总是使我们找到不适定问题的唯一解决方案。如果我们知道左右鞋子的价格总计为,则使范数最小的解决方案是选择。$50L2pl=pr=25

这是魔法吗?否。正则化与添加数据实际上使我们能够回答问题不同。在某种意义上,正则化采用这样的观点:如果您缺乏数据,请选择接近估计。L20

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.