数值稳定性和过度拟合在某种意义上是相关但不同的问题。
经典的OLS问题:
考虑经典的最小二乘问题:
minimize(over b)(y−Xb)T(y−Xb)
解决方案是经典。一个想法是,根据大量定律:b^=(X′X)−1(X′y)
limn→∞1nX′X→E[xx′]limn→∞1nX′y→E[xy]
因此,OLS估计也收敛到。(用线性代数术语,这是随机变量在随机变量的线性范围上的线性投影。)b^E[xx′]−1E[xy]yx1,x2,…,xk
问题?
机械上,会出什么问题?有什么可能的问题?
- 对于小样本,我们对和的样本估计可能很差。E[xx′]E[xy]
- 如果列是共线的(由于固有的共线性或较小的样本量),则问题将具有连续的解决方案!解决方案可能不是唯一的。
X
- 如果排名不足,则会发生这种情况。E[xx′]
- 如果因样本数量相对于回归问题的数量较小而排名不足,也会发生这种情况。X′X
问题(1)可能导致拟合过度,因为估计开始反映样本中基础人口中不存在的模式。估算值可能反映和中实际上不在和b^1nX′X1nX′yE[xx′]E[xy]
问题(2)表示解决方案不是唯一的。想象一下,我们正在尝试估计单个鞋子的价格,但双鞋总是一起出售。这是一个不适的问题,但是可以说我们还是在做。我们可能会相信,左鞋价格加上右鞋价格等于50 美元,但是我们如何得出个人价格呢?设置左鞋价格和右鞋价格吗?我们如何从所有可能性中进行选择?pl=45pr=5
引入惩罚:L2
现在考虑:
minimize(over b)(y−Xb)T(y−Xb)+λ∥b∥2
这可以帮助我们解决两种类型的问题。该罚推动我们的估计趋近于零。在系数值的分布围绕居中之前,这可以有效地用作贝叶斯函数。这有助于过度拟合。我们的估计将反映数据和我们最初的相信接近零。L2b0b
L2正则化也总是使我们找到不适定问题的唯一解决方案。如果我们知道左右鞋子的价格总计为,则使范数最小的解决方案是选择。$50L2pl=pr=25
这是魔法吗?否。正则化与添加数据实际上使我们能够回答问题不同。在某种意义上,正则化采用这样的观点:如果您缺乏数据,请选择接近估计。L20