谁能指出我的Tikhonov正则化(正则化最小二乘)在线(递归)算法的方向吗?
在离线环境,我将计算β = (X Ť X + λ我)- 1 X Ť ÿ使用在我的原始数据集λ是使用n重交叉验证中发现。一个新的ÿ值可以预测对于给定的X使用Ŷ = X Ť β。
在在线设置中,我不断绘制新的数据点。如何更新β当我绘制新的额外的数据样本不会对整个数据集做了充分的重新计算(原件+新)?
谁能指出我的Tikhonov正则化(正则化最小二乘)在线(递归)算法的方向吗?
在离线环境,我将计算β = (X Ť X + λ我)- 1 X Ť ÿ使用在我的原始数据集λ是使用n重交叉验证中发现。一个新的ÿ值可以预测对于给定的X使用Ŷ = X Ť β。
在在线设置中,我不断绘制新的数据点。如何更新β当我绘制新的额外的数据样本不会对整个数据集做了充分的重新计算(原件+新)?
Answers:
让,然后
,和
,我们可以得到
根据伍德伯里公式,我们有
结果是,
Polyak平均指示可以使用 到近似中号- 1个ñ,α范围从0.5到1。您可以尝试为递归选择最佳的α。
我认为如果您应用批处理渐变算法也可以:
也许像随机梯度下降这样的东西在这里可以工作。使用上述方程式在初始数据集上计算,这将是您的初始估计。对于每个新数据点,您都可以执行一步的梯度下降来更新参数估计。
线性回归,一种可能性是更新的QR分解直接,如所解释这里。我猜想,除非您要在添加每个新数据点后重新估算,否则使用Ridge回归可以完成非常相似的操作。
与使用伍德伯里公式相比,这是一种替代方法(且不太复杂)。注意和可以写为sums。由于我们正在在线计算事物,并且不希望总和爆炸,因此我们可以选择使用平均值(和)。
如果将和编写为:
我们可以将在线更新写为和(计算到第行)为:
您对在线估计将变为
请注意,这也有助于在添加观察值时对保持不变的解释!
此过程是https://github.com/joshday/OnlineStats.jl如何计算线性/岭回归在线估计的方式。