递归(在线)正则化最小二乘算法


12

谁能指出我的Tikhonov正则化(正则化最小二乘)在线(递归)算法的方向吗?

在离线环境,我将计算β = X Ť X + λ- 1 X Ť ÿ使用在我的原始数据集λ是使用n重交叉验证中发现。一个新的ÿ值可以预测对于给定的X使用Ŷ = X Ť ββ^=(XTX+λI)1XTYλyxy=xTβ^

在在线设置中,我不断绘制新的数据点。如何更新β当我绘制新的额外的数据样本不会对整个数据集做了充分的重新计算(原件+新)?β^


1
即使将Tikhonov正则化的最小二乘应用于纯线性问题(如此处),也可能在统计界更通常称为Levenberg-Marquardt。有一个关于网上列文伯格马夸特纸这里。我不知道这有什么帮助。
Glen_b-恢复莫妮卡2014年

Answers:


11

β^n=(XXT+λI)1i=0n1xiyi

,然后Mn1=(XXT+λI)1

,和β^n+1=Mn+11(i=0n1xiyi+xnyn)

,我们可以得到Mn+1Mn=xnxnT

β^n+1=β^n+Mn+11xn(ynxnTβ^n)

根据伍德伯里公式,我们有

Mn+11=Mn1Mn1xnxnTMn1(1+xnTMn1xn)

结果是,

β^n+1=β^n+Mn11+xnTMn1xnxn(ynxnTβ^n)

Polyak平均指示可以使用 到近似中号- 1个ñηn=nαα范围从0.51。您可以尝试为递归选择最佳的αMn11+xnTMn1xnα0.51α


我认为如果您应用批处理渐变算法也可以:

β^n+1=β^n+ηnni=0n1xi(yixiTβ^n)


如果我每次使用新数据的批次样本来更新我的回归器,而每个连续批次都是从略有不同的分布中提取的,该怎么办?即非IID。在这种情况下,我希望回归器考虑新数据,但不影响旧数据(先前批次)的本地化预测吗?您能指出我认为有用的任何文献吗?
rnoodle 2014年

很好的问题,但是很抱歉,目前我无法确定如果您仍在使用答案中的批处理梯度公式,或者通过直接应用矩阵形式进行近似来对模型有多大影响:eta ^(-alpha)* X(Y-X 'beta_n),其中X,Y是您的新批次样品
lennon310 2014年

嗨,似乎正则化系数不包含在递归更新公式中?还是仅在M矩阵逆矩阵的初始化中起作用?
Peng Zhao

4

λXβy2λβ2


这是一个有趣的观点。但是到底为什么它“没有意义”?在数学上肯定地确保不变,因此必须在某种统计上下文中理解“无意义”。但是什么背景呢?怎么了?是否会有某种简单的解决方法,例如用均方替换平方和?λ
ub

用缩放版本(例如,均方误差)代替平方和将是有意义的,但仅使用递归最小二乘将无法实现。
Brian Borchers 2015年

至于出了什么问题,取决于您对的选择,您会得到一个带有大量数据点的非常规范化的解决方案,或者带有少量数据点的一个非常规范化的解决方案。λ
Brian Borchers,2015年

有人会怀疑,但是如果在接收到数据点后最初进行了调整,然后又添加了更多数据点,那么包含更多数据点和相同的结果解是否被过度或正则化将取决于那些新的数据点。可以通过假设数据点的行为像来自多元分布的iid样本来进行分析,在这种情况下,似乎应该在阶段将设置为。这将更改更新公式,但是以常规且简单的方式进行,仍然可能进行有效的计算。(+1)λnλλN/nN
嘘声

3

也许像随机梯度下降这样的东西在这里可以工作。使用上述方程式在初始数据集上计算,这将是您的初始估计。对于每个新数据点,您都可以执行一步的梯度下降来更新参数估计。β^


从那以后,我意识到SGD(也许是minibatch)是解决此类在线问题的方法,即更新函数近似值。
rnoodle 2015年

1

线性回归,一种可能性是更新的QR分解直接,如所解释这里。我猜想,除非您要在添加每个新数据点后重新估算,否则使用Ridge回归可以完成非常相似的操作。Xλ


0

与使用伍德伯里公式相比,这是一种替代方法(且不太复杂)。注意和可以写为sums。由于我们正在在线计算事物,并且不希望总和爆炸,因此我们可以选择使用平均值(和)。XTXXTyXTX/nXTy/n

如果将和编写为:Xy

X=(x1TxnT),y=(y1yn),

我们可以将在线更新写为和(计算到第行)为:XTX/nXTy/nt

At=(11t)At1+1txtxtT,

bt=(11t)bt1+1txtyt.

您对在线估计将变为β

β^t=(At+λI)1bt.

请注意,这也有助于在添加观察值时对保持不变的解释!λ

此过程是https://github.com/joshday/OnlineStats.jl如何计算线性/岭回归在线估计的方式。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.