迭代加权最小二乘的定义和收敛性


16

我一直在使用迭代加权最小二乘(IRLS)来最小化以下形式的函数,

J(m)=i=1Nρ(|xim|)

其中N是实例数xiRmR是鲁棒估计,我想,并且ρ是一个合适的健壮罚函数。假设它是凸的(尽管不一定严格)并且目前是可区分的。这种一个很好的例子ρHuber损失函数

我一直在做的是区分J(m)相对于m(和操作)来获得,

dJdm=i=1Nρ(|xim|)|xim|(xim)

并通过将其设置为0并将迭代权重固定kw ik = ρ ' | x im k |来迭代求解wi(k)=ρ(|xim(k)|)|xim(k)|(请注意,在处感知到的奇点xi=m(k)实际上是我可能关心的所有的可移动奇点ρ)。然后我得到

i=1Nwi(k)(xim(k+1))=0

我求解得到m(k+1)=i=1Nwi(k)xii=1Nwi(k)

我重复此定点算法,直到“收敛”为止。我会注意到,如果达到固定点,则是最优的,因为您的导数为0,它是一个凸函数。

关于此过程,我有两个问题:

  1. 这是标准的IRLS算法吗?在阅读了有关该主题的几篇文章之后(他们对IRLS是什么非常分散且含糊其词),这是我能找到的最一致的算法定义。如果人们愿意,我可以发表论文,但实际上我不想在这里偏anyone任何人。当然,您可以将此基本技术推广到涉及向量xi和除以外的其他参数的许多其他类型的问题x im k | |xim(k)|,提供参数是参数仿射函数的规范。在这方面任何帮助或见识都将是很棒的。
  2. 融合似乎在实践中可行,但是我对此有一些担忧。我还没有看到证明。一些简单的MATLAB中的仿真我看到的这一次迭代是后不是压缩映射(I产生的两个随机实例m和计算|m1(k+1)m2(k+1)||m1(k)m2(k)|并发现偶尔会大于1)。同样,由几个连续的迭代定义的映射并不是严格意义上的收缩映射,但是Lipschitz常数大于1的概率非常低。那么,是否存在概率收缩映射的概念?我将使用什么机器来证明这种收敛?它甚至会收敛吗?

任何指导都是有帮助的。

编辑:我喜欢Daubechies等人关于IRLS进行稀疏恢复/压缩感测的论文。2008年arXiv上的“迭代最小二乘最小化加权最小化”。但它似乎主要集中在非凸问题的权重上。我的情况要简单得多。


看着IRWLS上的Wiki页面,我努力地描述了您所描述的过程与IRWLS之间的区别(它们只是使用作为其特定的 ρ函数)。您能否解释一下您认为所提出的算法与IRWLS有何不同|yixxiββ|2ρ
user603 2014年

我从来没有说过这是不同的,如果我暗指,我不是故意的。
克里斯·A

Answers:


10

关于第一个问题,应该定义“标准”,或者承认“规范模型”已逐步建立。如注释所示,至少看起来您使用IRWLS的方式是相当标准的。

至于您的第二个问题,“概率中的压缩映射”可以链接到“递归随机算法”的收敛(但是非正式地)。根据我的阅读,有大量关于该主题的文献,主要涉及工程学。在经济学中,我们只使用了其中的一小部分,尤其是Lennart Ljung的开创性著作-第一篇论文是Ljung(1977) -它表明递归随机算法的收敛性(或是否可以)取决于稳定性(或不是)的相关常微分方程。

(在与OP进行了富有成效的讨论后,对以下内容进行了重新设计)

收敛

我将参考Saber Elaydi的“差分方程简介”,2005年,第3版。 该分析是在某个给定的数据样本的条件,因此,被视为固定的。 xs

目标函数最小化的一阶条件,被视为的递归函数, m k + 1 = N i = 1 v i [ m k ] x im

m(k+1)=i=1Nvi[m(k)]xi,vi[m(k)]wi[m(k)]i=1Nwi[m(k)][1]

有一个固定点(目标函数的argmin)。根据Elaydi的定理1.13 pp 27-28,如果相对于[ 1 ]的RHS的的一阶导数在固定点m 处评估,则表示为A m 绝对值小于1 ,则m 渐近稳定的(AS)。在定理4.3第179页的基础上,我们还认为这也意味着固定点是统一 AS(UAS)。 “渐近稳定”是指对于固定点周围的某个值范围,邻域m m[1]mA(m)m
,不一定小,固定点很吸引人,因此,如果算法在该邻域中给出值,它将收敛。该属性为“均匀”意味着该邻域的边界及其大小独立于算法的初始值。如果 γ = ,则固定点变为全局UAS。 因此,就我们而言,如果我们证明(m±γ)γ=

|A(m)||i=1Nvi(m)mxi|<1[2]

我们已经证明了UAS属性,但是没有全球融合。然后,我们可以尝试确定引力的邻域实际上是整个扩展的实数,或者确定注释中提到的OP使用的特定起始值(这在IRLS方法中是标准的),即样本均值的的,ˉ X,总是属于所述固定点的吸引附近。xx¯

我们计算衍生物

vi(m)m=wi(m)mi=1Nwi(m)wi(m)i=1Nwi(m)m(i=1Nwi(m))2

=1i=1Nwi(m)[wi(m)mvi(m)i=1Nwi(m)m]

A(m)=1i=1Nwi(m)[i=1Nwi(m)mxi(i=1Nwi(m)m)i=1Nvi(m)xi]

=1i=1Nwi(m)[i=1Nwi(m)mxi(i=1Nwi(m)m)m]

and

|A(m)|<1|i=1Nwi(m)m(xim)|<|i=1Nwi(m)|[3]

we have

wi(m)m=ρ(|xim|)xim|xim||xim|+xim|xim|ρ(|xim|)|xim|2=xim|xim|3ρ(|xim|)ρ(|xim|)xim|xim|2=xim|xim|2[ρ(|xim|)|xim|ρ(|xim|)]=xim|xim|2[wi(m)ρ(|xim|)]

Inserting this into [3] we have

|i=1Nxim|xim|2[wi(m)ρ(|xim|)](xim)|<|i=1Nwi(m)|

|i=1Nwi(m)i=1Nρ(|xim|)|<|i=1Nwi(m)|[4]

This is the condition that must be satisfied for the fixed point to be UAS. Since in our case the penalty function is convex, the sums involved are positive. So condition [4] is equivalent to

i=1Nρ(|xim|)<2i=1Nwi(m)[5]

If ρ(|xim|) is Hubert's loss function, then we have a quadratic (q) and a linear (l) branch,

ρ(|xim|)={(1/2)|xim|2|xim|δδ(|xim|δ/2)|xim|>δ

and

ρ(|xim|)={|xim||xim|δδ|xim|>δ

ρ(|xim|)={1|xim|δ0|xim|>δ

{wi,q(m)=1|xim|δwi,l(m)=δ|xim|<1|xim|>δ

Since we do not know how many of the |xim|'s place us in the quadratic branch and how many in the linear, we decompose condition [5] as (Nq+Nl=N)

i=1Nqρq+i=1Nlρl<2[i=1Nqwi,q+i=1Nlwi,l]

Nq+0<2[Nq+i=1Nlwi,l]0<Nq+2i=1Nlwi,l

which holds. So for the Huber loss function the fixed point of the algorithm is uniformly asymptotically stable, irrespective of the x's. We note that the first derivative is smaller than unity in absolute value for any m, not just the fixed point.

What we should do now is either prove that the UAS property is also global, or that, if m(0)=x¯ then m(0) belongs to the neighborhood of attraction of m.


Thanks for the response. Give me some time to analyze this answer.
Chris A.

Certainly. After all, the question waited 20 months.
Alecos Papadopoulos

Yeah, I was reminded of the problem and decided to put up a bounty. :)
Chris A.

Lucky me. I wasn't there 20 months ago - I would have taken up this question, bounty or not.
Alecos Papadopoulos

Thanks so much for this response. It's looking like, so far, that you've earned the bounty. BTW, your indexing on the derivative of vi w.r.t m is notationally weird. Couldn't the summations on the second line of this use another variable, such as j?
Chris A.
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.