关于第一个问题,应该定义“标准”,或者承认“规范模型”已逐步建立。如注释所示,至少看起来您使用IRWLS的方式是相当标准的。
至于您的第二个问题,“概率中的压缩映射”可以链接到“递归随机算法”的收敛(但是非正式地)。根据我的阅读,有大量关于该主题的文献,主要涉及工程学。在经济学中,我们只使用了其中的一小部分,尤其是Lennart Ljung的开创性著作-第一篇论文是Ljung(1977) -它表明递归随机算法的收敛性(或是否可以)取决于稳定性(或不是)的相关常微分方程。
(在与OP进行了富有成效的讨论后,对以下内容进行了重新设计)
收敛
我将参考Saber Elaydi的“差分方程简介”,2005年,第3版。
该分析是在某个给定的数据样本的条件,因此,被视为固定的。 x′s
目标函数最小化的一阶条件,被视为的递归函数,
m (k + 1 )= N ∑ i = 1 v i [ m (k )] x i,m
m(k+1)=∑i=1Nvi[m(k)]xi,vi[m(k)]≡wi[m(k)]∑Ni=1wi[m(k)][1]
有一个固定点(目标函数的argmin)。根据Elaydi的定理1.13 pp 27-28,如果相对于[ 1 ]的RHS的的一阶导数在固定点m *处评估,则表示为A ′(m ∗)绝对值小于1 ,则m ∗是渐近稳定的(AS)。在定理4.3第179页的基础上,我们还认为这也意味着固定点是统一 AS(UAS)。
“渐近稳定”是指对于固定点周围的某个值范围,邻域(m ∗m[1]m∗A′(m∗)m∗
,不一定小,固定点很吸引人,因此,如果算法在该邻域中给出值,它将收敛。该属性为“均匀”意味着该邻域的边界及其大小独立于算法的初始值。如果 γ = ∞,则固定点变为全局UAS。
因此,就我们而言,如果我们证明(m∗±γ)γ=∞
|A′(m∗)|≡∣∣∣∣∑i=1N∂vi(m∗)∂mxi∣∣∣∣<1[2]
我们已经证明了UAS属性,但是没有全球融合。然后,我们可以尝试确定引力的邻域实际上是整个扩展的实数,或者确定注释中提到的OP使用的特定起始值(这在IRLS方法中是标准的),即样本均值的的,ˉ X,总是属于所述固定点的吸引附近。xx¯
我们计算衍生物
∂vi(m∗)∂m=∂wi(m∗)∂m∑Ni=1wi(m∗)−wi(m∗)∑Ni=1∂wi(m∗)∂m(∑Ni=1wi(m∗))2
=1∑Ni=1wi(m∗)⋅[∂wi(m∗)∂m−vi(m∗)∑i=1N∂wi(m∗)∂m]
A′(m∗)=1∑Ni=1wi(m∗)⋅[∑i=1N∂wi(m∗)∂mxi−(∑i=1N∂wi(m∗)∂m)∑i=1Nvi(m∗)xi]
=1∑Ni=1wi(m∗)⋅[∑i=1N∂wi(m∗)∂mxi−(∑i=1N∂wi(m∗)∂m)m∗]
and
|A′(m∗)|<1⇒∣∣∣∣∑i=1N∂wi(m∗)∂m(xi−m∗)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣[3]
we have
∂wi(m∗)∂m=−ρ′′(|xi−m∗|)⋅xi−m∗|xi−m∗||xi−m∗|+xi−m∗|xi−m∗|ρ′(|xi−m∗|)|xi−m∗|2=xi−m∗|xi−m∗|3ρ′(|xi−m∗|)−ρ′′(|xi−m∗|)⋅xi−m∗|xi−m∗|2=xi−m∗|xi−m∗|2⋅[ρ′(|xi−m∗|)|xi−m∗|−ρ′′(|xi−m∗|)]=xi−m∗|xi−m∗|2⋅[wi(m∗)−ρ′′(|xi−m∗|)]
Inserting this into [3] we have
∣∣∣∣∑i=1Nxi−m∗|xi−m∗|2⋅[wi(m∗)−ρ′′(|xi−m∗|)](xi−m∗)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣
⇒∣∣∣∣∑i=1Nwi(m∗)−∑i=1Nρ′′(|xi−m∗|)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣[4]
This is the condition that must be satisfied for the fixed point to be UAS. Since in our case the penalty function is convex, the sums involved are positive. So condition [4] is equivalent to
∑i=1Nρ′′(|xi−m∗|)<2∑i=1Nwi(m∗)[5]
If ρ(|xi−m|) is Hubert's loss function, then we have a quadratic (q) and a linear (l) branch,
ρ(|xi−m|)=⎧⎩⎨(1/2)|xi−m|2|xi−m|≤δδ(|xi−m|−δ/2)|xi−m|>δ
and
ρ′(|xi−m|)={|xi−m||xi−m|≤δδ|xi−m|>δ
ρ′′(|xi−m|)={1|xi−m|≤δ0|xi−m|>δ
⎧⎩⎨⎪⎪wi,q(m)=1|xi−m|≤δwi,l(m)=δ|xi−m|<1|xi−m|>δ
Since we do not know how many of the |xi−m∗|'s place us in the quadratic branch and how many in the linear, we decompose condition [5] as (Nq+Nl=N)
∑i=1Nqρ′′q+∑i=1Nlρ′′l<2[∑i=1Nqwi,q+∑i=1Nlwi,l]
⇒Nq+0<2[Nq+∑i=1Nlwi,l]⇒0<Nq+2∑i=1Nlwi,l
which holds. So for the Huber loss function the fixed point of the algorithm is uniformly asymptotically stable, irrespective of the x's. We note that the first derivative is smaller than unity in absolute value for any m, not just the fixed point.
What we should do now is either prove that the UAS property is also global, or that, if m(0)=x¯ then m(0) belongs to the neighborhood of attraction of m∗.