随机矩阵的稀疏诱导正则化


10

众所周知(例如在压缩感测领域),范数是“稀疏诱导的”,即如果我们最小化函数(对于固定矩阵A和向量bf A bX= X - b2 2 + λ X1为足够大的λ > 0,我们很可能为很多选择bL1Ab

fA,b(x)=Axb22+λx1
λ>0Ab,和在结果x中具有许多完全为零的条目。λx

但是,如果我们最小化受该的条目的状态X为正,而总和到1,然后将大号1术语不具有任何影响(因为X1 = 1通过法令)。在这种情况下,是否存在一个类似的L 1型正则化函数可以起作用,以鼓励生成的x稀疏?fA,bx1L1x1=1L1x


您能否详细说明“然后项没有任何作用(因为按法令| | x | | 1 = 1)”?L1||x||1=1
Cam.Davidson.Pilon,2012年

2
@ Cam.Davidson.Pilon:Σ X = 1意味着X 1 = 1。:)xi0ixi=1x1=1
主教

1
贾斯汀:更多细节可能会给一个更好的机会,一个有用的答案。阅读您的描述后,立即会出现一些问题:(1)所有这些中的“随机矩阵”在哪里?您似乎只描述了一种涉及随机向量的情况。这些可能只是随机矩阵的各个行,或者一旦出现更多详细信息,其他结构可能就会变得明显。(2)您是否希望概率本身是稀疏的,或者是在某个适当的基础上稀疏?如果是第一个,为什么?(这是在加权(稀疏)图上随机走动吗?)
主教

为什么要求中的条目积极的?您是否应该要求它们是非负数?另外,您是否考虑过重新参数化以消除约束(假设您的意思是非负数)?换句话说,尝试x i = exp w ixxi=exp(wi)jexp(wj)
jrennie 2012年

1
@jrennie:在上下文中,肯定的贾斯汀肯定表示否定的。
主教

Answers:


2

创建稀疏解的一般方法是通过MAP估计,其中零均值法向先验且方差未知。

p(xi|σi2)N(0,σi2)

如果然后分配之前其在零具有模式,则后侧模式通常是稀疏的。的大号1通过取指数混合分布从这种方法中就产生了。σi2L1

p(σi2|λ)Expo(λ22)

然后你得到

log[p(xi|λ)]=λ|xi|+log[λ2]

一些替代方法是广义双pareto,半柯西,倒置beta。从某种意义上说,它们比套索更好,因为它们不会缩小大的值。实际上,我非常确定广义的double pareto可以写为指数混合形式。这是我们写,然后将伽马之前 p λ | α β 。我们得到:λ=λip(λi|αβ)

p(xi|αβ)=α2β(1+|xi|β)(α+1)

请注意,我包括了标准化常数,因为它们有助于选择良好的全局参数。现在,如果我们应用范围限制,那么我们将面临一个更复杂的问题,因为我们需要对单纯形进行重新规格化。

稀疏性惩罚的另一个通用特征是它们不可为零。通常,这是因为左右界限的符号相反。

这是基于尼古拉斯·波尔森(Nicolas Polson)和詹姆斯·斯科特(James Scott)关于方差均值混合表示的出色工作,他们用它们来开发TIRLS-将最小二乘法大规模扩展到非常大的损失-惩罚组合。

或者,您可以使用在单纯形上定义的先验,但边际分布中的众数为零。一个例子是所有参数在0到1之间的dirichlet分布。隐含的惩罚看起来像:

i=1n1(ai1)log(xi)(an1)log(1i=1n1xi)

其中。但是,由于惩罚具有奇异性,因此在数字优化方面需要谨慎。一个更可靠的估计过程是使用后验均值。尽管您失去了确切的稀疏性,但您将获得许多接近于零的后验均值。0<ai<1


L1

log[xixn]

xn

1

两种选择:

  1. L0x
  2. xi=exp(wi)jexp(wj)w

您能否解释一下重新参数化如何促进稀疏性?似乎可以保证完全相反。
主教

wx

是的,我知道。但是,这些值将不会为零。如果从字面上看,OP毫无用处,实际上(在某种意义上)会“受伤”。但是,OP可能会对稀疏性感兴趣,而不是出于某种其他考虑,在这种情况下,这将是其中之一。:)
主教

x

wi

1

L1

λ

λL1


0

我可以想出三种方法。

  • 贝叶斯方法:引入零均值先验分布,并使用II型似然估计参数和超参数。

  • i=1logxi

实际上,第一和第三种方法是相同的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.