众所周知(例如在压缩感测领域),范数是“稀疏诱导的”,即如果我们最小化函数(对于固定矩阵A和向量→ b)f A ,→ b(→ X)= ‖ 甲→ X - → b ‖ 2 2 + λ ‖ → X ‖ 1为足够大的λ > 0,我们很可能为很多选择甲,→ b
但是,如果我们最小化受该的条目的状态→ X为正,而总和到1,然后将大号1术语不具有任何影响(因为‖ → X ‖ 1 = 1通过法令)。在这种情况下,是否存在一个类似的L 1型正则化函数可以起作用,以鼓励生成的→ x稀疏?
众所周知(例如在压缩感测领域),范数是“稀疏诱导的”,即如果我们最小化函数(对于固定矩阵A和向量→ b)f A ,→ b(→ X)= ‖ 甲→ X - → b ‖ 2 2 + λ ‖ → X ‖ 1为足够大的λ > 0,我们很可能为很多选择甲,→ b
但是,如果我们最小化受该的条目的状态→ X为正,而总和到1,然后将大号1术语不具有任何影响(因为‖ → X ‖ 1 = 1通过法令)。在这种情况下,是否存在一个类似的L 1型正则化函数可以起作用,以鼓励生成的→ x稀疏?
Answers:
创建稀疏解的一般方法是通过MAP估计,其中零均值法向先验且方差未知。
如果然后分配之前其在零具有模式,则后侧模式通常是稀疏的。的大号1通过取指数混合分布从这种方法中就产生了。
然后你得到
一些替代方法是广义双pareto,半柯西,倒置beta。从某种意义上说,它们比套索更好,因为它们不会缩小大的值。实际上,我非常确定广义的double pareto可以写为指数混合形式。这是我们写,然后将伽马之前 p (λ 我| α β )。我们得到:
请注意,我包括了标准化常数,因为它们有助于选择良好的全局参数。现在,如果我们应用范围限制,那么我们将面临一个更复杂的问题,因为我们需要对单纯形进行重新规格化。
稀疏性惩罚的另一个通用特征是它们不可为零。通常,这是因为左右界限的符号相反。
这是基于尼古拉斯·波尔森(Nicolas Polson)和詹姆斯·斯科特(James Scott)关于方差均值混合表示的出色工作,他们用它们来开发TIRLS-将最小二乘法大规模扩展到非常大的损失-惩罚组合。
或者,您可以使用在单纯形上定义的先验,但边际分布中的众数为零。一个例子是所有参数在0到1之间的dirichlet分布。隐含的惩罚看起来像:
其中。但是,由于惩罚具有奇异性,因此在数字优化方面需要谨慎。一个更可靠的估计过程是使用后验均值。尽管您失去了确切的稀疏性,但您将获得许多接近于零的后验均值。