是什么导致套索对于特征选择不稳定?


12

在压缩感知中,有一个定理保证 具有唯一的稀疏解c(有关更多详细信息,请参见附录)。

argminc1subject to y=Xc
c

套索有类似的定理吗?如果有这样一个定理,那么它不仅可以保证套索的稳定性,而且还可以为套索提供更有意义的解释:

套索可以发现稀疏回归系数向量c,该向量用于通过y = Xc生成响应yyy=Xc

我问这个问题有两个原因:

  1. 我认为“套索偏爱稀疏解决方案”并不能解决为什么使用套索进行特征选择的问题,因为我们甚至无法分辨选择特征的优势。

  2. 我了解到套索因功能选择不稳定而臭名昭著。在实践中,我们必须运行引导程序样本以评估其稳定性。导致这种不稳定的最关键原因是什么?


附录:

给定XN×M=(x1,,xM)cΩ稀疏向量(ΩM)。过程y=Xc生成响应y。如果X具有\ Omega阶的NSP(零空间属性),Ω并且X的协方差矩阵的X特征值都不接近零,则

argminc1subject to y=Xc
恰好是给出yccy

该定理还告诉我们,如果X不具有\ Omega的NSP Ω,则根本无法解决argminc:y=Xcc1


编辑:

收到这些好答案后,我意识到我在问这个问题时感到困惑。

为什么这个问题令人困惑:

我读了一篇研究论文,其中我们必须确定设计矩阵XN×M将具有多少个特征(列)(辅助特征是从主要特征创建的)。由于这是一个典型的n<p问题,因此可以很好地构造D,以便套索的解可以很好地近似为稀疏实解。

推理是基于我在附录中提到的一个定理:如果我们旨在找到稀疏解,则最好具有阶的NSP 。ΩcXΩ

对于一般的 ×矩阵,如果违反了,则N×MN>CΩlnM

没有稳定和稳健恢复从和是可能的cDP

D对应,对应XPy

...如从关系所期望的那样,描述符的选择变得更加不稳定,即,对于不同的训练集,所选择的描述符通常会有所不同...N=CΩlnM

第二句话是令我困惑的部分。在我看来,当不等式被违反时,不仅解决方案可能不唯一(未提及),而且描述符也会变得更加不稳定。


2
仅就上下文而言,您在Q开头写下的优化问题称为“基础追求”。如果将等式替换为近似等式(直到某些L2误差),那么它被称为“基本追踪去噪”。基本追求去噪在数学上等同于套索。y=XcyXc
变形虫说恢复莫妮卡

可在此处找到一组有用的幻灯片(但不是简单的幻灯片):pages.iu.edu/~dajmcdon/research/talks/lasso.pdf和免费午餐定理用户。ece.utexas.edu/〜cmcaram / pubs / XuCaramanisMannor.NFL.pdf
Xavier Bourret Sicotte

您引用的定理是唯一性。您的问题令人困惑,因为唯一性不一定与稳定性有关。
变形虫说恢复莫妮卡

2
是的,我相信操作流程有些混乱,问题尚不明确,因此可能会有不同的答案...唯一性是针对一组数据点,稳定性适用于交叉验证,引导或新数据点
Xavier Bourret Sicotte

Answers:


8

更新

请参阅第二篇文章,以获取麦当劳对我的回答的反馈,其中风险一致性的概念与稳定性有关。


1)唯一性与稳定性

您的问题很难回答,因为它提到了两个截然不同的主题:唯一性稳定性

  • 直观地讲,如果给定固定数据集,则解决方案是唯一的,该算法始终会产生相同的结果。马丁的答案很详细地说明了这一点。

  • 另一方面,稳定性可以直观地理解为当训练数据略微修改时预测不会发生很大变化的稳定性

稳定性适用于您的问题,因为套索特征选择(通常)是通过交叉验证执行的,因此套索算法是对不同数据折叠执行的,每次可能会产生不同的结果。

稳定性和免费午餐定理

从使用的定义在这里,如果我们定义的统一稳定性为:

如果满足以下条件,则算法对于损失函数具有统一的稳定性:βV

SZm  i{1,...,m},  sup|>V(fs,z)V(fS|i,z)|  β

考虑到的函数,术语可以写为 。我们说当随着减小 时,该算法是稳定的。mββmβm1m

然后“无免费午餐定理,Xu和Caramis(2012)”指出:

如果算法是稀疏的则从某种意义上说它识别出冗余特征,那么该算法就不稳定(并且统一稳定约束不会为零)。[...]如果算法稳定,那么就不会有稀疏算法。(第3和4页)β

例如,正则回归是稳定的,不能识别冗余特征,而正则回归(Lasso)是不稳定的。 L2L1

尝试回答您的问题

我认为“套索偏爱稀疏解决方案”并不是为什么要使用套索进行特征选择的答案

  • 我不同意,套索用于特征选择的原因是它产生的稀疏解可以显示为具有IRF属性,即标识冗余特征。

导致这种不稳定的最关键原因是什么

  • 没有免费的午餐定理

更进一步

这并不是说交叉验证和套索的组合不起作用...实际上,已经通过实验证明了这一点(并且有很多支持理论)在各种条件下都可以很好地工作。这里的主要关键字是一致性,风险,预言性等。

以下McDonald和Homrighausen(2013)的幻灯片和论文描述了套索功能选择可以正常工作的一些条件:幻灯片和纸:“套索,持久性和交叉验证,McDonald和Homrighausen(2013)”蒂布希拉尼(Tibshirani)本人也就稀疏性线性回归发布了很多笔记

一致性的各种条件及其对套索的影响是研究的活跃话题,绝对不是一个小问题。我可以指出一些相关的研究论文:


1
感谢您的全面答复!您提供的幻灯片集非常好!
meTchaikovsky '18

1
我仍在尝试处理稳定性的定义。我的翻译是,“当遗忘的交叉验证中的误差/损失函数的变化具有上限,其上限会随着减小而减小,因此算法是稳定的”折叠/测试集”β1m,我希望我做对了。我想知道为什么它是使套索工作良好的理想属性(或更确切地说,我想知道它是否是必要的属性。)
Sextus Empiricus

1
是的,除了m是数据点的数量。在此处查看第7页的概率边界:math.arizona.edu/~hzhang/math574m/Read/LOOtheory.pdf –关键是,通过增加数据集大小不会提供稳定性,这意味着该算法可以跳跃取决于特定数据集的假设函数。这就是为什么提出其他条件的原因,这些条件与潜在的分布和相关结构有关(我认为)-但需要使这些条件更加清晰
Xavier Bourret Sicotte

另一个重要的概念是一致性,如下所述:stat.ethz.ch/~nicolai/stability.pdf-稳定性和一致性之间的联系尚不清楚,但似乎是活跃研究的主题,例如cbcl.mit.edu/publications /ps/mukherjee-AImemoOctNov.pdf
Xavier Bourret Sicotte

好答案!您是否还可以用更详细的描述更新某些链接,以防将来链接本身失效?(我已经为您做了一个。)
理查德·哈迪

7

Daniel J. McDonald的评论

印第安纳大学布卢明顿分校的助理教授,是Xavier Bourret Sicotte最初回复中提到的两篇论文的作者

一般来说,您的解释是正确的。我要指出的几件事:

  1. 我们在有关CV和套索的一系列论文中的目标是证明“套索+交叉验证(CV)”“套索+最优 ”一样好λ。特别是,我们想证明预测也是如此(无模型)。为了发表有关正确恢复系数的声明(找到正确的非稀疏系数),我们需要假设一个稀疏真相,而我们不想这样做。

  2. 算法的稳定性意味着风险的一致性(我相信首先由Bousquet和Elisseeff证明)。风险一致性是指如果f是或某个类中某个类的最佳预测变量,则f变为零。但是,这仅仅是一个充分条件。链接到的幻灯片上提到了它,本质上是“一种可能的证明技术,因为套索不稳定,因此无法使用”。||f^(X)f(X)||E[Y|X]

  3. 稳定性仅是足够的,但不是必需的。我们能够证明,在某些情况下,“套索+ CV”和“套索+最佳 ” 一样可以预测。您引用的论文给出了最弱的假设(幻灯片16中的假设,允许),但是使用套索的约束形式,而不是更常见的拉格朗日形式。另一篇论文(http://www3.stat.sinica.edu.tw/statistica/J27N3/J27N34/J27N34.html)使用拉格朗日版本。它还表明,在更强大的条件下,模型选择也将起作用。其他人最近发表的论文(https://arxiv.org/abs/1605.02214)声称可以改善这些结果(我尚未仔细阅读)。λp>n

  4. 通常,由于套索(或任何选择算法)不稳定,因此需要更仔细的分析和/或强力假设才能证明“算法+ CV”将选择正确的模型。我不知道必要的条件,尽管通常这将非常有趣。不难表明,对于固定的lambda,套索预测变量是向量中的局部Lipschitz (我相信Ryan Tibshirani的论文中的一项或多项可以做到)。如果还可以说这在,那将是非常有趣的,并且与这里有关。YXi

我要补充的主要结论是:“稳定性”表示“风险一致性”或“预测准确性”。在更多假设下,它也可能表示“参数估计一致性”。但是,免费午餐定理意味着“选择” “不稳定”。套索即使在固定lambda的情况下也不稳定。因此,与任何类型的CV结合使用时,它肯定是不稳定的。简历:唯一性在这里并不重要。


5

与里奇回归不同(例如,参见Hoerl和Kennard,1970; Hastie等,2009),套索虽然通常具有唯一的解决方案,但它并不总是具有唯一的解决方案。它取决于模型中参数的数量,变量是连续的还是离散的,以及设计矩阵的等级。唯一性的条件可以在Tibshirani(2013)中找到。

参考文献:

Hastie,T.,Tibshirani,R.和Friedman,J.(2009)。统计学习的要素。统计中的Springer系列。纽约,Springer,第11版,第2版。

AE的Hoerl和RW的Kennard(1970)。Ridge回归:非正交问题的有偏估计。Technometrics,12(1),55-67。

Tibshirani,RJ(2013)。套索问题和唯一性。电子统计杂志,第7卷,第1456-1490页。


@ 谢谢!您可以添加所提供参考文献的简短摘要吗?
meTchaikovsky '18

Hasite等。(2009)是一本书,涵盖了许多主题,其中包括Lasso和Ridge回归。值得一读,可以从Hastie的主页下载:web.stanford.edu/~hastie/ElemStatLearn/download.html Hoerl&Kennard(1970)是经典的Ridge回归参考,可能与您的问题没有直接关系,其他而不是了解Ridge回归。Tibshirani(2013)包含有关套索何时具有唯一解决方案(以及何时具有无限数量的解决方案)的信息。
菲尔(Phil)

3

是什么导致非唯一性。

对于向量(其中是表示的变化将增加还是减少),只要它们是仿射相关的:sixisicic1

αisixi=0andαi=0

则有无数个组合不会改变解和范数。ci+γαiXcc1

例如:

y=[11]=[210111][c1c2c3]=Xc

具有的解决方案:c1=1

[c1c2c3]=[010]+γ[121]

0γ12

我们可以使用来替换向量x2x2=0.5x1+0.5x3


没有这种情况的情况

Tibshirani的文章(来自Phil的回答)描述了套索具有独特解决方案的三个充分条件。

  1. 线性独立当零位空间为空时或当的秩等于列数(M)时等效。在这种情况下,您将没有上面的线性组合。XX
  2. 仿射无关当列位于一般位置时。Xs

    即,没有列代表维平面中的点。k-2维平面可以由任何个点参数化为和。随着个点 在此同一平面上,你会具备的条件与kk2k1αisixiαi=1ksjxjαisixiαi=0

    请注意,在示例中,列,和在同一行上。(但是这里有些尴尬,因为符号可能为负,例如矩阵刚好也没有独特的解决方案)x1x2x3[[21][11][01]]

  3. 当列是从连续分布那么就不太可能(可能性几乎为零),您将拥有的列不是一般的地位。XX

    与此相反,如果列是类别变量,则此概率不一定非要接近零。连续变量等于某个数字集(即,与其他向量的仿射范围相对应的平面)的概率“几乎”为零。但是,离散变量不是这种情况。X


+1,但我认为在最近的讨论中“不稳定”的含义与在存在相关特征的情况下通过交叉验证进行特征选择有关
Xavier Bourret Sicotte

@XavierBourretSicotte您的意思是说,即使有一个唯一的解决方案,选择过程也可能由于相关的功能而不稳定(由于(以数字方式))找到该唯一的解决方案会带来麻烦?这有点令人困惑,因为这个问题一方面要求稳定性,另一方面要求唯一性。
Sextus Empiricus

是的,这就是我的意思,这不一定是因为数值不稳定,而是因为数据折痕的固有差异(在CV期间),这会导致折痕上不同的值产生不同的解决方案。自举时情况可能更糟λ
Xavier Bourret Sicotte

@XavierBourretSicotte我目前尚无清晰直观的图片,为什么这种情况(针对不同的和训练集的不同解决方案)应该不稳定。我想您可以将其发布为答案并进行解释。λ
Sextus Empiricus

@Martijn Weterings谢谢!我还有三个问题:1.如何检测仿射依赖?我是否应该找出是否独立(math.stackexchange.com/q/82189)?2.如何在实践中确定?3.的“一般位置”是什么意思?{v1v0,v2v0,,vkv0}siX
meTchaikovsky '18
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.