软阈值与套索惩罚


11

我正在尝试总结到目前为止在使用高维数据集进行的惩罚性多元分析中所了解的内容,但我仍然在努力获得正确的软阈值Lasso(或)惩罚的定义方面遇到困难。L1

更准确地说,我使用稀疏PLS回归分析包括基因组数据的2块数据结构(单核苷酸多态性,其中我们将次等位基因的频率在{0,1,2}范围内,视为数值变量)和连续表型(量化人格特征或脑不对称性的得分,也视为连续变量)。这个想法是要找出最有影响力的预测因子(这里是DNA序列的遗传变异)来解释个体之间的表型变异。

我最初使用mixOmics R包(以前integrOmics),该包具有受罚的PLS回归和正则化的CCA。查看R代码,我们发现预测变量中的“稀疏性”只是通过选择第个分量(算法为)上具有最高负载(绝对值)的前变量来诱发的是迭代的并且计算组件上的变量负载,在每次迭代时缩小预测变量块,有关概述,请参见稀疏PLS:集成Omics数据时的变量选择)。相反,S。Keleş他人合着了spls软件包(请参见i i = 1 ... k k L 1kii=1,,kk稀疏偏最小二乘回归的同时降维和变量选择,对于这些作者所采取的方式)实现一个更加正式的描述 -penalization变量处罚。L1

在我看来,在基于软阈值的迭代特征选择和正则化之间是否存在严格的“双射”并不明显。所以我的问题是:两者之间是否存在数学联系?L1

参考文献

  1. Chun,H.和Kelȩs,S.(2010),稀疏偏最小二乘用于同时减少维数和变量选择皇家统计学会:B系列72,3-25。
  2. Le Cao,K.-A.,Rossoou,D.,Robert-Granie,C.和Besse,P.(2008年),《整合Omics数据时用于变量选择的稀疏PLS》在遗传学和分子生物学统计应用程序7,第35条。

Answers:


2

我要说的适用于回归,但对于PLS也应如此。所以这不是一个双射的问题,因为依赖于您在实施约束的程度,您将有各种各样的“答案”,而第二个解决方案仅接受可能的答案(其中是变量的数量)<->有公式中的解决方案比“截断”公式中的解决方案更多。p p 1l1ppl1


@kwak好吧,LARS算法似乎比对变量重要性的简单阈值处理要复杂得多,但要点是,我没有看到惩罚参数与模型中要求保留的变量#之间有明确的关系。在我看来,我们不一定能找到能够精确产生固定数量变量的惩罚参数。
chl 2010年

@chl:>您的意思是S-PLS(您写了LARS,与您讨论的任何一种算法都不同)。的确,惩罚参数和组件编号之间存在单调关系,但不是线性关系,并且该关系在每个案例的基础上有所不同(取决于数据集/问题)。
user603 2010年

@kwak L1罚则可以使用LARS达成,除非我有误解。您的第二点实际上是我的想法;您对此有什么参考吗?
chl 2010年

@chl:> * L1惩罚可以使用LARS来实现,除非我误导了*我不知道(并且对此有所怀疑)。你能提供参考吗?谢谢。第二个问题是:看看套索Hui Zou,Trevor Hastie和Robert Tibshirani的“自由度”资料来源:安。统计员。第35卷,第5期(2007),2173-2192。(有许多非功能化版本)。
user603 2010年

1
@kwak查看Tibshirani的网页www-stat.stanford.edu/~tibs/lasso.htmllarsR包;其他方法包括坐标下降(请参阅JSS 2010 33(1),bit.ly/bDNUFo),Python scikit.learn软件包同时具有这两种方法bit.ly/bfhnZz
chl 2010年

6

L 1L1惩罚是优化问题的一部分。软阈值是算法的一部分。有时惩罚会导致软阈值。L1

为了进行回归,当矩阵的列正交时(假设行对应于不同的样本),惩罚最小二乘法(Lasso)导致软阈值化。当您考虑均值估计的特殊情况时,推导确实很简单,其中矩阵在每一行中包含一个单一的,在其他任何地方均包含零。 X X 1L1XX1

对于一般的矩阵,通过循环坐标下降计算Lasso解会导致本质上是迭代的软阈值。参见http://projecteuclid.org/euclid.aoas/1196438020X


(+1)谢谢,尤其是弗里德曼的论文。
chl 2010年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.