我正在尝试总结到目前为止在使用高维数据集进行的惩罚性多元分析中所了解的内容,但我仍然在努力获得正确的软阈值与Lasso(或)惩罚的定义方面遇到困难。
更准确地说,我使用稀疏PLS回归分析包括基因组数据的2块数据结构(单核苷酸多态性,其中我们将次等位基因的频率在{0,1,2}范围内,视为数值变量)和连续表型(量化人格特征或脑不对称性的得分,也视为连续变量)。这个想法是要找出最有影响力的预测因子(这里是DNA序列的遗传变异)来解释个体之间的表型变异。
我最初使用mixOmics R包(以前integrOmics
),该包具有受罚的PLS回归和正则化的CCA。查看R代码,我们发现预测变量中的“稀疏性”只是通过选择第个分量(算法为)上具有最高负载(绝对值)的前变量来诱发的是迭代的并且计算组件上的变量负载,在每次迭代时缩小预测变量块,有关概述,请参见稀疏PLS:集成Omics数据时的变量选择)。相反,S。Keleş与他人合着了spls软件包(请参见i i = 1 ,... ,k k L 1稀疏偏最小二乘回归的同时降维和变量选择,对于这些作者所采取的方式)实现一个更加正式的描述 -penalization变量处罚。
在我看来,在基于软阈值的迭代特征选择和正则化之间是否存在严格的“双射”并不明显。所以我的问题是:两者之间是否存在数学联系?
参考文献
- Chun,H.和Kelȩs,S.(2010),稀疏偏最小二乘用于同时减少维数和变量选择。皇家统计学会:B系列,72,3-25。
- Le Cao,K.-A.,Rossoou,D.,Robert-Granie,C.和Besse,P.(2008年),《整合Omics数据时用于变量选择的稀疏PLS》。在遗传学和分子生物学统计应用程序,7,第35条。