设置中的回归:如何选择正则化方法(套索,PLS,PCR,山脊)?


15

我想查看是否去岭回归LASSO主成分回归(PCR),或偏最小二乘(PLS)中的情况下有大量的变量/特征()和样品的较小数量(Ñ < p),而我的目标是预测。pn<p

这是我的理解:

  1. Ridge回归缩小了回归系数,但是使用所有系数而不将其设为0

  2. LASSO还可以缩小系数,但也可以使其变为,这意味着它也可以进行变量选择。0

  3. 主成分回归截断成分,使小于n ; 它将丢弃p - n个分量。pnpn

  4. 偏最小二乘也构造了一组用于回归的输入线性组合,但与PCR不同,它使用(除X之外)进行降维。PCR和PLS回归之间的主要实际区别是,PCR往往需要比PLS更多的组件才能实现相同的预测误差(请参见此处)。yX

考虑以下虚拟数据(我尝试使用的实际数据是相似的):

#random population of 200 subjects with 1000 variables 

M <- matrix(rep(0,200*100),200,1000)
for (i in 1:200) {
set.seed(i)
  M[i,] <- ifelse(runif(1000)<0.5,-1,1)
}
rownames(M) <- 1:200

#random yvars 
set.seed(1234)
u <- rnorm(1000)
g <- as.vector(crossprod(t(M),u))
h2 <- 0.5 
set.seed(234)
y <- g + rnorm(200,mean=0,sd=sqrt((1-h2)/h2*var(g)))

myd <- data.frame(y=y, M)

实现四种方法:

 require(glmnet)

 # LASSO 
 fit1=glmnet(M,y, family="gaussian", alpha=1)

 # Ridge   
 fit1=glmnet(M,y, family="gaussian", alpha=0)

 # PLS
 require(pls)
 fit3 <- plsr(y ~ ., ncomp = 198, data = myd, validation = "LOO")
 # taking 198 components and using leave-one-out cross validation 
 summary(fit3)
 plot(RMSEP(fit3), legendpos = "topright")

 # PCR 
 fit4 <- pcr(y ~ ., ncomp = 198, data = myd, validation = "LOO")

数据的最佳描述是:

  1. ,大多数时候 p > 10 n ;p>np>10n

  2. 变量(Y)以不同程度相互关联XY

我的问题是哪种策略最适合这种情况?为什么?


6
我暂时没有答案,但是《统计学习要素》的第18章专门讨论该主题,涵盖了您提到的所有技术。
Shadowtalker


@ssdecontrol感谢您发布的书。很有帮助
克里斯蒂娜(Christina)

Answers:


30

我认为您的问题没有唯一的答案-这取决于许多情况,数据和您要执行的操作。可以或应该对某些修改进行修改以实现目标。但是,以下一般性讨论会有所帮助。

在跳到更高级的方法之前,让我们首先讨论基本模型:最小二乘(LS)回归。完整模型中参数的最小二乘估计不令人满意的原因有两个:

  1. 预测质量:最小二乘估计值通常偏差较小,但方差较大。有时可以通过缩小回归系数或将某些系数设置为零来提高预测质量。这样,偏差增加了,但是预测的方差显着减小,这导致了整体改进的预测。通过分解均方误差(MSE),可以很容易看出偏差和方差之间的这种权衡关系 较小的MSE可以更好地预测新值。

  2. 可解释性:如果有许多预测变量,则可以确定影响最大的变量,并将与预测无关的变量设置为零。因此,我们消除了仅解释一些细节的变量,但保留了那些可以对响应变量进行主要解释的变量。

kk{0,1,...,p}304040n>pp

βzk,k=1,2,...,qxj

该方法在如何构造线性组合方面有所不同。主成分回归(PCR)寻找原始数据到一组新的不相关变量的转换,称为主成分

yXyXβγγqpXyy

λ0λ

ββ

Xpq

YiL1和L2之间的差异只是L2是权重的平方之和,而L1是权重之和。 L1范数倾向于产生稀疏系数,并且具有内置特征选择。L1范数没有解析解,但是L2范数有解析解。这使得L2-范数解可以有效地进行计算。L2-norm具有独特的解决方案,而L1-norm没有。

s0s

pN

主成分分析是一种有效的方法,可以找到在数据集中表现出较大差异的要素的线性组合。但是我们在这里寻求的是具有高方差和与结果显着相关的线性组合。因此,我们希望鼓励进行主成分分析,以找到与结果高度相关的要素的线性组合- 受监督的主成分(请参见《统计学习的元素》一书中的第678页,算法18.1 )。

偏最小二乘可减少权重嘈杂的特征,但不会将其丢弃;结果,大量的嘈杂特征会污染预测。阈值PLS可以看作是受监督的主要组件的嘈杂版本,因此我们可能不希望它在实践中发挥良好的作用。受监督的主成分可以产生比Threshold PLS低的测试错误。但是,它并不总是产生仅包含少量特征的稀疏模型。

p


1
Bias2+Variance

2
当您说“ L2范数具有唯一的解决方案而L1范数没有独特的解决方案”时,您是什么意思?套索的目标是凸的……
Andrew M
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.