贝叶斯套索vs普通套索

24

套索可使用不同的实现软件。我知道在不同的论坛上有很多关于贝叶斯方法与常客方法的讨论。我的问题特别针对套索- 贝叶斯套索与常规套索有什么区别或优势？

这是该包中的两个实现示例：

# just example data
set.seed(1233)
X <- scale(matrix(rnorm(30),ncol=3))[,]
set.seed(12333)
Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1)

require(monomvn) 
## Lasso regression
reg.las <- regress(X, Y, method="lasso")

## Bayesian Lasso regression
reg.blas <- blasso(X, Y)

那么我什么时候应该选择一种或其他方法呢？还是一样？

r machine-learning linear-model lasso

— rdorlearn
source

30

标准套索使用L1正则化惩罚来实现回归的稀疏性。请注意，这也称为基础追求。

在贝叶斯框架中，规则化器的选择类似于权重之上的先验选择。如果使用高斯先验，则最大后验（MAP）解将与使用L2罚分的情况相同。虽然不是直接等价的，但拉普拉斯先验（在零附近急剧升高，不像在零附近平滑的高斯），对L1罚分产生相同的收缩效果。本文介绍了贝叶斯套索。。

实际上，当您在参数上放置拉普拉斯先验时，MAP解应该与具有L1罚则的正则化相同（而不仅仅是相似），并且拉普拉斯先验将产生与L1罚则相同的收缩效果。但是，由于贝叶斯推理过程中的近似值或其他数值问题，解决方案可能实际上并不相同。

在大多数情况下，两种方法产生的结果将非常相似。根据优化方法以及是否使用近似值，标准套索可能会比贝叶斯版本更有效地进行计算。如果需要，贝叶斯函数会自动为所有参数生成间隔估计，包括误差方差。

— tdc
source

“如果使用高斯先验，则最大似然解将是相同的。突出显示的短语应显示为“最大后验（MAP）”，因为最大似然估计将仅忽略参数的先验分布，从而导致非正规解，而MAP估计则考虑了先验。

— mefathy

1

当您在参数上放置拉普拉斯先验时，MAP解决方案将与具有L1罚则的正则化相同（不仅相似），并且拉普拉斯先验将产生与L1罚则相同的收缩效果。

— mefathy

@mefathy是的，您在两种情况上都正确（不相信我写了ML而不是MAP ....），尽管在实践中当然是YMMV。我已经更新了答案，以包含两个评论。

— tdc

6

“最小二乘”是指整体解决方案将每个方程式结果中误差的平方和最小化。最重要的应用是数据拟合。最小二乘的最佳拟合将残差平方的总和最小化，残差为观测值与模型提供的拟合值之间的差。最小二乘问题分为两类：线性或普通最小二乘和非最小二乘线性最小二乘，取决于残差在所有未知数中是否均为线性。

贝叶斯线性回归是一种线性回归方法，其中在贝叶斯推断的上下文中进行统计分析。当回归模型的误差具有正态分布，并且假设采用特定形式的先验分布时，显式结果可用于模型参数的后验概率分布。

$\|\beta\|^2$

最小二乘的替代正则化形式是Lasso（最小绝对收缩和选择算子），它使用以下约束：参数向量的L1-范数不大于给定值。在贝叶斯上下文中，这等效于在参数向量上放置零均值拉普拉斯先验分布。 $\|\beta\|_1$

拉索和岭回归之间的主要区别之一是，在岭回归中，随着惩罚的增加，所有参数都会减少，而仍保持非零；而在拉索中，惩罚的增加将导致越来越多的参数成为驱动到零。

本文将常规套索与贝叶斯套索和山脊回归进行了比较（见图1）。

— 约翰
source