L1正则化的回归与套索是否相同，L2正则化的回归与岭回归是否相同？以及如何写“套索”？

我是一名学习机器学习的软件工程师，尤其是通过Andrew Ng的机器学习课程学习机器学习。在研究带有正则化的线性回归时，我发现令人困惑的术语：

使用L1正则化或L2正则化进行回归
套索
岭回归

所以我的问题是：

L1正则化的回归与LASSO完全相同吗？
L2正则化的回归与Ridge回归完全相同吗？
LASSO是如何写作的？应该是“ LASSO回归”吗？我见过类似“ 套索更合适 ”的用法。

如果以上1和2的答案是“是”，那么为什么这两个术语有不同的名称？“ L1”和“ L2”是否来自计算机科学/数学，而“ LASSO”和“ Ridge”是否来自统计？

当我看到类似以下内容的帖子时，这些术语的使用会造成混淆：

“ L1和L2正则化有什么区别？ ”（quora.com）

“ 什么时候应该使用套索vs岭？ ”（stats.stackexchange.com）

— stackoverflowuser2010
source

虽然我迟到了。这份有关线性，岭和套索回归的全面初学者指南将帮助初学者清楚地理解这些术语。看到这里

— Learner

是。
是。
LASSO实际上是首字母缩写（最小绝对收缩和选择运算符），因此应该大写，但是现代写作在词汇上等同于Mad Max。另一方面，变形虫写道，甚至创造了LASSO一词的统计学家现在也使用小写形式渲染（Hastie，Tibshirani和Wainwright，《稀疏统计学习》）。人们只能推测出这种转变的动机。如果您是为学术界的新闻界撰稿，他们通常会为这类事情提供样式指南。如果您在此论坛上写文章，那都很好，我怀疑有人真的在乎。

的符号是明可夫斯基规范和参考的空间。这些只是将出租车和欧几里得距离的概念概括为以下表达式：重要的是，只有定义了公制距离；不满足三角形不等式，因此，根据大多数定义，它不是距离。 $L$ $L^p$ $p>0$

‖ X ‖_{p} = （ | X_{1个} |^{p} + | X_{2} |^{p} + 。 。 。 + | X_{ñ} |^{p} ）^{\frac{1个}{p}}

$\|x\|_p=(|x_1|^p+|x_2|^p+...+|x_n|^p)^{\frac{1}{p}}$

p \geq 1

$p\ge 1$

0 < p < 1

$0<p<1$

我不确定何时可以实现ridge和LASSO之间的连接。

至于为什么有多个名称，只是这些方法在不同时间在不同地方开发而已。统计中的一个共同主题是，概念通常有多个名称，每个独立的子字段都使用一个名称（内核函数与协方差函数，高斯过程回归与Kriging，AUC与统计）。Ridge回归可能应该称为Tikhonov正则化，因为我相信他对这种方法拥有最早的主张。同时，LASSO直到1996年才推出，比Tikhonov的“岭”方法要晚得多！ $c$

— Sycorax说恢复莫妮卡
source

+1。在最近的《统计与稀疏性学习》教科书中，Hastie，Tibshirani和Wainwright在所有地方都使用小写的“套索”，还写了以下内容（第8页的脚注）：“套索是一根长绳，一根绞索从某种意义上讲，该方法“低迷”了模型的系数。在最初的套索论文中（Tibshirani 1996），还引入了“套索”这个名字作为“最小绝对值”的首字母缩写。选择和收缩运算符。”（抄送@ stackoverflowuser2010。）

— 变形虫说莫妮卡（Monica

他们继续说：“发音：在美国，“套索”倾向于发音为“ lass-oh”（就像山羊一样），而在英国则是“ lass-oo”。在OED（第二版，1965年）中：”套索被使用过的人以及大多数英国人都发音为lasoo。”“ :-)

— 变形虫说莫妮卡（Reonica）Monica

（+1）当首字母缩写词（这些缩写发音为单词）获得成功时，其首字母大写趋向于董事会。自从我看过“ RADAR”或“ LASER”以来已经有一段时间了。

— Scortchi-恢复莫妮卡

@Scortchi SCUBA也是如此。同时，有人写STATA和MATLAB，好像它们是首字母缩写词一样。

— shadowtalker's

@ssdecontrol：那么“ ANOVA”应该是“ AnOVa”吗？

— Scortchi-恢复莫妮卡