L1正则化的回归与套索是否相同,L2正则化的回归与岭回归是否相同?以及如何写“套索”?


33

我是一名学习机器学习的软件工程师,尤其是通过Andrew Ng的机器学习课程学习机器学习。在研究带有正则化的线性回归时,我发现令人困惑的术语:

  • 使用L1正则化或L2正则化进行回归
  • 套索
  • 岭回归

所以我的问题是:

  1. L1正则化的回归与LASSO完全相同吗?

  2. L2正则化的回归与Ridge回归完全相同吗?

  3. LASSO是如何写作的?应该是“ LASSO回归”吗?我见过类似“ 套索更合适 ”的用法。

如果以上1和2的答案是“是”,那么为什么这两个术语有不同的名称?“ L1”和“ L2”是否来自计算机科学/数学,而“ LASSO”和“ Ridge”是否来自统计?

当我看到类似以下内容的帖子时,这些术语的使用会造成混淆:

L1和L2正则化有什么区别? ”(quora.com)

什么时候应该使用套索vs岭? ”(stats.stackexchange.com)


虽然我迟到了。这份有关线性,岭和套索回归的全面初学者指南将帮助初学者清楚地理解这些术语。看到这里
Learner

Answers:


34
  1. 是。

  2. 是。

  3. LASSO实际上是首字母缩写(最小绝对收缩和选择运算符),因此应该大写,但是现代写作在词汇上等同于Mad Max。另一方面,变形虫写道,甚至创造了LASSO一词的统计学家现在也使用小写形式渲染(Hastie,Tibshirani和Wainwright,《稀疏统计学习》)。人们只能推测出这种转变的动机。如果您是为学术界的新闻界撰稿,他们通常会为这类事情提供样式指南。如果您在此论坛上写文章,那都很好,我怀疑有人真的在乎。

的符号是明可夫斯基规范和参考的空间。这些只是将出租车和欧几里得距离的概念概括为以下表达式: 重要的是,只有定义了公制距离;不满足三角形不等式,因此,根据大多数定义,它不是距离。大号大号pp>0

Xp=|X1个|p+|X2|p++|Xñ|p1个p
p1个0<p<1个

我不确定何时可以实现ridge和LASSO之间的连接。

至于为什么有多个名称,只是这些方法在不同时间在不同地方开发而已。统计中的一个共同主题是,概念通常有多个名称,每个独立的子字段都使用一个名称(内核函数与协方差函数,高斯过程回归与Kriging,AUC与统计)。Ridge回归可能应该称为Tikhonov正则化,因为我相信他对这种方法拥有最早的主张。同时,LASSO直到1996年才推出,比Tikhonov的“岭”方法要晚得多!C


6
+1。在最近的《统计与稀疏性学习》教科书中,Hastie,Tibshirani和Wainwright在所有地方都使用小写的“套索”,还写了以下内容(第8页的脚注):“套索是一根长绳,一根绞索从某种意义上讲,该方法“低迷”了模型的系数。在最初的套索论文中(Tibshirani 1996),还引入了“套索”这个名字作为“最小绝对值”的首字母缩写。选择和收缩运算符。”(抄送@ stackoverflowuser2010。)
变形虫说莫妮卡(Monica

3
他们继续说:“发音:在美国,“套索”倾向于发音为“ lass-oh”(就像山羊一样),而在英国则是“ lass-oo”。在OED(第二版,1965年)中:”套索被使用过的人以及大多数英国人都发音为lasoo。”“ :-)
变形虫说莫妮卡(Reonica)Monica

4
(+1)当首字母缩写词(这些缩写发音为单词)获得成功时,其首字母大写趋向于董事会。自从我看过“ RADAR”或“ LASER”以来已经有一段时间了。
Scortchi-恢复莫妮卡

2
@Scortchi SCUBA也是如此。同时,有人写STATA和MATLAB,好像它们是首字母缩写词一样。
shadowtalker's

2
@ssdecontrol:那么“ ANOVA”应该是“ AnOVa”吗?
Scortchi-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.