正则化


10

执行正则化的方法有很多- 例如基于L 1L 2范数的正则化。根据Friedman Hastie和Tibsharani的说法,最佳正则化器取决于问题:即真正目标函数的性质,所使用的特定基础,信噪比和样本大小。L0L1L2

是否有任何比较方法和各种正则化方法性能的实证研究?


这三位作者都在斯坦福大学。为什么不直接问他们之一。Rob Tibshirani非常平易近人,Jerry Friedman也是如此。弗里德曼(Friedman)在正则回归方面做了很多原始的研究。因此,他可能是更好的选择。
Michael R. Chernick

当然不能说我给了他答案。但是,将他引向最佳人选回答这个问题似乎不仅仅只是通常试图澄清的普通评论。我经常想知道为什么人们总是在这里问问题,以便他们能够直接找到问题的源头。我几乎可以肯定,弗里德曼可以回答这个问题,而去问问源头是如此有意义,尤其是当对他们的书中所写的东西有疑问时。我可以去源头获得答案,然后在这里展示。
Michael R. Chernick

1
人们被消息来源的权威地位吓倒了,认为消息来源太忙而无法处理他们(他们认为)次要和不重要的问题,害怕变得粗鲁“您为什么要打扰我呢?” 答案...如果您也是该领域的资料来源(也许是其他资料的来源),则更容易找到资料来源。
jbowman

1
@jbowman是的。我明白那个。但是您会注意到,我个人了解Tibshirani和Friedman,并向Op保证,他们的恐惧与这些作者无关。我没有提到Hastie,因为我不像其他人一样了解他。,
Michael R. Chernick

1
@chl我认为我们不能现实地期望看到他们加入该网站。对于忙碌的教授,除了弗兰克·哈雷尔(Frank Harrell)以及其他可能使用假名的例外,这需要太多的时间。但是我确实认为他们会花时间回答直接发送给他们的特定问题。
Michael R. Chernick

Answers:


2

让我们考虑一个惩罚线性模型。

罚不是很使用,并且通常是由取代大号1范数是在数学上更加灵活。L0L1

正则必须建立一个稀疏模型的属性。这意味着只有极少数变量的回归系数为非0。如果您假设只有很少的变量对输出变量有实际影响,则特别适用。如果存在高度相关的变量,则将仅选择其中一个系数为非0的变量。L1

罚分是如果添加的值像λ在输入矩阵的对角。例如,它可以用于变量数量大于样本数量的情况。为了得到一个方矩阵。对于L 2范数罚分,所有变量的回归系数都为非零。L2λL2


1
L0L0

1

@Donbeo的答案的一些补充

1)L0规范不是真正意义上的规范。它是向量中非零条目的数量。该规范显然不是凸规范,也不是真正意义上的规范。因此,您可能会看到像L0'norm'这样的术语。这成为一个组合问题,因此很难解决。

2)L1范数给出了一个稀疏的解决方案(查找LASSO)。Candes,Donoho等人的开创性结果表明,如果真正的解决方案真的很稀疏,那么L1惩罚方法将可以恢复它。如果基础解不是稀疏的,则在p >> n的情况下您将不会获得基础解。有很好的结果表明套索是一致的。

3)有一些方法,如Zhou和Hastie的Elastic net,它结合了L2和L1惩罚解。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.