正则化:为什么要乘以1 / 2m?


10

吴安德Andrew Ng)的Coursera机器学习课程第3周讲义中,费用函数中添加了一个术语以实现正则化:

J+(θ)=J(θ)+λ2mj=1nθj2

讲义说:

我们还可以将所有theta参数归一化:

minθ 12m [i=1m(hθ(x(i))y(i))2+λ j=1nθj2]

12m稍后应用于神经网络正则化项

回想一下正则逻辑回归的成本函数为:

J(θ)=1mi=1m[y(i) log(hθ(x(i)))+(1y(i)) log(1hθ(x(i)))]+λ2mj=1nθj2

对于神经网络,它将稍微复杂一些:

J(Θ)=1mi=1mk=1K[yk(i)log((hΘ(x(i)))k)+(1yk(i))log(1(hΘ(x(i)))k)]+λ2ml=1L1i=1slj=1sl+1(Θj,i(l))2
  • 为什么在这里使用恒定的二分之一?从而在导数抵消了它?J
  • 为什么要除以训练实例?大量的培训示例如何影响事物?m

您确定1 / m是正则化的,而不是J(theta)AFAIK @DikranMarsupial的答案是做这个假设......还是J(theta)本身有1 / m项?
seanv507

这种假设是不正确的适用于非正规成本函数和正规化项。我已经更新了问题以提供完整的公式。12m
汤姆·黑尔

Answers:


5

假设您有10个示例,并且没有将L2正则化成本除以示例数m。然后,与交叉熵成本相比,L2正则化成本的“优势”将为10:1,因为每个训练示例可以按比例将总成本贡献给1 / m = 1/10。

如果有更多示例,例如100,那么L2正则化代价的“支配性”将类似于100:1,因此您需要相应地减小λ,这很不方便。无论批次大小如何,最好都保持λ常数。

更新:为了使这一论点更强,我创建了一个jupyter笔记本


1
嗯,但不是每个培训示例对成本均等地贡献成本函数之前1 / m因子的目的?因此,由于我们已经在平均各个成本,因此这不应成为L2项占主导地位的原因。但是,我确实从您的出色模拟中看到,L2项之前的1 / m因子确实有帮助。我只是不了解它的直觉(尚未)。
Milania

为什么不方便?将L2成本除以样本数很简单。我认为也许您用错误的方式讲了这句话。我想您是想说每次手动缩放L2成本是不方便的,最好将除以样本数作为公式的一部分自动缩放。
SpaceMonkey

6

训练集的损失函数通常是构成训练集的模式的总和,因此,随着训练集变大,第一项基本上与m成线性比例关系。如果我们先将正则化项除以m以抵消J θ m的依赖性,则可以缩小搜索范围以获得λ的良好值。当然,分母2实际上是为了简化用于确定最佳θ的优化算法所需的导数。J(θ)mλmJ(θ)mθ


感谢您解释的非正规成本缩放。我仍然不知道如何将m除以如何使单个λ值在m的差异很大的情况下更好地工作。非正则化成本已经严重依赖于m,那么为什么要关心正则化项呢?它依赖于n个参数,而不是m个示例?是否因为有了更多的训练示例,在参数数量相同的情况下方差会减小?mmλmmnm
汤姆·黑尔

问题中的损失函数是所有示例的平均值(即,它除以m)而不是总和,因此我并不真正了解此答案的工作原理。
Denziloe

@Denziloe它也适用于正则化项。
迪克兰有袋动物

2

在上这门课程时,我想知道完全相同的一件事,最后进行了一些研究。我会在这里给出一个简短的答案,但是您可以在我撰写的有关该文章的博客文章中阅读更详细的概述。

我相信这些缩放系数的至少部分原因是,通过引入相关但不完全相同的权重衰减概念,L²正则化可能进入了深度学习领域。

然后有0.5个因子可以得到一个很好的仅λ系数,用于梯度中的权重衰减,并且按m缩放...好吧,我至少发现或提出了5种不同的动机:

  1. 批量下降的副作用:梯度下降的单个迭代在整个训练集上形式化时,导致有时称为批量下降的算法(比例系数为1 / m)引入,以使成本函数具有可比性跨不同大小的数据集,将自动应用于权重衰减项。
  2. 重新调整为单个示例的权重:请参阅grez有趣的直觉。
  3. 训练集的代表性:随着训练集的大小增加,按比例缩小正则化是有意义的,从统计学上讲,其在整体分布中的代表性也增加了。基本上,我们拥有的数据越多,所需的正则化就越少。
  4. 使λ具有可比性:通过希望减轻m更改时对λ的需求,这种缩放比例使λ本身在不同大小的数据集之间具有可比性。这使λ成为特定模型在特定学习问题上所需的实际正则化程度的更具代表性的估计。
  5. 经验价值:这款出色的笔记本电脑grez证明了它在实践中可以提高性能。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.