为什么在多项式回归中使用正则化而不是降低度数?


32

例如,在进行回归时,要选择的两个超参数通常是函数的容量(例如多项式的最大指数)和正则化量。我感到困惑的是,为什么不只选择一个低容量函数,然后忽略任何正则化?这样,它不会过拟合。如果我同时具有高容量功能和正则化功能,那是否与低容量功能和无正则化功能一样?

Answers:


49

我最近在浏览器应用程序中做了一些操作,可以用来玩这些想法:散点图平滑器(*)。

这是我用低阶多项式拟合制成的一些数据

二次拟合

0.60.850.85

为了消除偏差,我们可以将曲线的度数增加到三,但问题仍然存在,三次曲线仍然太僵硬

三次拟合

因此,我们继续提高程度,但是现在我们遇到了相反的问题

十度拟合

该曲线过于紧密地跟踪数据,并且倾向于沿数据的一般模式无法很好证实的方向飞走。这就是正则化的地方。具有相同的度数曲线(十)和一些精心选择的正则化

十度正则化

我们真的很合适!

值得在上面精心选择的一个方面进行一点关注。当您将多项式拟合到数据时,度数会有一组离散的选择。如果三度曲线欠拟合而四度曲线过度拟合,则中间无处可走。正则化解决了这个问题,因为它为您提供了一系列连续的复杂性参数。

您如何宣称“我们真的很合适!”。对我来说,它们看起来都是一样的,即没有定论。您使用哪个理性来决定什么是好与不合适?

有道理。

我在这里所做的假设是,拟合良好的模型在残差中应该没有可识别的模式。现在,我不会绘制残差,因此在查看图片时您需要做一些工作,但是您应该能够发挥自己的想象力。

在第一张图中,二次曲线与数据拟合,我可以在残差中看到以下模式

  • 从0.0到0.3,它们大约均匀地放置在曲线的上方和下方。
  • 从0.3到大约0.55,所有数据点都在曲线上方。
  • 从0.55到大约0.85,所有数据点都在曲线下方。
  • 从0.85开始,它们再次位于曲线上方。

我将这些行为称为局部偏差,在某些区域中曲线不能很好地逼近数据的条件均值。

使用三次样条将其与最后的拟合进行比较。我无法通过肉眼挑选出拟合看起来好像不精确地贯穿数据点质心的区域。通常,这(尽管不精确)是我所说的合适的意思。


2

  • 即使使用正则化,它们在数据边界上的行为也可能非常混乱。
  • 它们在任何意义上都不是本地的。在一个地方更改数据会极大地影响在另一个地方的拟合度。

相反,在您所描述的情况下,我建议使用自然三次样条以及正则化,从而在灵活性和稳定性之间取得最佳平衡。您可以通过在应用程序中放置一些样条曲线来自己查看。

天然三次样条

(*)由于我使用了一些现代的javascript功能(以及将它们固定在Safari和ie中的整体惰性),因此我认为这仅在chrome和firefox中有效。如果您有兴趣,可以在这里找到源代码。


3
谢谢,您的浏览器工具很棒-我喜欢这样的互动小演示!
Karnivaurus

@Karnivaurus谢谢,我很高兴能为您提供帮助。该工具的构建很有趣,我喜欢编写javascript:)
Matthew Drury

3
+6。写这个工具干得好!一旦线程足够老,您可以从我这里得到赏金。
变形虫说恢复莫妮卡

4
+1这是一个非常好的答案。显示高次多项式拟合的不稳定性的一种方法是绘制高阶回归,并为每个点删除一个数据点,并与RCS解决方案进行对比。
Sycorax说恢复莫妮卡

1
@MatthewDrury“受限三次样条” –对此感到抱歉。
Sycorax说恢复莫妮卡

4

不,不一样。例如,将没有正则化的二阶多项式与具有它的四阶多项式进行比较。后者可以为第三和第四次幂设定较大的系数,只要这似乎可以提高预测准确性,则可以根据用于选择正则化过程的惩罚大小的任何过程(可能是交叉验证)来选择。这表明正则化的好处之一是,它允许您自动调整模型的复杂性,以在过度拟合和欠拟合之间取得平衡。


但是,如果将正则化添加到四阶多项式,则会阻止它使用其表示形式的全部范围。因此,通过足够的正则化,可表达性将降低到与二阶多项式一样可表达的程度。没有?
卡尼瓦鲁斯

1
也许如果您预先确定罚款金额,那是什么意思呢?应根据数据选择惩罚大小。
Kodiologist

4

对于多项式,即使系数的微小变化也会对较高的指数产生影响。

大号2


2

所有答案都是很好的,我用Matt进行了类似的模拟,可以给你一个例子,说明为什么带正则化的复杂模型通常比简单模型好

我做了一个类比,以获得直观的解释。

  • 情况1:您只有一个知识有限的高中生(没有正则化的简单模型)
  • 案例2您有一名研究生,但限制他/她只能使用高中知识来解决问题。(带有正则化的复杂模型)

如果两个人都在解决同一问题,通常研究生会更好地解决问题,因为有关知识的经验和见解。

图1显示了对同一数据的4种拟合。线,抛物线,三阶模型和五阶模型有4个配件。您可以观察到5阶模型可能存在过拟合问题。

在此处输入图片说明

另一方面,在第二个实验中,我们将使用具有不同正则化级别的五阶模型。将最后一个与第二阶模型进行比较。(突出显示了两个模型),您会发现最后一个模型与抛物线相似(模型复杂度大致相同),但对数据的灵活性略高一些。

在此处输入图片说明


1
“大约具有相同的模型复杂度”……这在视觉上是“显而易见的”比较,是否存在数学上的测量方法?
银鱼
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.