Answers:
我最近在浏览器应用程序中做了一些操作,可以用来玩这些想法:散点图平滑器(*)。
这是我用低阶多项式拟合制成的一些数据
为了消除偏差,我们可以将曲线的度数增加到三,但问题仍然存在,三次曲线仍然太僵硬
因此,我们继续提高程度,但是现在我们遇到了相反的问题
该曲线过于紧密地跟踪数据,并且倾向于沿数据的一般模式无法很好证实的方向飞走。这就是正则化的地方。具有相同的度数曲线(十)和一些精心选择的正则化
我们真的很合适!
值得在上面精心选择的一个方面进行一点关注。当您将多项式拟合到数据时,度数会有一组离散的选择。如果三度曲线欠拟合而四度曲线过度拟合,则中间无处可走。正则化解决了这个问题,因为它为您提供了一系列连续的复杂性参数。
您如何宣称“我们真的很合适!”。对我来说,它们看起来都是一样的,即没有定论。您使用哪个理性来决定什么是好与不合适?
有道理。
我在这里所做的假设是,拟合良好的模型在残差中应该没有可识别的模式。现在,我不会绘制残差,因此在查看图片时您需要做一些工作,但是您应该能够发挥自己的想象力。
在第一张图中,二次曲线与数据拟合,我可以在残差中看到以下模式
我将这些行为称为局部偏差,在某些区域中曲线不能很好地逼近数据的条件均值。
使用三次样条将其与最后的拟合进行比较。我无法通过肉眼挑选出拟合看起来好像不精确地贯穿数据点质心的区域。通常,这(尽管不精确)是我所说的合适的意思。
相反,在您所描述的情况下,我建议使用自然三次样条以及正则化,从而在灵活性和稳定性之间取得最佳平衡。您可以通过在应用程序中放置一些样条曲线来自己查看。
(*)由于我使用了一些现代的javascript功能(以及将它们固定在Safari和ie中的整体惰性),因此我认为这仅在chrome和firefox中有效。如果您有兴趣,可以在这里找到源代码。
不,不一样。例如,将没有正则化的二阶多项式与具有它的四阶多项式进行比较。后者可以为第三和第四次幂设定较大的系数,只要这似乎可以提高预测准确性,则可以根据用于选择正则化过程的惩罚大小的任何过程(可能是交叉验证)来选择。这表明正则化的好处之一是,它允许您自动调整模型的复杂性,以在过度拟合和欠拟合之间取得平衡。
所有答案都是很好的,我用Matt进行了类似的模拟,可以给你一个例子,说明为什么带正则化的复杂模型通常比简单模型好。
我做了一个类比,以获得直观的解释。
如果两个人都在解决同一问题,通常研究生会更好地解决问题,因为有关知识的经验和见解。
图1显示了对同一数据的4种拟合。线,抛物线,三阶模型和五阶模型有4个配件。您可以观察到5阶模型可能存在过拟合问题。
另一方面,在第二个实验中,我们将使用具有不同正则化级别的五阶模型。将最后一个与第二阶模型进行比较。(突出显示了两个模型),您会发现最后一个模型与抛物线相似(模型复杂度大致相同),但对数据的灵活性略高一些。