机器学习中的灵活和不灵活的模型


10

在比较不同情况下的弹性模型(即样条曲线)与非弹性模型(例如线性回归)时,我遇到了一个简单的问题。问题是:

通常,在以下情况下,我们是否希望灵活的统计学习方法的性能比不灵活的方法好或坏?

  1. 预测变量的数量非常大,而观测值的数量小? ñpñ
  2. 误差项的方差,即σ2=Var(e)极高吗?

我认为对于(1),当ñ较小时,不灵活的模型会更好(不确定)。对于(2),我不知道哪个模型(相对)更好。


泛化错误绝非易事。不幸的是,经验法则在这方面无济于事。
马克·克莱森

8
看起来像是James,Witten,Hastie,Tibshirani撰写的统计学习入门
Noel Evans

1.灵活的方法将过少地适用于少量观测结果。2.灵活的方法适合误差项中的噪声并增加方差。
Zanark

Answers:


3

在这两种情况下,灵活与不灵活的比较模型还取决于:

  • 是真正的关系y = f(x)接近线性或非常非线性;
  • 拟合时是否调整/约束“柔性”模型的柔性程度?

如果关系接近线性并且您不限制灵活性,则线性模型在两种情况下均应提供更好的测试误差,因为两种情况下的柔性模型都可能过拟合。

您可以这样看:

  • 在这两种情况下,数据都没有包含有关真实关系的足够信息(在第一种情况下,关系是高维的,并且您没有足够的数据,在第二种情况下,它被噪声破坏了),但是
    • 线性模型带来了一些有关真实关系的外部先验信息(将拟合关系的类限制为线性关系),并且
    • 该先验信息被证明是正确的(真实关系接近线性)。
  • 弹性模型不包含先验信息(可以容纳任何信息),因此适合噪声。

但是,如果真正的关系是非常非线性的,那么很难说谁会赢(两者都会松懈:)。

如果您调整/限制灵活性程度并以正确的方式进行操作(例如通过交叉验证),那么在所有情况下,灵活性模型都将获胜。


4

当然,这取决于基础数据,在尝试拟合模型之前,您应该经常探索这些基础数据以了解其某些特征,但是据我了解,一般经验法则是:

  • 灵活的模型可让您充分利用大样本量(大n)。
  • 一个灵活的模型对于发现非线性效应是必要的。
  • 灵活的模型会导致您在问题中拟合过多的噪声(当误差项的方差很高时)。

1

好吧,对于第二部分,我认为更灵活的模型将尝试使模型难以适应并且训练数据包含较高的噪声,因此灵活的模型还将尝试学习该噪声并导致更多的测试错误。我也读同一本书,所以我知道这个问题的根源:)


1

对于第一部分,我希望在有限数量的观察结果的基础上,非弹性模型会表现更好。当n非常小时,两个模型(无论是灵活的还是不灵活的)都不会产生足够好的预测。但是,灵活模型往往会过度拟合数据,并且在涉及新测试集时性能会更差。

理想情况下,我将收集更多的观测值以改善拟合,但如果不是这种情况,那么我将使用不灵活的模型,尝试通过新的测试集将测试错误最小化。


0

对于第二个问题,我相信答案是它们两者的性能都一样(假设这些错误是不可减少的,即该错误)。在第18页的“ 统计学习入门”(主题:为什么估计)中提供了更多信息,作者在其中解释道:F

的准确性作为预测取决于两个量,我们将调用还原错误束缚的错误。在一般情况下,不会是一个完美的估计,而这种误差将介绍一些错误。此错误是可减少的,因为我们可以通过使用最合适的统计学习技术来估计来提高的准确性。但是,即使有可能对形成一个完美的估计,因此我们的估计响应也采用的形式ÿÿ˚F ˚F ˚F ˚F ˚F Ý = ˚F X ý ε X ε ˚F εF^FF^F^Fÿ^=FX,我们的预测仍然会有一些错误!这是因为也是的函数,根据定义,无法使用预测。因此,与相关的可变性也会影响我们预测的准确性。这被称为不可约误差,因为无论我们对估计程度如何,我们都无法减小引入的误差 。 ÿϵXϵFϵ


我不明白
Michael R. Chernick

0

对于(a)到(d)部分,分别表示是否为i。或ii。是正确的,并解释您的答案。通常,在以下情况下,我们是否期望灵活的统计学习方法的性能比不灵活的方法好或坏?

样本量n非常大,预测变量p的数目很小。

更好。灵活的方法将使数据更接近并具有较大的样本量,其性能将优于不灵活的方法。

预测变量的数量p非常大,而观测值的数量n小。

更差。灵活的方法将过少地适用于少量观测值。

预测变量与响应之间的关系是高度非线性的?

更好。有了更多的自由度,一种灵活的方法比一种不灵活的方法更适合。

误差项的方差σ2= Var(ε)极高?

更差。灵活的方法将适合误差项中的噪声并增加方差。

取自这里

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.