回归中的B样条VS高阶多项式


10

我没有特定的示例或任务。我只是使用b样条的新手,我想在回归上下文中更好地了解此函数。

假设我们要评估响应变量与某些预测变量x 1x 2,...之间的关系X p。预测变量包括一些数值变量和一些分类变量。yx1,x2,...,xp

假设在拟合回归模型后,数值变量之一(例如是有效的。之后的逻辑步骤是评估是否需要更高阶的多项式,例如:x 2 1x 3 1,以便在不过度拟合的情况下充分说明该关系。x1x12x13

我的问题是:

  1. 在什么时候选择b样条曲线或简单的高阶多项式。例如在R:

    y ~ poly(x1,3) + x2 + x3
    

     y ~ bs(x1,3) + x2 + x3
    
  2. 您如何使用图来告知您在这两者之间的选择,以及从图上还不清楚时会发生什么情况(例如:由于大量数据点)

  3. 您将如何评估x 3之间的双向交互作用项x2x3

  4. 对于不同类型的模型,上述变化如何

  5. 您是否会考虑从不使用高阶多项式并始终拟合b样条并惩罚高灵活性?



鉴于开发水平如何mgcv,为什么不使用(通用)加性模型。平滑度选择是自动的,推理方法也很完善。
–generic_user

Answers:


17

我通常只考虑样条而不是多项式。多项式无法对阈值进行建模,并且通常是不合需要的,即,在一个预测变量范围内的观测值对该模型在不同范围内的行为产生重大影响(Magee,1998年,《美国统计学家》和Frank Harrell的回归建模策略)。当然,在极端结以外呈线性的受限样条曲线更适合于外推,甚至在预测变量的极值处进行内插。

您可能需要考虑多项式的一种情况是,向​​非技术人员解释模型很重要。人们对样条多项式的理解要优于样条曲线。(编辑:马修·德鲁里Matthew Drury指出,人们可能只认为他们比样条曲线更了解多项式。我不会支持这个问题。)

在确定不同的非线性处理方式之间,图通常不是很有用。最好进行交叉验证。这也将帮助您评估互动或找到良好的惩罚方法。

最后,我的答案不会随模型的种类而改变,因为以上几点对任何统计或ML模型均有效。


非常感谢您的回答,它非常有帮助。只是一个快速的后续问题。是否有“最先进的”方法来找到结?我最好的猜测是:1)使用直觉,例如:如果变量以月表示时间,则每6或12使用一次结?2)引入一个遍历变量范围的序列,并使用交叉验证来找到最佳结?
Vasilis Vasileiou

8
人们认为他们比样条线更了解多项式。
马修·德鲁里

3
关于结的放置:交叉验证是一种方法,但老实说,我认为,只要合理地放置结且聚类的距离不太多,结果对已知的放置将不敏感。弗兰克·哈雷尔(Frank Harrell)有一张表格,其中列出了回归建模策略中预测变量分布的分位数。
Stephan Kolassa '17

1
尽管您的答案在这种情况下是完全有效的,但考虑到许多现实过程可以用多项式更好地建模,因此您的陈述非常有力。
koalo

6

在“统计学习的要素”的第7.4.5节中,据说样条线通常比多项式回归提供更好的结果,因为:

  • 它产生灵活的配合;
  • 产生更稳定的估计;
  • 多项式可能会在边界处产生不良结果。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.