如何用样条/平滑回归预测新数据


11

在使用平滑/样条线作为预测模型时,谁能提供关于如何对新数据进行预测的概念性解释?例如,给定一个模型,该模型在R gamboostmboost包中使用创建,带有p样条曲线,那么如何预测新数据?训练数据使用了什么?

假设自变量x有一个新值,并且我们要预测y。在训练模型时是否使用结或df将用于创建样条曲线的公式应用于该新数据值,然后将来自训练模型的系数应用于输出预测?

这是R的示例,对于新数据mean_radius = 15.99,预测在概念上将输出899.4139吗?

#take the data wpbc as example
library(mboost)
data(wpbc)

modNew<-gamboost(mean_area~mean_radius, data = wpbc, baselearner = "bbs", dfbase = 4, family=Gaussian(),control = boost_control(mstop = 5))
test<-data.frame(mean_radius=15.99)
predict(modNew,test)

问题:这是关于插值(在域内部)还是外推?它们的处理方式不同。它们也非常依赖于“基本”功能。像GLM中预期的那样,径向基函数将具有与某些高阶多项式基显着不同的行为,尤其是在尾部之外。
EngrStudent

工程师,我有兴趣从概念上理解在两种情况下会发生什么。我假设(可能是错误地)在两种情况下该过程都是相同的,但是结果值有所不同,并且所使用的基函数不同(但是该过程相同)
B_Miner

在多项式基中,有时会出现一种现象,称为“吉布斯效应”。如果将标准正态分布的均匀样本的数据拟合为10阶多项式,然后查看插值的质量,您会发现端部的斜率很高,插值非常差。在多项式基数中,习惯上使用比插值法低的外推法。在不了解定义现象的“物理学”的情况下,外推法通常是线性的。我使用MatLab:mathworks.com/help/matlab/ref/interp1.html
EngrStudent

Answers:


10

预测的计算方式如下:

从原始拟合开始,结点位置会散布mean_radius在训练数据的整个范围内。mboost这些结位置与B样条基础的程度(默认情况下为三次)一起定义了B样条基础功能的形状。默认输入 mboost为20个内部结,它们定义24个立方B样条曲线基函数(不要问...)。让我们将这些基本函数。您的协变量 ``mean_radius``的影响简单表示为 这是一个非常巧妙的技巧,因为它减少了估算的困难问题。未指定的函数来估计线性回归权重的简单得多的问题Bj(x);j=1,,24x=

f(x)=j24Bj(x)θj
f(x)θj与合成协变量的集合相关联。Bj(x)

这样,预测就不会那么复杂:给定估计系数,我们需要评估预测数据。为此,我们需要的是为原始数据定义基本功能的结点位置。然后,我们得到的预测值为 θ^jX Ñ ë 瓦特˚FX Ñ Ë 瓦特= 24 Σ ĴĴX Ñ ë 瓦特θ ĴBj();j=1,,24xnew

f^(xnew)=j24Bj(xnew)θ^j.

由于升压是一个迭代过程,因此停止迭代处的估计系数实际上是迭代系数更新的总和。如果您真的想掌握细节,请查看从中获得的输出 1 m s t o pmstop1,,mstop

bbs(rnorm(100))$dpp(rep(1,100))$predict

然后从那里去探索。例如,

with(environment(bbs(rnorm(100))$dpp(rep(1,100))$predict), newX)

来电

with(environment(bbs(rnorm(100))$dpp(rep(1,100))$predict), Xfun)

评估上的。X Ñ Ë 瓦特Bj()xnew


这很棒。我想知道您是否介意大致解释这些功能的作用?确实,“得分”新数据所需要的是系数集,训练时使用的结位置以及样条曲线的公式吗?是否需要其他训练数据来对新数据进行评分(例如在KNN模型中)?
B_Miner

1
您需要哪种信息取决于您使用的样条曲线类型。对于B样条曲线,您只需要知道B样条曲线的顺序(二次/三次/等)和结点位置即可。B样条曲线的“公式”是递归,即Cox-de Boor递归。我在回答中加了半句话。
fabians
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.