样条曲线是否适合数据?
我的问题:我最近遇到了一位统计学家,他告诉我样条线仅对探索数据有用,并且过度拟合,因此对预测没有用。他更喜欢使用简单的多项式进行探索...由于我是样条曲线的忠实拥护者,因此与我的直觉相违背,我有兴趣了解这些论证的有效性,以及是否存在大量的反样条曲线,维权人士在那里? 背景:创建模型时,我尝试遵循回归建模策略(1)的Frank Harrell。他认为受限三次样条是探索连续变量的有效工具。他还认为,多项式在建模某些关系(例如阈值,对数(2))方面很差。为了测试模型的线性,他建议对样条曲线进行ANOVA测试: H0:β2=β3=…=βk−1=0H0:β2=β3=…=βk−1=0H_0: \beta_2 = \beta_3 = … = \beta_{k-1} = 0 我用谷歌搜索样条曲线的过度拟合,但没有发现太多用处(除了关于不使用过多结的一般警告之外)。在这个论坛上,似乎更喜欢样条线建模,Kolassa,Harrell和gung。 我找到了一篇有关多项式的博文,这是有关预测多项式的过拟合的魔鬼。该帖子以以下评论结尾: 在某种程度上,这里提供的示例是作弊的-多项式回归是高度不稳健的。在实践中,更好的方法是使用样条线而不是多项式。 现在,这提示我检查样条的效果如何: library(rms) p4 <- poly(1:100, degree=4) true4 <- p4 %*% c(1,2,-6,9) days <- 1:70 set.seed(7987) noise4 <- true4 + rnorm(100, sd=.5) reg.n4.4 <- lm(noise4[1:70] ~ poly(days, 4)) reg.n4.4ns <- lm(noise4[1:70] ~ ns(days,4)) dd <- …