回归平滑样条曲线中等于k个分类变量的k个结的选择?


9

我正在研究一种预测成本模型,其中患者的年龄(以年为单位的整数)是预测变量之一。年龄与住院风险之间存在很强的非线性关系:

在此处输入图片说明

我正在考虑针对患者年龄的惩罚性回归平滑样条。根据《统计学习的要素》(Hastie等,2009,第151页),最佳结位置是每个会员年龄的唯一值一个结。

假设我将年龄保留为整数,那么惩罚平滑样条曲线是否等效于运行带有101个不同的年龄指标变量的岭回归或套索,每个年龄值在数据集中找到一个(减去一个作为参考)?然后避免过度参数化,因为每个年龄指标上的系数都缩小为零。


你的年龄指标提议+收缩基本上是同样的事情的顺序0平滑样条
Glen_b -Reinstate莫妮卡

如果您指定其他预测变量是什么,作为建议的答案之一,这将很有帮助,如果您控制录取原因,则可能会有一个非常不同的图。
seanv507

Answers:


11

好问题。我相信,您所提出的问题的答案是“是的,是等价的平滑样条曲线等效于运行岭回归或套索”吗?有许多资料可以提供评论和观点。您可能想开始的一个地方是此PDF链接。如注释中所述:

“拟合平滑样条曲线模型相当于在自然样条曲线的基础上执行某种形式的岭回归。”

如果您正在寻找一些一般性的读物,那么您可能会喜欢阅读这篇关于罚分回归的出色论文:桥梁与套索。尽管它提供了更广泛的视角,但这可能有助于回答以下问题:受罚的平滑样条曲线是否完全相等。我发现这很有趣,因为他们将不同的技术进行了比较,特别是使用LASSO的新桥回归模型以及Ridge回归。

另一个更具战术意义的地方可能是R中的smooth.spline软件包软件包说明。请注意,它们通过观察以下内容暗示了这种关系:“使用这些定义,B样条基表示可以表示为f = X c(即c是样条系数的向量),则对数对数似然为大号=ÿ-FŤw ^ÿ-F+λCŤΣC, 因此 C 是(岭回归)的解 XŤw ^X+λΣC=XŤw ^ÿ。”


不用担心@RobertF。祝你下午愉快。
纳撒尼尔·佩恩

1
段落1中的链接PDF链接已断开。
Jthorpe

3

考虑到剧情,我不确定你真的想要那么多的结。

看起来您可能在特定年龄有一些小样本;74的峰值和低端和高端的0值没有什么意义。

鉴于您所使用的源头的权威,也许您想要的是具有更少结数的受限三次样条曲线?


1
谢谢彼得-是的,obs年龄非常小,年龄很小。使用这么多的结似乎违反直觉,当我第一次阅读ESL时,我做了一次心理双重尝试,即在每个观察结果都打一个结,可以将残差平方和最小化。我想证明是受限的三次样条或惩罚平滑样条在预测数据集中我的响应变量时效果更好。
RobertF

0

我来不及进行讨论,但是请看一下数据图表……70岁以上的数据中明显的尖刺性并不能真正反映出与年龄相关的风险,它是数据稀疏和随机性的征兆。

您不希望使用每年一个结的模型,这肯定会导致噪声过拟合。

另外,如果您看男性还是女性,您将发现一个截然不同的模式。15-30岁年龄段的大部分高峰将是妇产科。


嗨,道格-对,在70岁以上的观测绝对少一些。每节样条曲线模型受罚的一年可能会使70+系数降至零。这里的目标是用最适合年龄和IP许可之间非线性关系的自动化过程来代替手动选择打结位置,这在预测模型中特别有用。
罗伯特·F
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.