我正在研究一种预测成本模型,其中患者的年龄(以年为单位的整数)是预测变量之一。年龄与住院风险之间存在很强的非线性关系:
我正在考虑针对患者年龄的惩罚性回归平滑样条。根据《统计学习的要素》(Hastie等,2009,第151页),最佳结位置是每个会员年龄的唯一值一个结。
假设我将年龄保留为整数,那么惩罚平滑样条曲线是否等效于运行带有101个不同的年龄指标变量的岭回归或套索,每个年龄值在数据集中找到一个(减去一个作为参考)?然后避免过度参数化,因为每个年龄指标上的系数都缩小为零。
我正在研究一种预测成本模型,其中患者的年龄(以年为单位的整数)是预测变量之一。年龄与住院风险之间存在很强的非线性关系:
我正在考虑针对患者年龄的惩罚性回归平滑样条。根据《统计学习的要素》(Hastie等,2009,第151页),最佳结位置是每个会员年龄的唯一值一个结。
假设我将年龄保留为整数,那么惩罚平滑样条曲线是否等效于运行带有101个不同的年龄指标变量的岭回归或套索,每个年龄值在数据集中找到一个(减去一个作为参考)?然后避免过度参数化,因为每个年龄指标上的系数都缩小为零。
Answers:
好问题。我相信,您所提出的问题的答案是“是的,是等价的平滑样条曲线等效于运行岭回归或套索”吗?有许多资料可以提供评论和观点。您可能想开始的一个地方是此PDF链接。如注释中所述:
“拟合平滑样条曲线模型相当于在自然样条曲线的基础上执行某种形式的岭回归。”
如果您正在寻找一些一般性的读物,那么您可能会喜欢阅读这篇关于罚分回归的出色论文:桥梁与套索。尽管它提供了更广泛的视角,但这可能有助于回答以下问题:受罚的平滑样条曲线是否完全相等。我发现这很有趣,因为他们将不同的技术进行了比较,特别是使用LASSO的新桥回归模型以及Ridge回归。
另一个更具战术意义的地方可能是R中的smooth.spline软件包的软件包说明。请注意,它们通过观察以下内容暗示了这种关系:“使用这些定义,B样条基表示可以表示为f = X c(即c是样条系数的向量),则对数对数似然为, 因此 是(岭回归)的解 。”
我来不及进行讨论,但是请看一下数据图表……70岁以上的数据中明显的尖刺性并不能真正反映出与年龄相关的风险,它是数据稀疏和随机性的征兆。
您不希望使用每年一个结的模型,这肯定会导致噪声过拟合。
另外,如果您看男性还是女性,您将发现一个截然不同的模式。15-30岁年龄段的大部分高峰将是妇产科。