为了在具有合适的预测变量的多元线性回归中选择预测变量,有哪些方法可以找到预测变量的“最佳”子集而无需明确测试所有个子集?在“应用的生存分析”中,Hosmer&Lemeshow引用了Kuk的方法,但是我找不到原始论文。谁能描述这种方法,或者甚至更好的一种更现代的技术?可以假设正态分布的错误。
为了在具有合适的预测变量的多元线性回归中选择预测变量,有哪些方法可以找到预测变量的“最佳”子集而无需明确测试所有个子集?在“应用的生存分析”中,Hosmer&Lemeshow引用了Kuk的方法,但是我找不到原始论文。谁能描述这种方法,或者甚至更好的一种更现代的技术?可以假设正态分布的错误。
Answers:
我从未听说过Kuk的方法,但这些天的热门话题是L1最小化。基本原理是,如果使用回归系数的绝对值的惩罚项,那么不重要的项应为零。
这些技术有一些有趣的名称:套索,LARS,Dantzig选择器。您可以阅读这些论文,但是一个不错的起点是《统计学习的要素》第3章。
这是一个巨大的话题。如前所述,Hastie,Tibshirani和Friedman在“统计学习要素”的第3章中作了很好的介绍。
几点。1)“最佳”或“最佳”是什么意思?在某种意义上最好的事物在另一种意义上可能不是最好的。两种常见标准是预测准确性(预测结果变量)和产生系数的无偏估计量。某些方法(例如套索和岭回归)不可避免地会产生有偏差的系数估计量。
2)短语“最佳子集”本身可以在两种不同的意义上使用。通常指的是在所有预测变量中优化某些模型构建标准的最佳子集。更具体地说,它可以参考Furnival和Wilson的有效算法,以在中等数量(约50个)的线性预测变量中找到该子集(Leaps和Bounds的回归。Technometrics,第16卷,第4期(1974年11月),第pp页)。 499-51)
我了解到的是,首先使用“最佳子集方法”作为筛选工具,然后逐步选择过程可以帮助您最终确定哪些模型可能是最佳子集模型(目前这些模型的数量非常少)。如果其中一个模型符合模型条件,可以很好地总结数据趋势,并且最重要的是允许您回答研究问题,那么恭喜您完成工作。