计算最佳的预测变量子集以进行线性回归


9

为了在具有合适的预测变量的多元线性回归中选择预测变量,有哪些方法可以找到预测变量的“最佳”子集而无需明确测试所有个子集?在“应用的生存分析”中,Hosmer&Lemeshow引用了Kuk的方法,但是我找不到原始论文。谁能描述这种方法,或者甚至更好的一种更现代的技术?可以假设正态分布的错误。p2p


1
您是否在参考以下论文?Kuk,AYC(1984)在比例风险模型中对所有子集进行回归。Biometrika,71,587-592
chl

确实是的。我想我将不得不以某种方式来研究该论文。但是,它看起来很旧。
shabbychef

2
同时,在Tibshirani(Stat。Med。1997 16:16:385-395),j.mp / bw0mB9中找到了这篇文章,该文件是cox模型中用于变量选择的套索方法。HTH
chl

1
以及这个较新的版本(与penalizedR包紧密相关)j.mp/cooIT3。也许也是j.mp/bkDQUj。干杯
chl

Answers:


12

我从未听说过Kuk的方法,但这些天的热门话题是L1最小化。基本原理是,如果使用回归系数的绝对值的惩罚项,那么不重要的项应为零。

这些技术有一些有趣的名称:套索,LARS,Dantzig选择器。您可以阅读这些论文,但是一个不错的起点是《统计学习的要素》第3章。


2
顺便说一句,惩罚性R包(j.mp/bdQ0Rp)包括针对广义线性模型和Cox模型的l1 / l2惩罚性估计。
chl 2010年

卡在matlab土地上,自己实施...
shabbychef,2010年

顺便说一句,LARS很棒。很酷的东西。不知道如何将其塞入Cox比例危害模型的框架中,例如…
shabbychef

2
Glmnet软件具有套索的Cox PH模型:cran.r-project.org/web/packages/glmnet/index.html还有一个MATLAB版本(不过不确定它是否具有cox模型):www-stat .stanford.edu /〜tibs / glmnet-matlab-
西蒙·伯恩

3

这是一个巨大的话题。如前所述,Hastie,Tibshirani和Friedman在“统计学习要素”的第3章中作了很好的介绍。

几点。1)“最佳”或“最佳”是什么意思?在某种意义上最好的事物在另一种意义上可能不是最好的。两种常见标准是预测准确性(预测结果变量)和产生系数的无偏估计量。某些方法(例如套索和岭回归)不可避免地会产生有偏差的系数估计量。

2)短语“最佳子集”本身可以在两种不同的意义上使用。通常指的是在所有预测变量中优化某些模型构建标准的最佳子集。更具体地说,它可以参考Furnival和Wilson的有效算法,以在中等数量(约50个)的线性预测变量中找到该子集(Leaps和Bounds的回归。Technometrics,第16卷,第4期(1974年11月),第pp页)。 499-51)

http://www.jstor.org/stable/1267601


1)是的,这个问题有点模棱两可;正如您提到的,“最优”的定义很多:通过信息准则,交叉验证等。我所见的大多数启发式方法都是通过逐步添加/删除预测器来进行的:单前向加法或减法等但是,Hosmer&Lemeshow引用了这种方法(Lawless&Singhal的工作变体),该方法以某种方式“神奇地”通过对MLR的一次计算(对其他一些东西进行模运算)来选择预测变量。我对此方法非常好奇...
shabbychef 2010年

0

我了解到的是,首先使用“最佳子集方法”作为筛选工具,然后逐步选择过程可以帮助您最终确定哪些模型可能是最佳子集模型(目前这些模型的数量非常少)。如果其中一个模型符合模型条件,可以很好地总结数据趋势,并且最重要的是允许您回答研究问题,那么恭喜您完成工作。


1
我认为您可能对此记错了。最佳子集比逐步计算要昂贵得多,但必然会逐步捕获任何内容,因此您将使用逐步筛选来筛选和筛选最佳子集。FWIW,我不同意这些策略的天真使用,原因是我在这里在答案中讨论的原因:自动模型选择算法
gung-恢复莫妮卡
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.