模型选择或正则化后的GLM


12

我想分两个部分提出这个问题。两者都处理广义线性模型,但是前者处理模型选择,而其他则处理正则化。

背景:我利用GLM(线性,逻辑,伽马回归)模型进行预测和描述。当我提到“ 正常情况下,人们会做回归 ”时,我主要是指这样的描述:(i)系数周围的置信区间,(ii)预测周围的置信区间和(iii)与系数线性组合有关的假设检验,例如“是治疗A和治疗B有什么区别?”。

您是否在以下每种情况下使用正常理论合理地丧失了做这些事情的能力?如果是这样,这些事情真的只对用于纯预测的模型有用吗?

I.当通过某种模型选择过程拟合了GLM时(具体来说,它是基于AIC的逐步过程)。

二。通过正则化方法拟合GLM时(例如在R中使用glmnet)。

我的感觉是,对我来说,答案是技术上来说,您应该对“ 使用回归进行的正常操作 ”使用引导程序,但是没有人真正遵守。

添加:
在收到一些答复并在其他地方阅读后,这是我的看法(对其他人有益并能得到纠正)。

I.
A)RE:错误概括。为了概括新数据的错误率,在没有保留集的情况下,可以进行交叉验证,但是您需要为每个折叠完全重复该过程-使用嵌套循环-因此必须进行任何功能选择,参数调整等。每次独立完成。这个想法应该适用于任何建模工作(包括惩罚方法)。

B)RE:假设检验和GLM的置信区间。当对广义线性模型使用模型选择(特征选择,参数调整,变量选择)并且存在保留集时,可以在分区上训练模型,然后将模型拟合到其余数据或完整数据集上并使用该模型/数据执行假设检验等。如果不存在保留集,则可以使用引导程序,只要对每个引导程序样本重复完整的过程即可。但这限制了可以进行的假设检验,因为例如可能不一定总是选择一个变量。

C)RE:不对未来数据集进行预测,然后在理论和一些假设检验的指导下,建立一个有目的的模型,甚至考虑在模型中保留所有变量(无论是否有意义)(沿Hosmer和Lemeshow的思路)。这是回归模型的小变量集经典类型,然后允许使用CI和假设检验。

D)RE:惩罚回归。没有建议,也许认为这仅适合于预测(或作为特征选择的一种,然后应用于上述B中的另一数据集),因为引入的偏差使CI和假设检验变得不明智-即使使用自举。


1
人们有时会在不知不觉中(即滥用统计信息,因为他们得到了预期的结果)而在知情的情况下这样做(他们进行了引导,并且不会对结果产生实质性的影响)。您的观点是正确的,Harrell教授在他的书序言中指出,引导是有益的。
suncoolsu'2

1
您的观点(II)类似于“是”:arxiv.org/abs/1001.0188
Alex

Answers:


5

您可以查看David Freedman的论文,“ 关于筛选回归方程的注释。 ”(无标题)

他在模拟中使用完全不相关的数据,他表明,如果相对于观察次数有许多预测变量,那么标准的筛选程序将产生最终回归,其中包含许多(多于偶然)重要的预测变量和高度显着的F统计。最终模型表明它可以有效地预测结果,但是这种成功是虚假的。他还使用渐近计算说明了这些结果。建议的解决方案包括对样本进行筛选,并在整个数据集上评估模型,并使用至少比预测值高一个数量级的观察值。


注意:为了使引导程序有效,您必须引导整个过程,从进行任何筛选之前开始,筛选引导程序样本,然后计算系数。但是现在您在每种回归中的预测变量上都有不同的集合,并且现在还不清楚如何计算其中任何一个的分布。但是,对于结果的预测值自举置信区间可能是有效的。
查理

@charlie:[我是否正确地读了你说的,你只是在跟I说话(选模特)而不是II。(惩罚):您是说对于预测间隔,使用模型选择然后重新引导来自该模型的预测是有效的,但是对于其他任何事情,您都需要重新引导整个过程?
B_Miner

@charlie关于样品筛查的建议解决方案。是否会按照划分数据的路线,(使用)一组数据(模型选择等),然后将该模型应用于其余数据-并使用传统理论进行假设检验的CI对该模型应用数据等等?
B_Miner

我只考虑了模型选择,但这主要是因为我对惩罚回归不了解太多。我要说的是,您需要重新引导整个过程,以便对模型的预测进行推断。整个问题是,在任何一个样本中,当您包含一些变量而将其他变量排除在外时,您可能会发现虚假的相关性会被放大。解决此问题的唯一方法是查看多个示例,即引导程序。当然,实际上没有人这样做。
查理

正确,您可以使用样本的一个分区使用模型选择过程来建立模型,然后对另一分区或整个样本进行推断。
查理

2

关于1)是的,您确实会丢失。参见例如Harrell回归建模策略,Wiley出版的书或我与David Cassell一起发表的名为“逐步停止”的论文,如www.nesug.org/proceedings/nesug07/sa/sa07.pdf。


我看过这篇论文-非常有趣。两个问题。1)让我们进行逻辑回归。听起来进行CI或假设检验的唯一方法是按照hosmer和lemeshow的样式(不包括任何带有大p的数据集)构建模型?因此,您仅将模型用于点估计就可以了吗?2)您的文章讨论了套索以及其他选择。您是否介意这允许以后进行假设检验,还是“简单”地提供了更好的模型选择选项?
B_Miner 2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.