我想分两个部分提出这个问题。两者都处理广义线性模型,但是前者处理模型选择,而其他则处理正则化。
背景:我利用GLM(线性,逻辑,伽马回归)模型进行预测和描述。当我提到“ 正常情况下,人们会做回归 ”时,我主要是指这样的描述:(i)系数周围的置信区间,(ii)预测周围的置信区间和(iii)与系数线性组合有关的假设检验,例如“是治疗A和治疗B有什么区别?”。
您是否在以下每种情况下使用正常理论合理地丧失了做这些事情的能力?如果是这样,这些事情真的只对用于纯预测的模型有用吗?
I.当通过某种模型选择过程拟合了GLM时(具体来说,它是基于AIC的逐步过程)。
二。通过正则化方法拟合GLM时(例如在R中使用glmnet)。
我的感觉是,对我来说,答案是技术上来说,您应该对“ 使用回归进行的正常操作 ”使用引导程序,但是没有人真正遵守。
添加:
在收到一些答复并在其他地方阅读后,这是我的看法(对其他人有益并能得到纠正)。
I.
A)RE:错误概括。为了概括新数据的错误率,在没有保留集的情况下,可以进行交叉验证,但是您需要为每个折叠完全重复该过程-使用嵌套循环-因此必须进行任何功能选择,参数调整等。每次独立完成。这个想法应该适用于任何建模工作(包括惩罚方法)。
B)RE:假设检验和GLM的置信区间。当对广义线性模型使用模型选择(特征选择,参数调整,变量选择)并且存在保留集时,可以在分区上训练模型,然后将模型拟合到其余数据或完整数据集上并使用该模型/数据执行假设检验等。如果不存在保留集,则可以使用引导程序,只要对每个引导程序样本重复完整的过程即可。但这限制了可以进行的假设检验,因为例如可能不一定总是选择一个变量。
C)RE:不对未来数据集进行预测,然后在理论和一些假设检验的指导下,建立一个有目的的模型,甚至考虑在模型中保留所有变量(无论是否有意义)(沿Hosmer和Lemeshow的思路)。这是回归模型的小变量集经典类型,然后允许使用CI和假设检验。
D)RE:惩罚回归。没有建议,也许认为这仅适合于预测(或作为特征选择的一种,然后应用于上述B中的另一数据集),因为引入的偏差使CI和假设检验变得不明智-即使使用自举。