何时从回归模型中删除一项?


20

任何人都可以建议以下是否有意义:

我正在处理具有4个预测变量的普通线性模型。我有两种想法是否放弃最不重要的任期。它的 -值超过0.05一点点。我主张将其沿以下方向删除:将这个术语的估计值乘以(例如)该变量的样本数据的四分位数范围,可以使保持这个术语对整个模型的临床效果具有一定意义。由于此数字非常低,大约等于该变量在临床环境中进行测量时可以在典型的日内值范围内,因此我认为该变量在临床上不具有重大意义,因此可以删除以给出更简化的模型,甚至尽管降低它会稍微降低调整后的R 2pR2


1
为什么您要寻找更简约的模型?
Michael Bishop

3
简约本身不是一件好事吗?我的看法是,具有变量的模型在临床意义上几乎没有或几乎没有增加解释力,即使没有统计学意义的变量,也比没有这些变量的较小模型更糟糕
P Sellaz

我决定写一个答案:stats.stackexchange.com/questions/17624/…。简而言之,不,我认为简约并不是一件好事。有时出于特定原因很有用。
Michael Bishop

1
我同意迈克尔。如果可以给变量以“重要的”机会,最好包括没有明显的解释能力的变量。您已经花了那些自由度。
弗兰克·哈雷尔

请记住,在相关回归变量的情况下,不是重要回归变量的预测变量仍然可以为解释的方差贡献非零值-通过影响其他重要回归变量。尤其是只有四个预测变量时,如果回归变量是相关的,我主张将非重要变量保留在模型中。
Torvon

Answers:


18

我从未理解过节俭的愿望。寻求简约会破坏统计推断的所有方面(回归系数的偏差,标准误差,置信区间,P值)。保留变量的一个很好的理由是,这保留了置信区间和其他数量的准确性。这样想:在普通多元回归中仅开发了两个残差方差的无偏估计量:(1)来自预先指定的(大)模型的估计,以及(2)由简化模型代替广义度的估计自由度(GDF)表示明显的(降低的)回归自由度。与最终“重要”参数的数量相比,GDF更接近候选参数的数量。

这是另一种思考方式。假设您要进行方差分析以比较5种治疗方法,并获得4 df F检验。然后出于某种原因,您使用t检验查看了处理之间的成对差异,并决定合并或删除某些处理(这与对4个虚拟变量使用P,AIC,BIC,Cp进行逐步选择相同)。产生的1、2或3 df的F检验将出现虚假的I型错误。具有4 df的原始F检验包含完美的多重度调整。


3
+1简约通常仅在非常特定的情况下才有意义。如果您有足够的精度同时进行这两种操作,则没有理由玩偏见与精度游戏。
Fomite 2011年

2
+1是个不错的答案。但是,如果您具有多重共线性并删除变量会减少它怎么办?(在原始问题中不是这种情况,但在其他数据中通常是这种情况)。生成的模型难道不是在所有方面都优于(减少估计量的方差,系数的符号更可能反映基础理论等)吗?如果您仍然使用正确的(原始模型)自由度。
彼得·埃利斯

4
最好同时包含两个变量。您唯一要付出的代价是估算变量中为另一变量调整的影响之一时标准误差的增加。这两个共线变量的联合测试非常强大,因为它们然后合并了力而不是相互竞争。同样,如果您要删除一个变量,数据也无法告诉您要删除哪个变量。
Frank Harrell '02

17

这些有关变量选择的答案均假设变量的观测成本为0。

那是不对的。

尽管给定模型的变量选择问题可能涉及或可能不涉及选择,但对未来行为的影响确实涉及选择。

考虑一下预测哪个大学巡边员在NFL中表现最佳的问题。你是侦察员。您必须考虑NFL当前巡边员的哪些素质最能预测其成功。您测量500个数量,并开始选择将来需要的数量的任务。

你该怎么办?您是否应该保留全部500个?是否应该消除某些(天文符号,出生的星期几)?

这是一个重要的问题,不是学术性的。观察数据是有代价的,而成本效益框架表明,某些变量由于其价值较低,因此将来无需观察。


4
+1:重要而有趣的一点。它还表明该问题是不完整的,因为它没有指出模型的目的。(成本与寻求建立解释性理论的科学模型无关,而在旨在重复使用的预测模型中脱颖而出。)
whuber

6

保留变量至少还有两个其他可能的原因:1)它影响其他变量的参数。2)它很小的事实本身在临床上很有趣

要查看约1,可以查看模型中每个人在模型中是否包含变量的预测值。我建议对这两组值进行散点图绘制。如果没有太大的差异,那就是反对这个理由的理由

对于2,请考虑为什么在可能的变量列表中使用此变量。它是基于理论的吗?其他研究是否发现较大的效应量?


几乎没有共线性可言,因此删除此变量与其他变量几乎没有区别。如果它很小的话,那就很有临床意义。数据来自探索性调查,至少在此阶段,没有理由期望任何一个变量比其他任何变量都重要。但是,该变量存在日内波动,因此从表面上看,如果影响的大小与该波动相似,那么对我来说在临床上似乎并不十分重要。
P Sellaz

好的,这听起来像是个不错的选择。
彼得·弗洛姆

@P Sellaz-如果“数据来自探索性调查”,是否意味着参与者选择了自己?我发现@Frank Harrell的评论有些不容忽视,但是如果样本是自选的,那么对p值,置信区间等严格准确性的关注就变得毫无意义。
rolando2 2011年

我认为,仅当您不使用它们时,它才会变得毫无意义。
弗兰克·哈雷尔

@FrankHarrel-请澄清:“他们” =吗?
rolando2'2

6

如今,最常见的建议是获取两种模型的AIC并采用较低AIC的模型。因此,如果完整模型的AIC为-20,而没有最弱预测变量的模型的AIC> -20,那么您将保留完整模型。有人可能会争辩说,如果差异<3,则保持简单。我更喜欢这样的建议,即当AIC彼此之间不超过3个时,您可以使用BIC打破“纽带”。

如果您使用R,则获取AIC的命令为... AIC

我确实从90年代初开始在这里有关于建模的教科书,建议您删除所有不重要的预测变量。但是,这实际上意味着您将摆脱预测器从模型添加或减少模型的复杂性。这也仅适用于方差分析,其重要性在于解释的可变性,而不是根据解释了其他内容而得出的斜率大小。使用AIC的更现代建议将这些因素考虑在内。出于各种原因,即使不重要的预测变量也不重要,也应将其包括在内。例如,与其他预测变量可能存在相关性问题,因为它可能是相对简单的预测变量。如果您想获得最简单的建议,请选择AIC,并使用BIC打破平局,并使用3之差作为平等的窗口。


R表示越小越好,是吗?
亚伦-恢复莫妮卡

感谢您的回复。我发现这两个模型之间的AIC的差别仅仅是2
P Sellaz

较小的型号具有稍大的AIC和BIC AIC:大-小AIC = -2 BIC:大-小BIC- 7.8
P Sellaz 2011年

Aaron..oops ... lower,fixed ...
John

1
为了明确起见,这个附加项只是另一个协变量,并且共线性很少。
P Sellaz

4

您正在使用此模型做什么?简约是重要目标吗?

在某些情况下,首选更简约的模型,但我不会说简约本身就是一件好事。简约模型可以更容易地理解和传达,简约可以帮助防止过拟合,但是通常这些问题不是主要问题,或者可以通过其他方式解决。

从相反的方向进行分析,即使在多余的术语本身不引起人们关注并且不会大大改善模型拟合的情况下,在回归方程中包含一个额外的术语也有一些好处。您可能不会认为它是要控制的重要变量,但其他人可能会控制。当然,还有其他非常重要的实质性原因可以排除变量,例如,它可能是由结果引起的。


3

从您的措辞看来,您似乎倾向于舍弃最后一个预测变量,因为其预测值很低。该预测变量发生实质性变化并不意味着响应变量发生实质性变化。如果真是这样,那么我喜欢这个包含/删除预测变量的标准。它比AIC或BIC在实际现实中更具根基,并且对于本研究对您的听众更具解释性。


是的,这正是我的意思。
P Sellaz
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.