线性回归模型中的变量是否显着?


9

我有一个包含样本和变量观测值的线性回归模型,我想知道:

  1. 一个特定变量是否足够重要以至于仍包含在模型中。
  2. 模型中是否应包含另一个变量(带有观察值)。

哪些统计数据可以帮助我?如何最有效地获得它们?

Answers:


26

统计意义通常不是确定变量是否应包含在模型中的良好基础。统计检验旨在检验假设,而不是选择变量。我知道很多教科书都讨论了使用统计检验进行变量选择的方法,但这通常是一种不好的方法。有关某些原因,请参见Harrell的书《回归建模策略》。如今,通常首选基于AIC(或类似方式)的变量选择。


实际上,据我所知,Harrell强烈建议不要使用AIC。我猜交叉验证可能是最安全的方法。
塔尔·加利里

1
AIC渐近等效于CV。请参阅stats.stackexchange.com/questions/577/…的答案。在写完该答案之前,我检查了Harrell,但没有发现AIC的任何障碍。他确实警告使用AIC或任何其他方法进行变量选择后的重要性测试。
罗伯·海恩德曼

@Tal:也许从他的一篇论文而不是RMS的书中,我记得Harrell反对使用AIC只是在众多模型中进行选择。我认为他的观点是,您必须一次添加一个变量,并有条不紊地比较两个模型或使用一些类似的策略。(要明确,这与Rob的回答是一致的。)
ars

快速搜索后,我发现Harrell撰写了以下文章“当心基于P值,R平方,部分R平方,AIC,BIC,回归系数或Mallows Cp进行模型选择。” 他在08年12月14日的标题为[R]的邮件列表中写道:从LRM函数(包装设计)中获取系数的p值-纯文本。我想我误解了他的意思。
Tal Galili 2010年

2
@ Tal,@ Rob:在那个线程中,他确实说“一定要使用层次结构原理”。:也许是兴趣,从medstats这个讨论(向下滚动勒尔的回应)groups.google.com/group/medstats/browse_thread/thread/...
ARS

4

我赞同罗布的评论。越来越受欢迎的替代方法是包括所有变量并将其缩小为0。请参见Tibshirani,R.(1996)。通过套索进行回归收缩和选择。

http://www-stat.stanford.edu/~tibs/lasso/lasso.pdf


1
有什么方法可以量化这些天“越来越受欢迎”的内容?
塔尔·加利里

我认为,从某种意义上说,在最近的统计数据中使用收缩方法比使用* .IC方法更多地使用了收缩方法,这在许多领域被认为在科学上更正确。这表明了某种至少是默契的理论共识。
user603 2010年

1
@ user603-使用收缩方法还具有潜在的巨大计算优势。无需搜索2p模型
概率

3

对于第1部分,您正在寻找F检验。计算每个模型拟合的残差平方和并计算F统计量,您可以使用该统计量从您自己生成的F分布或其他一些零分布中查找p值。


1

罗伯的答案再次投票。

在“相对重要性”文献中也有一些有趣的想法。这项工作开发的方法试图确定与多个候选预测变量中的每一个相关联的重要性。有贝叶斯方法和惯常方法。检查R中的“ relaimpo”包是否有引文和代码。


1

我也喜欢Rob的回答。而且,如果您碰巧使用SAS而不是R,则可以将PROC GLMSELECT用于将使用PROC GLM完成的模型,尽管它也适用于某些其他模型。看到

Flom和Cassell在“不同的小组”上发表了“逐步停止:为什么逐步选择方法不好并且应该使用什么”,最近,NESUG 2009

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.