如何在回归模型中选择变量?


12

传统的变量选择方法是找到对预测新响应贡献最大的变量。最近,我得知了一种替代方法。在确定治疗效果的变量建模中(例如在药物的临床试验中),该变量被定性地相互作用如果在其他条件不变的情况下进行治疗,则该变量的更改会导致最有效治疗的更改。这些变量并不总是有效的预测指标,但对于医师决定个体患者的治疗时可能很重要。莱西·甘特(Lacey Gunter)在其博士论文中开发了一种选择这些定性相互作用变量的方法,而这些变量可能会被基于预测的选择算法所遗漏。最近,我与她合作,将这些方法扩展到其他模型,包括逻辑回归和Cox比例风险回归模型。

我有两个问题:

  1. 您如何看待这些新方法的价值?
  2. 对于传统方法,您更喜欢哪种方法?诸如AIC,BIC,Mallows Cp,F测试之类的条件,用于逐步,向前和向后输入或删除变量...

有关此问题的第一篇论文发表在Gunter,L.,Zhu,J和Murphy,SA(2009)。定性相互作用的变量选择统计方法论 doi:10,1016 / j.stamet.2009.05.003。

下一篇论文发表在Gunter,L.,Zhu,J.和Murphy,SA(2011)中。 在控制家庭错误率的同时个性化医学中定性相互作用的变量选择Journal of Biopharmaceutical Statistics 21,1063-1078。

下一个出现在有关变量选择的特刊上,Gunter,L.,Chernick,MR和Sun,J.(2011)。关于治疗选择的回归变量选择的一种简单方法巴基斯坦统计与运筹学杂志 7:363-380。

您可以在期刊网站上找到这些论文。您可能必须购买该物品。我可能有这些文章的pdf文件。莱西和我刚刚完成了有关此主题的专着,并将于今年晚些时候作为SpringerBrief出版。


11
也许我没有遵循-如果有先验的理由怀疑效果修改,那么这些新方法与例如将交互项包括在用于模型选择的“候选”变量列表中有何不同?
2012年

6
(1)在此问题中似乎丢失了一条或多条线。我猜它可能会继续“逐步,向前和向后……”。(2)在此已广泛讨论了模型识别和变量选择。例如,在+ model + variable + selection上进行搜索时会显示145个线程。缩小搜索范围可能会回答第二个问题。(3)为方便回答第一个问题,您能否提供此研究的链接或明确的参考资料?
ub

2
这是包括与治疗相互作用的变量的问题。但这是质的相互作用,而不仅仅是简单的相互作用。为了相互作用,两条线不能平行。为了进行定性的交互,它们必须在定义变量的时间间隔内交叉。因此,该想法是找到一个定性交互的变量。这与选择变量和交互项可以提高拟合或预测能力不同。
Michael R. Chernick

3
迈克尔,感谢您借此机会做出回应。提出的一个关键点是,该站点不是讨论站点,而是问答站点。随之而来的是一些稍微不同的交流方式。FAQ对此进行了详细介绍。有时,线程可能会丢失一些,但实际上,一旦人们对通用的方案有了更多的了解,它实际上是非常罕见的。干杯。
主教

6
迈克尔,是的,SE系统需要一些时间来适应并且并不完美。但这确实是有道理的,而且是一致的。我们的目标是不断改进:与列表服务器和公告板不同,可以修改问题(和答案);这是预期的。最终,我们希望一个线程以一个完整,陈述明确,完整的问题开始,该问题独立存在而不涉及注释线程。那么它应该继续给出一个或多个写得很好,属性恰当的规范答案。考虑到这一理想,@ cardinal的建议对您可能更有意义。
ub

Answers:


2
  1. 参见Gelman和Hill,《使用回归进行数据分析》和《多层次/层次模型》第69页,其中有关于模型选择的部分。她使用的是基于问题的方法,这种方法非常好,但是在她的论文中,她需要证明为什么要包括她在模型中所做的事情。就像您说的那样:“这些变量并不总是有效的预测指标,但是对于决定单个患者的治疗方案而言,对于医生而言可能很重要。” 因此只要她有理由为什么要包含这些预测变量,那就很好。就我个人而言,我更喜欢这些方法。所以这是我对2的回答。
  2. 我认为逐步,向前和向后都是黑匣子。当您通过所有三个模型运行模型时,您将不会得出相同的预测变量。因此,就使用哪种方式而言,我没有一个明确的答案。AIC或BIC可以用来比较模型。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.