关于变量选择的更明确的讨论


55

背景

我正在从事医学临床研究,并参加了一些统计学课程。我从未发表过使用线性/逻辑回归的论文,而是想正确地进行变量选择。可解释性很重要,因此没有花哨的机器学习技术。我总结了我对变量选择的理解-有人介意消除任何误解吗?我发现有(1)个与此(2 )类似的简历,但他们并未完全回答我的担忧。任何想法将不胜感激!最后我有3个主要问题。

问题与讨论

我的典型回归/分类问题有200-300个观察值,不良事件发生率为15%(如果分类),以及40个变量中的25个的信息,这些变量在文献中被认为具有“统计学上的显着”效果或具有说服力。领域知识。

我用引号表示“具有统计意义”,因为似乎每个人及其母亲都使用逐步回归,但是出于许多充分的理由,Harrell(3)和Flom(4)似乎并不喜欢它。Gelman博客文章讨论进一步支持了这一点(5)。似乎唯一可以接受的实时步骤是真正的探索性分析,或者是对预测感兴趣并且涉及交叉验证方案。尤其是由于许多医学上的合并症都存在共线性,而研究的样本量却很小,所以我的理解是,文献中会出现很多假阳性。这也使我不太可能相信文献中可能包含的变量。

另一种流行的方法是使用预测变量和自变量之间的一系列单变量回归/关联作为起点。低于特定阈值(例如,p <0.2)。由于本StackExchange帖子(6)中概述的原因,这似乎不正确或至少具有误导性。

最后,一种在机器学习中流行的自动化方法是使用惩罚,例如L1(Lasso),L2(Ridge)或L1 + L2组合(Elastic Net)。我的理解是,它们没有像OLS或逻辑回归那样简单的解释。

Gelman + Hill提出以下建议:

吉尔曼

在统计课程中,我还记得使用F检验或“偏差分析”来比较完整模型和嵌套模型,以逐个变量地进行模型/变量选择。这似乎是合理的,但系统地拟合顺序嵌套模型以查找导致每df偏差最大下降的变量似乎很容易实现自动化(因此我有点担心),而且似乎还遇到了以下问题:您测试变量包含。我的理解是,还应该通过研究多重共线性和残差图(残差图与预测图)来补充这一点。

问题:

  1. 盖尔曼摘要是要走的路吗?您会在他的拟议策略中增加或改变什么?

  2. 除了纯粹考虑潜在的交互作用和转换(似乎很容易产生偏见/错误/遗漏)之外,还有另一种方法来发现潜在的交互作用和转变吗?向我推荐了多变量自适应回归样条(MARS),但我得知非线性/变换在标准回归模型中不会转化为相同的变量。

  3. 假设我的目标非常简单:说:“我想估计X1与Y的关联,仅考虑X2”。简单地使Y〜X1 + X2回归,报告结果,而不参考实际的预测能力是否足够(可以通过交叉验证RMSE或准确性度量来测量)是否足够?是否会根据事件发生率或样本大小或R ^ 2是否过低而改变(我知道R ^ 2不好,因为您总是可以通过过度拟合来增加它)?通常,我对推理/可解释性比优化预测能力更感兴趣。

结论示例:

  1. “控制X2,相对于X1的参考水平,X1与Y在统计上没有显着相关。” (逻辑回归系数)
  2. “ X1并不是Y的统计显着预测因子,因为在模型中相对于df的变化,偏差的下降还不够。” (偏差分析)

是否总是需要交叉验证?在这种情况下,可能还需要通过SMOTE,采样等对类进行某种平衡。



6
无论是否可以自动化(目前-在强大的AI出现之前),都会让我感到震惊。
gung-恢复莫妮卡

7
+1是一个非常体贴的问题。您的评论证明的一件事是,没有用于选择变量的标准配方或食谱。每个人都有不同的方法和一套“最佳”实践。然后,理论模型或总体模型与经验驱动模型之间存在非常重要的区别-这些不同的框架很少一致,很容易将它们合并。您对“遗漏”某物的担心并非没有根据,但现实情况是根本不存在任何结论性,明确的答案。您所审查的方法已得到广泛记录,请选择一种
Mike Hunter

4
Harrell,Flom和Kolassa;然后就解决了
gung-恢复莫妮卡

4
Re Gelman&Hill的4(b):Harrell,RMS 1st edn,p60:“变量选择的最终问题是通过将此方法(逐步进行)与许多经济学家开发回归模型的明智方式进行比较而得出的。经济学家经常使用该策略仅删除那些无关紧要的变量及其回归系数方向不正确的变量”。我似乎还记得Steyerberg打算在上面写一篇论文。[将尝试找到参考。[当我有机会时。]
Scortchi-恢复莫妮卡

Answers:


46

安德鲁·盖尔曼(Andrew Gelman)绝对是统计学界受人尊敬的名字。他的原理与该领域其他“大人物”所做的一些因果模型研究非常吻合。但是我认为,鉴于您对临床研究感兴趣,您应该咨询其他资源。

我之所以宽松地使用“因果关系”一词(与其他人一样)是因为我们必须在从观测数据执行“因果关系推断”与断言变量之间的因果关系之间划清界限。我们都同意,RCT是评估因果关系的主要方法。我们很少根据随机假设对此类试验进行任何调整,只有少数例外(Senn,2004)。观察性研究具有其重要性和实用性(Weiss,1989),而基于反事实的从观察性数据推断的方法被认为是一种合理的方法(Höfler,2005)。它通常非常接近RCT中测得的使用效率(Anglemyer,2014年)。

因此,我将重点研究来自观测数据的研究。我对Gelman建议的观点是:应该事先指定模型中的所有预测变量及其在单个目标暴露和单个目标结果之间的假定因果关系。基于一组主要发现之间的关系而抛出或排除协变量实际上是在诱发“蒙克豪森统计网格”的特殊情况(马丁,1984年)。一些期刊(并且趋势正在流行)会暂时拒绝任何使用逐步回归来确定最终模型的文章(Babyak,2004年),我认为在此问题的解决方式与此类似。

在模型中包含和排除协变量的基本原理在以下文献中讨论:Judea Pearl的因果关系(Pearl,2002年)。对于理解统计推断,回归和多元调整的原理,这也许是最好的文章之一。实际上,桑德斯和格陵兰的任何事情都具有启发性,特别是他们关于混杂的讨论,遗憾的是在这份建议清单中被忽略了(格陵兰等人,1999年)。)。可以基于与因果模型的图形关系为特定的协变量分配标签。预测变量,混杂变量或精度变量之类的名称应作为统计模型的协变量包括在内。因果关系之外的调解人,对撞机或变量应省略。这些用语的定义严格,因果关系中有很多例子。

在这个小背景下,我将一一介绍这些要点。

  1. 通常,这是一个很好的方法,但有一个主要警告:这些变量一定不能成为结果的中介。例如,如果您正在检查吸烟与身体健康之间的关系,并针对肺功能进行调整,那将削弱吸烟的效果,因为吸烟对健康的直接影响是降低肺功能。这应该不是与混淆混淆其中第三个变量是感兴趣的预测变量和感兴趣的结果的因果关系。模型中必须包含混杂因素。此外,过度调整会导致分析中出现多种形式的偏差。调解员和混杂因素之所以被认为不是因为在分析中发现了什么,而是因为您认为主题专家(SME)是什么。如果每个变量或更少的变量有20个观察值,或者在事件进行时间或逻辑分析中每个事件有20个观察值,则应考虑使用条件方法。

  2. 这是一种出色的省电方法,没有倾向得分调整或SEM或因子分析那么复杂。我绝对建议您尽可能这样做。

  3. 我全心不同意。在分析中调整其他变量的重点是创建可以进行比较的层次。对混杂因素关系的错误指定通常不会导致分析过于偏见,因此,根据我的经验,因省略交互项而产生的残留混杂问题不是大问题。但是,您可以将感兴趣的预测变量与其他变量之间的交互项视为事后分析。这是一个假设生成过程,旨在将任何可能的发现(或缺乏发现)完善为。可能属于一个子组或b。涉及两个环境和/或遗传因素之间的机械相互作用。

  4. 我也完全不同意这一点。它与基于验证性分析的回归方法不一致。您是中小型企业。分析应由问题而非数据告知。基于因果模型的图形描述(使用DAG和Pearl等人的相关原则),自信地陈述您将要发生的事情,然后为您感兴趣的模型,预测和讨论选择预测因子。即使只是作为辅助分析,也应考虑使用此方法。

机器学习在所有这些方面的作用值得商de。通常,机器学习专注于预测而不是推理,这是数据分析的独特方法。没错,对于非统计群体而言,惩罚性回归的影响解释不容易解释,这与OLS的估计不同,OLS的估计中95%的置信区间和系数估计提供了关联度。

OLS模型Y〜X的系数解释很简单:这是一个斜率,Y比较组中的期望差值在X中相差1个单位。在多元调整模型Y〜X1 + X2中,我们将其修改为条件斜率:这是在Y比较组中与X2值相同的X1相差1个单位的预期差异。在几何上,针对X2进行调整会导致三个空间的不同层或“横截面”,我们将X1与Y进行比较,然后将每个层的发现平均。在R中,该coplot函数对于可视化此类关系非常有用。


非常感谢您的详细评论-我以前从未有人如此详细地回答过我的问题。我现在正在浏览您的链接!
sharper_image 2016年

1
(+1)在第1点:G&H确实说过这些是“构建用于预测的回归模型的一般原则” [我的斜体],因此您不必做任何警告。(也许那些肺功能良好的稀有吸烟者确实确实特别适合。)当他们开始讨论因果模型时,他们的观点是相同的(第9.7章)。
Scortchi-恢复莫妮卡

2
(+1)出色的回应,AdamO!意识到您已经做了大量的工作,我想知道您是否会进一步告知您所提及的期刊政策的当前采用状况。至少在JAMA期刊上看到“逐步”一词时,我仍然非常生气。您可以引用这项政策的社论吗?
David C. Norris

2
@ DavidC.Norris“教育和心理测量”是有问题的期刊,可惜,Babyak的文章仅讨论了自动逐步回归。我在一些文章中看到作者在讨论他们的“动手实践”方法,以包括“逐步”(尽管不是自动化的)来逐步引入和重新装配模型。我认为他们已经正确描述了他们使用的过程,但是我仍然对此方法有严重的争议。
AdamO '16

大号一种ü1个大号ü1个一种ü2ÿü2大号大号一种ÿ一种ÿ一种ÿË[ÿ|一种大号]一种-ü1个-大号-ü2-ÿ

9

这个宏伟的问题和@AdamO的全面回答是简历如何定期更新我对人性的信仰的一个典型例子。我的主要目的是在更广泛的范围内提供一些欣赏该答案(以及OP的问题)的方法。

首先,我敢断言,关于统计实践中,所有可靠的建议是警世性质的- scriptive而非 scriptive。例如,Gelman&Hill的观点#3表面上看是积极做某事的建议(“考虑”),但实际上更好地理解为警告不要考虑考虑具有强烈影响的相互作用。对直觉的理解是直觉的,因为直觉是在(多元)泰勒级数展开式中选择最重要的术语,对我而言,这似乎是没有异议的。

其次,在OP忙于获得比大多数博士生物统计学家更好的教育水平之后(通过跟踪AdamO的引用),OP还可能会选择David A. Friedman的统计模型和因果推论 [1],这将是一个健康的挑战。推定回归是我们临床研究的主要工具。我特别推荐第3章“统计模型和鞋革”,也可以在此处以以前发布的形式[2]获得。(不要忘了期刊的名称;所汲取的主要教训来自约翰·斯诺(John Snow)对霍乱的调查。另请参见此答案,其中详细介绍了这些教训。)

最后-也许这确实是Freedman的必然结果-应该提到,OP提供的示例“结论”实际上应属于本文的“ 结果”部分。尽早考虑如何将本文的结论讨论部分的措辞写成最健康的做法,以便医生,媒体,甚至越来越多的患者和他们的非专业拥护者都可以使用。努力阅读医学文献。专注于该端点将有效地影响统计分析的技术工作,并将其立足于旨在描述的现实世界和旨在满足的需求。


  1. Freedman,David,David Collier,Jasjeet Singh Sekhon和Philip B.Stark。统计模型和因果推论:与社会科学的对话。剑桥; 纽约:剑桥大学出版社,2010年。

  2. Freedman,DavidA。“统计模型和鞋革”。《社会学方法论》 21(1991):291–313。doi:10.2307 / 270939。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.