创建模型时,是否应保留“没有统计学意义的协变量”?


39

我在模型的计算中有几个协变量,但并不是所有协变量都具有统计学意义。我应该删除那些不是吗?

这个问题讨论了这种现象,但没有回答我的问题: 如何解释ANCOVA中协变量的非显着影响?

但是,该问题的答案中没有任何内容建议删除不重要的协变量,因此,现在我倾向于认为它们应该保留。即使在阅读该答案之前,我也想过,因为协变量仍然可以解释某些方差(从而有助于模型),而不必解释超出某个阈值(显着性阈值,我认为不适用于协变量)的数量。

在CV上还有另一个问题,对于这个问题的答案似乎暗示着应将协变量保持在无关紧要的位置,但是对此尚不清楚。(我想链接到该问题,但是我暂时无法再次找到它。)

因此...模型计算中是否应保留未显示统计显着性的协变量?(我已经编辑了这个问题,以阐明无论如何计算都不会在模型输出中显示协变量。)

为了增加复杂性,如果协变量对于数据的某些子集(必须单独处理的子集)在统计上有意义,该怎么办。我将默认保留这样的协变量,否则在其中一种情况下,要么必须使用不同的模型,要么在统计上缺少重要的协变量。但是,如果您也对此拆分案有答案,请提及它。


6
一般而言,我要说的是,即使数据不支持它们的影响,也应保留理论上重要或在先前研究中已经很重要的变量。话虽如此,为了得到更具体的答案,我认为您应该添加几行内容来解释模型及其目的(例如,确定风险因素,进行预测等)。
ocram 2013年

我会说这取决于。测试只是指标。如果您认为应该有较小的依赖性,那么请考虑保留模型。如果您也认为不应存在这种依赖关系,则将其排除在外。
Bene 2013年

好了,你都称无显着性不决定从考虑被去除协变量,让您同时拥有实际回答我的问题。我实际上应该重新表述我的问题,以便更清楚地表明,我要问的是协变量的统计意义是否是保持它的必要条件(“协变量的不重要意味着应将其删除...”),以及我会接受您的任何评论作为答案。
2013年

在执行此操作之前,我想确保使用正确的术语。最初,我写了“保留在模型中”,但这似乎并不正确,因为协变量从未出现在模型中。我选择了“继续进行模型的计算 ”(并“从考虑中删除”),但是有没有更好的说法呢?协变量保留在其中或从中删除的正确术语是什么?
2013年

3
您将需要验证此类选择过程的正确性能。其他人失败了。
Frank Harrell 2013年

Answers:


32

您已经获得了几个很好的答案。有保留协变量的原因和降低协变量的原因。在大多数情况下,统计意义不应该成为关键因素。

  1. 协变量可能是如此重要,以至于必须存在。
  2. 协变量的影响大小可能很大,即使它并不显着。
  3. 协变量可能会影响模型的其他方面。
  4. 协变量可能是您的假设表达方式的一部分。

如果你是在一个非常探索模式协变量是不是在文学的重要效果尺寸小协变量对模型的影响不大,并协变量是不是在你的假设,那么你也许可以删除它只是为了简单。


6
#4涵盖了一个非常重要但经常被忽略的情况,但我会阐明。通常-实际上,通常-您应该将您的结果与具有类似数据的先前工作人员的结果进行比较。如果其他人发现值得在其模型中包括的特定协变量,则无论您的协变量是否达到(常规)显着性水平,都应将结果与他们的结果进行比较。请注意,这里的情况可能会因您决定的报告模型(特别是)不佳(特别是您决定的报告模型)而异。
Nick Cox

1
我肯定是倾向于“保持”状态(首先并没有为协变量设置太多的p值),但是您的答案是一个非常不错的清单(很好...两个),可供少数人拿出来。效果大小是我没有考虑过的,虽然我确实考虑了假设,但我非常喜欢您将其包括在内,原因是提到@NickCox并仅仅是为了阻止钓鱼。
2013年

25

长答案是“是”。删除微不足道的预测变量的原因很少,而没有删除的原因则很多。就解释它们而言,您可以像解释其他预测变量那样忽略值:在预测变量的有趣范围内具有置信区间的影响。P


10
长答案是“是”!+1和一个大声笑。
彼得·弗洛姆

如果不是p值,则移除预测变量的其他原因是什么?您提到了解释置信区间,但似乎“有趣的范围”将为零,这意味着人们将解释CI就像p值(包含或排除零)。
马克·怀特

1
当这会扭曲统计属性时,删除预测变量的原因是什么?不清楚您的问题和“零”。
Frank Harrell

7

一个有用的见解是,就统计学而言,协变量的确没有任何具体信息,请参见例如,帮助将协变量写入回归公式。顺便说一句,它可以解释为什么没有covariate标签。因此,即使没有明确提到ANCOVA,这里和其他地方关于线性模型中非有效项的材料也很重要,逐​​步回归的众所周知的批评者也是如此。

一般来说,仅根据重要性选择预测变量是个坏主意。如果由于某种原因您无法提前指定模型,则应考虑其他方法,但是如果您计划首先将它们包括在内,并据此收集数据并且没有遇到特定问题(例如共线性),则保留它们。

关于保留这些理由的原因,您的反对意见在我看来似乎很合理。另一个原因是,删除不重要的预测变量会使基于模型的推论产生偏差。看待所有这一切的另一种方法是,问问在事实发生后删除这些协变量会得到什么。


4

我们确实需要有关您的目标的更多信息才能回答此问题。回归用于两个主要目的:

  1. 预测
  2. 推理

预测是当您的目标是能够为样本中未包含的观察值猜测结果变量的值时(尽管通常它们在样本数据的范围内;否则,有时会使用“预测”一词)。预测对于广告目的,财务等很有用。如果您只是对预测某些结果变量感兴趣,那么我无能为力。

推理就是乐趣所在(即使不是金钱所在)。推论是您试图得出有关特定模型参数的结论的方法,通常是确定一个变量对另一个变量的因果关系。尽管有普遍的看法,回归分析仍不足以进行因果推理。您必须始终了解有关数据生成过程的更多信息,以了解您的回归是否能捕捉因果关系。通过回归进行因果推理的关键问题是误差的条件均值(取决于回归变量)是否为零。从回归变量的p值无法得知。可能存在无偏或一致的回归估计量,但是与将一些明显的控件放入回归并希望您获得重要的估计值相比,这需要更多的工作。精通“度量标准:从因果到结果的路径主要是无害计量经济学”Mastering Metrics易于阅读且价格便宜,但要注意,它不是在处理回归方法,而是在说明回归结果。为了很好地介绍观察研究设计的好坏,我推荐戴维·弗里德曼(David Freedman)(1991)“统计模型和鞋革”,《社会学方法论》,第21卷(简短而易读,并附有引人入胜的示例)。

顺便说一句:在大多数大学课程中,对统计技术对良好研究设计的痴迷是我的教学法。

除了激发当前这个问题的重要性外,第二点是:预测和推理之间的差异是为什么大数据不能替代科学。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.