在多元回归之前单变量回归的意义是什么?


13

我目前正在研究一个问题,我们的数据集很小,并且对治疗对结果的因果关系感兴趣。

我的顾问指示我对每个预测变量执行单变量回归,以结果作为响应,然后以治疗分配作为响应。即,要求我一次将一个变量与一个回归拟合,并制作结果表。我问“为什么要这么做?”,答案是“我们对哪些预测因素与治疗分配和结果相关感兴趣,因为这很可能表明混杂因素”。我的顾问是一位训练有素的统计学家,而不是其他领域的科学家,因此,我倾向于信任他们。

这是有道理的,但尚不清楚如何使用单变量分析的结果。这样做是否会导致模型选择的选择导致估计值的显着偏差和狭窄的置信区间?为什么有人要这样做?我很困惑,我的顾问在提出这个问题时还不太清楚。有人在这项技术上有资源吗?

(注意:我的顾问曾说过,我们不会将p值用作临界值,而是我们要考虑“一切”。)


6
如果通过“单变量回归”您的讲师将包括绘制散点图,那么这确实是明智的建议。而且由于您无需担心任何回归都可以在不进行绘图的情况下进行,因此您将获得一些有用的信息。如果可以的话,请使用散点图矩阵一次完成所有操作并使用它们显示一些鲁棒的平滑效果。当您看到变量显示线性关系的各种方式时,优点将显而易见。
whuber

1
如果响应数据是二进制的,并且我们使用带有logit链接的glm怎么办?您的解释肯定为线性情况澄清了,现在考虑到这一点,自然会使用散点图
Marcel

5
我担心您可能会问:-)。实际上,良好的平滑度仍然可以提供很好的洞察力。它有助于使响应抖动,以便确定其分布。这是这种绘图的示例:stats.stackexchange.com/a/14501/919。我在stats.stackexchange.com/a/138660/919上说明了另一种解决方案。
whuber

3
在Hosmer和Lemeshow的书“ Applied Logistic Regression”中,这种在多变量回归技术之前的单变量回归称为“有目的变量选择”
Great38,19年

7
当心-变量在不变变量中可能没有关系,但在多元关系中很重要。
Glen_b-恢复莫妮卡

Answers:


3

分析的因果关系是您问题中的关键限定词。在预测中,按照Hosmer和Lemenshow提出的“有目的的选择方法”的精神,在进行多次回归之前先进行单变量回归是一个目标。在您建立因果模型的情况下,在运行多元回归之前运行单变量回归具有完全不同的目标。让我扩展一下后者。

您和您的讲师必须牢记某种因果关系图。因果图具有可检验的含义。您的任务是从拥有的数据集开始,然后回溯到可能生成它的因果模型。他建议您运行单变量回归,这很可能构成了测试因果图含义的测试过程的第一步。假设您认为您的数据是由下图所示的因果模型生成的。假设您对D对E的因果关系感兴趣。下图显示了许多可检验的含义,例如:

  • E是D可能是依赖的
  • E和A可能取决于
  • E和C可能取决于
  • E和B可能取决于
  • E和N可能是独立的

在此处输入图片说明

我提到这只是因果搜索过程中的第一步,因为真正的乐趣始于您开始运行多个回归,对不同变量进行条件化并测试回归结果是否与图的含义一致。例如,上图表明,以D为条件,E和A必须是独立的。换句话说,如果对D和A进行E回归,发现A的系数不等于零,则可以得出以下结论:在以D为条件后,E取决于A,因此因果图必定是错误的。它甚至还会提示您如何更改因果图,因为这种回归的结果表明,A和E之间必须存在一条不由D分隔的路径。


1

在尝试回答之前,我想指出一下数据类型及其分布会影响您评估/回归/分类数据的方式。

另外,您可能想在这里查找顾问可能希望您使用的方法。

有点背景。尽管可以使用模型选择工具,但您仍然需要能够说明为什么使用或省略了预测变量。这些工具可以是黑匣子。您应该完全了解您的数据,并能够说明为什么选择了特定的预测变量。(特别是,我假设是论文/硕士项目。)

例如,查看房屋价格和年龄。房屋价格通常会随着年龄的增长而下降。因此,当您在数据中看到一栋价格高昂的老房子时,看起来就像是一个离群值被删除了,但事实并非如此。

至于(注意:我的顾问说过,我们并不是将p值用作临界值,而是我们要考虑“一切”。)p值不是全部,也不能全部终止,但它们可能会有所帮助。调用算法/程序受到限制,无法查看整个图片。

至于为什么可能对每个预测变量/治疗分配单变量回归。

这可能有助于选择要包含在基本多元模型中的预测变量。然后,您将从该基本模型中查看那些预测变量是否重要并且应该保留,或者是否应该删除这些预测变量以获取简约模型。

或者可能是您更好地了解数据。


1
我和我的妻子买了一套旧房子,但买不起一栋历史悠久的房子,因此您的例子很容易成为反例。
尼克·考克斯

真正。我的意思是说实际上的房屋价格。房屋价格通常会随着年龄而下降。因此,当您看到价格高昂的旧房子时,看起来就像是一个离群值。我将编辑这一点。谢谢。
Apocryphon

0

我认为您的主管正在要求您对数据进行首次分析,目的是确定是否有任何变量可以解释数据中很大一部分的方差。

一旦确定是否有任何变量可以解释某些可变性,便可以评估它们如何协同工作,它们是否共线性或彼此相关等。在纯探索阶段进行多元分析可能会使首次评估变得更加困难,因为通过构造每个变量,您将消除其他变量的影响。可能很难评估是否有任何变量可以解释任何变化。


0

这可能是理解数据的一种方法,但是经验表明,当您组合使用所有预测变量并且每个预测变量一个接一个地使用时,预测将有所不同。我们只是了解数据的可预测性,并了解未来的步骤需要做什么。
我见过很多次,当使用所有变量的p值表示某些变量不重要时,而仅使用那些不重要的变量,它们就足够了。那是由于混合效果:不是您的主管错了,而是要了解数据,我们必须这样做。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.