我们真的需要包括“所有相关的预测变量”吗?


15

使用回归模型进行推理的基本假设是,“所有相关的预测变量”已包含在预测方程式中。理由是未能包含重要的现实因素会导致系数出现偏差,从而导致推论不准确(即省略了可变偏差)。

但是,在研究实践中,我从未见过任何类似 “所有相关预测变量”的事物。许多现象有许多重要原因,要把它们全部包括在内,将是非常困难的,即使不是不可能的话。一个现成的例子就是将抑郁症建模为结果:没有人建立类似于“所有相关变量”的模型的任何东西:例如,父母的历史,人格特质,社会支持,收入,他们的互动等,等等...

此外,除非有非常大的样本量,否则拟合这样一个复杂的模型将导致高度不稳定的估计。

我的问题很简单:“包含所有相关预测变量”的假设/建议是否只是我们“说”但实际上没有表达的意思?如果不是,那么我们为什么要提供它作为实际的建模建议?

这是否意味着大多数系数可能会产生误导?(例如,仅使用几种预测因子的人格因素和抑郁症研究)。换句话说,对于我们的科学结论而言,这有多大的问题?


6
在整个19世纪,这一论点在心理学,经济学和社会科学中都得到了广泛的应用。科学家认为,统计方法不适用于人和社会系统,因为人太过多样化和过于复杂。到本世纪末,效用已经超越了哲学:即使我们不包括所有预测变量,我们仍然可以学到很多东西。在标题短语中包含“相关”是明智的。
ub

Answers:


18

您是对的-我们很少会说“所有相关预测变量”。在实践中,我们可以满意地加入可以解释变化主要来源的预测变量。在观察性研究中推断出危险因素或治疗的特殊情况下,这几乎不够好。为此,对混淆的调整需要高度激进,包括可能与结果有关,可能与治疗选择或您要宣传的风险因素有关的变量。Y

有趣的是,对于正常的线性模型,省略的协变量,尤其是与包含的协变量正交的情况,可以认为只是扩大了误差项。在非线性模型(逻辑,Cox,许多其他模型)中,变量的遗漏可能会使模型中包含的所有变量的效果产生偏差(例如,由于优势比的非可折叠性)。


感谢您提供有用的信息。除了评估治疗效果外,我想问更多有关此问题的实际意义。如果您审阅了一篇论文,并且明显省略了重要的预测变量,那是否会成为拒绝的理由?我之所以这样问,是因为a。我从未听说过这种情况,并且b。)社会科学家通常只包括他们希望更多地了解(即研究的主题)的预测变量,而忽略了“已知”因子(基于对更有效测量的需求)。
ATJ

例如,看到一个潜在变量模型仅具有一个内生变量的SINGLE预测值并不少见。这是否说明了统计领域与其在实际主题领域中的实施之间的差距?
ATJ

6
可能会的。对于较早的问题,拒绝的理由将包括省略重要变量,这些重要变量的包含将对包含变量提供不同的解释,或者将彻底改变模型。我曾经审查过一篇关于肺癌风险的论文,该论文仅可用于受试者是否曾经吸烟,而作者并未尝试评估吸烟剂量(例如,包年)。我建议彻底拒绝。
弗兰克·哈雷尔

9

是的,您必须包括所有“相关变量”,但是您必须对此有所了解。您必须考虑构造实验的方法,以将现象的影响与无关的东西隔离开,这在现实世界中(相对于课堂而言)是大量研究。在开始统计之前,您必须在域中而不是统计中进行繁重的工作。

我鼓励您不要对所有相关变量都持怀疑态度,因为这不仅是一个崇高的目标,而且因为它常常是可能的。我们不只是为了说这个而说。我们确实是认真的。实际上,设计能够包含所有相关变量的实验和研究是使科学真正有趣的原因,并且不同于机械锅炉板的“实验”。

为了激励我的发言,我将举一个伽利略如何研究加速度的例子。这是他对实际实验的描述(来自此网页):

取一块木制的模制件或小物件,长约12肘,宽半肘,宽三指。在其边缘上切开了一个多于一个手指的通道。使该凹槽非常笔直,光滑且抛光,并用羊皮纸衬里,也尽可能平滑和抛光,我们沿着它滚动了一个坚硬,光滑且非常圆的青铜球。将板子置于倾斜位置后,通过将一端提起一个或两个肘节,使我们将球沿通道滚动,就像我刚才所说的那样,以目前要描述的方式指出需要的时间使下降。我们多次重复此实验,以精确地测量时间,以使两次观测之间的偏差永远不会超过脉搏的十分之一。完成此操作并确保其可靠性后,我们现在只将球滚动到通道长度的四分之一处。在测量了下降时间之后,我们发现它恰好是前者的一半。接下来,我们尝试其他距离,将整个长度的时间与一半的时间,三分之二或四分之三的时间进行比较,或者对任何分数进行比较。在这样的实验中,重复了整整一百次,我们总是发现所遍历的空间彼此之间是时间的平方,这对于平面(即通道)的所有倾斜都是正确的。球。我们还观察到,对于飞机的各种倾斜度,下降时间正好相互精确地对应着该比率,如下所述,

为了测量时间,我们使用了一个放置在高处的大容器;在该容器的底部焊接一条小直径的管子,以产生一股细水流,在每次下降期间,无论是通道的整个长度还是部分长度,我们都将其收集在小玻璃杯中。每次下降后,对收集到的水进行精确称重;这些权重的差异和比率为我们提供了时间的差异和比率,其准确性很高,尽管多次重复了该操作,但结果之间没有明显的差异。

d=gt2,
dgtd0=1t0ditid0/diŤ02/Ť一世2
d0d一世=Ť02Ť一世2

注意他如何测量时间。它是如此的粗糙,以至提醒我这些天非自然科学如何衡量它们的变量,想到“客户满意度”或“效用”。他提到测量误差在单位时间的十分之一以内。

他是否包括所有相关变量?是他做的。现在,您必须了解所有物体都被重力吸引。因此,理论上要计算对球的精确作用力,必须将宇宙中的每个物体都添加到方程中。而且,更重要的是他没有包括表面阻力,空气阻力,角动量等。所有这些都影响他的测量吗?是。但是,它们与他正在研究的内容无关,因为他能够通过隔离正在研究的财产的影响来减少或消除其影响。

Ť2


他的时间测量方法有何粗俗之处?设置将有特定的速率,水将以这种速率离开大型容器并进入杯中。假设容器中盛有大量水,则该速度变化很小。更重要的是,在整个实验过程中,它将保持一致。考虑到当时他们没有秒表和精美的自动计时器,这实际上是一种非常优雅的方法。
JAB

@JAB,当然,仅与秒表或现代方式进行时间测量相比,这是粗略的。鉴于伽利略时代的时间测量技术水平,它非常优雅,这是完全正确的。但是,我要说的是,即使看似如此低的精度(间隔的1/10)仍然足以观察时间与距离之间的关系
Aksakal

@JAB是我最喜欢的物理学中荒谬的测量方法之一,它是Cherenkov如何发现他的辐射的。他会坐在黑暗的房间里,直到眼睛适应黑暗,然后他用光线打开或关闭孔,直到光线消失。他将记录有多少个洞被打开以检测辐射水平。显然,人眼可以检测到在少数光子中测得的光的差异!长3页。
阿克萨卡尔邦

6

为了使回归模型的假设完全成立,必须包括所有相关的预测变量。但是任何统计分析中的任何假设都不能完美地满足,并且许多统计实践都基于“足够接近”。

通过实验设计和适当的随机化,通常可以忽略模型中未包含的项的影响(假设随机化的机会相等)。但是,当无法完全随机化以解决模型中未包含的所有可能变量时,通常会使用回归,因此您的问题确实变得很重要。

几乎所有适合的回归模型都可能缺少一些潜在的预测因素,但是如果不作进一步澄清,“我不知道”将不允许在职统计学家继续工作,因此我们尽力而为,然后尝试找出两者之间的差异假设与现实之间的差异会影响我们的结果。在某些情况下,与假设的差异几乎没有什么不同,我们不必担心差异,但是在其他情况下,差异可能非常严重。

当您知道模型中可能没有相关的预测变量时,一种选择是进行敏感性分析。基于与未测量变量之间的潜在关系,这可以测量多少偏差。这篇报告:

Lin,DY和Psaty,BM和Kronmal,RA。(1998):在观察研究中评估回归结果对未测混杂因素的敏感性。Biometrics,54(3),9月,第948-963页。

给出了敏感性分析的一些工具(和示例)。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.