在观察性(即非随机)研究中控制非独立协变量有多大问题?


11

Miller和Chapman(2001)认为,在观察性(非随机)研究中,控制与独立变量和因变量相关的非独立协变量绝对是不合适的,即使这在社会科学中是常规进行的。这样做有多大问题?如何解决这个问题的最佳方法是什么?如果您在自己的研究中例行控制观察性研究中的非独立协变量,那么您如何证明它合理?最后,在与同事争论方法论时(例如,这真的很重要),这值得一战吗?

谢谢

Miller,GA和Chapman,JP(2001)。对协方差的误解。异常心理学杂志,110,40-48。- http://mres.gmu.edu/pmwiki/uploads/Main/ancova.pdf


在上面的上下文中,以下有关“多重共线性的直观解释”的问题可能会有帮助。

Answers:


4

这与相关程度一样成问题。

具有讽刺意味的是,如果与这些变量之一没有任何预期的相关性,您就不会费心控制。而且,如果您希望自己的独立变量会影响您的因变量,那么它必定与两者都有一定的关联。但是,如果它们之间具有高度相关性,则也许您不应该对其进行控制,因为它等同于控制实际的自变量或因变量。


我知道这是一个旧答案,但是您是否有一些参考资料更详细地说明了这一点。您的第一行,尤其是那些明确提及Miller&Chapman的讨论行?
jona 2015年

4

在社会科学中,我们经常将此问题称为“后处理偏见”。如果您正在考虑某种治疗的效果(您的自变量),包括治疗后产生的变量(因果关系),那么您对治疗效果的估计可能会产生偏差。如果包括这些变量,那么从某种意义上说,您就是在控制治疗的影响。如果处理T导致结果Y,而其他变量A和A导致Y,则控制A会忽略T通过A对Y的影响。此偏差可以是正的或负的。

在社会科学中,这可能特别困难,因为A可能导致T反馈给A,而A和T都引起Y。例如,高GDP可能导致高水平的民主化(我们的待遇),从而导致更高的国内生产总值,更高的国内生产总值和更高的民主化程度都可以减少政府腐败。由于GDP会导致民主化,因此,如果我们不能控制民主,那么就会出现内生性问题或“遗漏变量偏差”。但是,如果我们控制国内生产总值,那么我们就有后处理偏见。除了在可能的情况下使用随机试验之外,我们没有什么其他办法可以操纵Scyla和Charybdis之间的船。加里·金谈到了这些问题,他的提名哈佛的“重未解的问题在社会科学”的倡议在这里


3

如我所见,观察研究存在两个“控制”许多自变量的基本问题。1)您的问题在于缺少解释变量,从而导致模型规格不正确。2)您有多个相关的独立变量的问题-在(精心设计的)实验中不存在的问题-以及协变量的回归系数和ANCOVA检验基于分项的事实,使它们难以解释。第一个是观察性研究的本质所固有的,并且是在科学背景和竞争性阐述过程中解决的。后者是一个教育问题,它依赖于对回归模型和ANCOVA模型的清晰理解,以及这些系数的确切含义。

关于第一个问题,很容易证明,如果对某个因变量的所有影响都是已知的并包含在模型中,则控制的统计方法是有效的,并且可以很好地预测和估计各个变量的影响。“软科学”的问题在于,几乎所有相关影响都很少被包括,甚至不为人所知,因此这些模型的规范性很差,难以解释。然而,在这些领域中存在许多有价值的问题。答案只是缺乏确定性。科学过程的美丽在于它是自我纠正的,并且对模型进行了质疑,阐述和完善。另一种选择是建议我们在无法设计实验时无法科学地研究这些问题。

第二个问题是ANCOVA和回归模型本质上的技术问题。分析人员需要弄清楚这些系数和检验代表什么。自变量之间的相关性影响回归系数和ANCOVA检验。他们是局部测试。这些模型取出与模型中所有其他变量关联的给定自变量和因变量的方差,然后检查这些残差中的关系。结果,在对包括的全部变量及其相互关系的清晰概念理解的上下文之外,很难解释各个系数和检验。但是,这不会产生任何预测问题-谨慎解释特定的测试和系数。

旁注: 当将其他预测变量引入模型时,后一个问题与本论坛先前讨论的关于回归符号反转(例如,从负到正)的问题有关。在存在相关的预测变量的情况下,如果没有清楚地了解整个预测变量集之间的多重和复杂关系,则没有理由期望回归回归系数具有特定的符号。当有很强的理论和对这些相互关系的清楚理解时,这种符号“逆转”将具有启发性并在理论上有用。不过,我希望,鉴于许多社会科学问题的复杂性,对它们的充分理解将是不普遍的。

免责声明: 我是经过培训的社会学家和公共政策分析师。


2

我阅读了他们论文的第一页,所以我可能误解了他们的观点,但是在我看来,他们基本上是在讨论在分析中包括多共线性自变量的问题。他们以年龄和等级为例说明了这个想法,因为他们指出:

年龄与学校的年级密切相关,以至于消除与年龄相关的篮球能力差异会消除与年级相关的篮球能力的相当大(也许几乎所有)差异

ANCOVA是线性回归,其水平表示为虚拟变量,协变量也显示为回归方程式中的自变量。因此,除非我误解了他们的观点(这很可能是因为我还没有完全阅读他们的论文),否则似乎他们在说“不包括因变量”,这等同于避免使用多重共线性变量。


他们的论点并不涉及相关变量本身,而是实际上彼此不可分割的变量。几乎可以说“如果没有这个意义,它就毫无意义”的变量。而不是可以通过统计学方式评估的相关程度,这个问题需要在概念上加以解决。等级可以增加而不增加年龄吗?几乎不。抑郁会加剧而又不会增加焦虑吗?那比较难。
rolando2 2015年

1

最大的问题是,由于组变量和协变量一起位于等式的预测变量侧,因此组变量不再是组变量,因此它们是那些协变量被偏出的变量,因此不再可识别或解释为您认为正在研究的组变量。大问题。

关键点在第45页上,“ ANCOVA从“组”中删除了有意义的差异,留下了一个未表征的,残留的残余组变量,与该组所代表的结构之间存在不确定的关系”。

我目前的解决方案是将协变量从DV中分出一部分,然后将DV残差提交给常规ANOVA,以替代使用ANCOVA。


2
但这和ancova一样吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.