在测试自变量对变化得分的影响时,将基线测量值作为控制变量是否有效?


38

我正在尝试运行OLS回归:

  • DV:一年中体重的变化(初始体重-最终体重)

  • IV:您是否运动。

但是,较轻的人较重的人每运动一次会减轻更多的体重,这似乎是合理的。因此,我想包含一个控制变量:

  • CV:初始起始重量。

但是,现在都使用初始权重来计算因变量AND作为控制变量。

这个可以吗?这是否违反了OLS的假设?


4
治疗是随机分配的吗?
Andy W

1
请注意,最近也询问了另一个非常相似的状态stats.stackexchange.com/q/15104/1036。该问题的答案适用于该问题(实际上,我会说它们是重复的问题)。
安迪W

3
@Andy实际上,这两个问题足够不同,因此我给这个问题的答案与我给另一个问题的答案不同。查理在这里已经给出了很好的分析。
ub

3
请注意,使用差异评分通常会导致可靠性大幅降低,尽管对此存在一些争议
Behacad 2013年

Answers:


25

要回答您的字面问题,“在测试自变量对变化得分的影响时,将基线测量值作为控制变量是否有效?”,答案是否定的。答案是否定的,因为通过构造,当将变化分数用作因变量时,基线分数与误差项相关联,因此基线对变化分数的估计影响是无法解释的。

使用

  • Y1作为初始重量
  • Y2作为最终重量
  • Δ Ŷ = ý 2 - ÿ 1ΔY作为重量变化(即)ΔY=Y2Y1
  • T作为随机分配的治疗,并且
  • X是影响体重的其他外在因素(例如,与结果相关但由于随机分配而与治疗无关的其他控制变量)

然后有一个模型在和上回归; Ť XΔYTX

ΔY=β1T+β2X+e

从定义上讲,它等效于;

Y2Y1=β1T+β2X+e

现在,如果将基线作为协变量包括在内,则应该会看到一个问题,因为等式两边都有项。这表明是不可解释的,因为它与错误项有内在的联系。β 3 ÿ 1Y1β3Y1

Y2Y1=β1T+β2X+β3Y1+eY2=β1T+β2X+β3Y1+(e+Y1)

现在,在各种答案的混乱的一部分似乎是由以下事实干,不同的车型将产生相同的结果对于治疗效果,在我上面的配方。因此,如果要比较使用变化得分作为因变量的模型的治疗效果与使用“水平”的模型(每个模型都包括基线作为协变量)进行比较,则对治疗效果的解释是相同。在遵循的两个模型中,将是相同的,基于它们的推论也将是相同的(Bruce Weaver 张贴了一些SPSS代码,也证明了等效性)。ý 1 β 1 Ťβ1TY1β1T

Change Score Model:Y2Y1=β1T+β2X+β3Y1+eLevels Model:Y2=β1T+β2X+β3Y1+e

因此,有些人会争论不休(就像Felix在该主题中所说的那样,以及Bruce Weaver在SPSS google小组上的一些讨论中所做的),因为这些模型可产生相同的估计治疗效果,因此选择哪一个均无关紧要。我不同意,因为无法解释变化评分模型中的基线协变量,因此您永远不应将基线作为协变量包括在内(无论估计的治疗效果是否相同)。因此,这就提出了另一个问题,将变化分数用作因变量有什么意义?正如Felix早已指出的那样,使用变化得分作为因变量的模型(不包括基线作为协变量)与使用水平的模型不同。为了澄清,后续模型将给出不同的治疗效果(特别是在治疗与基线相关的情况下);

Change Score Model Without Baseline:Y2Y1=β1T+β2X+eLevels Model:Y2=β1T+β2X+β3Y1+e

这在现有文献中已被称为“领主悖论”。那么哪种模式是正确的?好吧,在随机实验的情况下,我会说“水平”模型是更可取的(尽管如果您对随机化做得很好,则模型之间的平均治疗效果应该非常接近)。其他人已经指出了为什么最好使用级别模型的原因,Charlie的回答很有意义,因为您可以估计级别模型中与基准的交互作用(但不能在变更得分模型中)。Whuber在回答这个非常相似的问题时证明了变化分数如何引起不同治疗之间的相关性。

在没有随机分配治疗的情况下,应更多考虑使用变化评分作为因变量的模型。变更评分模型的主要优点在于,可以随时控制结果的不变预测因子。可以这么说,在上述公式中,在整个时间内都是恒定的(例如,遗传倾向处于一定的体重),并且与个人是否选择锻炼相关(并且未被观察到)。在那种情况下,变化分数模型是可取的。同样,在治疗选择与基线值相关的情况下,变化评分模型可能更可取。保罗·艾里森(Paul Allison)在他的论文中,XXX将变化分数作为回归分析中的因变量给出了相同的示例(并且在很大程度上影响了我对该主题的看法,因此我强烈建议您阅读)。

这并不是说更改分数在非随机设置中总是比较可取的。如果您希望基线对职位权重产生实际的因果影响,则应使用级别模型。如果您希望基线具有因果关系,并且对治疗的选择与基线相关,则将治疗效果与基线效果混淆。

我忽略了Charlie的注释,即权重的对数可以用作因变量。虽然我不怀疑这可能是一个可能性,它是有点不合逻辑的推论最初的问题。另一个问题讨论了何时使用变量的对数(在这种情况下仍然适用)。可能已有关于该主题的现有文献,可以帮助您指导使用体重计是否合适。


引文

Allison,Paul D.,1990年。在回归分析中将得分作为因变量社会学方法论 20:93-114。公开PDF版本


3
在方程如果按照标准惯例,我们假设所有协变量都不是随机变量,则与不相关。因此,我认为,如果您将视为随机变量,这只是一个问题,在这种情况下(仅根据我的观点),您应该联合建模,而不作为协变量。在这方面,没有丢失数据,我被告知该方法等效于是固定的协变量(我将尝试为此找到一些参考)。Y2=β1T+β2X+β3Y1+(e+Y1)Y1e+Y1Y1(Y1,Y2)Y1Y1
dandar 2015年

1
@dandar,那句话对我来说没有意义。注意,是的预处理值结果,这不是在实验中被操纵的变量。您是说如果我具有基准值,然后进行一个实验,然后测量,那么我应该根据实验干预对和吗?Y 1 Y 2 Y 1 Y 2Y1Y1Y2Y1Y2
安迪W

1
我正在谈论的模型确实暗示是治疗的函数,但仅是从以下观点出发:尽管随机化,治疗组和对照组之间在基线均值上总是会有细微的差异。因此将捕获这种差异以及治疗效果。对此的参考是(Zeger和Liang,2000年的“用于后期设计的连续和离散响应的纵向数据分析”)。 β 1Y1β1
dandar 2015年

1
可以在以下文章中找到对本文的清晰讨论(Liu,Mogg,Malrick和Mehrotra于2009年发表的文章“在临床试验中从基线变化分析中基线是协变量还是因变量?”)。他们将此模型称为无条件模型(即,它不以基线响应为条件)。在Liu(2009)的论文中,他们讨论了Zeger(2000)论文的主要结果。首先是在没有缺失数据的情况下,无条件模型的的点估计与使用后基准线的ANCOVA的有条件方法的点估计相同B1
dandar

1
测量作为响应,并以固定的基准值为条件,其次,ANCOVA模型的点估计方差始终大于或等于无条件模型的点估计方差。事实证明,由于随机化确保组之间的基线均值响应较小,因此这种方差差异通常较小。作者得出的结论是,无条件模型适合于将基线建模为随机变量,但将ANCOVA视为固定变量时则适合。
dandar 2015年

21

安迪的答案似乎是经济学家对事物的看法。临床试验中普遍接受的做法是几乎总是调整响应变量的基线版本,以大大提高功效。由于我们以基线变量为条件,因此没有“误差项”可将它们与整体误差项混淆。唯一的问题是,基线协变量中的测量误差是否与另一个X混淆,从而扭曲了其他X的影响。总体上首选的方法是调整基准并为响应变量建模,而不是计算更改。原因之一是更改很大程度上取决于是否正确地转换Y,并且该更改通常不适用于回归模型。例如,如果Y为序数,则两个序数变量之间的差不再为序数。


1
我不完全理解这个答案。“调整基线”是什么意思?采取差异,还是控制它?
亨里克

3
“针对基线进行调整”是指将基线作为协变量。使用变更分数也是很常见的,但是如果不对基线进行协变量调整就不能使用它们(因此为什么要烦恼变更分数?)。
Frank Harrell

6
实际上,您在此处所说的任何内容(或针对Felix的评论)都与我所说的直接冲突。使用变化评分并不能“针对基线进行调整”,它可以在任何时间控制不变的遗漏变量(或者是否选择治疗与基线高度相关)。如果基线是不可忽视的(即,基线对结果有直接因果关系或与治疗有相互作用),则改变分数不能解决问题。
Andy W

2
@Frank Harrell感谢您加入讨论并澄清这一点。(+1)
Henrik

8

我们可以稍微更改@ocram的推理,使

E[w1w0X,w0]=β0+xβ+w0γE[w1X,w0]=β0+xβ+w0(γ+1)

因此,如果这是正确的模型,则说差异取决于权重就意味着最终值取决于初始值,而系数可能是任意值。对和的差值进行回归或对相同变量的最终权重进行回归,应该为除所有内容赋予相同的系数。但是,如果此模型不完全正确,则这些回归也会对其他系数产生不同的结果。xw0w0

请注意,此设置暗示着起始体重可以预测体重的差异,而不是治疗影响。这将需要一个交互项,可能是

E[w1w0X,w0]=β0+(xw0)β+w0γ.

另一种方法是计算 在这里,是重量的增长率。这可能是您的结果。您在系数将告诉您这些预测变量与体重比例变化之间的关系。这种“控制”初始体重的方法是,例如,对于130磅重的人,将体重减轻10%(系数乘以100的系数乘以100)可将体重减轻13%,而该程序可将体重减轻13%。 200磅参与者的体重减20磅。在这种情况下,您可能不需要在右侧包括初始重量(或其对数)。

log(w1)log(w0)r;
rx

如果您认为程序的影响取决于起始权重,则可能还需要一个交互项。如果在交互项中使用,则该程序将与的体重增长速率相关。一个人在程序开始时增加,其增长率的变化增加(这是相对于治疗和开始体重而言,期望值的交叉偏导数)。w0w0β1β1

如果在交互使用,则参与者在计划开始时每增加一磅,该计划的影响就会增加。log(w0)β1/w0

如您所见,交互术语的交叉部分可能难以解释,但它们可能会捕获您感兴趣的影响。


嗨,查理,我看到了使用比例更改的好处,但是为什么您会发现所记录变量的差异,而不是将w1除以w0。
ChrisStata 2011年

我喜欢比例变化的想法。然而,问题仍然存在,即预期的交互作用在字面上是否成比例。如果没有,您仍然需要将初始权重作为协变量。还是您确定对于100或200磅的人来说,减轻10%的体重同样困难吗?
亨里克(Henrik)

@ChrisStata,您也可以这样做。我是经济学家,我们确实喜欢我们的日志(也有区别)。如果每个人都有一个时间序列(即多个观察值)(建立一个面板数据集),我可以说我的方法更好,但这与本文无关。亨里克,你是对的;我在回答中添加了一些关于此的内容。
查理

8

编辑:安迪·W(Andy W)的论点说服我放弃模型C。我添加了另一种可能性:使用随机系数模型(即多级模型或混合效应模型)分析变化

关于差异分数的使用,已经有许多科学辩论。我最喜欢的文本是Rogosa(1982,[1])和Fitzmaurice,Laird,&Ware(2004,[2])。

通常,您有三种分析数据的可能性:

  • A)仅取个人差异分数(变更分数)
  • B)将后期测量值视为DV,并将其控制为基线
  • C)将差异分数作为DV,并将其控制为基线(这是您建议的模型)。由于Andy W的争论,我放弃了这种选择
  • D)使用多层次/混合效应模型方法,其中为每个参与者建模回归线,并将参与者视为2级单位。

如果基线与变化评分相关(例如,较重的人有更多的体重减轻),和/或治疗分配与基线相关,则模型A和B可以产生非常不同的结果。

如果您想了解更多有关这些问题的信息,请参阅引用的论文,或在此处此处

最近还进行了一项模拟研究[3],根据经验比较了A或B优先选用的条件。

对于没有缺失值的完全平衡设计,模型D应该等效于模型A。但是,它可以为您提供有关人际变异性的更多信息,可以轻松扩展到更多测量点,并且在存在不平衡数据的情况下具有良好的性能。和/或缺少值。

底线:在您的情况下,我将分析为基准控制的事后测量(模型B)。

[1] Rogosa,D.,Brandt,D.和Zimowski,M.(1982)。增长曲线法用于衡量变化。心理公报,92,726-748。

[2] Fitzmaurice,总经理,Laird,NM,以及Ware,JH(2004年)。应用纵向分析。新泽西州霍博肯:威利。

[3] Petscher,Y.和Schatschneider,C.,2011年。在随机实验设计中对简单差异和协方差调整分数的性能进行的模拟研究。教育测量杂志,48,31-43。


我已经否决了这个答案,您可以看到我对为什么我认为不应将基线作为协变量的变化得分的回答。综上所述,即使您配方中的B型和C型产生相同的治疗效果,也不意味着C型是可取的。实际上,模型C中的基线效应是无法解释的,因此我认为不应使用它。
安迪W

@AndyW:您的论点使我信服;尽管在两个模型中对治疗效果的最相关的估计都是相同的,但模型B优于模型C。我相应地调整了答案。但是您对Laird, N. (1983). Further Comparative Analyses of Pretest-Posttest Research Designs. The American Statistician, 37, 329-330.谁说B和C等效的?说什么?
Felix S

我认为我所说的任何内容都不与Laird文章相抵触。基本上,我的抱怨是(用Laird的符号表示)是无法解释的,所以为什么要报告它(等效性不成问题)。莱尔德(Laird)的确对基线协变量效应如何解释为单个治疗组是否不变的假设提出了其他意见(尽管仍然对此持批评态度)。随意用有用的情况来反驳我的观点(在我们解释回归系数的正常方式中,肯定是没有用的)。b¯b¯
Andy W

关于模型D的一点。我想知道为什么不只考虑模型D。它是最一致的(基线值是随机变量,没有被强制为因变量),它简单,非常灵活(交互可以加上),并提供总体的标准偏差。
giordano


3

Glymour等。(2005年)解决了分析变化得分时使用基线调整。如果健康状况的变化先于基线评估,或者因变量中存在较大的测量误差,则他们发现,如果使用变化得分作为因变量的回归模型包括基线协变量,则可能会出现偏差。弗兰克·哈雷尔(Frank Harrell)的回答“唯一的问题是,基线协变量中的测量误差是否与另一个X混淆,从而扭曲了其他X的影响。” 可能反映出与Glymour地址相同的偏见。

Glymour(2005)“基线调整何时可以用于分析变化?教育和认知变化的一个例子。美国流行病学杂志162:267-278


1

欧克朗是不正确的。重量差异考虑初始重量。具体地,初始重量是通过减去初始重量而得到的。

因此,我认为如果您控制初始权重,它不会违反任何假设。

(如果您采用BMI与初始BMI之差,则适用相同的逻辑。)


更新
安迪·W公司的批评后,让我为什么我是正确的和错误的Ocram(至少从我的角度)更正式。

每个人的体重都有一定的绝对水平(例如,大约100磅而不是200磅)。令为绝对重量。 然后,可以将初始权重形式化为,最终权重形式化为aw
iw=awew=aw+Δw

OP想要使用的dv因此为Δw=iwew=awaw+Δw=Δw

换句话说,绝对权重水平(形式为)从表示dv的方程式中消失,因此不会污染它(这与Andy W的主张不同)。aw

如果要考虑到它,则需要将其分别合并到模型中(作为普通参数和/或作为交互项)。

显然,同样的逻辑适用于并且可以很容易地适应人们说的比例,例如: Ë 瓦特 = 瓦特 * p - [R ö p Δ 瓦特ΔBMJew=awpropΔw


当我说差异要考虑初始权重时,这就是我的实际意思。现在,具体来说,您会写什么?最终重量-初始重量= ...?
ocram 2011年

如我所写,您的论点对我来说似乎是错误的。我认为,实际上结束重取初始重量更考虑,因为它是在相同的“规模”,而diffeence被“重新缩放”(作为结束的重量,因此一些绝对值从anoher减去absoulte值。
亨里克(Henrik)

(-1)这是不正确的。通常,您不应该在方程的右侧和左侧都包含相同的变量(因为这会导致自变量与误差项相关)。因此,如果对因变量使用差异,则不应将基线作为协变量包括在内。
Andy W

@安迪·W:我知道你的论点在原则上是正确的。但是我的观点是,您可能会偏出绝对值(通过用基线减去终点值),从而消除这种相关性。因此,将其添加为协变量不会导致这种虚假​​错误相关性。
亨里克(Henrik)

@Henrik,请参阅我对这个问题的回答,以及为什么我仍然认为这种观点被误导了。
安迪W

0

观察一下

end weightinitial weightY=β0+βTx

相当于

end weight=initial weight+β0+βTx

换句话说,使用重量的变化(而不是最终重量本身)作为DV已经说明了初始重量。


1
但是我猜想,在训练后,初始体重和减肥之间可能存在相互作用。假设一个身高为1,90m体重为70kg的成年人和一个身高1,60m且体重为90kg的成年人参加了相同的训练练习。我敢打赌后者会减轻体重。再想一想:也许体重指数比单纯的体重更好。
xmjx 2011年

1
@xmjx:如果您认为初始权重会影响最终权重-并且您可能是对的-那么将其作为偏移量引入模型中是个好主意,因为它在这里完成了……
ocram

3
一般来说不正确。如果基线权重的斜率不是1.0,则对变化的分析将不等同于最终权重的分析,除非两个模型中都使用了初始权重并且您使用的是普通回归。如果基线权重在两个地方,则该模型实际上更难以解释,因此坚持这种方法的原因尚不清楚。
Frank Harrell
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.