我正在尝试运行OLS回归:
DV:一年中体重的变化(初始体重-最终体重)
IV:您是否运动。
但是,较轻的人较重的人每运动一次会减轻更多的体重,这似乎是合理的。因此,我想包含一个控制变量:
- CV:初始起始重量。
但是,现在都使用初始权重来计算因变量AND作为控制变量。
这个可以吗?这是否违反了OLS的假设?
我正在尝试运行OLS回归:
DV:一年中体重的变化(初始体重-最终体重)
IV:您是否运动。
但是,较轻的人较重的人每运动一次会减轻更多的体重,这似乎是合理的。因此,我想包含一个控制变量:
但是,现在都使用初始权重来计算因变量AND作为控制变量。
这个可以吗?这是否违反了OLS的假设?
Answers:
要回答您的字面问题,“在测试自变量对变化得分的影响时,将基线测量值作为控制变量是否有效?”,答案是否定的。答案是否定的,因为通过构造,当将变化分数用作因变量时,基线分数与误差项相关联,因此基线对变化分数的估计影响是无法解释的。
使用
然后有一个模型在和上回归; Ť X
从定义上讲,它等效于;
现在,如果将基线作为协变量包括在内,则应该会看到一个问题,因为等式两边都有项。这表明是不可解释的,因为它与错误项有内在的联系。β 3 ÿ 1
现在,在各种答案的混乱的一部分似乎是由以下事实干,不同的车型将产生相同的结果对于治疗效果,在我上面的配方。因此,如果要比较使用变化得分作为因变量的模型的治疗效果与使用“水平”的模型(每个模型都包括基线作为协变量)进行比较,则对治疗效果的解释是相同。在遵循的两个模型中,将是相同的,基于它们的推论也将是相同的(Bruce Weaver 张贴了一些SPSS代码,也证明了等效性)。ý 1 β 1 Ť
因此,有些人会争论不休(就像Felix在该主题中所说的那样,以及Bruce Weaver在SPSS google小组上的一些讨论中所做的),因为这些模型可产生相同的估计治疗效果,因此选择哪一个均无关紧要。我不同意,因为无法解释变化评分模型中的基线协变量,因此您永远不应将基线作为协变量包括在内(无论估计的治疗效果是否相同)。因此,这就提出了另一个问题,将变化分数用作因变量有什么意义?正如Felix早已指出的那样,使用变化得分作为因变量的模型(不包括基线作为协变量)与使用水平的模型不同。为了澄清,后续模型将给出不同的治疗效果(特别是在治疗与基线相关的情况下);
这在现有文献中已被称为“领主悖论”。那么哪种模式是正确的?好吧,在随机实验的情况下,我会说“水平”模型是更可取的(尽管如果您对随机化做得很好,则模型之间的平均治疗效果应该非常接近)。其他人已经指出了为什么最好使用级别模型的原因,Charlie的回答很有意义,因为您可以估计级别模型中与基准的交互作用(但不能在变更得分模型中)。Whuber在回答这个非常相似的问题时证明了变化分数如何引起不同治疗之间的相关性。
在没有随机分配治疗的情况下,应更多考虑使用变化评分作为因变量的模型。变更评分模型的主要优点在于,可以随时控制结果的不变预测因子。可以这么说,在上述公式中,在整个时间内都是恒定的(例如,遗传倾向处于一定的体重),并且与个人是否选择锻炼相关(并且未被观察到)。在那种情况下,变化分数模型是可取的。同样,在治疗选择与基线值相关的情况下,变化评分模型可能更可取。保罗·艾里森(Paul Allison)在他的论文中,将变化分数作为回归分析中的因变量给出了相同的示例(并且在很大程度上影响了我对该主题的看法,因此我强烈建议您阅读)。
这并不是说更改分数在非随机设置中总是比较可取的。如果您希望基线对职位权重产生实际的因果影响,则应使用级别模型。如果您希望基线具有因果关系,并且对治疗的选择与基线相关,则将治疗效果与基线效果混淆。
我忽略了Charlie的注释,即权重的对数可以用作因变量。虽然我不怀疑这可能是一个可能性,它是有点不合逻辑的推论最初的问题。另一个问题讨论了何时使用变量的对数(在这种情况下仍然适用)。可能已有关于该主题的现有文献,可以帮助您指导使用体重计是否合适。
引文
Allison,Paul D.,1990年。在回归分析中将得分作为因变量。社会学方法论 20:93-114。公开PDF版本。
安迪的答案似乎是经济学家对事物的看法。临床试验中普遍接受的做法是几乎总是调整响应变量的基线版本,以大大提高功效。由于我们以基线变量为条件,因此没有“误差项”可将它们与整体误差项混淆。唯一的问题是,基线协变量中的测量误差是否与另一个X混淆,从而扭曲了其他X的影响。总体上首选的方法是调整基准并为响应变量建模,而不是计算更改。原因之一是更改很大程度上取决于是否正确地转换Y,并且该更改通常不适用于回归模型。例如,如果Y为序数,则两个序数变量之间的差不再为序数。
我们可以稍微更改@ocram的推理,使
因此,如果这是正确的模型,则说差异取决于权重就意味着最终值取决于初始值,而系数可能是任意值。对和的差值进行回归或对相同变量的最终权重进行回归,应该为除所有内容赋予相同的系数。但是,如果此模型不完全正确,则这些回归也会对其他系数产生不同的结果。
请注意,此设置暗示着起始体重可以预测体重的差异,而不是治疗的影响。这将需要一个交互项,可能是
另一种方法是计算 在这里,是重量的增长率。这可能是您的结果。您在系数将告诉您这些预测变量与体重比例变化之间的关系。这种“控制”初始体重的方法是,例如,对于130磅重的人,将体重减轻10%(系数乘以100的系数乘以100)可将体重减轻13%,而该程序可将体重减轻13%。 200磅参与者的体重减20磅。在这种情况下,您可能不需要在右侧包括初始重量(或其对数)。
如果您认为程序的影响取决于起始权重,则可能还需要一个交互项。如果在交互项中使用,则该程序将与的体重增长速率相关。一个人在程序开始时增加,其增长率的变化增加(这是相对于治疗和开始体重而言,期望值的交叉偏导数)。
如果在交互使用,则参与者在计划开始时每增加一磅,该计划的影响就会增加。
如您所见,交互术语的交叉部分可能难以解释,但它们可能会捕获您感兴趣的影响。
编辑:安迪·W(Andy W)的论点说服我放弃模型C。我添加了另一种可能性:使用随机系数模型(即多级模型或混合效应模型)分析变化
关于差异分数的使用,已经有许多科学辩论。我最喜欢的文本是Rogosa(1982,[1])和Fitzmaurice,Laird,&Ware(2004,[2])。
通常,您有三种分析数据的可能性:
如果基线与变化评分相关(例如,较重的人有更多的体重减轻),和/或治疗分配与基线相关,则模型A和B可以产生非常不同的结果。
如果您想了解更多有关这些问题的信息,请参阅引用的论文,或在此处和此处。
最近还进行了一项模拟研究[3],根据经验比较了A或B优先选用的条件。
对于没有缺失值的完全平衡设计,模型D应该等效于模型A。但是,它可以为您提供有关人际变异性的更多信息,可以轻松扩展到更多测量点,并且在存在不平衡数据的情况下具有良好的性能。和/或缺少值。
底线:在您的情况下,我将分析为基准控制的事后测量(模型B)。
[1] Rogosa,D.,Brandt,D.和Zimowski,M.(1982)。增长曲线法用于衡量变化。心理公报,92,726-748。
[2] Fitzmaurice,总经理,Laird,NM,以及Ware,JH(2004年)。应用纵向分析。新泽西州霍博肯:威利。
[3] Petscher,Y.和Schatschneider,C.,2011年。在随机实验设计中对简单差异和协方差调整分数的性能进行的模拟研究。教育测量杂志,48,31-43。
Laird, N. (1983). Further Comparative Analyses of Pretest-Posttest Research Designs. The American Statistician, 37, 329-330.
谁说B和C等效的?说什么?
有关此问题,请参见乔什·安格里斯特(Josh Angrist):http : //www.mostlyharmlesseconometrics.com/2009/10/adding-lagged-dependent-vars-to-differenced-models/。他在很大程度上反对将滞后的DV包括在您的模型中。除了上面的回答以外,他的回答没有其他内容,但是进一步简洁地回答您的问题可能会有所帮助。
Glymour等。(2005年)解决了分析变化得分时使用基线调整。如果健康状况的变化先于基线评估,或者因变量中存在较大的测量误差,则他们发现,如果使用变化得分作为因变量的回归模型包括基线协变量,则可能会出现偏差。弗兰克·哈雷尔(Frank Harrell)的回答“唯一的问题是,基线协变量中的测量误差是否与另一个X混淆,从而扭曲了其他X的影响。” 可能反映出与Glymour地址相同的偏见。
Glymour(2005)“基线调整何时可以用于分析变化?教育和认知变化的一个例子。美国流行病学杂志162:267-278
欧克朗是不正确的。重量差异不考虑初始重量。具体地,初始重量是通过减去初始重量而得到的。
因此,我认为如果您控制初始权重,它不会违反任何假设。
(如果您采用BMI与初始BMI之差,则适用相同的逻辑。)
更新
安迪·W公司的批评后,让我为什么我是正确的和错误的Ocram(至少从我的角度)更正式。
每个人的体重都有一定的绝对水平(例如,大约100磅而不是200磅)。令为绝对重量。
然后,可以将初始权重形式化为,最终权重形式化为
OP想要使用的dv因此为
换句话说,绝对权重水平(形式为)从表示dv的方程式中消失,因此不会污染它(这与Andy W的主张不同)。
如果要考虑到它,则需要将其分别合并到模型中(作为普通参数和/或作为交互项)。
显然,同样的逻辑适用于并且可以很容易地适应人们说的比例,例如: Ë 瓦特 = 一瓦特 * p - [R ö p Δ 瓦特
观察一下
相当于
换句话说,使用重量的变化(而不是最终重量本身)作为DV已经说明了初始重量。