为什么居中的自变量可以适度改变主效应?


28

受这个CV线程的启发,我有一个与多元回归和交互相关的问题:使用中心变量分层回归分析的交互项?我们应该集中哪些变量?

在检查调节效果时,我将我的自变量居中并乘以居中的变量,以计算出交互项。然后,我进行回归分析,并检查主要影响和相互作用影响,这可能表明存在中度影响。

如果我重做分析而没有居中,则确定系数(R2)显然不会改变,而回归系数(β)会改变。这似乎很清楚而且合乎逻辑。

我不了解的是:主要效果的p值会随着居中而发生实质性变化,尽管交互作用并没有(正确)。因此,我对主要影响的解释可能会发生巨大变化-取决于是否居中。(在两次分析中,它仍然是相同的数据!)

有人可以澄清吗?-因为那将意味着使变量居中的选项是强制性的,因此每个人都应该这样做以使用相同的数据获得相同的结果。


非常感谢您分发该问题以及您的全面解释。请放心,非常感谢您的帮助!

对我来说,居中的最大优势是避免多重共线性。建立规则是否居中仍然令人困惑。我的印象是,尽管这样做有一些“风险”,但大多数资源都建议以中心为中心。我再次想指出一个事实,两位处理相同材料和数据的研究人员可能得出不同的结果,因为一个人居中而另一个人居中。我刚刚读过Bortz(他曾是德国和欧洲的教授,并且是统计之星)的书的一部分,他甚至没有提到这种技术。只是指出在涉及变量时要特别注意解释变量的主要作用。

毕竟,当您使用一个IV,一个主持人(或第二个IV)和DV进行回归时,您是否建议居中?


5
我几乎从不使用居中,发现它完全不必要且令人困惑。
Frank Harrell

3
再次仔细阅读答案。将自变量居中或应用任何线性变换(如果正确绘制),结论都不会改变。由于不居中而引起的多重共线性是一个纯粹的数字问题,任何合适的软件都会自动处理。
Scortchi-恢复莫妮卡

1
stats.stackexchange.com/questions/28730/…所述,这种现象(p值变化)可以理解为相互作用的二次性质的结果
ub

Answers:


23

在没有交互项的模型中(即,没有构造为其他项的乘积的项),每个变量的回归系数是回归表面在该变量方向上的斜率。它是恒定的,与变量的值无关,因此可以说是衡量该变量的整体效果。

在具有交互作用的模型中,可以仅对不涉及任何交互作用的那些变量进行进一步解释,而无需进行进一步的限定。对于涉及相互作用的变量,“主效应”回归系数(即变量本身的回归系数)是当所有其他变量均满足时,回归表面在该变量方向上的斜率与该变量交互具有零值,并且系数的显着性检验是指仅在预测变量空间的那个区域中回归曲面的斜率。由于不需要在该空间的该区域中实际存在数据,因此主效应系数可能与实际观察到数据的预测器空间的区域中的回归表面的斜率几乎没有相似之处。

用方差分析来说,主效应系数类似于简单的主效应,而不是总的主效应。此外,它可以指的是在方差分析设计中什么是空单元格,其中通过从单元格中推断数据来提供数据。

为了测量变量的总体效果,该变量类似于方差分析中的总体主效果,并且不会外推到观察到数据的区域之外,我们必须查看回归表面在变量方向上的平均斜率,其中平均值超过实际观察到的N个案例。该平均斜率可以表示为模型中所有涉及变量的项的回归系数的加权和。

权重很难描述,但易于获得。变量的主效应系数始终获得1的权重。对于涉及该变量的一项的其他系数,权重是该项中其他变量乘积的平均值。例如,如果我们有五个“原始”变量x1, x2, x3, x4, x5,加上四个双向交互(x1,x2), (x1,x3), (x2,x3), (x4,x5),以及一个三个交互(x1,x2,x3),则模型为

y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5 +
    b12*x1*x2 + b13*x1*x3 + b23*x2*x3 + b45*x4*x5 +
    b123*x1*x2*x3 + e

总体的主要影响是

B1 = b1 + b12*M[x2] + b13*M[x3] + b123*M[x2*x3],

B2 = b2 + b12*M[x1] + b23*M[x3] + b123*M[x1*x3],

B3 = b3 + b13*M[x1] + b23*M[x2] + b123*M[x1*x2],

B4 = b4 + b45*M[x5],

B5 = b5 + b45*M[x4],

其中M [。]表示括号内数量的样本均值。括号内的所有乘积项都是为了进行回归而构造的,因此,回归程序应该已经了解它们,并且应该能够根据要求打印其均值。

在仅具有主要作用和双向交互作用的模型中,有一种更简单的方法来获得整体作用:将原始变量居中[1]。这应在计算乘积项之前完成,而不要对乘积进行。然后,所有M [。]表达式都将变为0,并且回归系数将被解释为总体效果。b的值将改变;B的值不会。仅需要将交互所涉及的变量居中,但将其他测量变量居中通常不会造成任何伤害。使变量居中的一般效果是,除了更改截距之外,它还仅更改与居中变量交互的其他变量的系数。特别是,它不会更改任何涉及中心变量的项的系数。在上面给出的示例中,居中x1将更改b0,b2,b3和b23。

[1-不同人使用“居中”的方式恰好足以引起混乱。如此处所用,“将变量以#为中心”表示从变量的所有分数中减去#,将原始分数转换为与#的偏差。]

那么,为什么不总是始终以手段为中心呢?三个原因。首先,无中心变量的主效应系数本身可能是令人感兴趣的。在这种情况下居于中心会适得其反,因为它会改变其他变量的主效应系数。

第二,居中将使所有M [。]表达式均为0,从而仅在没有三向或更高交互作用的模型中将简单效果转换为总体效果。如果模型包含此类交互,则即使所有变量均以其均值为中心,也必须执行b-> B计算。

第三,以诸如平均值之类的值为中心,该值是由预测变量的分布而不是合理选择的值所定义的,这意味着受中心影响的所有系数都将特定于您的特定样本。如果您以均值为中心,那么如果某人想要获得与您获得的系数相同的值,则尝试复制您的研究的人必须以您的均值而不是他们自己的均值为中心。解决该问题的方法是将每个变量的中心位置取决于变量的合理选择的中心值,该中心值取决于得分的含义,而不取决于得分的分布。但是,b-> B的计算仍然是必需的。

总体效果的显着性可以通过测试回归系数线性组合的常规方法进行测试。但是,必须谨慎解释结果,因为总体效果不是结构参数而是取决于设计。在预测变量分布的变化下,结构参数-回归系数(无中心或有中心的中心)和误差方差可能会保持不变,但是总体效果通常会发生变化。总体影响是特定于特定样本的,不应预期会延续到预测变量上具有不同分布的其他样本。如果一项研究的总体效果显着,而另一项研究没有,则可能仅反映了预测变量分布的差异。


10

β

y=β1x1+β2x2+β3x1x2+ϵβ1x1β3x1x2x1x1x2β

ββ1yx1 x2=0x1yx2β1x2

βx1yx2yx1x2


-1

我一直在为同样的问题而疯狂,但是我终于找到了解决您和我的问题的方法。这完全与您如何计算中心变量有关。有两个选项:
1.平均-个人变量2.个人变量-平均
您可能将中心变量计算为(个人变量-平均值),因此,值较低的那些将获得负分数,而值较高的那些将获得正值。分数。
我将通过一个示例进行说明,以使其更易于理解。我想看看肌肉力量如何影响骨骼质量,并且想考虑性别对女孩和男孩的影响是否不同。这个想法是,肌肉力量越高,骨量越大。因此,我有:

因变量:骨骼质量自变量:性别,肌肉力量,interaction_SEX_MUSCLE强度。

当我发现多重共线性(通常在有一个交互作用项时会这样做)时,我将肌肉强度(MEAN –个人变量)居中,并使用新的中心变量创建了新的交互作用项。我的系数是

常数:0.902
性别:(-0.010男孩= 0;女孩= 1)
中心肌肉:-0.023
交互作用:0.0002
因此,如果您要估算男孩的骨质量,则将具有以下等式:
骨质量=0.902(00.010)(0.023musclecentredvalue)+(Interaction0.0002)

综上所述,您可能认为肌肉对骨骼有负面影响,但是您必须考虑居中变量,而不是原始变量。假设该组的平均肌肉力量为30 KG。并且您想估算一个男孩(WEAKBOY)20 KG和另一个男孩(STRONGBOY)的骨骼质量40KG。WEAKBOY的中心值为(MEAN GROUP VALUE –个人值; 30 – 20 = 10),而STRONGBOY的中心值为-10。将这些值应用于方程式:

WEAKBOY骨骼质量= 0.902 – 0 –(0.023 * 10)+ .... = 0.672

坚硬的男孩骨质量= 0.902 –(0.023 *(-10))+ ... = 1.132

如您所见,STRONGBOY确实具有更强的骨骼。如果以另一种方式使变量居中:(INDIVIDUAL-MEAN),则所有系数将相同,但符号将不同。这是因为当您应用居中变量WEAKBOY将为(-10),而STRONGBOY将为(+10)。因此,最终结果将完全相同。

一旦理解,一切都变得有意义。

希望这个例子足够清楚。


此错误不会解释p值的变化。顺便说一句,您的选项(1)不在居中,因为它还包括将值乘以一个常数。(常数为-1。)
更糟
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.