中度回归:为什么我们要计算预测变量之间的*乘积*项?


12

在社会科学中,经常使用适度的回归分析来评估两个或多个预测变量/协变量之间的相互作用。

通常,使用两个预测变量,将应用以下模型:

Y=β0+β1X+β2M+β3XM+e

请注意,适度性测试通过乘积项(自变量X和缓和变量M的乘积)进行运算。我的根本问题是:为什么我们实际上要计算XM之间的乘积项?心动不如行动,例如,绝对差| M X | 还是X M的总和?XMXMXM|MX|X+M

有趣的是,肯尼(Kenny)在这里http://davidakenny.net/cm/moderation.htm暗示了这个问题,他说:“正如所看到的那样,对适度的测试并不总是通过产品术语XM来进行”,但是没有给出进一步的解释。 。我猜/希望有一个正式的例证或证明是有启发性的。

Answers:


12

“主持人”影响X的回归系数:随着主持人值的变化,它们可能会发生变化。因此,从总体上看,适度的简单回归模型为YX

E(Y)=α(M)+β(M)X

其中β是主持人M的函数,而不是不受M值影响的常数。αβMM

在其中回归是建立在一个同样的精神线性近似的关系的ÿ,我们可能希望两个αβ是-至少约-的线性函数中号贯穿的值的范围中号在数据:XYαβMM

E(Y)=α0+α1M+O(M2)+(β0+β1M+O(M2))X=α0+β0X+α1M+β1MX+O(M2)+O(M2)X.

删除非线性项(“ big-O”),希望它们太小而无所谓,从而提供了乘法(双线性)交互模型

(1)E(Y)=α0+β0X+α1M+β1MX.

这个推导表明的系数的一个有趣的解释: 是所述速率中号改变截距β 1是所述速率中号改变斜率。(α 0β 0是斜率和截距时中号是(正式)设定为零。) β 1是“产品术语”的系数中号X。它以这种方式回答了这个问题:α1Mβ1Mα0β0Mβ1MX

MXMY X


X(1)

E(Y)=α0+β0X+α1M+β1MX+α2M2+β2M2X.

α2=β2=0α2β2(1)Mα20β20f(X,M)


β1β2MXM2X


8

如果使用预测变量的总和来建模它们的交互,则等式为:

Y=β0+β1X+β2M+β3(X+M)+e=β0+β1X+β2M+β3X+β3M+e=β0+(β1+β3)X+(β2+β3)M+e=β0+β1X+β2M+e

β1=β1+β3β2=β2+β3

回忆一下绝对值的定义:

|XM|={XM,XMMX,X<M

β0+β1X+β2M+β3|XM|+eXM|XM|


1
|XM|Mβ2

1
|XM|

@Milos:您关于预测变量总和的示例令人大开眼界,有些令人尴尬,我必须说,因为我应该已经意识到数学含义;)wuber:据我所知,绝对值仅是有用的当两个预测变量以相同单位进行度量时(例如,使用相同的度量标准(例如z得分或T得分)进行两次心理测验)。X和M之间的绝对差是有用的度量,尽管不是唯一可能的度量(即,也可以使用prodcut术语)。
分母

6

f(X,M)

f(X,M)=f(0,0)+f(0,0)TT+f(0,0)MM+2f(0,0)TMTM+2f(0,0)2T2T2+2f(0,0)2M2M2

f(X,M)=β0+βXX+βMM+βXMXM

f(X,M)=β0+βXX+βMM+βXMXM

因此,此处的基本原理是,这种特殊的乘法形式基本上是一般调节关系二阶泰勒近似。f(X,M)

g(X,M)=b0+bXX+bMM+bXMXM+bX2X2+bM2M2
g(X,M)=b0+bXX+bMM+bXMXM+bX2X2+bM2M2

g(X,M)f(X,M)


X2M2βXM

@whuber,我决定保留简短的帖子-这是主要原因。否则,我开始写我的喜好,每当有交叉项时就包括二阶项,然后删去。
阿克萨卡尔邦
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.