分类变量和连续变量之间相互作用的解释系数


10

我对连续变量和分类变量之间的相互作用系数的解释有疑问。这是我的模型:

model_glm3=glm(cog~lg_hag+race+pdg+sex+as.factor(educa)+(lg_hag:as.factor(educa)), 
               data=base_708)

Coefficients:
                         Estimate Std. Error t value Pr(>|t|)    
(Intercept)               21.4836     2.0698  10.380  < 2e-16 ***
lg_hag                     8.5691     3.7688   2.274  0.02334 *  
raceblack                 -8.4715     1.7482  -4.846 1.61e-06 ***
racemexican               -3.0483     1.7073  -1.785  0.07469 .  
racemulti/other           -4.6002     2.3098  -1.992  0.04687 *  
pdg                        2.8038     0.4268   6.570 1.10e-10 ***
sexfemale                  4.5691     1.1203   4.078 5.15e-05 ***
as.factor(educa)2         13.8266     2.6362   5.245 2.17e-07 ***
as.factor(educa)3         21.7913     2.4424   8.922  < 2e-16 ***
as.factor(educa)4         19.0179     2.5219   7.541 1.74e-13 ***
as.factor(educa)5         23.7470     2.7406   8.665  < 2e-16 ***
lg_hag:as.factor(educa)2 -21.2224     6.5904  -3.220  0.00135 ** 
lg_hag:as.factor(educa)3 -19.8083     6.1255  -3.234  0.00129 ** 
lg_hag:as.factor(educa)4  -8.5502     6.6018  -1.295  0.19577    
lg_hag:as.factor(educa)5 -17.2230     6.3711  -2.703  0.00706 ***

可以说模型的方程为:

E [cog] = a + b1(lg_hag)+ b2(educa2 * lg_hag)+ b3(educa3 * lg_hag)+ b4(educa4 * lg_hag)+ b5(pdg,居中)+其他变量

b1 = difference in cog  with higher lg_hag among lowest education (coded as 1)
b1 + b2 = difference in cog with higher lg_hag among middle education (coded as 2)
b1 + b3 = difference in cog with higher lg_hag among high education (coded as 3)
b1 + b3 = difference in cog with higher lg_hag among very high education (coded as 4)
b5 = difference in cog with each unit increase in pdg

我的问题是:如果我的解释正确,那么如何根据b1和b2的置信区间来构造每个交互作用效果估计的置信区间(例如:b1 + b2)。


不是很熟悉,怎么办,在河中SAS想你可以通过声明“估计”得到的结果,是指support.sas.com/documentation/cdl/en/statug/63033/HTML/default/...
boomean

Answers:


8

您对模型系数的解释并不完全准确。首先让我总结一下模型的术语。

分类变量(因素): [R一个CËsËXËdüC一个

该因子race有四个级别:race={white,black,mexican,multi/other}

该因素sex有两个层次:sex={male,female}

该因子educa有五个级别:educa={1个2345}

默认情况下,R对分类变量使用处理对比。在这些对比中,将因子的第一个值用作参考水平,并针对参考测试其余值。分类变量的最大对比数等于级别数减一。

对比race允许测试以下差异: [R一个CË=b一个Cķ vs[R一个CË=wH一世ŤËrace=mexican vs.race=whiterace=multi/other vs.race=white

对于因素 ËdüC一个,参考水平是 1个,对比的模式是相似的。这些影响可以解释为因变量的差异。在您的示例中,的平均值cog13.8266 的单位较高 ËdüC一个=2 相比 ËdüC一个=1个as.factor(educa)2)。

一个重要的注意事项:如果模型中存在分类变量的处理对比,则如果还包括其他效果和分类变量之间的交互作用,则进一步效果的估计将基于分类变量的参考水平。如果变量不是交互作用的一部分,则其系数对应于该变量子集沿所有其余类别变量的各个斜率的平均值。的影响[R一个CËËdüC一个对应于其他变量的因子水平的平均效果。测试整体效果[R一个CË,您需要离开 ËdüC一个sËX 超出模型。

数值变量: G_H一个GpdG

两个lg_hagpdg是数值变量因此系数表示与增加的相关联的依赖性变量的变化1个 在预测变量中。

原则上,这些影响的解释很简单。但是请注意,如果存在交互关系,则系数的估计基于因素的参考类别(如果采用治疗对比)。以来pdG不是相互作用的一部分,它的系数与变量的平均斜率对应。变量G_H一个G 也是与之互动的一部分 ËdüC一个。因此,其效果适用于ËdüC一个=1个,基本级别。它不是对数字变量的整体影响的检验G_H一个G 无论因素的水平如何。

分类变量和数字变量之间的相互作用: G_H一个G×ËdüC一个

该模型不仅包括主要影响,而且还包括数值变量之间的相互作用 G_H一个G 以及与之相关的四个对比 ËdüC一个。这些影响可以解释为坡度的差异G_H一个G 在一定水平之间 ËdüC一个 和参考水平(ËdüC一个=1个)。

例如,lg_hag:as.factor(educa)2-21.2224)的系数表示G_H一个G21.2224 降低了 ËdüC一个=2 相比 ËdüC一个=1个


“这些相互作用系数也保持race=whitesex=male唯一。” 你确定吗?我问是因为这两个术语都race没有sex相互作用lg_hag×educa……我正在看几本书,但没有明确指出这一点。
landroni 2015年

2
@landroni斜率估计对于其中全部剩余的预测等于0的点
斯文海恩斯坦

是的,这也是我的理解。所有其他预测变量均保持不变,这意味着因素固定在其基线水平。但是,这其中有我的难题:我看过几本书,似乎大部分掩盖了这个微妙但影响深远的细微差别。此外,论文经常“按行业进行控制”,但仍得出结论,好像系数在整个样本中是无条件的一样,而不是仅仅指出这仅适用于基线水平。另请参见:stats.stackexchange.com/questions/146665/ …
landroni 2015年

1
“如果模型中存在分类变量的处理对比,则进一步效果的估计将基于分类变量的参考水平。” 经过进一步考虑,我不相信(或者我不完全遵循您的观点)。您似乎暗示,例如,β的估计pdg取决于参考水平,显然不是这种情况。如果我更改任何因素的参考水平(例如sex),则估计值pdg不会改变...
landroni 2015年

1
@landroni感谢您指出。您是对的,该说法具有误导性。实际上,它只适用于预测变量,这些预测变量也是带有分类变量的交互项的一部分。因此,的估计pdg确实取决于对比度的规格。我将相应地修改答案。
Sven Hohenstein
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.