用分类变量解释logit回归中的交互项

25

我从一项调查实验获得的数据中，将受访者随机分配到以下四个组之一：

> summary(df$Group)
       Control     Treatment1     Treatment2     Treatment3 
            59             63             62             66

尽管三个治疗组在施加的刺激方面确实略有不同，但我关心的主要区别是对照组和治疗组之间。所以我定义了一个虚拟变量Control：

> summary(df$Control)
     TRUE FALSE 
       59   191

在调查中，受访者（除其他外）被要求选择他们偏好的两件事中的哪一项：

> summary(df$Prefer)
      A   B  NA's 
    152  93   5

然后，在接受治疗组确定的刺激（如果不在对照组中则没有刺激）后，要求受访者在相同的两件事之间进行选择：

> summary(df$Choice)
  A    B 
149  101

我想知道三个治疗组之一的存在是否对受访者在最后一个问题中做出的选择有影响。我的假设是，接受治疗的受访者比接受治疗的可能性A更大B。

鉴于我正在使用分类数据，因此我决定使用logit回归（如果您认为这是不正确的，请随时鸣叫）。由于受访者是随机分配的，我的印象是我不一定需要控制其他变量（例如，人口统计学），因此我将那些变量留给了这个问题。我的第一个模型如下：

> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)

Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8366  -0.5850  -0.5850   0.7663   1.9235  

Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)           1.4819     0.3829   3.871 0.000109 ***
ControlFALSE         -0.4068     0.3760  -1.082 0.279224    
PreferA              -2.7538     0.3269  -8.424  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 239.69  on 242  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 245.69

Number of Fisher Scoring iterations: 4

我给人的印象是，拦截在统计上意义重大，并非具有可解释的含义。我认为也许我应该包括一个交互术语，如下所示：

> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)

Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.5211  -0.6424  -0.5003   0.8519   2.0688  

Coefficients:
                                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)                         3.135      1.021   3.070  0.00214 ** 
ControlFALSE                       -2.309      1.054  -2.190  0.02853 *  
PreferA                            -5.150      1.152  -4.472 7.75e-06 ***
ControlFALSE:PreferA                2.850      1.204   2.367  0.01795 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 231.27  on 241  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 239.27

Number of Fisher Scoring iterations: 5

现在，被调查者在治疗组中的身份已达到预期的效果。这是一组有效的步骤吗？如何解释交互作用术语ControlFALSE:PreferA？其他系数仍然是对数赔率吗？

— 皮格马利翁
source

在这里，我的回答是相关的： stats.stackexchange.com/questions/246873/...

— 的Kjetil b HALVORSEN

31

我假设当一个人偏爱A时PreferA = 1，否则偏爱0，ControlFALSE = 1（被治疗）和0（对照）。

当一个人以前没有这样做并且没有得到治疗（ControlFALSE = 0和PreferA = 0）时，给A的几率是，即有23个这样的人对每个这样的人更喜欢A首选B。因此A非常受欢迎。 $\exp(3.135)= 23$

治疗药物的作用是指一个人以前不喜欢A（PreferA = 0）。在那种情况下，基线赔率在接受治疗时降低了系数或。因此，对于先前曾被治疗且不喜欢A的人选择A的几率是，因此，每个喜欢B的人中有2.3个喜欢A的人。因此，在这一组中A仍然更受欢迎低于B，但低于未治疗/基线组。 $\exp(-2.309) = .099$ $(1-.099) \times 100\%=-90.1\%$ $.099*23=2.3$

优先选择A的效果以前是指作为控件的人（ControlFALSE = 0）。在这种情况下，如果以前有人喜欢A ，则基线几率降低了或。（因此，以前给予A的人现在这样做的可能性要小得多。这有意义吗？） $.006$ $-99.4\%$

交互作用比较了以前喜欢A和不喜欢A的人的治疗效果。如果一个人以前喜欢A（PreferA = 1），则治疗的优势比将增加倍。因此，以前喜欢A的人的治疗几率是。可替代地，对于先前喜欢A的那些人的这种治疗的优势比可以计算为。 $\exp(2.850) = 17.3$ $17.3 \times .099 = 1.71$ $\exp(2.850 - 2.309)$

因此，指数常数为您提供基准赔率，当其他变量等于0时，主要效应的指数系数为您提供比值比，而交互作用项的指数系数通过比值比变化来告诉您比率。

— 马丁·布伊斯（Maarten Buis）
source

谢谢Maarten，这对您和我其他相关问题的回答都非常有帮助。我只想在一点上澄清一下。正如我在另一个问题中提到的那样，我担心我在这里所做的操作的统计有效性，因为ControlFALSE在第一个模型中p值较高，而在第二个模型中p值较低，这是事实。将您对另一个问题的回答应用于该特定案例时，您说如果Control对一组产生负面影响而对另一组Prefer产生正面影响，则可能会发生这种情况。

— Pygmalion

（空间不足）这种解释在这里有意义吗？我不确定如何直接应用它。

— 皮格马利翁

的效果ControlFALSE在第一种模式是治疗效果都与一个首选和以前那些没有，而在第二个模型效果是只对那些谁不喜欢以前的治疗效果。这是否可以接受不是一个统计问题，但是这是否具有实质意义。

— Maarten Buis

@MaartenBuis很棒的解释。您将如何对估计的置信区间进行等值计算？为了便于解释，我通常将逻辑模型分层（例如，在本示例中为优先选择），并将交互作用术语用作“针对OR的显着差异的统计检验。这可以接受吗？”

— bobmcpop

2

我还发现本文有助于解释逻辑回归中的交互作用：

Chen JJ（2003）。交流复杂信息：多元逻辑回归分析中的统计交互作用的解释。美国公共卫生杂志，93（9），1376-1377。

— 深海
source

4

我已经提供了完整的参考资料（标题，作者，日期，期刊等），这意味着，如果链接地址发生更改，此贡献仍然有用。但是您可以扩展它以总结内容吗？否则，这实际上是评论，而不是答案-我们希望我们的答案是独立的，因此它们可以抵抗“链接腐烂”。或者，我们可以将其转换为您的评论。

— 银鱼

谢谢。我正在链接NCBI，所以我认为这很好。我同意这些更改。谢谢！

— deepseas

0

当试图解释逻辑回归中的交互作用时，我个人的偏好是查看分类变量的每种组合的预测概率。在您的情况下，这仅仅是4个概率：

偏好A，控制正确
偏好A，控制错误
偏好B，控制为真
偏好B，控制错误

当我有连续变量时，通常查看中位数，第一四分位数和第三四分位数的预测值。

尽管这不能直接理解每个系数，但我发现它经常使我（和我的客户）清楚地了解正在发生的事情。

— 彼得富勒姆-恢复莫妮卡
source