有多个类别变量时对Beta的解释


18

我理解是分类变量等于0(或参考组)时的均值的概念,最终解释为回归系数是两个类别的均值之差。即使有> 2个类别,我也会假设每个解释该类别的均值和参考之间的差异。β^0β^

但是,如果将更多变量引入多变量模型,该怎么办?现在,截距是什么意思,意味着它不能作为两个分类变量的参考?例如性别(M(参考)/ F)和种族(白人(参考)/黑人)都在模型中。是平均仅为白人男性?一个人如何解释其他可能性?β^0

作为单独的注释:对比声明是否可作为一种方法来研究效果修改?还是只是看到不同级别的效果()?β^


作为术语,“多变量”是指多个响应变量,而不是多个预测变量(请参见此处)。另外,我不关注您的最后一个问题。
gung-恢复莫妮卡

感谢您的澄清。正确使用语言对我很重要!我想我根本不知道为什么要使用对比声明,因为总是可以将引用变量设置为与之相对的参考变量?
Renee 2014年

1
我想您可以继续使用不同的参考水平重新拟合模型。我不确定这是否更方便。使用对比,您还可以指定一组正交对比或理论上隐含的对比(A与B&C的组合)进行测试。
gung-恢复莫妮卡

Answers:


19

当存在一个具有级别的分类变量时,您对Beta的解释是正确的。如果存在多个类别变量(并且没有交互项),则截距()是构成两个(所有)类别变量的参考级别的组的平均值。使用您的示例场景,考虑没有交互的情况,那么beta是: ķβ 0β^0

  • β^0:白人男性的均值
  • β^FË一种Ë:女性平均值和男性平均值之间的差异
  • β^一种Cķ:黑人平均值与白人平均值之间的差异

我们还可以从如何计算各种组均值的角度来考虑:

x¯White Males=β^0x¯White Females=β^0+β^Femalex¯Black Males=β^0+β^Blackx¯Black Females=β^0+β^Female+β^Blacķ

如果您有一个互动词,则它将在黑人女性方程式的末尾添加。(这种交互作用术语的解释相当复杂,但是我在这里详细介绍:交互作用术语的解释。)


更新:为了阐明我的观点,让我们考虑一个用编写的罐头示例R

d = data.frame(Sex  =factor(rep(c("Male","Female"),times=2), levels=c("Male","Female")),
               Race =factor(rep(c("White","Black"),each=2),  levels=c("White","Black")),
               y    =c(1, 3, 5, 7))
d
#      Sex  Race y
# 1   Male White 1
# 2 Female White 3
# 3   Male Black 5
# 4 Female Black 7

在此处输入图片说明

y这些分类变量的含义是:

aggregate(y~Sex,  d, mean)
#      Sex y
# 1   Male 3
# 2 Female 5
## i.e., the difference is 2
aggregate(y~Race, d, mean)
#    Race y
# 1 White 2
# 2 Black 6
## i.e., the difference is 4

我们可以将这些均值之间的差异与拟合模型的系数进行比较:

summary(lm(y~Sex+Race, d))
# ...
# Coefficients:
#             Estimate Std. Error  t value Pr(>|t|)    
# (Intercept)        1   3.85e-16 2.60e+15  2.4e-16 ***
# SexFemale          2   4.44e-16 4.50e+15  < 2e-16 ***
# RaceBlack          4   4.44e-16 9.01e+15  < 2e-16 ***
# ...
# Warning message:
#   In summary.lm(lm(y ~ Sex + Race, d)) :
#   essentially perfect fit: summary may be unreliable

关于这种情况要认识的是,没有交互作用项,我们假设平行线。因此,Estimate对于(Intercept)是白人男性的平均值。该EstimateSexFemale是平均女性和男性平均之间的差异。该EstimateRaceBlack是平均黑人和白人均值之间的差异。同样,因为没有交互作用项的模型假设效果严格相加(线是严格平行的),所以黑人女性的均值等于白人男性的均值加上女性均值和男性均值之差再加上黑人平均值与白人平均值之间的差异。


谢谢!非常清楚且有帮助。最后,您提到了互动条款。如果执行交互项,那么这将如何更改beta(意味着交互项模型中的新beta)?我知道交互作用项的p值很重要,但是交互作用项beta有有意义的解释吗?再次感谢你的帮助!
Renee

1
β^FË一种ËX¯w ^H一世ŤË 中号一种ËX¯w ^H一世ŤË FË一种Ë

说得通。谢谢!&它是从没有交互项的模型中更改的,因为交互项可以改善主要效果?意思是说,如果没有相互作用,则主效应项理论上是相同的吗?
Renee

如果相互作用效应恰好为0(到无限小数位),则不仅在总体中,而且在您的样本中,在没有相互作用项的模型中,主效应beta都是相同的。
gung-恢复莫妮卡

1
@ hans0l0,这是一个新问题,胜于注释中包含的信息;您可以链接到此以获得上下文。简而言之,它是所有连续变量均为= 0时参考水平的平均值。
gung-恢复莫妮卡

6

β^0β^

如果我们稍微扩展一下示例,将种族类别(例如Asian)包括在第三级,并选择White作为参考,那么您将:

  • β^0=X¯w ^H一世ŤË
  • β^一种Cķ=X¯一种Cķ-X¯w ^H一世ŤË
  • β^一种s一世一种ñ=X¯一种s一世一种ñ-X¯w ^H一世ŤË

β^

  • X¯一种s一世一种ñ=β^一种s一世一种ñ+β^0

不幸的是,在有多个类别变量的情况下,对截距的正确解释不再那么清楚了(请参阅最后的注释)。当存在n个类别时,每个类别具有多个级别和一个参考级别(例如,您的示例中为WhiteMale),则拦截的一般形式为:

β^0=一世=1个ñX¯[RËFË[RËñCË一世-ñ-1个X¯
X¯[RËFË[RËñCË一世 是第i个分类变量的参考水平的平均值,
X¯ 是整个数据集的平均值

β^

如果回到您的示例,我们将得到:

  • β^0=X¯w ^H一世ŤË+X¯中号一种Ë-X¯
  • β^一种Cķ=X¯一种Cķ-X¯w ^H一世ŤË
  • β^一种s一世一种ñ=X¯一种s一世一种ñ-X¯w ^H一世ŤË
  • β^FË一种Ë=X¯FË一种Ë-X¯中号一种Ë

β^

β^β^0 β^一种Cķ β^一种s一世一种ñβ^FË一种Ë

数值实例

让我从@Gung借用一个固定的数值示​​例:

d = data.frame(Sex=factor(rep(c("Male","Female"),times=3), levels=c("Male","Female")),
    Race =factor(rep(c("White","Black","Asian"),each=2),levels=c("White","Black","Asian")),
    y    =c(0, 3, 7, 8, 9, 10))
d

#      Sex  Race  y
# 1   Male White  0
# 2 Female White  3
# 3   Male Black  7
# 4 Female Black  8
# 5   Male Asian  9
# 6 Female Asian 10

β^

aggregate(y~1,  d, mean)

#          y
# 1 6.166667

aggregate(y~Sex,  d, mean)

#      Sex        y
# 1   Male 5.333333
# 2 Female 7.000000

aggregate(y~Race, d, mean)

#    Race   y
# 1 White 1.5
# 2 Black 7.5
# 3 Asian 9.5

我们可以将这些数字与回归结果进行比较:

summary(lm(y~Sex+Race, d))

# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)   0.6667     0.6667   1.000   0.4226
# SexFemale     1.6667     0.6667   2.500   0.1296
# RaceBlack     6.0000     0.8165   7.348   0.0180
# RaceAsian     8.0000     0.8165   9.798   0.0103

β^β^0

β^0=X¯w ^H一世ŤË+X¯中号一种Ë-X¯
1.5 + 5.333333 - 6.166667
# 0.66666

注意对比度的选择

β^

β^CØñŤ[Rsüβ^CØñŤ[Rsü

  • β^0CØñŤ[Rsü=X¯
  • β^一世CØñŤ[Rsü=X¯一世-X¯

如果我们回到前面的示例,您将具有:

  • β^0CØñŤ[Rsü=X¯
  • β^w ^H一世ŤËCØñŤ[Rsü=X¯w ^H一世ŤË-X¯
  • β^一种CķCØñŤ[Rsü=X¯一种Cķ-X¯
  • β^一种s一世一种ñCØñŤ[Rsü=X¯一种s一世一种ñ-X¯
  • β^中号一种ËCØñŤ[Rsü=X¯中号一种Ë-X¯
  • β^FË一种ËCØñŤ[Rsü=X¯FË一种Ë-X¯

β^CØñŤ[Rsü

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.