Answers:
通过示例最容易解释:
想象的研究发现,观看世界杯决赛的人比没有观看世界杯的人在比赛中或随后的24小时内心脏病发作的可能性更高。政府应该禁止电视转播足球吗?但是男人比女人更喜欢看足球,男人也比女人更容易心脏病。因此,看足球和心脏病发作之间的联系可以用诸如性别之类的第三个因素来解释。(社会学家将在这里区分性别(一种与看足球相关的文化结构)和性别,这是一种与心脏病发作相关的生物学类别,但是两者之间显然很相关,因此为了简单起见,我将忽略该区别。)
统计学家,特别是流行病学家,将第三个因素称为混杂因素,这种现象令人困惑。消除问题的最明显方法是分别看男女观看足球比赛和心脏病发作之间的关系,或者按术语将性别进行分层。如果我们发现两个性别的关联(如果仍然存在)相似,则可以选择合并两个性别之间的两个关联估计。然后说,观看足球和心脏病发作之间相关性的估计结果可以针对性别进行调整或控制。
我们可能还希望以相同的方式控制其他因素。年龄是另一个明显的年龄(实际上,流行病学家几乎按照年龄和性别对每个关联进行分层或调整/控制)。社会经济阶层可能是另一种。其他人可能会变得更棘手,例如,在观看比赛时我们应该调整啤酒消耗量吗?也许是的,如果我们对仅观看比赛的压力产生的影响感兴趣的话;但是也许不,如果我们正在考虑禁止广播世界杯足球赛,那也将减少啤酒的消耗。给定变量是否是混杂因素,恰好取决于我们希望解决的问题,这可能需要非常仔细的考虑,并且会变得非常棘手,甚至引起争议。
显然,我们可能希望针对多个因素进行调整/控制,其中一些因素可以在多个类别(例如社会阶层)中进行衡量,而其他因素则可以是连续的(例如年龄)。我们可以通过将(年龄)组划分为连续的组,从而将其转变为分类组来处理它们。假设我们有2个性别,5个社会阶层组和7个年龄组。现在,我们可以查看在2×5×7 = 70层中观看足球和心脏病发作之间的关联。但是,如果我们的研究规模很小,那么其中一些阶层只包含很少的人,那么我们将遇到这种方法的问题。实际上,我们可能希望调整一打或更多的变量。回归分析提供了另一种调整/控制变量的方法,该方法在变量很多时特别有用具有多个因变量的方法,有时也称为多变量回归分析。(根据结果变量的类型,有不同类型的回归模型:最小二乘回归,逻辑回归,比例风险(Cox)回归...)。与实验相反,在观察性研究中,我们几乎总是想对许多潜在的混杂因素进行调整,因此在实践中,混杂因素的调整/控制通常是通过回归分析来完成的,尽管还有其他替代方法,例如标准化,加权,倾向性等。得分匹配...
Onestop很好地解释了这一点,我将给出一个简单的R例子,其中包含数据。假设x为体重,y为身高,我们想知道男性和女性之间是否存在差异:
set.seed(69)
x <- rep(1:10,2)
y <- c(jitter(1:10, factor=4), (jitter(1:10, factor=4)+2))
sex <- rep(c("f", "m"), each=10)
df1 <- data.frame(x,y,sex)
with(df1, plot(y~x, col=c(1,2)[sex]))
lm1 <- lm(y~sex, data=df1)
lm2 <- lm(y~sex+x, data=df1)
anova(lm1); anova(lm2)
您可以看到,在不控制体重的情况下(在anova(lm1)中),性别之间的差异很小,但是当体重作为协变量包括在内(在lm2中进行了控制)时,这种差异会变得更加明显。
#In case you want to add the fitted lines to the plot
coefs2 <- coef(lm2)
abline(coefs2[1], coefs2[3], col=1)
abline(coefs2[1]+coefs2[2], coefs2[3], col=2)