固定效应模型,随机效应模型和混合效应模型之间有什么区别?


266

用简单的话说,您将如何解释(也许用简单的例子)固定效应模型,随机效应模型和混合效应模型之间的区别?


3
我还发现有时很难确定何时必须将一种效果视为固定效果或随机效果。尽管对此事实有一些建议,但并非总是容易做出正确的决定。
曼努埃尔·拉蒙(ManuelRamón)2010年

3
我认为该链接可能有助于阐明混合模型的基本原理:固定模型,随机模型和混合模型(SAS文档)
pietrop 2013年

6
在这里也可以找到一个非常有用的答案:随机效应模型,混合效应模型和边际模型之间有什么区别?
gung

Answers:


144

统计学家安德鲁·盖尔曼 Andrew Gelman)表示,“固定效应”和“随机效应”这两个词的含义取决于谁使用它们。也许您可以选择5个定义中的哪一个适用于您的案例。通常,最好是找到描述作者正在使用的概率模型的方程式(在阅读时),或者写出您要使用的完整概率模型(在编写时)。

在这里,我们概述了我们已经看到的五个定义:

  1. 固定效应在每个人中都是不变的,而随机效应则各不相同。例如,在成长研究中,具有随机截距和固定斜率对应于不同个体平行线,或者模型。因此,Kreft和De Leeuw(1998)区分固定系数和随机系数。 b i y i t = a i + b taibiyit=ai+bt

  2. 如果效果本身很有趣,则效果是固定的;如果对基础人群感兴趣,则效果是随机的。Searle,Casella和McCulloch(1992,第1.4节)深入探讨了这种区别。

  3. “当样本用尽人口时,相应的变量是固定的;当样本只占人口的一小部分(即微不足道)时,相应的变量是随机的。”(Green和Tukey,1960年)

  4. “如果假设效应是随机变量的实现值,则称为随机效应。”(LaMotte,1983年)

  5. 固定效应是用最小二乘方(或更一般地说是最大似然)来估计的,而随机效应是用收缩来估计的(Robinson,1991年术语“线性无偏预测”)。该定义是多层次建模文献(例如,参见Snijders和Bosker,1999,第4.2节)和计量经济学的标准定义。

[ 盖尔曼(Gelman),2004年,方差分析-为什么它比以往任何时候都重要。统计年鉴。]


4
+1:非常好的链接!我想这个定义也因领域而异(例如,#4是非常数学/统计的,但是从生命科学的角度来看,#1和#2更“容易理解”)
nico 2010年

12
阅读本文的“讨论和重新加入”也很有帮助。在讨论中,彼得·麦卡拉(Peter McCullagh)写道,他不同意盖尔曼的大部分著作。我的观点不是赞成彼此,而是要指出专家之间存在很大分歧,并且不要在一篇论文上强调过多。
2012年

6
整个讨论都在链接上
Julieth

36
有趣的是,安德鲁·盖尔曼被描述为“博客”,而不是当今世界上最重要的统计学家之一。尽管他当然是博客作者,但如果使用任何限定词,他可能也应该被称为“统计学家Andrew Gelman”。
垃圾平衡

4
但是,作为一名统计学家,而不仅仅是一位花哨的博客作者,他应该至少对这五种案例的使用采用主观相对频率。当人们谈论固定效果与随机效果时,大多数时候是指:(4) “If an effect is assumed to be a realized value of a random variable, it is called a random effect.” (LaMotte, 1983)
Ufos

252

有关于这方面的好书,如盖尔曼和希尔。以下本质上是他们观点的总结。

首先,您不应该太习惯术语。在统计中,术语绝不能用来代替对模型本身的数学理解。对于随机和混合效果模型尤其如此。“混合”仅表示模型具有固定效应和随机效应,因此让我们关注固定效应和随机效应之间的区别。

随机效应与固定效应

假设您有一个带有分类预测变量的模型,该模型根据类别值将观察结果分成几组。*与该预测变量相关的模型系数或“效果”可以是固定的或随机的。两者之间最重要的实际区别是:

随机效应是通过部分合并估计的,而固定效应则不是。

局部池化意味着,如果一个组中的数据点很少,则该组的效果估计将部分基于其他组中更丰富的数据。在通过完全合并所有组来估计效果(掩盖组级差异)与完全单独估计所有组的效果(可能对低样本组给出较差的估计)之间,这可能是一个很好的折衷方案。

随机效应只是作为通用统计模型的部分合并技术的扩展。这使该思想在原则上适用于多种情况,包括多个预测变量,混合的连续变量和分类变量以及复杂的相关结构。(但强大的权力带来了重大的责任:建模和推理的复杂性大大增加,并且可能引起细微的偏差,需要避免一些复杂性。)

要激发随机效应模型,请问自己:为什么要部分合并?可能是因为您认为小的子组是某个较大的组的一部分,具有共同的均值效应。子组均值可以与大组均值稍有偏离,但不能任意偏离。为了使这个想法正式化,我们假设偏差遵循一个分布,通常是高斯分布。这就是随机效应的“随机性”出现的地方:我们假设子组与父级的偏差遵循随机变量的分布。一旦有了这个想法,混合效应模型方程就会自然地遵循。

不幸的是,混合效应模型的用户通常对什么是随机效应以及它们与固定效应的区别有错误的认识。人们听到“随机”的声音,并认为这意味着正在建模的系统非常特别,例如当“固定”某物时必须使用固定效果,而当“随机采样”某物时则必须使用随机效果。但是,关于模型系数来自分布的假设并没有特别的随机性。这只是一个软约束,类似于2岭回归中的模型系数应用惩罚。在许多情况下,您可能会或可能不想使用随机效果,并且它们与“固定”和“随机”之间的区别不一定有太大关系

不幸的是,这些术语引起的概念混乱导致大量冲突的定义。在此链接的五个定义中,通常情况下,只有#4完全正确,但也完全没有信息意义。您必须阅读整篇论文和书籍(否则,本博文)才能理解该定义在实际工作中的含义。

让我们看一下随机效应建模可能有用的情况。假设您要通过邮政编码估算美国平均家庭收入。您有一个庞大的数据集,其中包含对家庭收入和邮政编码的观察。一些邮政编码在数据集中可以很好地表示,但是其他邮政编码只有几个家庭。

对于您的初始模型,您很可能会采用每个ZIP的平均收入。当您有大量的ZIP数据时,这将很好地工作,但是对采样差的ZIP的估算将遭受较大的方差。您可以使用收缩估算器(也称为部分池化)来缓解这种情况,该估算器会将极值推向所有邮政编码中的平均收入。

但是,对于特定的ZIP,您应该进行多少收缩/合并处理?直观上,它应取决于以下内容:

  1. 您在该ZIP中有多少个观测值
  2. 您总体上有多少个观察
  3. 所有邮政编码中家庭收入的个人水平均值和方差
  4. 所有邮政编码中家庭平均收入的组级方差

如果将邮政编码建模为随机效应,则考虑到上述所有因素,所有邮政编码中的平均收入估算值将受到统计上充分的缩减。

最好的部分是,随机效应模型和混合效应模型会自动处理模型中所有随机效应的(4)变异性估计。这比乍看之下要难:您可以尝试每个ZIP的样本均值方差,但这会偏高,因为针对不同ZIP的估算之间的某些方差只是抽样方差。在随机效应模型中,推理过程会考虑抽样方差,并相应地缩小方差估计值。

考虑到(1)-(4),随机/混合效应模型能够为低样本组确定适当的收缩率。它还可以处理具有许多不同预测变量的更为复杂的模型。

与分层贝叶斯建模的关系

如果您听起来像分层贝叶斯建模,那您是对的-它是近亲,但不完全相同。混合效果模型是分层的,因为它们可以存储潜在的,未观察到的参数的分布,但是它们通常不完全是贝叶斯方法,因为不会为顶级超参数提供适当的先验。例如,在上面的示例中,我们很可能会将给定ZIP中的平均收入视为来自正态分布的样本,其均值和sigma未知,将通过混合效应拟合过程进行估计。但是,(非贝叶斯)混合效应模型通常不会在未知均值和西格玛上具有先验值,因此它不是完全贝叶斯模型。就是说,对于一个体面大小的数据集,标准混合效果模型和完全贝叶斯变体通常会给出非常相似的结果。

*尽管该主题的许多处理方法都集中在“组”的狭义定义上,但该概念实际上非常灵活:它只是一组具有共同属性的观察结果。一个组可以由对一个人,一个学校中的多个人或一个地区中的多个学校的多个观察值组成,或者一种水果的多种变体,同一收获或多次收获的多种蔬菜组成种类相同的蔬菜等。任何类别变量都可以用作分组变量。


19
+6。我认为这是目前该主题中的最佳答案,并希望随着时间的推移它将成为最受欢迎的答案。我建议的一个建议是包括一些公式:也许在您的“示例”部分中,您可以提供指定固定效应模型和随机效应模型(也可能是“单系数”模型,即具有“完全合并”的模型)的公式。 ”)。我认为公式可以使您的答案更加清晰,更具吸引力/吸引力(目前看起来有点像一堵墙)。
变形虫

3
@amoeba谢谢!您认为系数是错误的单词是正确的,它更像是“模型项”而不是系数。公式将有助于清除此问题和其他问题。随着时间和灵感的到来,我一直在慢慢调整这个答案,并将继续这样做,直到到达需要的地方!我可能会充实“针对单个类别变量的回归”的公式。完全合并=组系数相同(德尔塔先验,零西格玛),部分合并=它们可以有所不同(有限西格玛),无合并=无约束(无限西格玛)。
保罗

感谢您的好评!但是,我在“您可以通过使用收缩估计器(也称为部分池)来减轻这种情况而迷失了,这将使所有邮政编码上的极值推向平均收入”。什么是部分池?您能举一个直观的例子吗?另外,关于随机效果的Wikipedia页面如何与您所说的一致?他们的“随机效应”示例并未考虑样本量。
AlphaOmega

2
恭喜您通过了100票赞成票:-)
amoeba

1
@Paul我真的很难理解如何合并这个答案(例如,“人们...认为...当某物被“固定”时必须使用固定效果,而当某物被“随机采样”时必须使用随机效果) ”),我看到的是在混合模型中出现标准误差的方式,在我看来,具有随机效应的SE仅与对随机抽样的假设一致,而具有固定效应的SE仅在固定的情况下才具有固定效应。例如在这里。我想念的是什么?任何想法都超出言语了!
justme

47

我已经在关于混合模型的一本书中对此进行了撰写(Fox,Negrete-Yankelevich和Sosa 2014的第13章);相关页面(第311-315页)可在Google图书中找到。我认为问题可以归结为“固定效应和随机效应的定义是什么?” (“混合模型”只是包含两者的模型)。在我的讨论中,关于它们的正式定义(我将引用上面@JohnSalvatier的答案所链接的Gelman论文)的内容略少,而更多地讨论了它们的实用属性和实用性。以下是一些摘录:

当某些观察结果相关时,传统的随机效应观点是进行正确的统计检验的一种方法。

我们还可以将随机效应视为一种组合分组变量中不同级别信息的一种方式。

当我们具有(1)多个级别(例如,许多物种或块),(2)每个级别上相对较少的数据(尽管我们需要大多数级别的多个样本)以及(3)不均匀时,随机效应特别有用跨级别抽样(方框13.1)。

频繁主义者和贝叶斯主义者对随机效应的定义有些不同,这影响了他们的使用方式。频繁的人将随机效应定义为类别变量,其级别是从较大的人群中随机选择的,例如,从特有物种列表中随机选择的物种。贝叶斯将随机效应定义为变量集,这些变量的参数全部来自[相同]分布。经常性的定义在哲学上是连贯的,您会遇到坚持这一定义的研究人员(包括审阅者和主管),但这实际上是有问题的。例如,这意味着当您在现场观察到所有物种时,您不能将物种用作随机效应-因为物种列表不是来自更大种群的样本-或将年份用作随机效应,由于研究人员很少在随机抽样的年份中进行实验-他们通常使用一系列连续的年份或进入该领域的随机年份。

随机效应也可以描述为预测变量,您可以在其中对值的分布进行推断(即,不同级别的响应值之间的差异),而不是测试特定级别之间的值差异。

人们有时会说随机效应是“您不感兴趣的因素”。并非总是如此。虽然在生态实验中经常发生这种情况(地点之间的变异通常仅是令人讨厌的事情),但有时它引起人们的极大兴趣,例如在进化研究中,基因型之间的变异是自然选择的原材料,或在人口统计学研究中年间差异会降低长期增长率。在某些情况下,固定效果还用于控制无趣的变化,例如,使用质量作为协变量来控制体型的影响。

您还将听到“关于条件模式的(预测)值,您什么也不能说。”这也不是正确的-您无法正式检验该值等于零的零假设,或两个不同级别的值相等,但查看预测值,甚至计算预测值的标准误差仍然非常明智(例如,请参见图13.1中条件模式周围的误差线)。

species_meanN(genus_mean,σspecies2)

我在上面说过,当分组变量具有许多测量水平时,随机效应最有用。相反,当分组变量的级别太小时,随机效果通常无效。当分组变量的级别少于五个级别时,您通常不能使用随机效果,而少于八个级别时,随机效果方差估计值是不稳定的,因为您正试图从很小的样本中估计方差。


预览目前在311之后没有显示任何页面,并且错过了p 310,这似乎在这里很有用……

也许是地区性问题?无论如何,感谢您的清晰回答!
2015年

1
我也无权访问Google图书搜索结果。感谢您在此处添加文字。
MichaelChirico

我真的很喜欢这个摘录。这可能是关于何时以及为什么使用我见过的随机效果的最清晰,最有用的描述。希望我在几年前教书的时候得到它。
格雷戈尔

39

固定的效果:实验者直接操作的东西,通常是可重复的,例如,给药-一组服用药物,一组服用安慰剂。

随机效应:随机变化/实验单位的来源,例如,从人群中随机抽取的个体用于临床试验。随机效应估计变异性

混合效应:包括这两种情况,在这些情况下,固定效应是估计人群水平系数,而随机效应可解释对效应的个体差异,例如,每个人在不同情况下同时接受药物和安慰剂,固定效果评估药物的效果,随机效果术语将使每个人对药物的反应不同。

混合效果的一般类别-重复测量,纵向,分层,分割图。


3
您的观点没错,但是您对固定效果的定义并不是我在有人说固定效果时会想到的。当有人说固定效果en.wikipedia.org/wiki/Difference_in_differences或此stata.com/support/faqs/stat/xtreg2.html(尤其是Stata页面上的等式3)时,这就是我的想法
Andy W

@AndyW:我是否正确理解您对什么“固定效果”的理解对应于Gelman列出的#1定义,并在该主题的JohnSalvatier(已接受)的答案中引用了该定义?
变形虫

1
ai

1
ai

1
@amoeba我同意这个答案应该为-1。它没有提供准确的一般性解释,也没有指定特定解释有效的条件。那么,谁能找到这个答案并获得可靠,有用的知识呢?
保罗

23

我从这里来到这个问题,可能是重复的。

已经有好几个好的答案,但是正如公认的答案中所述,该术语有许多不同的(但相关的)用法,因此,提供计量经济学中使用的观点可能是有价值的,此处似乎尚未完全解决。 。

yit=Xitδ+αi+ηit,
αiηit

αi将导致误差协方差矩阵,是不是“球形”(因此不是单位矩阵的倍数),因此像随机效应一个GLS类型的方法将比OLS更有效)。

αiXitCov(αi,Xit)=0

yXyitXit

αiXitiXit=0Xit

δtαiXit

Tm

在此处输入图片说明

这是生成数据并生成正RE估计和“正确”负FE估计的代码。(也就是说,对于其他种子,可再生能源的估算值通常也为负值,请参见上文。)

library(Jmisc)
library(plm)
library(RColorBrewer)
# FE illustration
set.seed(324)
m = 8
n = 12

step = 5
alpha = runif(n,seq(0,step*n,by=step),seq(step,step*n+step,by=step))
beta = -1
y = X = matrix(NA,nrow=m,ncol=n)
for (i in 1:n) {
  X[,i] = runif(m,i,i+1)
  X[,i] = rnorm(m,i)
  y[,i] = alpha[i] + X[,i]*beta + rnorm(m,sd=.75)  
}
stackX = as.vector(X)
stackY = as.vector(y)

darkcols <- brewer.pal(12, "Paired")
plot(stackX,stackY,col=rep(darkcols,each=m),pch=19)

unit = rep(1:n,each=m)
# first two columns are for plm to understand the panel structure
paneldata = data.frame(unit,rep(1:m,n),stackY,stackX) 
fe <- plm(stackY~stackX, data = paneldata, model = "within")
re <- plm(stackY~stackX, data = paneldata, model = "random")

输出:

> fe

Model Formula: stackY ~ stackX

Coefficients:
 stackX 
-1.0451 


> re

Model Formula: stackY ~ stackX

Coefficients:
(Intercept)      stackX 
   18.34586     0.77031 

1
δ

1
而且,事实证明可以用混合效果处理此示例。下面是显示了如何将纸:academiccommons.columbia.edu/download/fedora_content/download/...
保罗

1
TN

7
在前面的讨论中,将“随机效应”替换为“在R's plm包中实现的随机效应的受限版本”会更准确。正如我先前评论中引用的论文中所述,还有其他随机效应模型可以很好地处理相关的预测变量/组问题。它们只是尚未纳入计量经济学软件包/文学的一部分。固定和随机效应的计量经济学定义似乎是特定于领域的,并不能真正代表统计文献中它们更基本的一般含义。
保罗,

4
公平地说,我做了一点编辑。但是imo,这正是使该线程如此有价值的原因:不同的领域或多或少具有相同的术语,就意味着不同的事物,而各种帖子都有助于阐明这些差异。
克里斯多夫·汉克

12

这种区别仅在非贝叶斯统计的情况下才有意义。在贝叶斯统计中,所有模型参数都是“随机”的。


1
有趣。但是由于可以将固定或随机视为给定变量(给定数据列)的条件,而不是与该变量关联的参数的条件,...您的答案是否完全适用?
rolando2 2012年

1
@ rolando2无论如何,这都是错误的。具体来说,对于贝叶斯理论,参数是理论/可能性所说明的任何事物。只有一个人的什么值,他们采取的不确定性使用概率分布来表示。因此,有时将参数建模为固定和未知(“固定”),有时建模为来自分布(“随机”),尽管后者的设备通常是由可交换性判断而不是对采样过程的信念所驱动。
conjugateprior

这与@ben答案相反。我相信答案是错误的。
SmallChess

9

在计量经济学中,这些术语通常应用于广义线性模型,其中模型的形式为

yit=g(xitβ+αi+uit).

αiuit

αi⊥̸uit

线性模型,随机效应的存在不会导致OLS估计量的不一致性。但是,使用随机效应估计器(如可行的广义最小二乘法)将导致更有效的估计器。

在概率模型,概率模型非线性模型中,随机效应的存在通常会导致估计量不一致。然后,使用随机效应估算器将恢复一致性。

对于线性模型和非线性模型,固定效应都会导致偏差。但是,在线性模型中,存在可以使用的转换(例如初次差异或下限),其中转换后的数据上的OLS将导致一致的估计。对于非线性模型,存在一些存在转换的例外,固定效果logit是一个示例。

示例:随机效应概率。假设

yit=xitβ+αi+uit,αiN(0,σα2),uitN(0,1).

并且观察到的结果是

yit=1(yit>0).

合并的最大似然估计的样品平均减少

β^=argminβN1i=1Nlogt=1T[G(xitβ)]yit[1G(xitβ)]1yit.

当然,这里的对数和乘积可以简化,但是出于教学上的原因,这使该方程与具有以下形式的随机效应估计器更具可比性:

β^=argminβN1i=1Nlogt=1T[G(xitβ+σαa)]yit[1G(xitβ+σαa)]1yitϕ(a)da.

R

β^=argminβN1i=1NlogR1r=1Rt=1T[G(xitβ+σαar)]yit[1G(xitβ+σαa)]1yit,arN(0,1).

αiiT


7

并不是真正的正式定义,但我喜欢以下幻灯片:混合模型以及社会语言学家为什么应该使用它们镜像),作者:丹尼尔·埃兹拉·约翰逊(Daniel Ezra Johnson)。幻灯片4提供了一个简短的摘要。尽管它主要侧重于心理语言学研究,但第一步非常有用。


我想我需要亲自观看该演示文稿才能获得全部影响。
安迪W

这些幻灯片没有用。
2015年

7
尽管此链接可以回答问题,但最好在此处包括答案的基本部分,并提供链接以供参考。如果链接的页面发生更改,仅链接的答案可能会失效。
本·博克

1
链接已失效
baxx

3

当对面板数据进行线性回归时,关于随机效应和固定效应模型的另一个非常实用的观点来自于计量经济学。如果您要估计数据集中的解释变量与结果变量之间的关联,那么每个人/组中都有多个样本,那么这就是您要使用的框架。

面板数据的一个很好的例子是来自以下一组人的年度测量:

  • genderii
  • Δweightitti
  • exerciseitti

如果我们试图了解运动与体重变化之间的关系,我们将建立以下回归:

Δweightit=β0exerciseit+β1genderi+αi+ϵit

  • β0
  • β1
  • αi
  • ϵit

β0β0

αiβ1genderiαi

因此,关键问题是确定哪种模型合适。答案是Hausman测试。要使用它,我们需要执行固定效应和随机效应回归,然后应用Hausman检验来查看其系数估计是否有显着差异。如果他们分歧,内生性就在发挥作用,固定效应模型是最佳选择。否则,我们将采用随机效果。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.