用简单的话说,您将如何解释(也许用简单的例子)固定效应模型,随机效应模型和混合效应模型之间的区别?
用简单的话说,您将如何解释(也许用简单的例子)固定效应模型,随机效应模型和混合效应模型之间的区别?
Answers:
统计学家安德鲁·盖尔曼( Andrew Gelman)表示,“固定效应”和“随机效应”这两个词的含义取决于谁使用它们。也许您可以选择5个定义中的哪一个适用于您的案例。通常,最好是找到描述作者正在使用的概率模型的方程式(在阅读时),或者写出您要使用的完整概率模型(在编写时)。
在这里,我们概述了我们已经看到的五个定义:
固定效应在每个人中都是不变的,而随机效应则各不相同。例如,在成长研究中,具有随机截距和固定斜率对应于不同个体平行线,或者模型。因此,Kreft和De Leeuw(1998)区分固定系数和随机系数。 b i y i t = a i + b t
如果效果本身很有趣,则效果是固定的;如果对基础人群感兴趣,则效果是随机的。Searle,Casella和McCulloch(1992,第1.4节)深入探讨了这种区别。
“当样本用尽人口时,相应的变量是固定的;当样本只占人口的一小部分(即微不足道)时,相应的变量是随机的。”(Green和Tukey,1960年)
“如果假设效应是随机变量的实现值,则称为随机效应。”(LaMotte,1983年)
固定效应是用最小二乘方(或更一般地说是最大似然)来估计的,而随机效应是用收缩来估计的(Robinson,1991年术语“线性无偏预测”)。该定义是多层次建模文献(例如,参见Snijders和Bosker,1999,第4.2节)和计量经济学的标准定义。
(4) “If an effect is assumed to be a realized value of a random variable, it is called a random effect.” (LaMotte, 1983)
有关于这方面的好书,如盖尔曼和希尔。以下本质上是他们观点的总结。
首先,您不应该太习惯术语。在统计中,术语绝不能用来代替对模型本身的数学理解。对于随机和混合效果模型尤其如此。“混合”仅表示模型具有固定效应和随机效应,因此让我们关注固定效应和随机效应之间的区别。
假设您有一个带有分类预测变量的模型,该模型根据类别值将观察结果分成几组。*与该预测变量相关的模型系数或“效果”可以是固定的或随机的。两者之间最重要的实际区别是:
随机效应是通过部分合并估计的,而固定效应则不是。
局部池化意味着,如果一个组中的数据点很少,则该组的效果估计将部分基于其他组中更丰富的数据。在通过完全合并所有组来估计效果(掩盖组级差异)与完全单独估计所有组的效果(可能对低样本组给出较差的估计)之间,这可能是一个很好的折衷方案。
随机效应只是作为通用统计模型的部分合并技术的扩展。这使该思想在原则上适用于多种情况,包括多个预测变量,混合的连续变量和分类变量以及复杂的相关结构。(但强大的权力带来了重大的责任:建模和推理的复杂性大大增加,并且可能引起细微的偏差,需要避免一些复杂性。)
要激发随机效应模型,请问自己:为什么要部分合并?可能是因为您认为小的子组是某个较大的组的一部分,具有共同的均值效应。子组均值可以与大组均值稍有偏离,但不能任意偏离。为了使这个想法正式化,我们假设偏差遵循一个分布,通常是高斯分布。这就是随机效应的“随机性”出现的地方:我们假设子组与父级的偏差遵循随机变量的分布。一旦有了这个想法,混合效应模型方程就会自然地遵循。
不幸的是,混合效应模型的用户通常对什么是随机效应以及它们与固定效应的区别有错误的认识。人们听到“随机”的声音,并认为这意味着正在建模的系统非常特别,例如当“固定”某物时必须使用固定效果,而当“随机采样”某物时则必须使用随机效果。但是,关于模型系数来自分布的假设并没有特别的随机性。这只是一个软约束,类似于岭回归中的模型系数应用惩罚。在许多情况下,您可能会或可能不想使用随机效果,并且它们与“固定”和“随机”之间的区别不一定有太大关系
不幸的是,这些术语引起的概念混乱导致大量冲突的定义。在此链接的五个定义中,通常情况下,只有#4完全正确,但也完全没有信息意义。您必须阅读整篇论文和书籍(否则,本博文)才能理解该定义在实际工作中的含义。
让我们看一下随机效应建模可能有用的情况。假设您要通过邮政编码估算美国平均家庭收入。您有一个庞大的数据集,其中包含对家庭收入和邮政编码的观察。一些邮政编码在数据集中可以很好地表示,但是其他邮政编码只有几个家庭。
对于您的初始模型,您很可能会采用每个ZIP的平均收入。当您有大量的ZIP数据时,这将很好地工作,但是对采样差的ZIP的估算将遭受较大的方差。您可以使用收缩估算器(也称为部分池化)来缓解这种情况,该估算器会将极值推向所有邮政编码中的平均收入。
但是,对于特定的ZIP,您应该进行多少收缩/合并处理?直观上,它应取决于以下内容:
如果将邮政编码建模为随机效应,则考虑到上述所有因素,所有邮政编码中的平均收入估算值将受到统计上充分的缩减。
最好的部分是,随机效应模型和混合效应模型会自动处理模型中所有随机效应的(4)变异性估计。这比乍看之下要难:您可以尝试每个ZIP的样本均值方差,但这会偏高,因为针对不同ZIP的估算之间的某些方差只是抽样方差。在随机效应模型中,推理过程会考虑抽样方差,并相应地缩小方差估计值。
考虑到(1)-(4),随机/混合效应模型能够为低样本组确定适当的收缩率。它还可以处理具有许多不同预测变量的更为复杂的模型。
如果您听起来像分层贝叶斯建模,那您是对的-它是近亲,但不完全相同。混合效果模型是分层的,因为它们可以存储潜在的,未观察到的参数的分布,但是它们通常不完全是贝叶斯方法,因为不会为顶级超参数提供适当的先验。例如,在上面的示例中,我们很可能会将给定ZIP中的平均收入视为来自正态分布的样本,其均值和sigma未知,将通过混合效应拟合过程进行估计。但是,(非贝叶斯)混合效应模型通常不会在未知均值和西格玛上具有先验值,因此它不是完全贝叶斯模型。就是说,对于一个体面大小的数据集,标准混合效果模型和完全贝叶斯变体通常会给出非常相似的结果。
*尽管该主题的许多处理方法都集中在“组”的狭义定义上,但该概念实际上非常灵活:它只是一组具有共同属性的观察结果。一个组可以由对一个人,一个学校中的多个人或一个地区中的多个学校的多个观察值组成,或者一种水果的多种变体,同一收获或多次收获的多种蔬菜组成种类相同的蔬菜等。任何类别变量都可以用作分组变量。
我已经在关于混合模型的一本书中对此进行了撰写(Fox,Negrete-Yankelevich和Sosa 2014的第13章);相关页面(第311-315页)可在Google图书中找到。我认为问题可以归结为“固定效应和随机效应的定义是什么?” (“混合模型”只是包含两者的模型)。在我的讨论中,关于它们的正式定义(我将引用上面@JohnSalvatier的答案所链接的Gelman论文)的内容略少,而更多地讨论了它们的实用属性和实用性。以下是一些摘录:
当某些观察结果相关时,传统的随机效应观点是进行正确的统计检验的一种方法。
我们还可以将随机效应视为一种组合分组变量中不同级别信息的一种方式。
当我们具有(1)多个级别(例如,许多物种或块),(2)每个级别上相对较少的数据(尽管我们需要大多数级别的多个样本)以及(3)不均匀时,随机效应特别有用跨级别抽样(方框13.1)。
频繁主义者和贝叶斯主义者对随机效应的定义有些不同,这影响了他们的使用方式。频繁的人将随机效应定义为类别变量,其级别是从较大的人群中随机选择的,例如,从特有物种列表中随机选择的物种。贝叶斯将随机效应定义为变量集,这些变量的参数全部来自[相同]分布。经常性的定义在哲学上是连贯的,您会遇到坚持这一定义的研究人员(包括审阅者和主管),但这实际上是有问题的。例如,这意味着当您在现场观察到所有物种时,您不能将物种用作随机效应-因为物种列表不是来自更大种群的样本-或将年份用作随机效应,由于研究人员很少在随机抽样的年份中进行实验-他们通常使用一系列连续的年份或进入该领域的随机年份。
随机效应也可以描述为预测变量,您可以在其中对值的分布进行推断(即,不同级别的响应值之间的差异),而不是测试特定级别之间的值差异。
人们有时会说随机效应是“您不感兴趣的因素”。并非总是如此。虽然在生态实验中经常发生这种情况(地点之间的变异通常仅是令人讨厌的事情),但有时它引起人们的极大兴趣,例如在进化研究中,基因型之间的变异是自然选择的原材料,或在人口统计学研究中年间差异会降低长期增长率。在某些情况下,固定效果还用于控制无趣的变化,例如,使用质量作为协变量来控制体型的影响。
您还将听到“关于条件模式的(预测)值,您什么也不能说。”这也不是正确的-您无法正式检验该值等于零的零假设,或两个不同级别的值相等,但查看预测值,甚至计算预测值的标准误差仍然非常明智(例如,请参见图13.1中条件模式周围的误差线)。
我在上面说过,当分组变量具有许多测量水平时,随机效应最有用。相反,当分组变量的级别太小时,随机效果通常无效。当分组变量的级别少于五个级别时,您通常不能使用随机效果,而少于八个级别时,随机效果方差估计值是不稳定的,因为您正试图从很小的样本中估计方差。
固定的效果:实验者直接操作的东西,通常是可重复的,例如,给药-一组服用药物,一组服用安慰剂。
随机效应:随机变化/实验单位的来源,例如,从人群中随机抽取的个体用于临床试验。随机效应估计变异性
混合效应:包括这两种情况,在这些情况下,固定效应是估计人群水平系数,而随机效应可解释对效应的个体差异,例如,每个人在不同情况下同时接受药物和安慰剂,固定效果评估药物的效果,随机效果术语将使每个人对药物的反应不同。
混合效果的一般类别-重复测量,纵向,分层,分割图。
我从这里来到这个问题,可能是重复的。
已经有好几个好的答案,但是正如公认的答案中所述,该术语有许多不同的(但相关的)用法,因此,提供计量经济学中使用的观点可能是有价值的,此处似乎尚未完全解决。 。
将导致误差协方差矩阵,是不是“球形”(因此不是单位矩阵的倍数),因此像随机效应一个GLS类型的方法将比OLS更有效)。
m
这是生成数据并生成正RE估计和“正确”负FE估计的代码。(也就是说,对于其他种子,可再生能源的估算值通常也为负值,请参见上文。)
library(Jmisc)
library(plm)
library(RColorBrewer)
# FE illustration
set.seed(324)
m = 8
n = 12
step = 5
alpha = runif(n,seq(0,step*n,by=step),seq(step,step*n+step,by=step))
beta = -1
y = X = matrix(NA,nrow=m,ncol=n)
for (i in 1:n) {
X[,i] = runif(m,i,i+1)
X[,i] = rnorm(m,i)
y[,i] = alpha[i] + X[,i]*beta + rnorm(m,sd=.75)
}
stackX = as.vector(X)
stackY = as.vector(y)
darkcols <- brewer.pal(12, "Paired")
plot(stackX,stackY,col=rep(darkcols,each=m),pch=19)
unit = rep(1:n,each=m)
# first two columns are for plm to understand the panel structure
paneldata = data.frame(unit,rep(1:m,n),stackY,stackX)
fe <- plm(stackY~stackX, data = paneldata, model = "within")
re <- plm(stackY~stackX, data = paneldata, model = "random")
输出:
> fe
Model Formula: stackY ~ stackX
Coefficients:
stackX
-1.0451
> re
Model Formula: stackY ~ stackX
Coefficients:
(Intercept) stackX
18.34586 0.77031
这种区别仅在非贝叶斯统计的情况下才有意义。在贝叶斯统计中,所有模型参数都是“随机”的。
在计量经济学中,这些术语通常应用于广义线性模型,其中模型的形式为
在线性模型,随机效应的存在不会导致OLS估计量的不一致性。但是,使用随机效应估计器(如可行的广义最小二乘法)将导致更有效的估计器。
在概率模型,概率模型等非线性模型中,随机效应的存在通常会导致估计量不一致。然后,使用随机效应估算器将恢复一致性。
对于线性模型和非线性模型,固定效应都会导致偏差。但是,在线性模型中,存在可以使用的转换(例如初次差异或下限),其中转换后的数据上的OLS将导致一致的估计。对于非线性模型,存在一些存在转换的例外,固定效果logit是一个示例。
示例:随机效应概率。假设
并且观察到的结果是
该合并的最大似然估计的样品平均减少
当然,这里的对数和乘积可以简化,但是出于教学上的原因,这使该方程与具有以下形式的随机效应估计器更具可比性: