我在互联网上发现了很多有关随机效应和固定效应的解释。但是我找不到固定以下内容的来源:
随机效应和固定效应之间的数学区别是什么?
我的意思是模型的数学表述和参数的估算方法。
我在互联网上发现了很多有关随机效应和固定效应的解释。但是我找不到固定以下内容的来源:
随机效应和固定效应之间的数学区别是什么?
我的意思是模型的数学表述和参数的估算方法。
Answers:
具有随机效应的最简单模型是具有分布效应的观测值给出的具有随机效应的单向ANOVA模型:(ÿ 我Ĵ | μ 我)〜IID Ñ(μ 我,σ
这里的随机效应是。它们是随机变量,而在具有固定影响的ANOVA模型中它们是固定数。
例如,实验室中的三个技术人员中的每一个记录一系列测量,而是技术人员第个测量。将称为技术人员生成的序列的“真实平均值” ;这是一个稍微人为的参数,您可以看到是如果技术人员记录了大量测量值而获得的平均值。ÿ 我Ĵ Ĵ 我μ 我我μ我
如果您有兴趣评估,,(例如,为了评估运算符之间的偏差),则必须使用具有固定效果的ANOVA模型。μ 2
当您对定义模型的方差和以及总方差感兴趣时,必须使用具有随机效应的ANOVA模型。方差是由一名技术人员生成的记录的方差(假定所有技术人员都相同),并且称为技术人员之间的方差。也许理想情况下,应该随机选择技术人员。 σ 2 b σ 2 b + σ 2 瓦特 σ 2 瓦特 σ 2 b
该模型反映了数据样本的方差公式的分解:
总方差=均值方差内方差均值
这由具有随机效应的ANOVA模型反映:
实际上,的分布由给定条件分布和的分布。如果计算的“无条件”分布,则可以找到。(Ý 我Ĵ)μ 我μ 我ÿ 我Ĵ ÿ 我Ĵ〜Ñ(μ ,σ 2 b + σ 2 瓦特)
有关更好的图片,请参见幻灯片24和幻灯片25(您必须保存pdf文件才能欣赏叠加图,请不要观看在线版本)。
基本上,如果您将一个因素建模为随机因素,我认为最明显的区别是,这些效应被假定为从共同的正态分布中提取。
例如,如果您有某种关于成绩的模型,并且要考虑来自不同学校的学生数据,并且将学校建模为随机因素,则意味着您假设按学校划分的平均数是正态分布的。这意味着建模的两个来源是:学生成绩的校内变异性和学校之间的变异性。
这导致所谓的部分池化。考虑两个极端:
通过估计两个级别的变异性,混合模型在这两种方法之间做出了明智的折衷。尤其是如果您的每所学校的学生人数不是那么大,这意味着您将如模型2所估计的那样,将单个学校的效果向模型1的整体平均值缩小。
这是因为模型表明,如果您有一所学校,其中包括两名学生,这比学校人口中的“正常”水平要好,那么这种影响的部分原因可能是学校在选择中很幸运的两个学生中。它不会盲目地这样做,而是取决于学校内部变异性的估计。这也意味着与大型学校相比,样本数量较少的效果水平更趋向于总体均值。
重要的是您需要在随机因素水平上具有可交换性。这意味着在这种情况下,学校(根据您的知识)可以互换,而您却一无所知,这使它们与众不同(除了某种ID)。如果您有其他信息,则可以将其作为其他因素包括在内,只要学校考虑其他信息就可以互换。
例如,假设居住在纽约的30岁成年人可以互换性别是有道理的。如果您有更多信息(年龄,种族,教育),则也应包括该信息。
OTH如果您与一个对照组和三个完全不同的疾病组进行了研究,则将模型作为随机模型进行建模是没有意义的,因为特定疾病不可互换。但是,许多人非常喜欢收缩效果,以至于他们仍然主张采用随机效应模型,但这是另一回事了。
我注意到我对数学没有太多的了解,但是基本上区别在于随机效应模型估计了学校和学生水平上的正态分布误差,而固定效应模型仅在误差上学生水平。尤其是,这意味着每所学校都有自己的水平,并且没有通过共同的分配与其他水平连接。这也意味着固定模型不允许外推到原始数据中未包含的学校学生,而随机效应模型则可以将其推断为学生水平和学校水平变化之和。如果您对这种可能性特别感兴趣,我们可以进行处理。
在生态环境中,此类影响是无法观察到的特定于个体的截距(或常数),但可以使用面板数据(随时间推移在相同单位上重复观察)来估算。固定效应估计方法允许特定单位的截距与独立解释变量之间的相关性。随机效应没有。使用更灵活的固定效果的代价是,您无法估算时变变量(例如性别,宗教或种族)的系数。
注意:其他领域都有自己的术语,这可能会造成混淆。
在标准软件包(例如R lmer
)中,基本区别是:
如果您使用的是贝叶斯算法(例如WinBUGS),则没有真正的区别。