多级别模型与每个级别的单独模型


10

与单独的模型相比,运行单独的模型有什么优点和缺点?

更具体地说,假设一项研究检查了嵌套在国家/地区内医生实践中的患者。与三个级别的嵌套模型相比,为每个国家/地区运行单独的模型有什么优点/缺点?


2
从技术上讲,如果要在三级模型中获得无偏参数估计,则需要相当多的三级单位(通常来说,任何多级模型中的样本量在最高一级尤为重要),因此除非您有大量的国家随机样本(也许有50多个),您可能应该考虑运行单独的2级模型,或者,如果您的国家较少,则可以考虑将国家作为2级模型中的分类2级预测变量
Patrick Coulombe 2013年

嗨@gung我不在了,我现在来看他们。
彼得·弗洛姆

Answers:


6

这个问题已经过时,但我认为这非常重要。我能得到的最佳答案是Joop J Hox(2010)所著的《多级分析技术和应用程序,第二版》。

假设两级层次结构数据具有最低级别的解释变量和最高级别的q个解释变量。然后,在第55页,他写道:pq

对于相同数据的普通单级回归模型将仅估计截距,一个误差方差和p + q回归斜率。如果我们认为数据是成组聚集的,那么多级回归模型的优势就很明显了。如果我们有100个组,则分别估计每个组中的普通多元回归模型需要估计100×(1个回归截距+ 1个残差方差+ p个回归斜率)以及与q个组级变量的可能相互作用。假设这些残差的正态分布,则多级回归通过估计平均截距及其在各个组之间的残差来代替估计100个截距。从而,多级回归分析通过估计两个参数(截距的均值和方差)以及一个正态性假设来代替估计100个单独的截距。回归斜率使用相同的简化方法。我们没有为说明性的可变瞳孔性别估计100个斜率,而是估计了平均斜率及其在各个组之间的方差,并假设这些斜率的分布是正态的。然而,即使解释变量数量很少,多级回归分析也意味着一个复杂的模型。通常,我们不想估计完整的模型,首先是因为这很可能使我们陷入计算问题,而且还因为很难解释这样一个复杂的模型。

只是为了说明。现在,第29-30页将更准确地回答您的问题。

100个类别的预测截距和斜率与使用标准普通最小二乘(OLS)技术在100个类别中的每个类别中进行100个单独的普通回归分析时得到的值并不相同。如果我们将100个单独的OLS回归分析的结果与多级回归分析获得的值进行比较,我们会发现来自单独的分析的结果更具可变性。这是因为对100个类别的回归系数进行了多级估计。它们就是所谓的经验贝叶斯(EB)或收缩率估计值:每个类别中特定OLS估计值的加权平均值,以及所有相似类别的整体回归系数。

结果,对于整个数据集,回归系数都朝着平均系数缩小。收缩重量取决于估计系数的可靠性。以小精度估算的系数比非常精确估算的系数缩小更多。估计的准确性取决于两个因素:组样本大小以及基于组的估计与总体估计之间的距离。小型团体的估计不那么可靠,并且比大型团体的估计减少更多。在其他条件相同的情况下,与总体估算值相差甚远的估算值被认为可靠性较差,并且与那些接近总体平均值的估算值相比,收缩幅度更大。所使用的统计方法称为经验贝叶斯估计。由于这种收缩效应,贝叶斯经验估计量是有偏差的。但是,它们通常更精确,通常比无偏性更有用(请参阅Kendall,1959)。

我希望它令人满意。


2

指定随机效应涉及假设这些水平的均值是来自正态分布的样本。最好将它们指定为固定效果,如果此假设不适合您的数据,则也可以使用虚拟变量。通过这种方式,您可以控制均值(在该级别)的分组异质性,但是您不允许在对下层变量的响应中存在异质性。

如果您期望响应于较低级的解释变量而具有异质性,则可以使用单独的模型,除非您要运行某种随机系数模型(该模型又涉及系数呈正态分布的假设)。

(我相信有一些方法可以处理非正常的随机效应,但没有像lme那样广泛使用或可及)


1

优点:能够通过聚类明确测试参数差异(即,重要性差异并不意味着显着差异)。


2
这个答案太短了。评论多于答案。
埃里克·彼得森
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.