在什么情况下应该使用多层次/层次分析？

36

在哪种情况下，应该考虑使用多级/层次分析而不是更基础/传统的分析（例如，ANOVA，OLS回归等）？在任何情况下都可以认为这是强制性的吗？在某些情况下使用多层次/层次分析不合适吗？最后，对于初学者来说，学习多层/层次分析有哪些好的资源？

mixed-model multilevel-analysis

— 帕特里克
source

3

另请参阅：stats.stackexchange.com/a/38430/5739

— StasK 2015年

22

当您的数据结构自然是分层的或嵌套的时，多层建模是一个不错的选择。更一般而言，这是一种建模交互的方法。

一个自然的例子是您的数据来自国家，州，地区等有组织的结构，您要在这些结构上检查这些级别的影响。可以适合这种结构的另一个示例是纵向分析，其中随着时间的推移您对许多受试者进行了重复测量（例如，对药物剂量的某些生物学反应）。您的模型的一个层次假设随着时间的推移，所有受试者的小组平均反应。然后，模型的另一个层次允许组均值的摄动（随机效应）来为个体差异建模。

一本很受欢迎的好书是Gelman的《使用回归和多层次/层次模型进行数据分析》。

— 阿尔斯
source

3

我第二次回答这个问题，并想在此主题上添加另一个参考：Singer的《应用纵向数据分析》文本< gseacademic.harvard.edu/alda >。尽管它特定于纵向分析，但它通常可以很好地概述MLM。我还发现Snidjers和Bosker的Multilevel Analysis很好并且可读< stat.gamma.rug.nl/multilevel.htm >。John Fox还在< cran.r-project.org/doc/contrib/Fox-Companion/… > 中为R中的这些模型提供了很好的介绍。

— 布雷特

谢谢大家的答复：）作为后续问题，难道大多数数据都不能被概念化为自然地分层/嵌套吗？例如，在大多数心理学研究中，个体中嵌套有许多因变量（问卷，刺激反应等），这些因变量又嵌套在两个或多个组中（随机或非随机分配）。您是否同意这表示自然的分层和/或嵌套数据结构？

— 帕特里克

如果你们中的任何一位多层次/多层次的专家都可以花几分钟的时间，如果您能对其他文章（stats.stackexchange.com/questions/1799/…）中提出的分析问题有所帮助，我将不胜感激。具体来说，您认为通过分级分析比非分级分析更好地分析该文章中概述的疼痛感知数据吗？还是不会有所作为，甚至不合适？谢谢：D

— Patrick

18

多层建模中心提供了一些不错的免费的多层建模在线教程，并且在MLwiN软件和STATA中都提供了用于拟合模型的软件教程。

将此视为异端，因为我在本书中只读了一章，但没有阅读过多的文章，而是分层线性模型：应用程序和数据分析方法强烈推荐Stephen W. Raudenbush和Anthony S. Bryk。我还发誓在Springer Use R中有一本书关于使用R软件进行多级建模！系列，但目前似乎找不到（我认为它是由编写R入门指南的同一人编写的）。

编辑：关于使用R进行多级模型的书是Zuur，AF，Ieno，EN，Walker，N.，Saveliev，AA，Smith，GM的《 R的混合效应模型和生态学扩展》。

祝好运

— 安迪·W
source

9

这是关于使用多级模型与回归模型的另一种观点：在Afshartous和de Leeuw的有趣论文中，他们表明，如果建模的目的是可预测的（即预测新的观察结果），则模型的选择与何时目标是推理（您尝试将模型与数据结构进行匹配）。我指的是

Afshartous，D.，de Leeuw，J。（2005）。多层次模型中的预测。J.教育。行为。统计员。30（2）：109–139。

我刚刚在这里找到了这些作者的另一篇相关论文：http : //moya.bus.miami.edu/~dafshartous/Afshartous_CIS.pdf

— 加利特·施穆里
source

6

y_{i s} = α_{s} + X_{i s}^{'} β_{s} + ϵ_{i s},

$y_{is} = \alpha_s + X_{is}'\beta_s + \epsilon_{is},$

y_{i s}

$y_{is}$

i

$i$

s

$s$

X_{i s}

$X_{is}$

β_{s}

$\beta_s$

α_{s}

$\alpha_s$

ϵ_{i s}

$\epsilon_{is}$

α_{s}

$\alpha_s$

有了模型，问题就成为估计之一。如果您有很多学校，并且每所学校都有大量数据，那么OLS的优点（请参阅Angrist和Pischke，多数无害...（针对当前的评论），建议您使用此功能，并通过适当调整标准错误来解决依赖关系，并使用虚拟变量和互动来获得学校级别的效果和特定于学校的拦截。OLS可能效率不高，但它是如此透明，以至于如果您使用它，更容易说服怀疑的受众。但是，如果您的数据在某些方面是稀疏的-特别是如果您对某些学校的观察很少-您可能希望对该问题强加更多的“结构”。您可能希望从较大样本的学校中“借力”，以改善如果在没有结构的情况下进行小样本学校评估时所产生的噪声估计。然后，您可能会转向通过FGLS估算的随机效应模型，

在此示例中，对学校级别拦截的直接兴趣促使使用多层次模型（无论如何，我们最终决定适合它）。当然，在其他情况下，这些组级别参数可能仅是令人讨厌的事情。是否需要调整它们（因此仍然可以使用某种多级模型）取决于某些条件的外生性假设是否成立。关于这一点，我建议您参考有关面板数据方法的计量经济学文献。从那里获得的大多数见解都可以延续到一般的分组数据上下文。

— 赛勒斯S
source

1

这是一个旧线程，但是如果您阅读以下内容：具有虚拟变量和交互功能的OLS不会像您提到的其他技术那样借力。我有一些数据，其中将我的分析分为两部分，并使用了两个lm（R线性模型）命令对这两个部分进行建模。我引入了一个虚拟变量来指示这两个部分，然后在此“统一”模型上再次使用lm，答案很接近，但并不相同。我的问题是：答案是否“更好”，或者由于算法而完全不同？

— 韦恩

@Wayne：如果您在第二次使用假人和全套互动，则点估计值应该相同。由于第二种方法可能假定较高的自由度，因此标准误差可能会有所不同，但是您可能要检查这是否是正确的建模假设。

— 赛勒斯S

6

顾名思义，当数据具有不同级别（单个，随时间，跨域等）的影响时，多级别建模是合适的。单层建模假定所有事情都在最低层进行。多级模型所做的另一件事是在嵌套单元之间引入相关性。因此，同一2级单位内的1级单位将被关联。

在某种意义上，您可以将多层次建模视为在“个人谬论”和“生态谬论”之间找到中间立场。个人主义谬论是指忽略“社区效应”，例如教师的风格与学生的学习风格的兼容性（假设这种效果仅来自个人，因此在第1级进行回归）。而“生态谬误”则相反，这就像假设最好的老师让学生获得最好的成绩（因此不需要1级，只需完全在2级进行回归）。在大多数情况下，都不适合（学生老师是“经典”的例子）。

$y_{ij}$ $j$

— 概率逻辑
source

4

通常，除非您的数据表明各个级别的影响是完全同质的（不现实的情况），否则，使用分层贝叶斯（HB）分析将导致有效且稳定的单个级别估计。当数据稀疏（例如，obs的数量少于单个级别的参数的数量）并且想要估计单个级别的估计时，HB模型的效率和稳定的参数估计就变得非常重要。

但是，HB模型并不总是容易估计的。因此，尽管HB分析通常胜过非HB分析，但您必须根据您过去的经验以及当前在时间和成本上的优先级来权衡相对成本与收益。

话虽如此，如果您对单个级别的估计不感兴趣，那么您可以简单地估计一个聚合级别模型，但是即使在这些情况下，使用单个级别的估计值通过HB估计聚合模型也很有意义。

总而言之，只要您有时间和耐心来安装HB模型，建议使用HB模型。然后，您可以使用聚合模型作为基准来评估HB模型的性能。

谢谢您的详细答复Srikant :)我目前不熟悉贝叶斯分析，但是我一直是我要研究的主题之一。层次贝叶斯分析与本页上讨论的其他多级/层次分析是否不同？如果是这样，您是否有推荐资源供有兴趣的人士了解更多信息？

— 帕特里克

从分析的角度来看，HB分析=多层次模型。但是，当您具有自然发生的不同级别时，将使用术语多级别模型（请参阅@ars示例）。当您在情况中不一定具有不同级别时，将使用术语HB模型。例如，如果要对消费者对各种营销变量（例如，价格，广告支出等）的响应进行建模，则在消费者级别上可能具有以下结构：和在总体级别。供参考：请参见其他答案。

β_{i} \sim N (\bar{β}, Σ)

$β_i \sim N(\bar{\beta},\Sigma)$

\bar{β} \sim N (., .)

$\bar{\beta} \sim N(.,.)$

4

我从Snijders和Bosker的《多级分析：基础和高级多级建模简介》中学到了知识。我认为这非常适合初学者，这一定是因为我是涉及这些问题的浓密人，这对我来说很有意义。

我也同时登上了《盖尔曼与希尔》，这是一本非常出色的书。

— 克里斯·比利
source

1

当数据嵌套在层次结构中时，尤其是在因变量的较高级别单位之间存在显着差异（例如，学生之间以及学生与学生之间的学习成就取向有所不同）时，应采用多级模型嵌套）。在这种情况下，观察是聚类的而不是独立的。如果不考虑聚类，则会导致参数估计值的误差被低估，显着性检验有偏差，并且倾向于保留应保留的空值。由以下人员提供使用多层次模型的基本原理，以及如何进行分析的详尽说明。

Raudenbush，SW Bryk，AS（2002）。分层线性模型：应用程序和数据分析方法。第二版。加利福尼亚州纽伯里公园市：鼠尾草。

R＆B本书还与作者的HLM软件包很好地集成在一起，这对学习软件包非常有帮助。在经典论文中，解释了为何必须使用多级模型，并且对某些替代方法（例如，对较高级单元进行虚拟编码）更可取的原因

霍夫曼，DA（1997）。层次线性模型的逻辑和原理概述。管理学报，23，723-744。

如果您使用Google“ Hoffman 1997 HLM”并在线访问pdf，则可以免费下载Hoffman论文。

— StatisticsDoc咨询
source