Answers:
当您的数据结构自然是分层的或嵌套的时,多层建模是一个不错的选择。更一般而言,这是一种建模交互的方法。
一个自然的例子是您的数据来自国家,州,地区等有组织的结构,您要在这些结构上检查这些级别的影响。可以适合这种结构的另一个示例是纵向分析,其中随着时间的推移您对许多受试者进行了重复测量(例如,对药物剂量的某些生物学反应)。您的模型的一个层次假设随着时间的推移,所有受试者的小组平均反应。然后,模型的另一个层次允许组均值的摄动(随机效应)来为个体差异建模。
一本很受欢迎的好书是Gelman的《使用回归和多层次/层次模型进行数据分析》。
多层建模中心提供了一些不错的免费的多层建模在线教程,并且在MLwiN软件和STATA中都提供了用于拟合模型的软件教程。
将此视为异端,因为我在本书中只读了一章,但没有阅读过多的文章,而是分层线性模型:应用程序和数据分析方法强烈推荐Stephen W. Raudenbush和Anthony S. Bryk。我还发誓在Springer Use R中有一本书关于使用R软件进行多级建模!系列,但目前似乎找不到(我认为它是由编写R入门指南的同一人编写的)。
编辑:关于使用R进行多级模型的书是Zuur,AF,Ieno,EN,Walker,N.,Saveliev,AA,Smith,GM的《 R的混合效应模型和生态学扩展》。
祝好运
这是关于使用多级模型与回归模型的另一种观点:在Afshartous和de Leeuw的有趣论文中,他们表明,如果建模的目的是可预测的(即预测新的观察结果),则模型的选择与何时目标是推理(您尝试将模型与数据结构进行匹配)。我指的是
Afshartous,D.,de Leeuw,J。(2005)。多层次模型中的预测。J.教育。行为。统计员。30(2):109–139。
我刚刚在这里找到了这些作者的另一篇相关论文:http : //moya.bus.miami.edu/~dafshartous/Afshartous_CIS.pdf
有了模型,问题就成为估计之一。如果您有很多学校,并且每所学校都有大量数据,那么OLS的优点(请参阅Angrist和Pischke,多数无害...(针对当前的评论),建议您使用此功能,并通过适当调整标准错误来解决依赖关系,并使用虚拟变量和互动来获得学校级别的效果和特定于学校的拦截。OLS可能效率不高,但它是如此透明,以至于如果您使用它,更容易说服怀疑的受众。但是,如果您的数据在某些方面是稀疏的-特别是如果您对某些学校的观察很少-您可能希望对该问题强加更多的“结构”。您可能希望从较大样本的学校中“借力”,以改善如果在没有结构的情况下进行小样本学校评估时所产生的噪声估计。然后,您可能会转向通过FGLS估算的随机效应模型,
在此示例中,对学校级别拦截的直接兴趣促使使用多层次模型(无论如何,我们最终决定适合它)。当然,在其他情况下,这些组级别参数可能仅是令人讨厌的事情。是否需要调整它们(因此仍然可以使用某种多级模型)取决于某些条件的外生性假设是否成立。关于这一点,我建议您参考有关面板数据方法的计量经济学文献。从那里获得的大多数见解都可以延续到一般的分组数据上下文。
顾名思义,当数据具有不同级别(单个,随时间,跨域等)的影响时,多级别建模是合适的。单层建模假定所有事情都在最低层进行。多级模型所做的另一件事是在嵌套单元之间引入相关性。因此,同一2级单位内的1级单位将被关联。
在某种意义上,您可以将多层次建模视为在“个人谬论”和“生态谬论”之间找到中间立场。个人主义谬论是指忽略“社区效应”,例如教师的风格与学生的学习风格的兼容性(假设这种效果仅来自个人,因此在第1级进行回归)。而“生态谬误”则相反,这就像假设最好的老师让学生获得最好的成绩(因此不需要1级,只需完全在2级进行回归)。在大多数情况下,都不适合(学生老师是“经典”的例子)。
通常,除非您的数据表明各个级别的影响是完全同质的(不现实的情况),否则,使用分层贝叶斯(HB)分析将导致有效且稳定的单个级别估计。当数据稀疏(例如,obs的数量少于单个级别的参数的数量)并且想要估计单个级别的估计时,HB模型的效率和稳定的参数估计就变得非常重要。
但是,HB模型并不总是容易估计的。因此,尽管HB分析通常胜过非HB分析,但您必须根据您过去的经验以及当前在时间和成本上的优先级来权衡相对成本与收益。
话虽如此,如果您对单个级别的估计不感兴趣,那么您可以简单地估计一个聚合级别模型,但是即使在这些情况下,使用单个级别的估计值通过HB估计聚合模型也很有意义。
总而言之,只要您有时间和耐心来安装HB模型,建议使用HB模型。然后,您可以使用聚合模型作为基准来评估HB模型的性能。
当数据嵌套在层次结构中时,尤其是在因变量的较高级别单位之间存在显着差异(例如,学生之间以及学生与学生之间的学习成就取向有所不同)时,应采用多级模型嵌套)。在这种情况下,观察是聚类的而不是独立的。如果不考虑聚类,则会导致参数估计值的误差被低估,显着性检验有偏差,并且倾向于保留应保留的空值。由以下人员提供使用多层次模型的基本原理,以及如何进行分析的详尽说明。
Raudenbush,SW Bryk,AS(2002)。分层线性模型:应用程序和数据分析方法。第二版。加利福尼亚州纽伯里公园市:鼠尾草。
R&B本书还与作者的HLM软件包很好地集成在一起,这对学习软件包非常有帮助。在经典论文中,解释了为何必须使用多级模型,并且对某些替代方法(例如,对较高级单元进行虚拟编码)更可取的原因
霍夫曼,DA(1997)。层次线性模型的逻辑和原理概述。管理学报,23,723-744。
如果您使用Google“ Hoffman 1997 HLM”并在线访问pdf,则可以免费下载Hoffman论文。