建模纵向数据,其中时间的影响在个人之间以功能形式变化


32

内容

想象一下,您进行了一项纵向研究,该研究每周对200名参与者进行一次为期20周的因变量(DV)测量。尽管我对一般情况感兴趣,但我考虑的典型DV包括录用后的工作表现或临床心理干预后的各种福祉测量。

我知道可以使用多层建模来建模时间与DV之间的关系。您还可以允许系数(例如截距,斜率等)在个体之间变化,并估计参与者的特定值。但是,如果在目视检查数据时发现时间与DV之间的关系为以下任意一种情况,该怎么办:

  • 功能形式不同(也许有些是线性的,有些是指数的,或者有些不连续)
  • 误差方差不同(某些人从一个时间点到下一个时间点更不稳定)

问题

  • 什么是处理这样的数据建模的好方法?
  • 具体来说,哪种方法擅长识别不同类型的关系,并根据其类型对个人进行分类?
  • R中有哪些实现可用于此类分析?
  • 是否有关于如何执行此操作的参考:教科书或实际应用程序?

Answers:


20

我建议看一下以下三个方向:

  • 纵向聚类:这是无监督的,但是您使用k-means方法依赖于Calinsky准则来评估分区的质量(软件包kml和联机帮助中包含的参考);因此,基本上,这将不会帮助确定单个时间过程的特定形状,而只是分离均匀的进化轮廓
  • 某种解释异方差的潜在增长曲线:我最好的猜测是看一下有关MPlus软件的大量参考资料,尤其是FAQ和邮件。我还听说过随机效应乘法异方差模型(尝试在这些关键字周围进行谷歌搜索)。我觉得这些论文(12)很有趣,但我没有看他们的详细信息。回到办公室后,我将提供有关神经心理学评估的最新信息。
  • 功能性PCAfpca软件包),但功能数据分析可能值得一看

其他参考(可随时浏览):


1
谢谢。我想到了使用群集过程的想法。我认为挑战将是以理论上有意义的方式充分捕捉和加权可能的个人水平曲线特征。我将看看它如何在kml中工作。
Jeromy Anglim

1
好吧,尽管接口很糟糕(而且我认识那个创建它的人:),但它工作得很好。两个月前,我用它根据发育测量的个人概况将临床组分开(Brunet-Lézine)。
chl

1
这是FDA的另一个主要参考资料:psych.mcgill.ca/misc/fda
Mike Lawrence 2010年

1
我发现Ramsay(2008)对FDA链接的介绍,特别是gbi.agrsci.dk/~shd/public/FDA2008/FDA_Sage.pdf
Jeromy Anglim 2010年


6

在我看来,成长混合模型可能具有允许您检查误差方差的潜力。(此处为PDF)。(我不确定什么是乘法异方差模型,但是我一定要检查一下它们)。

基于潜在群体的轨迹模型最近在犯罪学中变得非常流行。但是,许多人只是简单地认为组确实存在,而一些精明的研究指出,即使在随机数据中,您也会发现组。还要注意,Nagin的基于组的建模方法不允许您评估错误(老实说,我从未见过看起来像不连续性的模型)。

尽管在20个时间点很困难,但出于探索目的,创建简单的启发式方法来识别模式可能会有所帮助(例如,始终保持较低或始终较高的变异系数)。我正在设想电子表格或平行坐标图中的迷你图,但我怀疑它们是否会有所帮助(老实说,我从未见过具有启发性的平行坐标图)。

祝好运


@chl,没问题,谢谢您在此处列出的所有资源。
安迪W

关于潜在群体的要点。我已经看到了潜在类分析和聚类分析的几种应用,其中似乎只是在划分出一个连续变量int类别,例如低和高(jeromyanglim.blogspot.com/2009/09/…)。但是,我确实有一些个人级别的纵向数据,这些数据看起来像是来自类别截然不同的数据生成过程(例如,始终为高,始终为低,逐渐增加,从低到急剧增加等)并在类别内参数会有更多的连续变化。
Jeromy Anglim

@杰罗米(Jeromy),我认为我引用的工作不会阻止人们使用这种方法来识别潜伏群体。我要说的是,工作的重点是您不能仅使用此类方法来推断组的存在,因为即使在随机数据中,您也总是会找到组。由您找到的那些组是真实的还是仅仅是该方法的人工产物,取决于主观的解释。您可以识别一些生成此类过程的逻辑理论,然后查看所识别的组是否适合这些理论。
安迪W 2010年

5

问了这个问题四年后,我学到了一些东西,所以也许我应该添加一些想法。

我认为贝叶斯分层建模为解决此问题提供了一种灵活的方法。

软件:jags,stan,WinBugs等工具可能与它们各自的R接口包(例如rjags,rstan)结合使用,可以更轻松地指定此类模型。

人为误差的变化: 贝叶斯模型使将人为误差的方差指定为人与人之间变化的随机因素变得容易。

ÿ一世=1个ñĴ=1个Ĵ

ÿ一世Ĵñμ一世σ一世2
μ一世=γ
γñμγσγ2
σ一世G一种一种αβ

因此,每个人的标准差可以建模为伽马分布。我发现这是许多心理领域的重要参数,在这些领域中,人们随时间变化的程度各不相同。

潜在的曲线类别: 我还没有对此概念进行过充分的探索,但是直接为每个个体指定两个或更多可能的数据生成函数,然后让贝叶斯模型为给定的个体选择最可能的模型是相对简单的。因此,通常您将获得关于每个个体的后验概率,有关哪个函数形式描述了个体数据。

作为模型构想的草图,您可能会遇到以下类似情况:

ÿ一世Ĵñμ一世Ĵσ2
μ一世Ĵ=γ一世λ一世Ĵ1个+1个-γ一世λ一世Ĵ2
λ一世Ĵ1个=θ1个一世1个+θ2一世1个经验值-θ3一世1个
λ一世Ĵ2=θ1个一世2+θ2一世2X一世Ĵ+θ3一世2X一世Ĵ2
γ一世=Ë[RñØü一世π一世

X一世Ĵλ一世Ĵ1个λ一世Ĵ2π一世λ一世Ĵ1个


我也一直在转向贝叶斯框架,并一直在阅读使用高斯过程进行不确定函数形式的时间序列分析。尚不清楚如何将其应用于分层数据(请在此处查看我的未解答的查询:groups.google.com/d/msg/stan-users/yjDWtMhxQQE/2TiYevy0ZwUJ
Mike Lawrence

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.