GEE:选择适当的工作相关结构


19

我是一名流行病学家,试图了解GEE,以便正确地分析队列研究(使用带有对数链接的Poisson回归来估计相对风险)。我有一些关于“工作相关性”的问题,希望有更多知识的人来澄清:

(1)如果我在同一个人中进行过多次测量,通常假设采用可交换结构最合理吗?(如果测量结果显示趋势,则为自回归)?独立性又如何?在任何情况下,都可以假设同一个人的测量具有独立性?

(2)是否有(合理简单)的方法通过检查数据来评估适当的结构?

(3)我注意到,当选择一个独立结构时,与运行简单的泊松回归(使用R,函数glm()geeglm()from package geepack)得到的点估计(但标准误较低)相同。为什么会这样呢?我了解,使用GEE,您可以估算总体平均模型(与特定主题不同),因此,仅在线性回归情况下,您应该获得相同的点估算。

(4)如果我的队列位于多个位置(但每个人一个度量),我应该选择独立性还是可交换的工作关联,为什么?我的意思是,每个站点中的个人仍然彼此独立,对吗?因此,例如,对于特定于对象的模型,我会将站点指定为随机效果。但是,对于GEE,独立性和可交换性给出了不同的估计,我不确定就基础假设而言哪个更好。

(5)GEE是否可以处理2级分层聚类,即每个人重复测量的多站点队列?如果是,我应该在中指定什么作为聚类变量,geeglm()并且如果假设第一层(站点)为“独立”,第二层(个体)为“可交换”或“自回归”,则工作相关性应该是什么?

我了解这些问题相当多,其中一些问题可能是相当基本的,但对于我(也许还有其他新手?)来说仍然很难解决。因此,我们非常感谢您提供的任何帮助,为此,我开始提供赏金。

Answers:


12
  1. 不必要。在小型集群,不平衡设计和不完整的集群内混杂因素调整的情况下,可交换的相关性可能比独立GEE效率更高且存在偏见。这些假设也可能很强。但是,当满足这些假设时,您可以更有效地推断可交换物。我从来没有发现一个实例说明AR-1相关结构是否有意义,因为在时间上保持平衡的测量是不常见的(我处理人类受试者的数据)。

  2. 好了,探索相关性很好,应该在数据分析中完成。但是,它实际上不应该指导决策。您可以使用变异函数图和lorellograms可视化纵向研究和面板研究中的相关性。集群内相关性是对集群内相关性程度的良好度量。

  3. 与混合模型不同,GEE中的相关结构不会影响边际参数估计(您正在使用GEE估计)。它确实会影响标准误差估计。这与任何链接功能无关。GEE中的链接功能适用于边际模型。

  4. 站点可以是无法衡量的变化来源,例如嘴里的牙齿或学区里的学生。这些数据中可能存在簇级别混杂因素,例如对蛀牙的遗传倾向或社区教育经费,因此,通过使用可交换的相关结构,您将获得更好的标准误差估计。

  5. 当GEE中的边际效应不嵌套但可以进行的时候,计算起来会很复杂。嵌套很容易,您可以按照您所说的进行。


(关于#5)因此,在嵌套集群的情况下,只需选择顶层集群变量即可。
Theodore Lytras 2014年

不,您可以创建一个层次结构的两级可交换相关结构,并使用3步EM算法一致地估计两个独立的相关参数进行相关。这样,您将知道社区中的孩子是相关的,但不像家庭中的孩子那样相关。
AdamO 2014年

抱歉,我不明白。您能否指出一些代码,最好使用R或Stata?我想这应该有所帮助。
Theodore Lytras 2014年

1
@TheodoreLytras对不起,我误会了。您先前的主张是正确的。从我的论文中,我链接到“另外,如果完美地嵌套了多个聚类,则顶层三明治上的GEE聚类将通过三明治方差估计器解决多层关联结构”。
AdamO 2014年

1
也许您的意思是别的,但是当您声明“与混合模型不同,GEE中的相关结构不会影响边际参数估计”,我认为这是不正确的。至少,如果您通过选择不同的工作相关矩阵来表示系数不变,则不会发生这种情况:相关矩阵在加权矩阵中起作用,并影响协方差矩阵和系数。
尼克

6

(1)您可能会需要某种自回归结构,这仅仅是因为我们希望相距较近的测量结果之间的相关性较小。可交换的假设它们都是同等相关的。但是,与其他所有内容一样,这取决于。

(2)我认为这种决定归结于思考数据的生成方式,而不是查看数据的外观。

(4)要看情况。例如,在大多数情况下,不应将嵌套在学校中的孩子视为独立的孩子。由于社交模式等原因,如果我对某所学校的孩子有所了解,那么我可能至少对学校中的其他孩子有所了解。我曾经使用GEE来研究出生队列中参与者嵌套在社区中的不同社会经济指标与肥胖患病率之间的关系。我使用了可交换的结构。您可以在此处找到该论文,并查看其中的一些参考文献,其中包括Epi期刊中的2篇。

(5)显然是这样(例如,参见下面的示例),但是我对这样做的R规范不禁有所帮助。

Zeger SL,Liang KY,Albert PS。纵向数据模型:广义估计方程法。生物识别。1988; 44:1049-60。

Hubbard AE,Ahern J,Fleischer N,van der Laan M,Lippman S,Bruckner T,SatarianoW。对GEE或不对GEE:比较估计功能和基于可能性的方法来估计社区与健康之间的关联。流行病学。2009年

Hanley JA,Negassa A,Edwards MDB,Forrester JE。使用广义估计方程对相关数据进行统计分析:方向。Am J Epidemiol。2003; 157:364。


这确实是有帮助的,但是让我怀疑为什么有人会使用独立结构,因为聚类本身就意味着观察之间的相似度。但是,我给人的印象是,就学校而言,相似性与其他学校有关,并且在每个学校内,学生都是独立的。因此,我对此仍然不太清楚。
Theodore Lytras 2014年

是的,如果您将样本和后续建模仅限于一所学校,则无需担心。在这种情况下,更合理的是假设错误是错误的。但是一旦您开始将来自不同学校的孩子合并到相同的样本/模型中,除非您在模型中考虑学校,否则该假设将变得微不足道,即,这样就可以假设以学校为条件的错误是同等的。
DL Dahly 2014年

另外值得一提的是,人们可能对你更有帮助,如果你能提供有关样本规模的一些细节,数量和重复措施时机,集群的数量,等等
DL Dahly

2
@DLDahly在(1)中您的观点并不是我经常在生物统计面板分析中发现的。AR-N相关结构背后的假设之一是,给定它们之间足够的时间,对同一个人的两次测量将与不同个体之间的两次测量一样不相关。但是,潜在的主要集群间混杂因素通常不是随时间变化的协变量(例如遗传标记),并且假设否则很难(如果不是不可能)进行评估。不过,relrelogram是一个很好的起点。
AdamO 2014年

1

(0)一般评论:我在交叉验证中看到的大多数模型都太复杂了。尽可能简化。通常值得使用GEE和混合模型进行建模以比较结果。
(1)是的。选择可交换的。我明确的答案是基于GEE广受吹捧的好处:估计值对假设的适应力。
如果查看您所在领域的研究,应该会看到exch是默认选项。这并不意味着它是最好的,而是应该首先考虑的。对exch进行建议将是最好的建议,而无需详细了解您的数据。
(2)是的,有数据驱动的方法,例如“ QIC”。这是一个Stata示例,但在实践中很少使用,但被广泛接受为一种合理的选择:http://www.stata-journal.com/sjpdf.html?articlenum=st0126)(3
点估计永远不会完全相同(除非您使用独立关联结构),但通常都非常接近。您可以找到许多比较简单/ gee /混合效应模型估计值的文章,以对此有所了解(https://recherche.univ-lyon2.fr/greps/IMG/pdf/JEBS.pdf)大多数教科书也都有表格或两个。对于独立的相关结构,您实际上是在运行带有稳定SE的泊松模型。因此,估计将完全相同。SE通常较大。但有时健壮的SE会更小(也就是说,寿命:如果感兴趣,Google会提供无痛说明)
(4)参见上面的(1)和(2)。
(5)不行。或者,更确切地说,如果您付出了足够的努力,您可以做任何事情,但是很少值得付出。


0

您在使用gee时使用了错误的方法来做您正在做的事情,因为您不知道其结构,结果可能会造成混淆。请参考杰米·罗宾逊。您需要使用很长时间。TMLE(马克·范·德·兰)或权重为iptw的gee。不考虑相关性会低估方差。试想一下,如果所有重复的度量值都具有100%的相关性,那么您实际上将获得更少的观察值(n个受试者基本上只有n个观察值),而较小的n意味着更高的方差。


如果您有非生存性的结果类型,则可以使用具有独立corr结构和iptw权重的gee方法,如无偏估计所建议的那样,假设您的正确倾向得分正确。无论您是否生存,TMLE几乎在所有情况下都是最好的,因为您可以使用集成学习来预测倾向得分和顺序回归,并且仍然可以获得有效的推断。您的方法肯定会产生偏差,并给出错误的推断,并且样本量更大,如果没有效果,则可能会指出错误的重要效果!
乔纳森·利维

这可以使用更多细节。什么是珍妮·罗宾逊?范德兰写了哪篇论文?
mdewey

@mdewey抱歉,错字是杰米·罗宾斯(Jamie Robins)的意思。尝试使用Robins,hernan,Babette 2000的边际结构模型和因果推论-那里的非生存结果的绝佳方法,包括使用效果修饰符进行msm的方法。对于laan,请参考本书,有针对性的学习。就像我说的那样,laan也许是最好的,但需要更多的了解。R包Ltmle使用了这种方法,但是需要一些时间来学习。
乔纳森·利维
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.