Questions tagged «random-effects-model»

与协变量的特定级别相关联的参数有时称为级别的“效果”。如果观察到的水平代表所有可能水平集中的随机样本,则我们将这些效应称为“随机”。

5
什么时候使用混合效果模型?
线性混合效应模型是线性回归模型的扩展,用于分组收集和汇总的数据。关键优势在于系数可以相对于一个或多个组变量而变化。 但是,我在何时使用混合效果模型方面感到困惑?我将通过在极端情况下使用玩具示例来阐述我的问题。 假设我们要为动物的身高和体重建模,并使用物种作为分组变量。 如果不同的群体/物种真的不同。说一只狗和大象。我认为没有必要使用混合效果模型,我们应该为每个小组建立一个模型。 如果不同的群体/物种真的很相似。说一只母狗和一只公狗。我认为我们可能希望将性别用作模型中的分类变量。 因此,我假设我们应该在中间情况下使用混合效果模型?可以说,该组是猫,狗,兔子,它们是大小相似的动物,但不同。 是否有任何正式的论据来建议何时使用混合效果模型,即如何在 为每个小组建立模型 混合效应模型 将组用作回归中的分类变量 我的尝试:方法1是最“复杂的模型” /更少的自由度,方法3是最“简单的模型” /更大的自由度。混合效果模型位于中间。我们可能会考虑根据Bais Variance Trade Off选择正确模型所需的数据量和复杂度。

2
为什么随机效应模型要求效应与输入变量不相关,而固定效应模型却允许相关性?
来自维基百科 关于个体特定效应,有两个共同的假设,即随机效应假设和固定效应假设。随机效应假设(在随机效应模型中做出)是各个特定效应与自变量不相关。固定效应假设是个体特定效应与自变量相关。如果随机效应假设成立,则随机效应模型比固定效应模型更有效。但是,如果该假设不成立(即,如果Durbin-Watson检验失败),则随机效应模型将不一致。 我想知道为什么随机效果模型要求随机效果与输入变量不相关,而固定效果模型允许效果与输入变量相关? 谢谢!

1
用mgcv gam进行随机效应预测
我对使用mgcv中的gam来模拟单个船的简单随机效应(在渔业中随时间反复旅行)建模总的鱼获量感兴趣。我有98个科目,所以我想我会使用gam而不是gamm来模拟随机效果。我的模型是: modelGOM <- gam(TotalFish ~ factor(SetYear) + factor(SetMonth) + factor(TimePeriod) + s(SST) + s(VesselID, bs = "re", by = dum) + s(Distance, by = TimePeriod) + offset(log(HooksSet)), data = GOM, family = tw(), method = "REML") 我已经用bs =“ re”和by = dum编码了随机效应(我读到这将使我能够将血管效应预测为其预测值或零)。“ dum”是1的向量。 该模型可以运行,但是我在预测时遇到问题。我选择了其中一个用于预测的容器(Vessel21),并选择了除预测感兴趣的预测变量(距离)以外的所有其他事物的平均值。 data.frame("Distance"=seq(min(GOM$Distance),max(GOM$Distance),length = 100), "SetYear" = '2006', "SetMonth" …

2
添加随机效应影响系数估计
我一直被教导随机效应只会影响方差(误差),而固定效应只会影响均值。但是我发现了一个例子,其中随机效应也会影响均值-系数估计: require(nlme) set.seed(128) n <- 100 k <- 5 cat <- as.factor(rep(1:k, each = n)) cat_i <- 1:k # intercept per kategorie x <- rep(1:n, k) sigma <- 0.2 alpha <- 0.001 y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma) plot(x, y) # simulate missing data y[c(1:(n/2), …

1
了解混合效应模型中连续随机因素的效应
我了解分类随机效应对混合效应模型的影响,因为它在随机效应中按级别对观察结果进行了部分合并,有效地假设观察值本身不是独立的,而只是它们的部分合并。同样,据我所知,在这种模型中,观测值具有相同的随机效应水平,但固定效应水平不同,将胜过随机效应和固定效应水平不同的观测。 那么,连续随机因子的作用是什么?假设没有随机效应的模型显示固定效应的效应量为X。我是否应该期望,如果固定效应在不同级别的观察结果来自随机效应连续体的远端,则效应量将变小。一个包含随机因子的模型,而如果在不同固定因子水平上的观测值具有相似的随机效应值,则效应量会增加吗?

3
固定效果与随机效果
我最近开始学习广义线性混合模型,并且正在使用R探索将组成员身份视为固定或随机效应有何不同。特别是,我正在查看此处讨论的示例数据集: http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm http://www.ats.ucla.edu/stat/r/dae/melogit.htm 正如本教程中概述的那样,Doctor ID的作用是可观的,我期望随机截距的混合模型能够提供更好的结果。但是,比较两种方法的AIC值表明此模型较差: > require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv") > hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married) > GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM) Call: glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial, data = hdp) Deviance Residuals: Min 1Q Median 3Q Max -2.5265 -0.6278 …


1
交叉随机效应和不平衡数据
我正在建模一些我认为有两个交叉随机效应的数据。但是数据集不平衡,我不确定需要做些什么来说明它。 我的数据是一组事件。当客户端与提供者会面以执行成功或失败的任务时,将发生事件。有数千个客户和提供者,每个客户和提供者都参与不同数量的事件(大约5到500个)。每个客户和提供者都有一定的技能水平,任务成功的机会取决于两个参与者的技能。客户和提供者之间没有重叠。 我对客户和提供者人数的各自差异感兴趣,因此我们可以知道哪个来源对成功率有更大的影响。我还想知道我们实际拥有数据的客户和提供者之间技能的具体价值,以确定最佳/最差的客户或提供者。 最初,我想假设成功的可能性仅由客户和提供者的综合技能水平决定,而没有其他固定影响。因此,假设x是客户端的一个因素,y是提供者的一个因素,那么在R中(使用程序包lme4),我将模型指定为: glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events) 一个问题是客户端在提供者之间分布不均。较高技能的客户更有可能与较高技能的提供者匹配。我的理解是,随机效应必须与模型中的任何其他预测变量均不相关,但是我不确定如何对其进行解释。 同样,一些客户和提供者的事件很少(少于10个),而其他事件和事件却很多(最多500个),因此我们在每个参与者上拥有的数据量分布广泛。理想情况下,这将反映在每个参与者技能估计值的“置信区间”中(尽管我认为“置信区间”一词在这里并不十分正确)。 由于数据不平衡,交叉随机效应会成为问题吗?如果是这样,我应该考虑哪些其他方法?

2
随机效应模型中每个群集的最小样本量
随机效应模型中每个聚类的观察数量是否合理?我有1,500个样本,其中700个聚类被建模为可交换随机效应。我可以选择合并群集,以构建较少但较大的群集。我想知道如何选择每个聚类的最小样本量,以便在预测每个聚类的随机效应时获得有意义的结果?有一篇很好的论文可以解释这一点吗?

1
混合效应逻辑回归的固定效应解释
我对UCLA网页上有关混合效应逻辑回归的陈述感到困惑。他们显示了一个通过拟合这样的模型得到的固定效应系数表,下面的第一段似乎完全像正常的逻辑回归那样解释系数。但是,当他们谈论比值比时,他们说您必须根据随机效应来解释它们。是什么使对数奇数的解释与其指数值不同? 要么不需要“保持其他所有内容不变”? 从该模型解释固定效应系数的正确方法是什么?我总是给人的印象是“正常”逻辑回归没有任何变化,因为随机效应的期望值为零。因此,无论有无随机效应,您都可以解释完全相同的对数奇数和优势比-仅更改了SE。 估计可以基本上一如既往地解释。例如,对于IL6,IL6的单位增加与预期的缓解对数几率中的0.053单位降低相关。同样,已婚或已婚的人有望获得的缓解几率比未婚者高0.26。 许多人喜欢解释赔率。但是,当存在混合效果时,这些将具有更细微的含义。在常规logistic回归中,优势比与所有其他预测变量固定的预期优势比成正比。这是有道理的,因为我们经常对统计数据进行调整以适应其他影响(例如年龄),以获得结婚的“纯”影响或任何主要的主要预测指标。混合效应逻辑模型也是如此,此外,保持所有其他特征不变包括保持随机效应不变。也就是说,赔率是指保持年龄和IL6恒定的人以及具有相同医生或具有相同随机效应的医生的人的条件赔率

2
REML vs ML stepAIC
在尝试研究如何进行混合模型分析并随后使用AIC选择最佳模型之后,我感到不知所措。我不认为我的数据那么复杂,但是我想确认自己所做的正确,然后就如何继续提供建议。我不确定我应该使用lme还是lmer,然后再使用这两个,如果我应该使用REML或ML。 我有一个选择值,我想知道哪个协变量最能影响该值并允许进行预测。这是一些组合的示例数据和我正在使用的测试代码: ID=as.character(rep(1:5,3)) season=c("s","w","w","s","s","s","s","w","w","w","s","w","s","w","w") time=c("n","d","d","n","d","d","n","n","n","n","n","n","d","d","d") repro=as.character(rep(1:3,5)) risk=runif(15, min=0, max=1.1) comp1=rnorm(15, mean = 0, sd = 1) mydata=data.frame(ID, season, time, repro, risk, comp1) c1.mod1<-lmer(comp1~1+(1|ID),REML=T,data=mydata) c1.mod2<-lmer(comp1~risk+(1|ID),REML=T,data=mydata) c1.mod3<-lmer(comp1~season+(1|ID),REML=T,data=mydata) c1.mod4<-lmer(comp1~repro+(1|ID),REML=T,data=mydata) c1.mod5<-lmer(comp1~time+(1|ID),REML=T,data=mydata) c1.mod6<-lmer(comp1~season+repro+time+(1|ID),REML=T,data=mydata) c1.mod7<-lmer(comp1~risk+season+season*time+(1|ID),REML=T,data=mydata) 我有〜19个模型,这些模型使用各种组合和最多2种交互作用项来探索此数据,但始终以ID为随机效应,而comp1为我的因变量。 Q1。使用哪个?我还是我?有关系吗? 在这两种方法中,我都可以选择使用ML或REML-并且得到了截然不同的答案-使用ML再加上AIC,我最终得到了6个具有相似AIC值的模型,并且模型组合根本没有意义,而REML导致最有可能的两个模型是最好的。但是,在运行REML时,我无法再使用方差分析。 Q2。与ANOVA一起使用,是在ML之上使用ML的主要原因是什么?我不清楚。 我仍然无法运行stepAIC,或者我不知道缩小19种模型的其他方法。 Q3。目前有没有办法使用stepAIC?

3
随机效应模型处理冗余
我正在尝试使用重复的二进制结果来处理事件分析。假设到达事件的时间以天为单位,但目前我们将时间离散为几周。我想使用重复的二进制结果来近似估计Kaplan-Meier估计量(但允许协变量)。这似乎是一个回旋的路,但是我正在探索这如何扩展到顺序结果和复发事件。 如果您创建了一个二进制序列,对于在3周内被审查的某人,它看起来像000;对于在4w时被审查的某人,它看起来像0000,而对于在5w时失败的主题,它看起来像是0000111111111111...。(1扩展到最后一个主题然后在研究中进行计算),当您计算特定于周的比例为1s时,您将获得普通的累积发生率(直到获得可变的审查时间,这仅是近似值,但并不等于Kaplan-Meier累积发生率估算值)。 我可以使用GEE用二元逻辑模型拟合重复的二元观测值,而不是像上面那样使时间离散,而要使用时间样条。群集三明治协方差估计器工作得相当好。但是我想通过使用混合效果模型来获得更精确的推断。问题在于第一个1之后的1是多余的。有谁知道一种指定随机效应或指定一种模型的方法,该模型考虑了冗余,从而不会缩小标准误差? 请注意,此设置与Efron的设置不同,因为他使用逻辑模型来估计风险集中的条件概率。我正在估计无条件概率。

2
在纵向研究中估计平均治疗效果的最佳方法是什么?
在一项纵向研究中,在时间点上重复测量了单位结果,总共有固定的测量时机(固定=单位测量同时进行)。我吨米Yitÿ一世ŤY_{it}i一世itŤtm米m 将单位随机分配给治疗或对照组。我想估计和测试平均治疗效果,即其中期望是跨时间和跨个人的。为此,我考虑使用固定时间的多层次(混合效果)模型:G = 0 A T E = E (Y | G = 1 )− E (Y | G = 0 ),G=1G=1个G=1G=0G=0G=0ATE=E(Y|G=1)−E(Y|G=0),ATE=E(Y|G=1)−E(Y|G=0),ATE=E(Y | G=1) - E(Y | G=0), Yit=α+βGi+u0i+eitYit=α+βGi+u0i+eitY_{it} = \alpha + \beta G_i + u_{0i} + e_{it} 与截距,的,横跨单元的无规截距,和残留。β 甲Ť é ù ëαα\alphaββ\betaATEATEATEuuueee 现在我正在考虑替代模型 Yit=β~Gi+∑j=1mκjdij+∑j=1mγjdijGi+u~0i+e~itYit=β~Gi+∑j=1mκjdiĴ+∑Ĵ=1个米γĴd一世ĴG一世+ü〜0一世+Ë〜一世ŤY_{it} = \tilde{\beta} G_i + \sum_{j=1}^m …

1
何时在模型中包括随机效应
我是混合建模的新手,我对在进行分析时是否适合使用随机效应感到困惑。任何意见,将不胜感激。 我的研究正在测试新近开发的哺乳动物丰度指数如何预测已建立但劳动强度更高的指数的价值。我一直在多个森林补丁中测量这些指数,每个森林补丁中都有多个图。 因为我对森林补丁的效果并不直接感兴趣,并且因为我的样地嵌套在森林补丁中,所以我一直将森林补丁用作随机效果。但是,我对此有两个问题: 首先,我知道随机效应使您能够在所有可能水平的随机因子上,而不只是在抽样的水平上,对结果进行概括。但是在我看来,要进行这种推断,您的水平必须随机抽样吗?我的森林斑块不是随机取样的,所以我仍然可以将它们用作随机效果吗? 第二,我读过,您可以通过进行似然比检验来比较具有和没有效应的模型,从而检验是否有必要产生随机效应。我已经做到了,它表明随机效应模型不能解释数据,而只能解释固定效应模型。我的问题是我的地块仍然嵌套在森林斑块中,因此大概不是独立的。因此,我可以使用这种LRT方法来证明排除随机效应的合理性,还是我仍需要包括它来解决嵌套问题?如果我最终消除了随机效应,是否有办法验证森林斑块内的地块是否可以视为独立的? 谢谢你的帮助! 周杰伦

1
为什么引入随机斜率效应会增大斜率的SE?
我正在尝试分析Year对特定个体组(我有3个组)的变量logInd的影响。最简单的模型: > fix1 = lm(logInd ~ 0 + Group + Year:Group, data = mydata) > summary(fix1) Call: lm(formula = logInd ~ 0 + Group + Year:Group, data = mydata) Residuals: Min 1Q Median 3Q Max -5.5835 -0.3543 -0.0024 0.3944 4.7294 Coefficients: Estimate Std. Error t value Pr(>|t|) Group1 4.6395740 0.0466217 …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.