Questions tagged «mixed-model»

混合(aka多级或分层)模型是线性模型,其中包括固定效应和随机效应。它们用于对纵向或嵌套数据建模。

1
了解混合效应模型中连续随机因素的效应
我了解分类随机效应对混合效应模型的影响,因为它在随机效应中按级别对观察结果进行了部分合并,有效地假设观察值本身不是独立的,而只是它们的部分合并。同样,据我所知,在这种模型中,观测值具有相同的随机效应水平,但固定效应水平不同,将胜过随机效应和固定效应水平不同的观测。 那么,连续随机因子的作用是什么?假设没有随机效应的模型显示固定效应的效应量为X。我是否应该期望,如果固定效应在不同级别的观察结果来自随机效应连续体的远端,则效应量将变小。一个包含随机因子的模型,而如果在不同固定因子水平上的观测值具有相似的随机效应值,则效应量会增加吗?


1
如何在lme4中解释多元混合模型的系数而无需整体拦截?
我正在尝试在中拟合多变量(即多响应)混合模型R。除了ASReml-r和SabreR软件包(需要外部软件)之外,似乎只有在中才有可能MCMCglmm。Jarrod Hadfield 在包装随附的论文MCMCglmm(pp.6)中描述了拟合模型的过程,例如将多个响应变量重塑为一个长格式变量,然后抑制总体截距。我的理解是,抑制截距会使响应变量每个级别的系数解释变为该级别的平均值。鉴于以上所述,因此是否可以使用来拟合多元混合模型lme4?例如: data(mtcars) library(reshape2) mtcars <- melt(mtcars, measure.vars = c("drat", "mpg", "hp")) library(lme4) m1 <- lmer(value ~ -1 + variable:gear + variable:carb + (1 | factor(carb)), data = mtcars) summary(m1) # Linear mixed model fit by REML # Formula: value ~ -1 + variable:gear + variable:carb + (1 | …

1
为什么Anova()和drop1()为GLMM提供了不同的答案?
我有以下形式的GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) 当我使用时drop1(model, test="Chi"),我得到的结果与Anova(model, type="III")从汽车包装或汽车上获得的结果不同summary(model)。后两个给出相同的答案。 通过使用大量虚构数据,我发现这两种方法通常没有区别。对于平衡线性模型,不平衡线性模型(不同组中的n不相等)和平衡广义线性模型,它们给出相同的答案,但对于平衡广义线性混合模型,它们给出相同的答案。因此看来,只有在包括随机因素的情况下,这种矛盾才会显现出来。 为什么这两种方法之间存在差异? 使用GLMM时应使用Anova()还是drop1()应使用? 至少就我的数据而言,两者之间的差异很小。哪一个使用都重要吗?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 



1
交叉随机效应和不平衡数据
我正在建模一些我认为有两个交叉随机效应的数据。但是数据集不平衡,我不确定需要做些什么来说明它。 我的数据是一组事件。当客户端与提供者会面以执行成功或失败的任务时,将发生事件。有数千个客户和提供者,每个客户和提供者都参与不同数量的事件(大约5到500个)。每个客户和提供者都有一定的技能水平,任务成功的机会取决于两个参与者的技能。客户和提供者之间没有重叠。 我对客户和提供者人数的各自差异感兴趣,因此我们可以知道哪个来源对成功率有更大的影响。我还想知道我们实际拥有数据的客户和提供者之间技能的具体价值,以确定最佳/最差的客户或提供者。 最初,我想假设成功的可能性仅由客户和提供者的综合技能水平决定,而没有其他固定影响。因此,假设x是客户端的一个因素,y是提供者的一个因素,那么在R中(使用程序包lme4),我将模型指定为: glmer( success ~ (1 | x) + (1 | y), family=binomial(), data=events) 一个问题是客户端在提供者之间分布不均。较高技能的客户更有可能与较高技能的提供者匹配。我的理解是,随机效应必须与模型中的任何其他预测变量均不相关,但是我不确定如何对其进行解释。 同样,一些客户和提供者的事件很少(少于10个),而其他事件和事件却很多(最多500个),因此我们在每个参与者上拥有的数据量分布广泛。理想情况下,这将反映在每个参与者技能估计值的“置信区间”中(尽管我认为“置信区间”一词在这里并不十分正确)。 由于数据不平衡,交叉随机效应会成为问题吗?如果是这样,我应该考虑哪些其他方法?

1
是否可以在混合模型中将时间作为预测变量?
我一直认为时间不应该用作回归(包括gam的预测)的预测因子,因为这样一来,人们就可以简单地“描述”趋势本身。如果一项研究的目的是找到诸如温度等环境参数来解释动物活动的变化,那么我想知道时间如何发挥作用?作为未测参数的代理? 在这里可以看到港口海豚活动数据的一些时间趋势:-> 在进行GAMM时如何处理时间序列中的缺口? 我的问题是:当我在模型中加入时间(以朱利安天数为单位)时,所有其他参数的90%就变得微不足道了(来自mgcv的ts收缩平滑器将其排除在外)。如果我没有时间,那么其中一些很重要... 问题是:时间是否可以用作预测变量(甚至可能需要?),或者这弄乱了我的分析? 提前谢谢了

2
纵向数据:时间序列,重复测量或其他?
用简单的英语来说: 我有一个多元回归或ANOVA模型,但是每个人的响应变量都是时间的曲线函数。 如何确定哪个右侧变量导致曲线的形状或垂直偏移的显着差异? 这是时间序列问题,重复测量问题还是其他所有问题? 分析此类数据的最佳实践是什么(最好在中R,但我愿意使用其他软件)? 确切地说: 假设我有一个模型但实际上是从收集的一系列数据点在许多时间点,相同的个体被记录为数值变量。绘制数据表明,对于每个个体是时间的二次函数或周期性函数,其垂直偏移,形状或频率(在周期性情况下)可能极大地取决于协变量。协变量不会随时间变化-即,在数据收集期间,个体具有恒定的体重或治疗组。ÿ我Ĵ ķ= β0+ β1个X一世+ β2XĴ+ β3X一世XĴ+ ϵķÿ一世Ĵķ=β0+β1个X一世+β2XĴ+β3X一世XĴ+ϵķy_{ijk} = \beta_0 + \beta_1 x_i + \beta_2 x_j + \beta_3 x_i x_j + \epsilon_kÿ我Ĵ ķÿ一世Ĵķy_{ijk}ķķkŤŤtÿ我Ĵ ķ 吨ÿ一世ĴķŤy_{ijkt} 到目前为止,我已经尝试了以下R方法: 马诺娃 Anova(lm(YT~A*B,mydata),idata=data.frame(TIME=factor(c(1:10))),idesign=~TIME); ...这里YT是一个矩阵,其列为时间点,在此示例中为10个,但在实际数据中则更多。 问题:这将时间视为一个因素,但是每个人的时间点并不完全匹配。此外,其中有许多是与样本大小相关的,因此模型变得饱和。似乎随时间变化的响应变量的形状被忽略了。 混合模型(如Pinheiro和Bates,S和S-Plus中的混合效应模型) lme(fixed=Y~ A*B*TIME + sin(2*pi*TIME) + cos(2*pi*TIME), data=mydata, random=~(TIME + sin(2*pi*TIME) + cos(2*pi*TIME))|ID), method='ML') ...其中ID一个因素是按个人分组数据。在此示例中,响应随时间变化是周期性的,但是可以替代地存在二次项或其他时间函数。 …

2
将混合模型(作为随机效应)与简单的线性模型(作为固定效应)进行比较
我正在完成对大量数据的一些分析。我想采用在工作的第一部分中使用的线性模型,并使用线性混合模型(LME)重新拟合它。除了将模型中使用的变量之一用作随机效应外,LME非常相似。该数据来自一小群受试者(约10个)中的许多观察值(> 1000),我知道,将受试者的效果建模为随机效果更好(这是我要转移的变量)。R代码如下所示: my_modelB <- lm(formula = A ~ B + C + D) lme_model <- lme(fixed=A ~ B + C, random=~1|D, data=my_data, method='REML') 一切运行正常,结果极为相似。如果我可以使用RLRsim或AIC / BIC之类的东西来比较这两种模型并确定最合适的模型,那就太好了。我的同事们不想举报LME,因为尽管我认为LME是更合适的模型,但是没有一种容易获得的选择“更好”的方法。有什么建议么?

2
随机效应模型中每个群集的最小样本量
随机效应模型中每个聚类的观察数量是否合理?我有1,500个样本,其中700个聚类被建模为可交换随机效应。我可以选择合并群集,以构建较少但较大的群集。我想知道如何选择每个聚类的最小样本量,以便在预测每个聚类的随机效应时获得有意义的结果?有一篇很好的论文可以解释这一点吗?

1
混合效应逻辑回归的固定效应解释
我对UCLA网页上有关混合效应逻辑回归的陈述感到困惑。他们显示了一个通过拟合这样的模型得到的固定效应系数表,下面的第一段似乎完全像正常的逻辑回归那样解释系数。但是,当他们谈论比值比时,他们说您必须根据随机效应来解释它们。是什么使对数奇数的解释与其指数值不同? 要么不需要“保持其他所有内容不变”? 从该模型解释固定效应系数的正确方法是什么?我总是给人的印象是“正常”逻辑回归没有任何变化,因为随机效应的期望值为零。因此,无论有无随机效应,您都可以解释完全相同的对数奇数和优势比-仅更改了SE。 估计可以基本上一如既往地解释。例如,对于IL6,IL6的单位增加与预期的缓解对数几率中的0.053单位降低相关。同样,已婚或已婚的人有望获得的缓解几率比未婚者高0.26。 许多人喜欢解释赔率。但是,当存在混合效果时,这些将具有更细微的含义。在常规logistic回归中,优势比与所有其他预测变量固定的预期优势比成正比。这是有道理的,因为我们经常对统计数据进行调整以适应其他影响(例如年龄),以获得结婚的“纯”影响或任何主要的主要预测指标。混合效应逻辑模型也是如此,此外,保持所有其他特征不变包括保持随机效应不变。也就是说,赔率是指保持年龄和IL6恒定的人以及具有相同医生或具有相同随机效应的医生的人的条件赔率

1
您为什么要从混合效应模型中进行预测,而又不包括随机效应呢?
这更多是一个概念性问题,但是在我使用时,R我将参考中的软件包R。如果目的是为了进行预测而拟合线性模型,然后在可能无法获得随机效应的情况下进行预测,那么使用混合效应模型有什么好处,还是应该使用固定效应模型? 例如,如果我有重量与高度数据以及其他一些信息,并且使用构建以下模型lme4,其中受试者是具有因子水平(Ñ = Ñ Ö 。小号一米p 升Ë 小号ññnn = n o 。š 一米p 升Ë 小号ñ=ñØ。s一个米p升Ësn=no.samples): mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F) 然后,我希望能够使用新的身高和年龄数据从模型中预测体重。显然,原始数据的个体差异是在模型中捕获的,但是可以在预测中使用此信息吗?假设我有一些新的身高和年龄数据,并且想要预测体重,我可以这样做: predict(mod1,newdata=newdf) # newdf columns for height, age, subject 这将使用predict.merMod,并且我可以在newdf或set中为(新)主题添加一列re.form =~0。在第一种情况下,尚不清楚模型如何处理“新”主观因素,在第二种情况下,是否会简单地忽略(平均)模型中捕获的个体差异以进行预测? 无论哪种情况,在我看来固定效果线性模型都可能更合适。确实,如果我的理解是正确的,那么如果预测中未使用随机效应,则固定效应模型应预测与混合模型相同的值。应该是这样吗?在R它不是,例如: mod1 <- lmer(weight ~ height + age + (1|subject), data=df, REML=F) predict(mod1,newdata=newdf, …

1
对于广义线性模型(例如,泊松混合模型(与glmer拟合)),lsmeans报告什么?
我正在分析设计实验中的眼动数据。我的数据的简化版本如下所示(您可以在此处获取dput()数据), head(lookDATA) participant fixationImage fixationCount 1 9 Automobile 81 2 9 Bird 63 3 9 Chair 82 4 9 Dog 64 5 9 Face 90 6 9 Plant 75 其中参与者是每个主题的唯一标识符,fixationImage是他们固定在哪个图片类别上,而fixationCount是他们固定在该图片类别上的次数。 我使用lme4包中的 glmer()将泊松模型拟合到数据中。 model<-glmer(fixationCount ~ fixationImage + (1|participant), family = poisson, data = lookDATA) 我使用lsmeans 包中的 lsmeans()来检查因子水平之间的差异, cld(lsmeans(model,"fixationImage")) 提供以下输出: fixationImage lsmean …

2
当解释变量之一可能具有二次项和三次项时,我该如何建模?
我衷心希望我对这个问题的表述方式能够得到明确的回答-如果没有,请让我知道,我会再试一次!我还应该注意,我将使用R进行这些分析。 我plant performance (Ys)怀疑有几种措施受到了我实施的四种治疗的影响- flower thinning (X1), fertilization (X2), leaf clipping (X3)和biased flower thinning (X4)。对于所有可能的Y,N至少为242,因此我的样本量很大。所有地块都进行了稀疏或不间断处理,但每个地块也经历了其他三种处理方式中的一种(也只有一种)(或没有,也有对照地块)。该设计的目的是测试其他三种处理是否能够“掩盖”或“增强”细化效果。因此,通过设计,后三种处理(X2-X4)不能相互作用彼此,因为他们没有交叉,但他们可以每疏花互动-他们可能会做。 我的明确假设是:1)开花稀疏将很重要,并且2)X1*X2, X1*X3, and X1*X4,花卉稀疏与其他三种处理之间的相互作用项也将很重要。就是说,疏花应该很重要,但是其他三种处理方式却应该大大改变疏花的方式。 我想将所有这些信息包括在混合模型中: Y ~ X0 + X1 + X2 + X3 + X4 + X1*X2 + X1*X3 + X1*X4 + (Up to three random effects) 但是有一个困扰:我有充分的理由相信细化对Y的影响是非线性的。它们可能是二次方的,但在某些情况下甚至可能是三次方的。这是因为细化对性能的影响很可能在更高的细化水平下更快地增加。如果我尝试通过为X1添加二次项和三次项来通过上述等式对这种非线性关系进行建模,那么我不确定如何对交互项进行建模-我应该包括X1的所有可能组合(X1)^ 2,以及(X1)^ 3 * X2,X3和X4?因为即使有我拥有的数据点的数量,这似乎也要尝试估计很多参数,而且我不确定如何解释得到的结果。就是说,我没有生物学上的理由认为这将是对情况进行建模的不明智的方式。 因此,对于如何解决此问题,我有三点想法: 首先拟合一个较小的模型,例如Y …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.