Questions tagged «mixed-model»

混合(aka多级或分层)模型是线性模型,其中包括固定效应和随机效应。它们用于对纵向或嵌套数据建模。

1
从lmer模型计算效果的可重复性
我刚刚碰到了这篇论文,该论文描述了如何通过混合效应建模来计算测量的可重复性(又称可靠性,又称类内相关性)。R代码为: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute the adjusted repeatability Rn = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

2
在多层次模型中,估计与不估计随机效应相关参数的实际含义是什么?
在多层次模型中,估计与不估计随机效应相关参数的实际和解释相关的含义是什么?提出此问题的实际原因是,在R中的lmer框架中,当在参数之间的相关性模型中进行估算时,没有通过MCMC技术估算p值的已实现方法。 例如,看这个例子(下面引用的部分),M2与M3的实际含义是什么。显然,在一种情况下不会估计P5,而在另一种情况下会估计。 问题 出于实际原因(希望通过MCMC技术获得p值),即使P5基本不为零,也可能希望在随机效应之间没有相关性的情况下拟合模型。如果执行此操作,然后通过MCMC技术估算p值,结果是否可以解释?(我知道@Ben Bolker之前曾提到过,“虽然从统计学上讲,将显着性测试与MCMC相结合有点不连贯,尽管我理解这样做的冲动(更容易获得置信区间)”,所以,如果这样做会使您睡得更好在晚上假装我说出置信区间。) 如果一个人无法估计P5,是否等于断言它为0? 如果P5确实非零,那么P1-P4的估计值会受到什么影响? 如果P5确实非零,那么P1-P4的误差估计会受到什么影响? 如果P5确实非零,那么以何种方式无法包含P5的模型解释有缺陷? 借用@Mike Lawrence的答案(比我更了解的人可以随意用完整的模型表示法替换它,我并不完全相信我可以以合理的忠诚度做到这一点): M2 :( V1 ~ (1|V2) + V3 + (0+V3|V2)估计P1-P4) M3 :( V1 ~ (1+V3|V2) + V3估计P1-P5) 可以估计的参数: P1:全局拦截 P2:V2的随机效应截距(即,对于V2的每个级别,该级别的截距与全局截距的偏差) P3:对V3的效果(斜率)的单个全局估计 P4:V2的每个级别内的V3效果(更具体地说,给定级别内的V3效果偏离V3的整体效果的程度),同时使跨级别的截距偏差和V3效果偏差之间的相关性为零V2。 P5:跨V2级别的截距偏差和V3偏差之间的相关性 从足够大和广泛的模拟以及使用lmer的R中附带的代码中得出的答案是可以接受的。

5
在生物学,心理学和医学领域使用lmer进行混合模型分析的示例报告?
由于通常的共识似乎是lmer()在R中使用混合模型而不是经典的ANOVA(由于经常提到的原因,例如不平衡设计,交叉随机效应等),我想尝试一下我的数据。但是,我担心我将这种方法“卖”给我的主管(后者希望最终进行p值的经典分析)或以后再将其“出售”给审稿人。 您能推荐一些使用混合模型或lmer()针对不同设计(例如重复测量)或针对领域生物学,心理学,医学的多个学科内部和学科之间设计的不同设计的发表文章的好例子吗?

1
lmer混合效应模型的predict()函数
问题: 我读过其他文章,这些文章predict不适用于lmer[R]中的混合效果{lme4}模型。 我尝试通过玩具数据集探索这个主题... 背景: 数据集是根据此来源改编的,可作为... require(gsheet) data <- read.csv(text = gsheet2text('https://docs.google.com/spreadsheets/d/1QgtDcGJebyfW7TJsB8n6rAmsyAnlz1xkT3RuPFICTdk/edit?usp=sharing', format ='csv')) 这些是第一行和标题: > head(data) Subject Auditorium Education Time Emotion Caffeine Recall 1 Jim A HS 0 Negative 95 125.80 2 Jim A HS 0 Neutral 86 123.60 3 Jim A HS 0 Positive 180 204.00 4 Jim A …

1
广义估计方程和GLMM有什么区别?
我正在使用logit链接在3级不平衡数据上运行GEE。这与混合效果(GLMM)和logit链接的GLM有什么不同(就我得出的结论和系数的含义而言)? 更多详细信息:观察结果是单次bernoulli试验。它们分为教室和学校。使用R。按需省略NA。6个预测变量也包括交互项。 (我不是要让孩子们抬头看他们是否抬头。) 我倾向于对系数进行比对。两者的含义是否相同? 关于GEE模型中的“边际均值”,我的内心深处潜藏着一些东西。我需要向我解释一下。 谢谢。


7
随机影响因子的最小建议组数是多少?
我在R(lme4)中使用了混合模型来分析一些重复的度量数据。我有一个反应变量(粪便中的纤维含量)和3种固定作用(体重等)。我的研究只有6位参与者,每位参与者都有16次重复测量(尽管两个只有12次重复)。受试者是蜥蜴,它们在不同的“治疗”中被给予不同的食物组合。 我的问题是:我可以将主体ID用作随机效果吗? 我知道这是纵向混合效应模型中的通常做法,要考虑到受试者的随机采样性质以及以下事实:受试者内部的观察比受试者之间的观察更紧密相关。但是,将受试者ID视为随机效应涉及估计此变量的均值和方差。 由于我只有6个科目(该因子的6个水平),这是否足以准确表征均值和方差? 我对每个主题都进行了多次重复测量的事实在这方面是否有所帮助(我不认为这很重要)? 最后,如果我不能将主体ID用作随机效果,是否可以将其作为固定效果来控制我重复测量的事实? 编辑:我想澄清一下,当我说“我可以”使用主体ID作为随机效果时,我的意思是“这样做是个好主意”。我知道我可以只用2个级别的因子来拟合模型,但是肯定可以辩护吗?我问在什么时候考虑将对象视为随机效应变得明智?似乎文献建议5-6级是一个下限。在我看来,直到有15个以上的因子水平,对随机效应的均值和方差的估计才非常精确。

2
我是否在lmer中正确指定了我的模型?
我搜寻了很多帮助站点,但仍然对如何在混合模型中指定更复杂的嵌套术语感到困惑。我也困惑,使用:和/和|在指定的交互,并使用随机因素嵌套lmer()在lme4包中R。 出于这个问题的目的,我们假设我已使用以下标准统计模型准确地描绘了我的数据: 是固定的,并且是随机的。 (隐式)嵌套在中。ÿ我Ĵ ķ= 你+ 站一世+ 拖曳j (我)+ 天ķ+ (站× 天)我ķ+ (拖曳× 天)j (i )kÿ一世Ĵķ=ü+站一世+拖Ĵ(一世)+天ķ+(站×天)一世ķ+(拖×天)Ĵ(一世)ķ Y_{ijk} = u + \text{station}_i + \text{tow}_{j(i)} + \text{day}_k + (\text{station}\times \text{day})_{ik} + (\text{tow}\times\text{day})_{j(i)k} stationtowdayTowstation 换句话说,我希望我的模型包括Station(i,fixed),Tow(j,random,隐式嵌套在Station中),Day(k,random),以及Tow和Day之间的交互以及Day之间的交互和车站。我已经咨询了统计学家以创建我的模型,并且目前认为它可以代表我的数据,但同时也会在我的文章底部添加对我的数据的描述,以免造成混乱。 到目前为止,我能够拼凑的内容如下lmer: lmer(y ~ station + (1|station:tow) + (1|Day) + (1|station:day) + (1|tow:day), data=my.data) 这是否准确地描绘了我的统计模型?如果无法正确阅读我的代码,有什么建议吗? 我已经加粗了我在lmer公式中难以指定的特定术语 #1 当拖曳是随机的且站是固定的时,在站内嵌套的拖曳 我很困惑,但是关于使用:和区分随机的嵌套和交互项/。在上面的示例中,我(1|station:tow)希望读取嵌套在站内的丝束。我在各个网站上都读到了相互矛盾的评论,无论我是应该使用:还是使用/随机(1|...)格式lmer。 …


1
零相关混合模型理论上什么时候听起来正确?
下面的块引用来自混合效果建模领域的领导者,声称在随机效果之间零相关的模型(“ ZCP”模型)中协调模型的移动会更改模型预测。 但是,有人可以详细说明或进一步证明其主张吗? 有问题的陈述来自Bates等人在 2015年发表的论文lme4,使用lme4拟合线性混合效应模型,第7页,第二段(下载链接)。 \newcommand{\slope}{\text{slope}} \newcommand{\int}{\text{int}} \newcommand{\intercept}{\text{intercept}} 以下是他们所写内容的解释: 尽管零相关参数模型用于降低随机斜率模型的复杂性,但是它们具有一个缺点。允许斜率和截距具有非零相关性的模型对于连续预测变量的加法位移是不变的。 当相关性被限制为零时,这种不变性将分解。预测变量的任何变化必然会导致估计的相关性以及模型的可能性和预测发生变化。1例如,我们可以简单地通过将Days [伴随\ slope的预测变量] 移位等于估算的对象间标准偏差乘以估算的相关性的比值即2来消除fm1中的相关性,slopeslope\slope ρslope:intercept×σslopeσinterceptρslope:intercept×σslopeσintercept\rho_{\slope:\intercept}\times\frac{\sigma_{\slope}}{\sigma_{\intercept}} 理想情况下,此类模型的使用应仅限于以比率比例尺测量预测变量的情况(即,比例尺上的零点是有意义的,而不仅仅是通过便利或惯例定义的位置)。 问题: 按照上面的上标编号... 我可以看到,用来测量预测变量的坐标系中的任何偏移都将导致估计的相关性发生变化,从而导致非零相关性。这支持这样的说法,即零相关参数模型在预测变量坐标系中的位移下不是不变的,因此,具有非零随机效应相关性的任何模型都可以通过适当的坐标偏移而转换为具有零相关性的模型。我认为它也支持上面解释的第三段:ZCP模型(和零截距模型-参见下文;但是请在此进行检查)仅适用于使用某些特殊坐标系的模型。 但是为什么要针对此类模型更改坐标预测呢? 例如,坐标的偏移也将更改组平均值的固定效果截距项(请参见下文),但仅更改与预测变量的坐标系的原点变化相称的量。只要将新的坐标系用于已移动的预测变量,此更改就不会影响模型预测。 详细地说,如果与移动的预测变量关联的固定效果斜率为正,并且预测变量坐标系的原点向负方向移动,则固定效果的截距将减少,并且任何相关的随机效应的截距也将更改相应地,在位移坐标系中反映了“原点”(因此是截距)的新定义。顺便说一句,我认为这种推理还意味着零截距模型在这种偏移下也不是不变的。 我认为我有一个合理的解决方案,但得出的答案与贝茨等人 略有不同。我在哪里出错了? 以下是我的答案。接下来是对我如何得出结果的描述。总而言之,我发现如果我将原点负移,那么在新坐标系中,预测变量取值,则新坐标系中的相关性 如果为零,则为零:xxxδ>0δ>0\delta > 0x′=x+δx′=x+δx' = x + \deltaρ′ρ′\rho' δ=ρslope:intercept×σinterceptσslopeδ=ρslope:intercept×σinterceptσslope\delta=\rho_{\slope:\intercept}\times\frac{\sigma_{\intercept}}{\sigma_{\slope}} 这与贝茨等人的结果不同。 我的方法的说明(可选阅读):假设我们具有两个随机效果的相关性,即和(简称),它们都对应于具有水平的相同分组因子(编号为,范围从至)。我们还说,与随机配对的连续预测变量称为,定义为使得乘积生成对水平的拟合值的条件贡献slopeslope\slopeinterceptintercept\interceptintint\intkkkiii111kkkslopeslope\slopexxxx×slopeix×slopeix\times\slope_iy^obsy^obs\hat y_{obs}iii相关的分组因子。尽管实际上MLE算法确定的值以使可能性最大,但我希望下面的表达式应该是确定均匀平移效果的尺寸正确方法,是的随机效果的乘数。。ρρ\rhoxxxslopeslope\slope ρslope:int=Ei[(slopei−slopei¯¯¯¯¯¯¯¯¯¯¯¯)(inti−inti¯¯¯¯¯¯¯¯)]Ei[(slopei−slopei¯¯¯¯¯¯¯¯¯¯¯¯)2]Ei[(inti−inti¯¯¯¯¯¯¯¯)2]−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−√ρslope:int=Ei[(slopei−slopei¯)(inti−inti¯)]Ei[(slopei−slopei¯)2]Ei[(inti−inti¯)2]\rho_{\slope:\int} = \frac{E_{i}\big[(\slope_i -\overline {\slope_i})(\int_i -\overline {\int_i})\big]}{\sqrt{E_{i}\big[(\slope_i -\overline {\slope_i})^2\big]E_{i}\big[(\int_i-\overline {\int_i})^2\big]}} 为了得出我的结果,我首先用新的截距值重写了截距的旧值(此处,,即“向左'预测变量原点偏移)。然后,将结果表达式代入的上述公式的分子中,计算的值,该值在新坐标系中的协方差为零。请注意,如上面问题1所述,固定效果拦截项也将以类似的方式更改:。(这里int′=−δ×slope+intint′=−δ×slope+int\int' = -\delta \times …


5
如何测试和避免混合线性模型中的多重共线性?
我目前正在运行一些混合效果线性模型。 我在R中使用软件包“ lme4”。 我的模型采用以下形式: model <- lmer(response ~ predictor1 + predictor2 + (1 | random effect)) 在运行模型之前,我检查了预测变量之间可能的多重共线性。 我这样做是: 建立预测变量的数据框 dummy_df <- data.frame(predictor1, predictor2) 使用“ cor”功能来计算预测变量之间的Pearson相关性。 correl_dummy_df <- round(cor(dummy_df, use = "pair"), 2) 如果“ correl_dummy_df”大于0.80,则我认为预测变量1和预测变量2的相关性太高,因此它们未包含在我的模型中。 在阅读时,将出现更多客观的方法来检查多重共线性。 有人对此有任何建议吗? “方差通胀因子(VIF)”似乎是一种有效方法。 可以使用AED程序包中的函数“ corvif”(非cran)来计算VIF。可以在http://www.highstat.com/book2.htm上找到该软件包。该软件包支持以下书籍: Zuur,AF,Ieno,EN,Walker,N.,Saveliev,AA和Smith,GM2009。《混合效应模型和生态学扩展》 R,第1版。纽约斯普林格。 似乎一般的经验法则是,如果VIF> 5,则预测变量之间的多重共线性较高。 使用VIF是否比简单的Pearson相关性更强大? 更新资料 我在以下位置找到了一个有趣的博客: http://hlplab.wordpress.com/2011/02/24/diagnosing-collinearity-in-lme4/ 博主提供了一些有用的代码,可为来自lme4软件包的模型计算VIF。 我已经测试了代码,并且效果很好。在随后的分析中,我发现模型的多重共线性不是一个问题(所有VIF值均小于3)。鉴于我之前已经发现某些预测变量之间存在较高的皮尔逊相关性,因此这很有趣。

4
在R中检查假设lmer / lme混合模型
我进行了重复的设计,在三个不同的任务中测试了30位男性和30位女性。我想了解男性和女性的行为有何不同,以及如何取决于任务。我同时使用了lmer和lme4软件包对此进行了研究,但是,我坚持尝试检查两种方法的假设。我运行的代码是 lm.full <- lmer(behaviour ~ task*sex + (1|ID/task), REML=FALSE, data=dat) lm.full2 <-lme(behaviour ~ task*sex, random = ~ 1|ID/task, method="ML", data=dat) 通过将其与没有交互的较简单模型进行比较并运行方差分析,我检查了交互是否是最佳模型: lm.base1 <- lmer(behaviour ~ task+sex+(1|ID/task), REML=FALSE, data=dat) lm.base2 <- lme(behaviour ~ task+sex, random= ~1|ID/task), method="ML", data=dat) anova(lm.base1, lm.full) anova(lm.base2, lm.full2) 问题1:可以在线性混合模型中使用这些分类预测变量吗? 问题2:我是否正确理解结果变量(“行为”)不需要本身正态分布(跨性别/任务)吗? 问题3:如何检查方差的均匀性?对于简单的线性模型,我使用plot(LM$fitted.values,rstandard(LM))。使用plot(reside(lm.base1))足够了吗? Q4:检查正常使用下面的代码好吗? hist((resid(lm.base1) - mean(resid(lm.base1))) / sd(resid(lm.base1)), …

2
混合模型是否可用作预测模型?
我对混合模型在预测建模方面的优势感到困惑。由于预测模型通常是用来预测先前未知观测值的,因此对我而言显而易见的是,混合模型可能有用的唯一方法是通过其提供总体水平的预测的能力(即不增加任何随机效应)。但是,问题在于,到目前为止,根据我的经验,基于混合模型的人口水平预测要比仅基于固定效应的标准回归模型的预测差得多。 那么关于预测问题的混合模型有什么意义呢? 编辑。问题如下:我拟合了混合模型(具有固定和随机效应)和仅具有固定效应的标准线性模型。当我进行交叉验证时,我得到以下预测精度层次:1)使用固定效应和随机效应进行预测时的混合模型(但这当然仅适用于具有已知随机效应变量水平的观察结果,因此这种预测方法似乎无法适合真正的预测应用!);2)标准线性模型;3)使用人口水平的预测时的混合模型(因此排除了随机影响)。因此,由于估计方法不同,标准线性模型和混合模型之间的唯一区别是系数的值有所不同(即,两个模型中的效果/预测因子相同,但相关系数不同)。 因此,我的困惑归结为一个问题,为什么我会使用混合模型作为预测模型,因为与标准线性模型相比,使用混合模型来生成总体水平的预测似乎是一种劣等策略。

5
在混合模型中将因素视为随机因素有什么好处?
我出于某些原因而无法接受将模型因子标记为随机变量的好处。在我看来,似乎在几乎所有情况下,最佳解决方案都是将所有因素视为固定的。 首先,固定与随机的区别是任意的。标准解释是,如果一个人对特定的实验单位本身感兴趣,则应使用固定效应,而如果一个人对实验单位所代表的种群感兴趣,则应使用随机效应。这没有太大帮助,因为这意味着即使数据和实验设计保持相同,也可以在固定视图和随机视图之间进行切换。同样,此定义引起一种错觉,即如果将因子标记为随机,则从模型得出的推论比将因子标记为固定的情况更适用于总体。最后,盖尔曼(Gelman)表明,固定随机的区别令人困惑 甚至在定义级别,因为还有四个关于固定效应和随机效应的定义。 其次,混合模型的估计非常复杂。与“纯固定”模型相反,有多种方法可以获取p值,在R的lme4程序包中实现REML估计的贝茨教授甚至拒绝完全报告p值。 。 第三,存在一个模糊的问题,即随机因素会引入多少个隐式参数。以下示例是我对Burnham&Anderson,“ 模型选择”和“多模型推理:一种实用的信息理论方法”的改编。从偏差方差折衷的角度来看,随机效应的作用可以说明如下。考虑采用处理和主因子效应的单向方差分析,其中是可估计的。错误项具有分布。如果观察次数固定,则随着的增加,偏差方差折衷将恶化。假设我们说ķ ķ - 1 Ñ(0 ,σ 2)ķ ķKKKKKKK−1K−1K - 1N(0,σ2)N(0,σ2)\mathcal N(0, \sigma^2)KKKKKK主要效果来自分布。相应的模型将具有介于固定(过度拟合)版本和仅包含截距的欠拟合模型之间的复杂性。固定模型中有效参数的数量为N(0,σK)N(0,σK)\mathcal N(0, \sigma_K) 1intercept+(K−1)maineffects+1σ=K+1.1intercept+(K−1)maineffects+1σ=K+1.1 \:\:\mathrm{intercept} + (K - 1) \:\:\mathrm{main\: effects} + 1 \:\:\sigma = K + 1. 随机模型中有效参数的数量至少为三个:。另外,随机模型具有许多“隐藏”参数,这些参数是对主要效果施加的分布(在这种情况下为正常)限制所隐含的。intercept,σ,σKintercept,σ,σK \mathrm{intercept}, \sigma, \sigma_K 尤其是,如果存在一个具有两个水平的因子,则将其称为随机是没有意义的,即使我们确定知道它的水平是从某些人群中随机抽样的也是如此。这是因为固定效果版本具有三个参数,而随机效果版本具有三个以上参数。在这种情况下,随机模型比固定版本具有更高的复杂性。显然,从固定版本到随机版本的切换更适合更大的KKK。但是,随机模型中“隐藏”参数的数量是未知的,因此无法根据信息标准(例如AIC)比较固定版本和随机版本。因此,尽管该示例阐明了随机效应的贡献(更好的偏差-方差权衡的可能性),但它也表明,很难说何时可以合理地将因子从固定重新标记为随机。 “完全固定”模型中没有上述问题。因此,我愿意问: 谁能提供一个示例,说明在使用随机因子(如固定因子)时发生了非常糟糕的事情吗?我认为应该进行一些模拟研究来明确解决该问题。 是否有行之有效的定量方法来决定何时从固定标签转换为随机标签?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.