Questions tagged «mixed-model»

混合(aka多级或分层)模型是线性模型,其中包括固定效应和随机效应。它们用于对纵向或嵌套数据建模。

2
对于R中的重复测量方差分析,为什么lme和aov返回不同的结果?
我正在尝试从使用ez软件包过渡到lme重复测量方差分析(因为我希望能够在上使用自定义对比lme)。 遵循此博客文章的建议,我能够同时使用和设置相同的模型aov(ez当需要时也是如此)lme。然而,尽管在给出的例子中那个帖子的˚F -值不完美之间同意aov和lme(我检查,他们这样做),这是不是我的数据的情况。尽管F值相似,但它们并不相同。 aov返回1.3399的f值,lme返回1.36264。我愿意接受aov结果为“正确” 的结果,因为这也是SPSS返回的结果(这对我的字段/主管很重要)。 问题: 如果有人能解释为什么存在这种差异以及如何使用我lme来提供可靠的结果,那就太好了。(如果它给出“正确的”结果,我也愿意使用lmer而不是lme用于这种类型的东西。但是,到目前为止,我还没有使用它。) 解决此问题后,我想进行对比分析。尤其是我对合并因子的前两个级别(即c("MP", "MT"))并将其与因子的第三个级别(即)进行对比的兴趣"AC"。此外,测试因子的第三级与第四级(即"AC"vs "DA")。 数据: tau.base <- structure(list(id = structure(c(1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L, 13L, 14L, 15L, 16L, 17L, 18L, 19L, 20L, 21L, 22L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L, 13L, …

2
将固定效果嵌套在一个随机效果中是否有意义,或者如何用R(aov和lmer)编码重复的度量?
我一直在通过@conjugateprior浏览lm / lmer R公式的概述,并被以下条目弄糊涂了: 现在假设A是随机的,但B是固定的,并且B嵌套在A内。 aov(Y ~ B + Error(A/B), data=d) 下面lmer(Y ~ B + (1 | A:B), data=d) 为相同情况提供了类似的混合模型公式。 我不太明白这是什么意思。在将受试者分为几组的实验中,我们将在固定因子(组)中嵌套一个随机因子(对象)。但是,如何将固定因子嵌套在随机因子中呢?有固定的嵌套在随机主题内的东西吗?可能吗 如果不可能,那么这些R公式有意义吗? 提到该概述部分基于个性项目的页面,该页面基于R中的重复度量的本教程,而该页面本身基于R进行ANOVA。以下是重复测量方差分析的示例: aov(Recall ~ Valence + Error(Subject/Valence), data.ex3) 在这里,向受试者显示不同价的单词(三个级别的因子),并测量其回忆时间。每个主题都有三个价位的单词。我没有看到此设计中嵌套的任何内容(按照此处的最佳答案,它看起来像是交叉的),因此在这种情况下,我会天真的认为Error(Subject)或(1 | Subject)应该使用适当的随机术语。在Subject/Valence“筑巢”(?)是混淆。 请注意,我确实知道这Valence是一个内部因素。但我认为这不是科目中的“嵌套”因素(因为所有科目都经历的所有三个级别Valence)。 更新。我正在探索有关在R中编码重复测量方差分析的CV问题。 在此,以下内容用于固定的内部/重复测量值A和随机值subject: summary(aov(Y ~ A + Error(subject/A), data = d)) anova(lme(Y ~ A, random = ~1|subject, data …


2
如何比较和验证混合效应模型?
通常如何比较(线性)混合效果模型?我知道可以使用似然比检验,但是如果一个模型不是另一个正确模型的“子集”,这将不起作用? 模型df的估算是否总是简单明了?固定效应数量+估计的方差成分数量?我们是否忽略随机效应估计? 验证呢?我的第一个想法是交叉验证,但是考虑到数据的结构,随机折叠可能不起作用。“遗漏一个主题/集群”的方法是否合适?那把一个观察结果留在外面怎么办? 锦葵Cp可解释为模型预测误差的估计。通过AIC进行模型选择会尝试最大程度地减少预测误差(因此,如果误差是高斯型,我相信Cp和AIC应该选择相同的模型)。这是否意味着AIC或Cp可以用于根据预测误差从一些非嵌套模型的集合中选择“最佳”线性混合效应模型?(前提是它们适合相同的数据)BIC是否仍然更有可能在候选人中选择“真实”模型? 我还给人的印象是,在通过AIC或BIC比较混合效果模型时,我们仅将固定效果计算为“参数”,而不是实际模型df。 关于这些主题有没有好的文献?是否值得研究cAIC或mAIC?他们在AIC之外是否有特定的应用程序?

2
尽管数据有些变化,为什么在混合模型中我得到的随机效应的方差为零?
我们使用以下语法运行了混合效果逻辑回归: # fit model fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0, family = binomial(link="logit")) # model output summary(fm0) 主题和项目是随机效果。我们得到一个奇怪的结果,即该主题词的系数和标准偏差均为零; Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) [glmerMod] Family: binomial ( logit ) Formula: GoalEncoding ~ 1 + Group + (1 | Subject) …

1
表明对5个主题进行100次测量比对100个主题进行5次测量提供的信息少得多
在一次会议上,我无意中听到以下声明: 5个主题的100次测量所提供的信息比100个主题的5次测量要少得多。 显然这是对的,但是我想知道如何用数学方式证明这一点……我认为可以使用线性混合模型。但是,我对用于估算它们的数学知识不甚了解(我只lmer4为LMM和bmrsGLMM 运行:)您能给我展示一个真实的例子吗?与R中的某些代码相比,我更希望提供一些公式的答案。请随意假设一个简单的设置,例如具有正态分布的随机截距和斜率的线性混合模型。 PS不涉及LMM的基于数学的答案也是可以的。我之所以想到LMM,是因为它们在我看来是一种自然的工具,可以解释为什么来自更多学科的较少量度要比来自少数学科的更多量度更好,但是我很可能错了。

2
如何将二项式GLMM(glmer)应用于百分比而不是是-否计数?
我有一个重复测量实验,其中因变量是一个百分比,并且我有多个因素作为自变量。我想glmer从R包中使用lme4它(通过指定family=binomial)作为逻辑回归问题,因为它似乎可以直接容纳此设置。 我的数据如下所示: > head(data.xvsy) foldnum featureset noisered pooldur dpoolmode auc 1 0 mfcc-ms nr0 1 mean 0.6760438 2 1 mfcc-ms nr0 1 mean 0.6739482 3 0 melspec-maxp nr075 1 max 0.8141421 4 1 melspec-maxp nr075 1 max 0.7822994 5 0 chrmpeak-tpor1d nr075 1 max 0.6547476 6 1 chrmpeak-tpor1d nr075 1 …

1
基于MCMC的回归模型中的残留诊断
我最近开始使用MCMC算法(实际上是R中的MCMCglmm函数)在贝叶斯框架中拟合回归混合模型。 我相信我已经了解了如何诊断估计过程的收敛性(迹线,geweke图,自相关,后验分布...)。 在贝叶斯框架中给我留下深刻印象的一件事是,似乎花了很多精力来进行这些诊断,而在检查拟合模型的残差方面却似乎做得很少。例如,在MCMCglmm中,确实存在残留的.mcmc()函数,但实际上尚未实现(即返回:“尚未为MCMCglmm对象实现的残留物”; predict.mcmc()的情况相同)。在其他软件包中似乎也缺少它,而且在我发现的文献中,除讨论广泛的DIC之外,它几乎没有被讨论过。 谁能指出一些有用的参考,理想情况下,我可以使用或修改R代码? 非常感谢。

3
当交互作用不显着时,如何解释主要作用?
我在R中运行了广义线性混合模型,并包括了两个预测变量之间的相互作用。交互作用并不显着,但主要影响(两个预测因素)均如此。现在,许多教科书示例告诉我,如果交互作用显着,则主要作用无法解释。但是,如果您的互动不重要怎么办? 我是否可以得出结论,这两个预测因素会对响应产生影响?还是在不进行交互的情况下运行新模型更好?我不想这样做,因为那样我就必须控制多个测试。

4
如何将新向量投影到PCA空间上?
执行主成分分析(PCA)之后,我想将一个新向量投影到PCA空间上(即在PCA坐标系中找到其坐标)。 我已经使用R计算了R语言的PCA prcomp。现在,我应该可以将向量乘以PCA旋转矩阵。该矩阵中的主要成分应该按行还是按列排列?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
lmer()中的“模型无法收敛”警告
对于以下数据集,我想查看响应(效果)是否随站点,季节,持续时间及其相互作用而变化。一些在线统计论坛建议我继续使用线性混合效应模型,但是问题在于,由于每个站点内的重复样本都是随机的,因此我几乎没有机会连续几个季度从完全相同的位置收集样本(例如,季风后s1的repl-1可能与季风不同。这与临床试验(采用受试者内部设计)不同,在临床试验中,您会按季节重复测量同一受试者。但是,考虑到站点和季节是随机因素,我运行了以下命令并收到警告消息: Warning messages: 1: In checkConv(attr(opt, "derivs"), optpar,ctrl=controlpar,ctrl=controlcheckConv, : unable to evaluate scaled gradient 2: In checkConv(attr(opt, "derivs"), optpar,ctrl=controlpar,ctrl=controlcheckConv, : Model failed to converge: degenerate Hessian with 1 negative eigenvalues 谁能帮我解决这个问题?代码如下: library(lme4) read.table(textConnection("duration season sites effect 4d mon s1 7305.91 4d mon s2 856.297 4d mon s3 649.93 4d mon …

1
lme()和lmer()给出矛盾的结果
我一直在处理一些重复测量有问题的数据。在这样做的过程中,我注意到测试数据之间lme()以及lmer()使用测试数据时存在非常不同的行为,并且想知道为什么。 我创建的虚假数据集具有10个对象的身高和体重测量值,每个测量值两次。我设置数据以使受试者之间的身高和体重之间存在正相关关系,但在每个个体内重复测量之间存在负相关关系。 set.seed(21) Height=1:10; Height=Height+runif(10,min=0,max=3) #First height measurement Weight=1:10; Weight=Weight+runif(10,min=0,max=3) #First weight measurement Height2=Height+runif(10,min=0,max=1) #second height measurement Weight2=Weight-runif(10,min=0,max=1) #second weight measurement Height=c(Height,Height2) #combine height and wight measurements Weight=c(Weight,Weight2) DF=data.frame(Height,Weight) #generate data frame DF$ID=as.factor(rep(1:10,2)) #add subject ID DF$Number=as.factor(c(rep(1,10),rep(2,10))) #differentiate between first and second measurement 这是数据的图,线连接了每个人的两个测量值。 因此,我运行了两个模型,一个模型lme()来自nlmepackage,一个模型来自lmer()from lme4。在这两种情况下,我都进行了体重对身高的回归分析,并使用ID的随机效应来控制每个人的重复测量。 library(nlme) Mlme=lme(Height~Weight,random=~1|ID,data=DF) library(lme4) Mlmer=lmer(Height~Weight+(1|ID),data=DF) …

1
为什么最佳线性无偏预测器(BLUP)的估计值与最佳线性无偏估计器(BLUE)的估计值为何不同?
我知道它们之间的差异与模型中的分组变量是固定效应还是随机效应有关,但我不清楚为什么它们不相同(如果它们不相同)。 如果相关,我特别对使用小面积估计时的工作方式感兴趣,但是我怀疑这个问题与固定和随机效应的任何应用有关。

4
在对连续数据建模时,泊松分布如何工作,是否会导致信息丢失?
一位同事正在为她的论文分析一些生物学数据,并得出一些令人讨厌的异方差(下图)。她正在使用混合模型对其进行分析,但仍然无法处理残差。 对数转换响应变量可以清除内容,并且根据对该问题的反馈,这似乎是一种适当的方法。但是,最初,我们曾认为将转换变量与混合模型一起使用存在问题。事实证明,我们一直在误解Littell&Milliken(2006)的SAS for Mixed Models中的一个陈述,该陈述指出了为什么不适合转换计数数据然后使用正常的线性混合模型进行分析的原因(下面有完整的引号) 。 一种也可以改善残差的方法是使用具有Poisson分布的广义线性模型。我已经读过Poisson分布可用于对连续数据进行建模(例如,如本文中所讨论的),并且stats包允许这样做,但是我不了解模型适合时的情况。 为了理解如何进行基础计算,我的问题是:当您将Poisson分布拟合到连续数据时,1)是否将数据四舍五入到最接近的整数2)这样做会导致信息丢失,并且3)何时(如果有的话)将Poisson模型用于连续数据是否合适? Littel&Milliken 2006,第529页,“转换[count]数据可能会适得其反。例如,转换可能会使随机模型效应的分布或模型的线性变形。更重要的是,转换数据仍然留有可能性。负预测计数。因此,高度怀疑使用转换数据的混合模型进行推断。”

2
多次插补后如何合并后均值和可信区间?
我使用多重插补来获得许多完整的数据集。 我已经在每个完整的数据集上使用贝叶斯方法来获取参数的后验分布(随机效应)。 如何合并/合并此参数的结果? 更多内容: 就个别学生(每个学生一个观察)聚集在学校的意义而言,我的模型是分层的。我对数据进行了多次插补(MICE在R中使用),我将其school作为丢失数据的预测变量之一包括在内-试图将数据层次结构合并到插补中。 我已经为每个完整的数据集拟合了一个简单的随机斜率模型(MCMCglmm在R中使用)。结果是二进制的。 我发现随机斜率方差的后验密度在某种意义上是“表现良好的”: 对于这种随机效应,如何合并/合并来自每个估算数据集的后均值和可信区间? 更新1: 据我到目前为止的了解,我可以将鲁宾的规则应用于后验均值,以给出一个倍增的后验均值-这样做有什么问题吗?但是我不知道如何合并95%的可信区间。另外,由于每个插补都有一个实际的后验密度样本-我可以以某种方式将它们组合吗? Update2: 根据@cyan在评论中的建议,我非常喜欢简单地组合从多个插补的每个完整数据集获得的后验分布样本的想法。但是,我想知道这样做的理论依据。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.