Questions tagged «mixed-model»

混合(aka多级或分层)模型是线性模型,其中包括固定效应和随机效应。它们用于对纵向或嵌套数据建模。

2
纵向数据的机器学习技术
我想知道是否有用于纵向数据建模的机器学习技术(无监督)?我一直使用混合效果模型(大多数是非线性的),但我想知道是否还有其他方法(使用机器学习)。 机器学习是指随机森林,分类/聚类,决策树甚至是深度学习等。

2
为什么限制最大似然会产生更好的(无偏的)方差估计?
我正在阅读道格·贝茨(Doug Bates)关于R的lme4程序包的理论论文,以更好地理解混合模型的本质,并遇到了一个我想更好理解的有趣结果,即使用受限最大似然(REML)估计方差。 在关于REML标准的第3.3节中,他指出,在拟合线性模型中根据残差估计方差时,在方差估计中使用REML与使用自由度校正紧密相关。特别是,“尽管通常不是这样得出的”,但可以通过优化“ REML准则”估算方差来推导自由度校正(公式(28))。REML标准基本上只是可​​能性,但是线性拟合参数已通过边缘化来消除(而不是将其设置为等于拟合估计值,这会产生有偏差的样本方差)。 我进行了数学运算,并验证了仅具有固定效果的简单线性模型所声称的结果。我正在努力的是解释。是否存在某种观点,可以通过优化拟合参数被边缘化的可能性来自然地推导方差估计?感觉有点像贝叶斯,好像我认为似然性是后验的,将拟合参数边缘化,就好像它们是随机变量一样。 还是说辩护主要只是数学上的-它在线性情况下有效,但也可以推广?

2
从lmer获得自由度
我已经将lmer模型与以下内容配合在一起(尽管已完成输出): Random effects: Groups Name Std.Dev. day:sample (Intercept) 0.09 sample (Intercept) 0.42 Residual 0.023 我真的很想使用以下公式为每种效果建立一个置信区间: (n − 1 )s2χ2α / 2 ,n − 1,(n − 1 )s2χ21 - α / 2 ,Ñ - 1(ñ-1个)s2χα/2,ñ-1个2,(ñ-1个)s2χ1个-α/2,ñ-1个2 \frac{(n-1)s^2}{\chi^2_{\alpha/2, n-1}},\frac{(n-1)s^2}{\chi^2_{1-\alpha/2,n-1}} 有没有一种方法可以方便地摆脱自由度?

1
具有采样变量的混合效应模型设计
我正在尝试lme4为实验设计指定线性混合效果模型(带有)的公式,但是不确定执行是否正确。 设计:基本上,我正在测量植物的响应参数。我有4种治疗水平和2种灌溉水平。将植物分为16个地块,在每个地块中,我对4个子图进行采样。在每个子图中,我进行15到30次观察(取决于发现的植物数量)。即,总共有1500行。 最初,子图级别只是出于采样目的,但是我想在模型中将其考虑在内(作为64级变量),因为我看到从一个子图到另一个子图有很多可变性,即使在同一图内(大于整个图之间的差异)。 我的第一个想法是写: library(lme4) fit <- lmer(y ~ treatment*irrigation + (1|subplot/plot), data=mydata) 要么 fit <- lmer(y ~ treatment*irrigation + (1|subplot) + (1|plot), data=mydata) 那是对的吗?我不确定是否必须在公式中同时保留两个图/子图级别。没有固定的影响是重要的,但随机的影响是非常重要的。

2
什么是lme4 :: lmer等同于三向重复测量方差分析?
我的问题基于此回答,该回答表明哪个lme4::lmer模型对应于两次重复测量方差分析: require(lme4) set.seed(1234) d <- data.frame( y = rnorm(96), subject = factor(rep(1:12, 4)), a = factor(rep(1:2, each=24)), b = factor(rep(rep(1:2, each=12))), c = factor(rep(rep(1:2, each=48)))) # standard two-way repeated measures ANOVA: summary(aov(y~a*b+Error(subject/(a*b)), d[d$c == "1",])) # corresponding lmer call: anova(lmer(y ~ a*b+(1|subject) + (1|a:subject) + (1|b:subject), d[d$c == "1",])) 我现在的问题是如何将其扩展到三向方差分析的情况: …

2
随机拦截模型与GEE
考虑一个随机截距线性模型。这等效于具有可交换工作相关矩阵的GEE线性回归。假设预测变量为和,这些预测变量的系数为,和。随机截距模型中系数的解释是什么?除了在个人层面上,它是否与GEE线性回归相同?x1,x2,x1,x2,x_1, x_2,x3x3x_3β1β1\beta_1β2β2\beta_2β3β3\beta_3

3
将多级模型拟合到R中的复杂测量数据
我正在寻找有关如何在R中使用多级模型分析复杂调查数据的建议。我已使用该survey软件包对一级模型中选择的不平等概率进行加权,但是此软件包没有用于多层建模的功能。该lme4软件包非常适合用于多层建模,但是我不知道有一种方法可以在不同级别的聚类中包含权重。Asparouhov(2006)提出了问题: 多级模型通常用于分析群集抽样设计中的数据。但是,这样的抽样设计通常在集群级别和单个级别使用不相等的选择概率。在一个或两个级别上分配采样权重以反映这些概率。如果在任何一个级别上都忽略了采样权重,则参数估计值可能会出现明显偏差。 用于两级模型的一种方法是在MPLUS中实现的多级伪最大似然(MPML)估计器(Asparouhov等,α)。Carle(2009)回顾了主要的软件包,并提出了一些有关如何进行的建议: 为了使用复杂的调查数据和设计权重正确地执行MLM,分析人员需要可以在程序外部包括按比例缩放的权重并包括“新”缩放的权重而无需自动修改程序的软件。当前,三个主要的MLM软件程序允许这样做:Mplus(5.2),MLwiN(2.02)和GLLAMM。不幸的是,HLM和SAS都无法做到这一点。 West和Galecki(2013)给出了更新的评论,我将详细引用相关文章: 有时,分析人员希望使LMM适合从复杂设计的样本中收集的数据集(见Heeringa等,2010,第12章)。复杂的样本设计通常具有以下特征:将人群划分为各个阶层,从阶层内部对个体集群进行多阶段选择,以及集群和最终样本个体的选择概率均等。这些不平等的选择概率通常会导致构建个体的采样权重,从而确保在纳入分析时对描述性参数进行无偏估计。这些权重可能会针对调查无响应而进一步调整,并根据已知的总体总数进行校准。传统上,分析人员在估计回归模型时可能会考虑基于设计的方法来整合这些复杂的采样功能(Heeringa等,2010)。最近,统计学家已经开始探索基于模型的方法来分析这些数据,使用LMM来结合采样层的固定效应和采样群的随机效应。 开发基于模型的方法来分析这些数据的主要困难是选择适当的方法来合并抽样权重(有关问题的摘要,请参见Gelman,2007)。Pfeffermann等。(1998),Asparouhov和Muthen(2006)以及Rabe-Hesketh和Skrondal(2006)开发了用于以合并调查权重的方式估算多层次模型的理论,Rabe-Hesketh和Skrondal(2006),Carle(2009)和Heeringa等。(2010年,第12章)介绍了使用当前软件程序的应用程序,但这仍然是统计研究的活跃领域。能够适应LMM的软件过程处于实现迄今为止文献中提出的用于合并复杂设计特征的方法的各个阶段,分析人员在将LMM拟合到复杂的样本调查数据时需要考虑这一点。有兴趣将LMM拟合到从复杂样本调查收集的数据中的分析人员,将被吸引到能够将调查权重正确纳入估计程序(HLM,MLwiN,Mplus,xtmixed和gllamm)的程序。区域。 这使我想到我的问题:是否有人对将LMM拟合R中的复杂测量数据有最佳实践建议?

1
边际模型与随机效应模型–如何在它们之间进行选择?给外行的建议
在搜索有关边际模型和随机效应模型以及如何在它们之间进行选择的任何信息时,我发现了一些信息,但是它或多或少是数学抽象的解释(例如此处的示例:https://stats.stackexchange .com / a / 68753/38080)。我发现在这两种方法/模型之间的参数估计值之间存在实质性差异(http://www.biomedcentral.com/1471-2288/2/15/),但是Zuur等人则相反。(2009年,第116页;http://link.springer.com/book/10.1007%2F978-0-387-87458-6)。边际模型(广义估计方程法)带来了总体平均参数,而随机效应模型(广义线性混合模型)的输出考虑了随机效应–主体(Verbeke等人,2010年,第49-52页;http:/ /link.springer.com/chapter/10.1007/0-387-28980-1_16)。 我想在非统计学家和非数学家熟悉的语言中,在一些模型(现实生活)示例中看到对这些模型的一些类似外行的解释。 详细来说,我想知道: 什么时候应该使用边际模型,什么时候应该使用随机效应模型?这些模型适合哪些科学问题? 这些模型的输出应如何解释?

2
广义线性混合模型:诊断
我有一个随机截距逻辑回归(由于重复测量),我想做一些诊断,特别是关于异常值和有影响力的观察结果的诊断。 我查看了残差以查看是否有突出的观察结果。但我也想看看类似库克的距离或DFFITS。Hosmer和Lemeshow(2000)说,由于缺乏用于关联数据的模型诊断工具,因此应该只适合常规logistic回归模型而忽略相关性,而应使用可用于常规logistic回归的诊断工具。他们认为这比完全不进行诊断要好。 这本书是2000年出版的,我想知道现在是否有可用的方法用于模型诊断和混合效应逻辑回归?什么是检查异常值的好方法? 编辑(2013年11月5日): 由于缺乏响应,我想知道使用混合模型进行的诊断是否一般而言没有进行,或者在对数据建模时不是很重要的一步。因此,让我重新表述我的问题:一旦找到“良好”的回归模型,您会怎么做?

1
连续和分类预测变量之间相互作用的混合模型多重比较
我想lme4用来拟合混合效果回归并multcomp计算成对比较。我有一个包含多个连续和类别预测变量的复杂数据集,但是可以使用内置ChickWeight数据集作为示例来说明我的问题: m <- lmer(weight ~ Time * Diet + (1 | Chick), data=ChickWeight, REML=F) Time是连续的并且Diet是绝对的(4个级别),每个饮食中有多个小鸡。所有的雏鸡都以相同的体重开始,但是它们的饮食(可能)会影响它们的生长速度,因此Diet截距应该(或多或少)相同,但斜率可能会有所不同。我可以得到Diet像这样的拦截效果的成对比较: summary(glht(m, linfct=mcp(Diet = "Tukey"))) 并且确实没有显着差异,但是如何进行类似的测试Time:Diet?仅将交互作用项放入mcp会产生错误: summary(glht(m, linfct=mcp('Time:Diet' = "Tukey"))) Error in summary(glht(m, linfct = mcp(`Time:Diet` = "Tukey"))) : error in evaluating the argument 'object' in selecting a method for function 'summary': Error in mcp2matrix(model, linfct …

1
为什么从混合效应模型中自举残差会产生反保守的置信区间?
我通常处理的数据是,在2个或更多条件下,分别测量了多个个体。我最近一直在使用混合效果建模来评估条件之间差异的证据,individual并将其建模为随机效果。为了可视化此类建模预测的不确定性,我一直在使用自举法,其中在引导程序的每次迭代中,对个体和条件内观察进行替换抽样,并从中计算新的混合效应模型获得。这对于假定高斯误差的数据效果很好,但是当数据为二项式时,自举可能会花费很长时间,因为每次迭代都必须计算一个计算量相对较高的二项式混合效应模型。 我当时的想法是,我可以使用原始模型中的残差然后使用这些残差代替引导程序中的原始数据,这将使我能够在引导程序的每次迭代中计算一个高斯混合效果模型。将原始数据的二项式模型的原始预测与残差的自举预测相加,得出原始预测的CI为95%。 不过,我最近编码这种做法的一个简单的评价,造型两种情况之间没有区别的,计算的时间比例为95%置信区间未能包括零,而且我发现,上述基于残差,引导过程的产量相当强烈反保守的时间间隔(超过5%的时间排除零)。此外,我然后编码(与以前的链接相同)对该方法的类似评估,该评估应用于原始高斯数据,并且获得了相似的(尽管不是极端的)反保守CI。知道为什么会这样吗?

3
后期治疗控制设计中相互作用效应的效应大小
如果您选择使用混合方差分析来分析具有连续因变量的前后治疗控制设计,则有多种方法可以量化出现在治疗组中的影响。交互作用是一种主要选择。 通常,我特别喜欢Cohen的d型度量(即)。我不喜欢用方差解释的量度,因为结果会根据不相关的因素(例如组的相对样本大小)而有所不同。μ1个- μ2σμ1个-μ2σ{\frac{\mu_1 - \mu_2}{\sigma}} 因此,我想我可以量化如下效果 Δ μC= μc ^ 2- μç 1ΔμC=μC2-μC1个\Delta\mu_c = \mu_{c2} - \mu_{c1} Δ μŤ= μ第2- μŤ 1ΔμŤ=μŤ2-μŤ1个\Delta\mu_t = \mu_{t2} - \mu_{t1} 因此,效果大小可以定义为Δ μŤ- Δ μCσΔμŤ-ΔμCσ\frac{\Delta\mu_t - \Delta\mu_c}{\sigma} 其中表示对照,t表示治疗,1和2分别表示之前和之后。 σ可以是时间1的合并标准偏差。CCcŤŤtσσ\sigma 问题: 标记此效应大小度量是否合适d? 这种方法看起来合理吗? 这种设计的效果大小度量的标准做法是什么?


5
什么时候使用混合效果模型?
线性混合效应模型是线性回归模型的扩展,用于分组收集和汇总的数据。关键优势在于系数可以相对于一个或多个组变量而变化。 但是,我在何时使用混合效果模型方面感到困惑?我将通过在极端情况下使用玩具示例来阐述我的问题。 假设我们要为动物的身高和体重建模,并使用物种作为分组变量。 如果不同的群体/物种真的不同。说一只狗和大象。我认为没有必要使用混合效果模型,我们应该为每个小组建立一个模型。 如果不同的群体/物种真的很相似。说一只母狗和一只公狗。我认为我们可能希望将性别用作模型中的分类变量。 因此,我假设我们应该在中间情况下使用混合效果模型?可以说,该组是猫,狗,兔子,它们是大小相似的动物,但不同。 是否有任何正式的论据来建议何时使用混合效果模型,即如何在 为每个小组建立模型 混合效应模型 将组用作回归中的分类变量 我的尝试:方法1是最“复杂的模型” /更少的自由度,方法3是最“简单的模型” /更大的自由度。混合效果模型位于中间。我们可能会考虑根据Bais Variance Trade Off选择正确模型所需的数据量和复杂度。

1
R / mgcv:为什么te()和ti()张量积产生不同的曲面?
的mgcv软件包R具有两个功能,用于拟合张量积相互作用:te()和ti()。我了解两者之间的基本分工(拟合非线性交互与将这种交互分解为主要效果和交互)。我不明白的是为什么te(x1, x2)而ti(x1) + ti(x2) + ti(x1, x2)可能产生(略)不同的结果。 MWE(改编自?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f + rnorm(n)*0.2 par(mfrow = c(2,2)) # …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.