Questions tagged «random-effects-model»

与协变量的特定级别相关联的参数有时称为级别的“效果”。如果观察到的水平代表所有可能水平集中的随机样本,则我们将这些效应称为“随机”。

1
混合效应模型估计的标准误差应如何计算?
特别是,如何计算线性混合效应模型中固定效应的标准误差(从常识上来说)? 我被认为是典型的估计(,例如Laird和Ware [1982]中提出的估计,将得出SE为的大小被低估了,因为估计的方差成分被视为真实值。Var(β^)=(X′VX)−1Var(β^)=(X′VX)−1{\rm Var}(\hat\beta)=(X'VX)^{-1} 我已经注意到,由R包中的lme和summary函数产生的SE nlme不仅仅等于上述方差-协方差矩阵对角线的平方根。如何计算? 我还给人的印象是,贝叶斯方法使用反伽马先验来估计方差分量。在正确的设置下,这些结果是否与相同lme?

2
REML或ML比较具有不同固定效果但具有相同随机效果的两个混合效果模型?
背景: 注意:我的数据集和R代码包含在文本下方 我希望使用AIC比较使用R中的lme4包生成的两个混合效果模型。每个模型都有一个固定效果和一个随机效果。模型之间的固定效果不同,但模型之间的随机效果保持不变。我发现如果我使用REML = T,则model2的AIC分数较低,但是如果我使用REML = F,则model1的AIC分数较低。 支持使用ML: Zuur等。(2009年;第122页)建议“要比较具有嵌套固定效应(但具有相同随机结构)的模型,必须使用ML估计而不是REML。” 这向我表明我应该使用ML,因为两个模型的随机效果都相同,但是固定效果却不同。[Zuur等。2009。R.Springer的《混合效应模型和生态学扩展》。 支持使用REML: 但是,我注意到当我使用ML时,两个模型之间与随机效应相关的剩余方差有所不同(模型1 = 136.3;模型2 = 112.9),但是当我使用REML时,模型之间是相同的(模型1 =模型2 = 151.5)。这对我来说意味着我应该改为使用REML,以便具有相同随机变量的模型之间的随机残差保持相同。 题: 在固定效应改变而随机效应保持不变的模型比较中,使用REML比ML更有意义吗?如果不是,您能解释为什么还是将我指向其他能解释更多内容的文献吗? # Model2 "wins" if REML=T: REMLmodel1 = lmer(Response ~ Fixed1 + (1|Random1),data,REML = T) REMLmodel2 = lmer(Response ~ Fixed2 + (1|Random1),data,REML = T) AIC(REMLmodel1,REMLmodel2) summary(REMLmodel1) summary(REMLmodel2) # Model1 "wins" …

1
了解lmer()模型中随机效应的方差
我无法理解lmer()模型的输出。它是结果变量(支持)的简单模型,具有不同的状态截距/状态随机效应: mlm1 <- lmer(Support ~ (1 | State)) 结果为summary(mlm1): Linear mixed model fit by REML Formula: Support ~ (1 | State) AIC BIC logLik deviance REMLdev 12088 12107 -6041 12076 12082 Random effects: Groups Name Variance Std.Dev. State (Intercept) 0.0063695 0.079809 Residual 1.1114756 1.054265 Number of obs: 4097, groups: State, …

1
集群数据的正确引导技术?
我有一个关于在存在强集群的数据上使用适当的引导技术的问题。 我的任务是评估保险索赔数据的多元混合效应预测模型,方法是对最新的索赔数据评分当前的基线模型,以便确定该模型对哪些医疗事件包含最高诊治频率的预测效果如何(较高95%)。敏感性,特异性和阳性预测值(PPV)将用于评估模型的有效性。 自举似乎是建立敏感性,特异性和PPV百分比置信区间的正确方法。不幸的是,鉴于索赔数据是1)由护理提供者关联的,2)分组为护理事件的,并且在护理事件的前几个月中进行了更频繁的拜访(因此存在一些自相关性),因此不宜采用单纯的引导程序。在这里,对移动块自举技术的一种变化是否合适? 或三步引导程序可能会起作用:1)从数据中的不同提供者处进行替换的样本,然后2)从所选提供者的不同护理阶段中进行替换的样本,然后3)每个内的不同主张所进行的替换样本选择的情节。 非常感谢您的任何建议!

4
当所有可能性都包含在混合效应模型中时,固定效应与随机效应
在混合效应模型中,建议包括所有可能的水平(例如,男性和女性)时,使用固定效应来估计参数。如果所包含的水平只是人群中的随机样本(可能的患者中已入组的患者),并且您想估算人群的均值和方差而不是均值,则建议使用随机效应来解释变量各个因素水平。 我想知道您是否在逻辑上总是以这种方式使用固定效果。考虑一项关于脚/鞋的尺寸如何随着发育而变化并与身高,体重和年龄相关的研究。 Side小号一世dË{\rm Side}很显然,必须以某种方式将模型包括在模型中,以说明以下事实:多年来的测量值嵌套在给定的脚内并且不是独立的。此外,左右都是可能存在的所有可能性。另外,对于给定的参与者,他们的右脚大于(或小于)他们的左脚可能是非常正确的。但是,尽管所有人的脚之间的脚大小确实有所不同,但没有理由相信右脚平均会比左脚大。如果他们在您的样本中,那可能是由于您样本中的人的遗传因素所致,而不是右脚固有的原因。最后,sides一世dË{\rm side}似乎是多余参数,不是你真正关心的。 让我注意,我编造了这个示例。可能没有什么好处。只是为了传达想法。就我所知,要在古石器中生存,必须有一个大右脚和一个小左脚。 在这样的情况下,它将使(更多/更少/任何)感纳入sides一世dË{\rm side}模型作为随机效应?在这里使用固定效果与随机效果的利弊是什么?

1
为什么混合效应模型可以解决依赖关系?
假设我们对学生考试成绩如何受到这些学生学习时间的影响感兴趣。为了探究这种关系,我们可以运行下面的线性回归: exam.gradesi=a+β1×hours.studiedi+eiexam.gradesi=a+β1×hours.studiedi+ei \text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + e_i 但是,如果我们从几所不同的学校对学生进行抽样调查,我们可能期望同一所学校的学生比来自不同学校的学生彼此更相似。为了解决此依赖性问题,许多教科书/网络上的建议是运行混合效果并以随机效果进入学校。因此,该模型将成为: exam.gradesi=a+β1×hours.studiedi+schoolj+eiexam.gradesi=a+β1×hours.studiedi+schoolj+ei \text{exam.grades}_i = a + \beta_1 \times \text{hours.studied}_i + \text{school}_j + e_i 但为什么这个解决依赖问题存在于线性回归? 请回应,就像您正在与12岁的孩子聊天一样

3
固定/随机效应模型背后的概念
有人可以帮助我了解固定/随机效应模型吗?如果您已经消化了这些概念,则可以自己解释,也可以将我定向到具有特定地址(页码,章节等)的资源(书,笔记,网站),以便我可以毫无困惑地学习它们。 这是真的吗:“一般来说,我们有固定的影响,而具体情况是随机的”?如果描述从一般模型到具有固定和随机影响的特定模型,我将特别感谢您的帮助。

2
有人可以阐明线性混合效应还是非线性混合效应?
我将要学习R,而我的学习项目将需要对数据集应用混合或随机效应回归,以开发预测方程。我在这篇文章中分享了作者的关注点。 如何为混合效果模型选择nlme或lme4 R库?想知道NLME还是LME4是使自己熟悉的更好的软件包。一个更基本的问题是:线性和非线性混合效应建模之间有什么区别? 作为背景知识,我在我的MS研究中应用了ME建模(在MATLAB中,不是在R中),因此我熟悉固定变量和随机变量的处理方式。但是我不确定我所做的工作是线性的还是非线性的。它仅仅是所用方程式的函数形式还是其他形式?

2
为什么对于二项式glmm,SAS PROC GLIMMIX给我的随机斜率与glmer(lme4)有很大不同
我是一位更熟悉R的用户,并且一直在尝试针对5个生境针对四个栖息地变量在5年内估计约35个个体的随机斜率(选择系数)。响应变量是某个位置是“已使用”(1)还是“可用”(0)栖息地(下面的“使用”)。 我正在使用Windows 64位计算机。 在R版本3.1.0中,我使用下面的数据和表达式。PS,TH,RS和HW是固定效应(对生境类型的标准化测量距离)。lme4 V 1.1-7。 str(dat) 'data.frame': 359756 obs. of 7 variables: $ use : num 1 1 1 1 1 1 1 1 1 1 ... $ Year : Factor w/ 5 levels "1","2","3","4",..: 4 4 4 4 4 4 4 4 3 4 ... $ ID : …

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 


1
PROC Mixed和LME / LMER在R自由度上的区别
注意:这个问题是一个转贴,因为我的上一个问题出于法律原因不得不删除。 在比较SAS的PROC MIXED与R中lme的nlme软件包的功能时,我偶然发现了一些相当混乱的差异。更具体地说,不同测试的自由度在PROC MIXED和之间有所不同lme,我想知道为什么。 从以下数据集(以下给出的R代码)开始: ind:指示进行测量的个人的因子 fac:进行测量的器官 trt:表示治疗的因素 y:一些连续响应变量 这个想法是建立以下简单模型: y ~ trt + (ind):ind作为随机因子 y ~ trt + (fac(ind)):fac嵌套在ind作为随机因子 需要注意的是最后一个模型应引起奇异性,因为只有1的值y对每一个组合ind和fac。 第一模型 在SAS中,我建立以下模型: PROC MIXED data=Data; CLASS ind fac trt; MODEL y = trt /s; RANDOM ind /s; run; 根据教程,R中使用的相同模型nlme应为: > require(nlme) > options(contrasts=c(factor="contr.SAS",ordered="contr.poly")) > m2<-lme(y~trt,random=~1|ind,data=Data) 两种模型对系数及其SE均给出相同的估计,但是在对F的影响进行F检验时trt,它们使用的自由度不同: SAS : Type …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

3
如何在R中使用betareg函数实现混合模型?
我有一个数据集,其中包含一些比例,这些比例用于测量个体t的“活动水平”,因此使值介于0和1之间。该数据是通过计算个体在特定时间间隔内移动的次数(移动为1, 0(表示不移动),然后取平均值以为每个人创建一个值。我的主要固定效果是“密度水平”。 我面临的问题是,我有一个因子变量“ pond”,我想将其作为随机效应包括在内-我不在乎池塘之间的差异,但希望从统计角度考虑它们。关于池塘的重要一点是,我只有3个,而且我了解在处理随机效应时理想的是具有更多的因子水平(5+)。 如果可能的话,我希望获得一些有关如何使用R betareg()或betamix()在R中实现混合模型的建议。我已经阅读了R帮助文件,但是我通常很难理解它们(每个参数在上下文中的真正含义是什么)我自己的数据以及输出值对生态意义的含义),因此我倾向于通过示例更好地工作。 在相关的说明中,我想知道是否可以代替使用glm()二项式族和logit链接来解决此类数据的随机影响。

3
可以(应该)在随机效应模型中使用正则化技术吗?
通过正则化技术,我指的是套索,岭回归,弹性网等。 考虑一个包含人口统计和诊断数据的医疗保健数据预测模型,其中预测住院时间。对于某些人,在基线时间段内有多个LOS观测值(即,一个以上IP事件)相关。 例如,建立一个包含每个人随机效应拦截项的弹性净预测模型是否有意义?

1
边际模型与随机效应模型–如何在它们之间进行选择?给外行的建议
在搜索有关边际模型和随机效应模型以及如何在它们之间进行选择的任何信息时,我发现了一些信息,但是它或多或少是数学抽象的解释(例如此处的示例:https://stats.stackexchange .com / a / 68753/38080)。我发现在这两种方法/模型之间的参数估计值之间存在实质性差异(http://www.biomedcentral.com/1471-2288/2/15/),但是Zuur等人则相反。(2009年,第116页;http://link.springer.com/book/10.1007%2F978-0-387-87458-6)。边际模型(广义估计方程法)带来了总体平均参数,而随机效应模型(广义线性混合模型)的输出考虑了随机效应–主体(Verbeke等人,2010年,第49-52页;http:/ /link.springer.com/chapter/10.1007/0-387-28980-1_16)。 我想在非统计学家和非数学家熟悉的语言中,在一些模型(现实生活)示例中看到对这些模型的一些类似外行的解释。 详细来说,我想知道: 什么时候应该使用边际模型,什么时候应该使用随机效应模型?这些模型适合哪些科学问题? 这些模型的输出应如何解释?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.