Questions tagged «mixed-model»

混合(aka多级或分层)模型是线性模型,其中包括固定效应和随机效应。它们用于对纵向或嵌套数据建模。

2
使用lme4的混合效应模型中交互项的P值
我正在使用lme4in来分析一些行为数据R,主要是按照Bodo Winter的出色教程进行的,但是我不理解我是否正确处理了交互。更糟糕的是,没有其他人参与到这项研究中来,因此使用混合模型,因此在确保一切正确的时候我有点不知所措。 我认为我应该尽最大的努力来解释问题,然后请求您的集体更正,而不是仅仅寻求帮助。其他一些方面是: 在写作时,我发现了这个问题,表明nlme更直接地给交互项赋予p值,但是我认为与的关系仍然有效lme4。 Livius'该问题的答案提供了许多其他阅读文章的链接,我将在接下来的几天中尝试阅读这些文章,因此,我将对所带来的任何进步进行评论。 在我的数据中,我有一个因变量dv,一个condition操作(0 =对照,1 =实验条件,应导致更高的值dv),还有一个前提条件,标记为appropriate:1为此进行编码的试验应显示出效果,但编码的试验0可能不会,因为缺少一个关键因素。 我还包括两个随机截距,分别用于subject和,用于target反映dv每个主题内以及所解决的14个问题中的每个问题的相关值(每个参与者都解决了每个问题的对照和实验版本)。 library(lme4) data = read.csv("data.csv") null_model = lmer(dv ~ (1 | subject) + (1 | target), data = data) mainfx_model = lmer(dv ~ condition + appropriate + (1 | subject) + (1 | target), data = data) interaction_model = lmer(dv ~ condition …


3
广义线性混合模型:模型选择
这个问题/主题是在与一位同事的讨论中提出的,我正在就此寻求一些意见: 我正在使用随机效应逻辑回归建模一些数据,更确切地说是随机截距逻辑回归。对于固定效果,我有9个有趣且值得考虑的变量。我想进行某种模型选择,以找到重要的变量并给出“最佳”模型(仅主要效果)。 我的第一个想法是使用AIC比较不同的模型,但是使用9个变量,我比较比较2 ^ 9 = 512个不同的模型(关键字:数据挖掘)并不太令人兴奋。 我与一位同事讨论了这个问题,他告诉我,他记得曾经读过关于对GLMM使用逐步(或向前)模型选择的文章。但是应该使用AIC作为进入/退出标准,而不是使用p值(例如,基于GLMM的似然比检验)。 我发现这个想法非常有趣,但是我没有找到进一步讨论此问题的参考资料,而我的同事不记得他在哪里读过。许多书籍建议使用AIC来比较模型,但是我没有找到关于将其与逐步或向前模型选择过程一起使用的任何讨论。 所以我基本上有两个问题: 在逐步模型选择过程中将AIC用作进入/退出标准有什么问题吗?如果是,那有什么选择? 您是否有参考资料讨论上述过程(也作为最终报告的参考资料? 最好, 艾米利亚

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
随机效应模型处理冗余
我正在尝试使用重复的二进制结果来处理事件分析。假设到达事件的时间以天为单位,但目前我们将时间离散为几周。我想使用重复的二进制结果来近似估计Kaplan-Meier估计量(但允许协变量)。这似乎是一个回旋的路,但是我正在探索这如何扩展到顺序结果和复发事件。 如果您创建了一个二进制序列,对于在3周内被审查的某人,它看起来像000;对于在4w时被审查的某人,它看起来像0000,而对于在5w时失败的主题,它看起来像是0000111111111111...。(1扩展到最后一个主题然后在研究中进行计算),当您计算特定于周的比例为1s时,您将获得普通的累积发生率(直到获得可变的审查时间,这仅是近似值,但并不等于Kaplan-Meier累积发生率估算值)。 我可以使用GEE用二元逻辑模型拟合重复的二元观测值,而不是像上面那样使时间离散,而要使用时间样条。群集三明治协方差估计器工作得相当好。但是我想通过使用混合效果模型来获得更精确的推断。问题在于第一个1之后的1是多余的。有谁知道一种指定随机效应或指定一种模型的方法,该模型考虑了冗余,从而不会缩小标准误差? 请注意,此设置与Efron的设置不同,因为他使用逻辑模型来估计风险集中的条件概率。我正在估计无条件概率。

3
如何处理等于1或-1的随机效应相关性?
当处理复杂的最大混合模型时(估计给定数据和模型的所有可能随机效应)是完美的(+1或-1)或在某些随机效应之间几乎完美的相关性,这种情况并不罕见。为了讨论的目的,让我们观察以下模型和模型摘要 Model: Y ~ X*Cond + (X*Cond|subj) # Y = logit variable # X = continuous variable # Condition = values A and B, dummy coded; the design is repeated # so all participants go through both Conditions # subject = random effects for different subjects Random effects: Groups Name …

1
哪种深度学习模型可以对不互斥的类别进行分类
示例:我的职位描述中有一句话:“英国Java高级工程师”。 我想使用深度学习模型将其预测为2类:English 和IT jobs。如果我使用传统的分类模型,则只能预测softmax最后一层具有功能的标签。因此,我可以使用2个模型神经网络来预测两个类别的“是” /“否”,但是如果我们有更多类别,那就太贵了。那么,我们是否有任何深度学习或机器学习模型可以同时预测2个或更多类别? “编辑”:使用传统方法使用3个标签,它将由[1,0,0]编码,但在我的情况下,它将由[1,1,0]或[1,1,1]编码 示例:如果我们有3个标签,并且所有这些标签都适合一个句子。因此,如果softmax函数的输出为[0.45,0.35,0.2],我们应该将其分类为3个标签或2个标签,或者可以是一个?我们这样做的主要问题是:分类为1个,2个或3个标签的最佳阈值是多少?
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
在纵向研究中估计平均治疗效果的最佳方法是什么?
在一项纵向研究中,在时间点上重复测量了单位结果,总共有固定的测量时机(固定=单位测量同时进行)。我吨米Yitÿ一世ŤY_{it}i一世itŤtm米m 将单位随机分配给治疗或对照组。我想估计和测试平均治疗效果,即其中期望是跨时间和跨个人的。为此,我考虑使用固定时间的多层次(混合效果)模型:G = 0 A T E = E (Y | G = 1 )− E (Y | G = 0 ),G=1G=1个G=1G=0G=0G=0ATE=E(Y|G=1)−E(Y|G=0),ATE=E(Y|G=1)−E(Y|G=0),ATE=E(Y | G=1) - E(Y | G=0), Yit=α+βGi+u0i+eitYit=α+βGi+u0i+eitY_{it} = \alpha + \beta G_i + u_{0i} + e_{it} 与截距,的,横跨单元的无规截距,和残留。β 甲Ť é ù ëαα\alphaββ\betaATEATEATEuuueee 现在我正在考虑替代模型 Yit=β~Gi+∑j=1mκjdij+∑j=1mγjdijGi+u~0i+e~itYit=β~Gi+∑j=1mκjdiĴ+∑Ĵ=1个米γĴd一世ĴG一世+ü〜0一世+Ë〜一世ŤY_{it} = \tilde{\beta} G_i + \sum_{j=1}^m …

2
混合效应模型中的“方差成分参数”是什么?
在贝茨关于混合效果模型的书的第12页上,他对模型进行了如下描述: 在屏幕快照的结尾处,他提到了 相对协方差因子 ,这取决于方差分量参数,θΛθΛθ\Lambda_{\theta}θθ\theta 没有解释到底是什么关系。假设我们给出,我们如何获得Λ θ从它?θθ\thetaΛθΛθ\Lambda_{\theta} 与此相关的是,这是我发现贝茨的论述缺乏细节的众多例子之一。是否有更好的文字实际经过参数估计的优化过程和测试统计量分布的证明?

1
GLMM的Anova III型测试
我正在R包中拟合glmer模型lme4。我正在寻找其中显示p值的方差分析表,但找不到适合它的包装。有可能在R中做到吗? 我适合的模型具有以下形式: model1<-glmer(dmn~period*teethTreated+(1|fullName), family="poisson", data=subset(dataset, group=='Four times a year'), control=glmerControl(optimizer="bobyqa"))


1
为什么引入随机斜率效应会增大斜率的SE?
我正在尝试分析Year对特定个体组(我有3个组)的变量logInd的影响。最简单的模型: > fix1 = lm(logInd ~ 0 + Group + Year:Group, data = mydata) > summary(fix1) Call: lm(formula = logInd ~ 0 + Group + Year:Group, data = mydata) Residuals: Min 1Q Median 3Q Max -5.5835 -0.3543 -0.0024 0.3944 4.7294 Coefficients: Estimate Std. Error t value Pr(>|t|) Group1 4.6395740 0.0466217 …

2
混合模型的参数,半参数和非参数引导
接下来的嫁接摘自本文。我是新手,要引导并尝试为带有R boot包的线性混合模型实现参数,半参数和非参数自举。 R代码 这是我的R代码: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) Out 问题 …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

2
用随机斜率和截距拟合Poisson GLM混合模型
我目前正在研究一系列Poisson时间序列模型,试图估计计数获取方式变化的影响(从一种诊断测试转换为另一种诊断测试),同时控制一段时间内的其他趋势(例如疾病的发生率)。我有许多不同站点的数据。 虽然我也一直在修改GAM,但我已经将一系列具有时间趋势的基本GLM进行了拟合,然后汇总结果。在SAS中,此代码看起来像这样: PROC GENMOD data=work.data descending; model counts = dependent_variable time time*time / link=log dist = poisson; run; 或在R: glm(counts ~ dependent_variable + time + time*time, family="poisson") 然后进行估算,并将其汇总到各个站点中。也有人建议我尝试使用具有随机斜率的Poisson混合模型,并针对每个站点进行拦截,而不是合并。因此,从本质上讲,您将具有固定的dependent_variable效果,然后是截距和时间(或者理想情况下是时间和时间^ 2的随机效果,尽管我知道这有点毛茸茸)。 我的问题是我不知道如何适合这些模型之一,而且似乎每个人的文档突然变得很不透明,而混合模型似乎是这样。任何人都有一个简单的解释(或代码),以了解如何适应我要适应的东西以及要寻找的东西?

1
挑战性数据集的哪种模型?(数百个具有大量嵌套的时间序列)
我要分析的数据集非常复杂,我找不到适合的解决方案。 这是东西: 1.原始数据实质上是昆虫歌曲的录音。每首歌曲均由多个突发组成,而每个突发均由子单元组成。所有个人都记录了5分钟。个体之间的猝发数及其在录音中的位置以及每个猝发的子单元数可能会非常不同。 2.我有每个子单元的载波频率(基本频率),这就是我要分析的内容。 我的问题: 1.突发中的频率显然不是独立的(尽管它相当稳定,但是子单元n-1的频率会影响子单元n)。 2.突发在录音中也不是独立的。 3.随着频率随着时间的推移而下降,它们变得更加独立(个人厌倦了唱歌,因此歌曲的频率越来越低)。下降似乎是线性的。 4.嵌套=我在A和B两个位置有3个重复种群。所以我有A1,A2,A3和B1,B2,B3。 我想做的是: 1.表征两个地点之间的频率差异(进行统计测试) 2.刻画两个位置之间的频率下降特性(看看其中之一下降得更快) 怎么做: 那就是为什么我需要帮助:我不知道。看来,我的案例结合了通常看不到的问题。我已经读过关于混合模型,关于GAM,关于ARIMA,随机和固定效果的信息,但是我不能真正确定做到这一点的最佳方法。当我绘制它的频率(频率〜子单元编号n)时,两个位置之间的差异非常明显。我还必须考虑其他变量,例如温度(使频率更高)等。 我想到了: 将个体嵌套在其来源的副本中,然后将副本嵌套在位置(单个/副本/位置)中。 使用随机的“突发”效果,因此我考虑了每个突发中的可变性。 使用固定的“记录中的突发位置”效果来测量频率下降(希望它实际上是线性的)。 正确吗? 我可以在这种情况下使用一种特殊类型的模型吗?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.