Questions tagged «multilevel-analysis»

对包括几个层次结构的数据集进行统计分析(例如,学生嵌套在学校嵌套的班级中或分层预测)。对于有关混合模型的问题,请使用[mixed-model]标签。对于嵌套的随机效果,请使用[嵌套数据]。

1
写出多层混合效应模型的数学方程
简历问题 我正在尝试给出混合效果模型的详细且简洁的数学表示。我lme4在R中使用该软件包。我的模型的正确数学表示是什么? 数据,科学问题和R代码 我的数据集由不同地区的物种组成。我正在测试某个物种的流行率是否在导致灭绝(灭绝不一定是永久性的;它可以重新定殖)或定居之后的时间内发生变化。 lmer(prevalence ~ time + time:type + (1 + time + type:time | reg) + (1 + time + type:time | reg:spp)) 患病率是某个区域年份中某物种所占地层的比例 时间是一个连续变量,表示灭绝或定植的时间;它总是积极的 类型是具有两个级别的类别变量。这两个级别是“-”和“ +”。当type为-时,它是一个殖民化(默认级别)。当type为+时,表示灭绝。 Reg是具有9个级别的类别变量,表示区域 spp是分类变量;级别数因地区而异,在48级和144级之间变化。 换句话说:响应变量是患病率(占地层的比例)。固定效果包括1)和拦截,2)事件发生的时间以及3)事件发生的时间与事件类型(殖民化或灭绝)之间的相互作用。这3种固定效应中的每一种在区域之间随机变化。在一个区域内,每种效应在物种之间随机变化。 我试图弄清楚如何为模型编写数学方程式。我想我理解R代码中发生的事情(尽管,我确信我有一些知识空白,希望写出正式的数学表达式可以增进我的理解)。 我已经通过网络和这些论坛进行了很多搜索。可以肯定的是,我发现了大量有用的信息(也许我会在对此问题的编辑中链接到其中一些信息)。但是,我无法完全找到将R代码的“ Rosetta Stone”转换为数学公式(我对代码更满意)是否真的可以帮助我确认我正确理解了这些方程式。实际上,我知道已经存在一些差距,但是我们会解决的。 我的尝试 混合效应模型的基本形式,在矩阵表示法中为(我的理解):Y=Xβ+Zγ+ϵY=Xβ+Zγ+ϵ Y = X \beta + Z \gamma + \epsilon γX=⎡⎣⎢⎢1⋮1Δt⋮ΔtnΔt+⋮Δt+,n⎤⎦⎥⎥X=[1ΔtΔt+⋮⋮⋮1ΔtnΔt+,n] X = …

4
梯度提升机的精度随着迭代次数的增加而降低
我正在通过caretR中的程序包尝试使用梯度增强机算法。 使用一个小的大学录取数据集,我运行了以下代码: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage = …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
如何回应贝叶斯多级模型中要求p值的评论者?
审阅者要求我们提供p值,以便更好地了解我们的贝叶斯多级模型中的模型估计。该模型是实验中每个参与者的多个观察值的典型模型。我们使用Stan估计了模型,因此我们可以轻松地计算其他后验统计量。目前,我们正在报告(通过视觉和表格形式)平均估算值以及0.025和0.975分位数。 到目前为止,我的回应包括: P值与贝叶斯模型不一致,即P(X| θ)≠P(θ | X)。P(X|θ)≠P(θ|X)。P(X|\theta) \neq P(\theta|X). 基于后验,我们可以计算出参数大于(小于)0的概率。这看起来有点像传统的p值。 我的问题是,这是否可以使评论者满意,还是只会引起更多的混乱? 10月10日更新:考虑到答案,我们使用建议将论文重写了。该论文已被接受,因此我将重申先前的评论,这确实是有用的建议!

2
ARMA / ARIMA与混合效果建模有何关系?
在面板数据分析中,我使用了具有随机/混合效应的多级模型来处理自相关问题(即,观察结果随时间聚集在个体中),并添加了其他参数以调整一些时间规格和感兴趣的冲击。ARMA / ARIMA似乎旨在解决类似问题。 我在网上找到的资源讨论了时间序列(ARMA / ARIMA)或混合效应模型,但是除了建立在回归之上之外,我不了解两者之间的关系。可能要在多层次模型中使用ARMA / ARIMA吗?两者之间是等效还是多余? 讨论此问题的资源的答案或指针将是很棒的。

3
多层次/层次结构数据上的随机森林
我对机器学习,CART技术等并不陌生,我希望我的天真不会太明显。 随机森林如何处理多级/分层数据结构(例如,当需要进行跨级交互时)? 也就是说,在几个层次级别上具有分析单位的数据集(例如,嵌套在学校中的学生,以及有关学生和学校的数据)。 仅作为示例,考虑一个多级数据集,其中第一级的个人(例如,具有投票行为,人口统计等数据)嵌套在第二级的国家中(具有国家级数据;例如,人口): ID voted age female country population 1 1 19 1 1 53.01 2 1 23 0 1 53.01 3 0 43 1 1 53.01 4 1 27 1 1 53.01 5 0 67 0 1 53.01 6 1 34 1 2 47.54 7 0 54 1 …

2
为什么在伯努利参数上使用beta分布进行分层逻辑回归?
我目前正在阅读Kruschke出色的“做贝叶斯数据分析”书。但是,有关分层逻辑回归的章节(第20章)有些令人困惑。 图20.2描述了分层逻辑回归,其中伯努利参数被定义为通过S型函数转换的系数的线性函数。我在其他在线资源中也看到了大多数示例,这似乎是构成分层逻辑回归的方式。例如-http: //polisci2.ucsd.edu/cfariss/code/SIMlogit02.bug 但是,当预测变量是名义变量时,他在层次结构中添加了一层-Bernoulli参数现在从beta分布中绘制(图20.5),其参数由mu和kappa确定,其中mu是系数线性函数的S形变换。 ,而kappa使用伽玛优先级。 这似乎是合理的,类似于第9章中的掷硬币示例,但是我不认为名义上的预测变量与添加beta分布有什么关系。在度量标准预测变量的情况下,为什么不这样做?为什么为名义预测变量增加了beta分布? 编辑:澄清我所指的模型。首先,具有指标预测变量的逻辑回归模型(之前没有beta)。这类似于分层逻辑回归的其他示例,例如上面的错误示例: ÿ一世〜伯努利(μ一世)μ一世= 信号(β0+ ∑ĴβĴXĴ 我)β0〜ñ(M0,Ť0)βĴ〜ñ(Mβ,Ťβ)yi∼Bernoulli⁡(μi)μi=sig⁡(β0+∑jβjxji)β0∼N(M0,T0)βj∼N(Mβ,Tβ) y_i \sim \operatorname{Bernoulli}(\mu_i) \\ \mu_i = \operatorname{sig}(\beta_0 + \sum_j \beta_j x_{ji} ) \\ \beta_0 \sim N(M_0, T_0) \\ \beta_j \sim N(M_\beta, T_\beta) \\ 然后是带有名义预测变量的示例。在这里,我不太了解层次结构的“较低”级别的作用(将逻辑结果纳入二项式分析的beta中),以及为什么它应与度量示例有所不同。 ž一世〜斌(θ一世,N)θ一世〜Beta版(一个Ĵ,bĴ)一个Ĵ= μĴκbĴ= (1 - μĴ)κκ 〜Γ (小号κ,Rκ)μĴ= 信号(β0+ ∑ĴβĴXĴ 我)β0〜ñ(M0,Ť0)βĴ〜ñ(0 ,τβ)τβ= 1 / σ2βσ2β〜折t(TŤ,d ˚F)zi∼Bin⁡(θi,N)θi∼Beta⁡(aj,bj)aj=μjκbj=(1−μj)κκ∼Γ(Sκ,Rκ)μj=sig⁡(β0+∑jβjxji)β0∼N(M0,T0)βj∼N(0,τβ)τβ=1/σβ2σβ2∼folded …

2
MCMC收敛到单个值?
我正在尝试使用jags和rjags包来适应分层模型。我的结果变量是y,这是一系列bernoulli试验。我有38名人受试者被分为两类执行:P和基于M.在我的分析,每个扬声器具有成功的在P类的概率和成功的在M类的概率θ p × θ 米。我也假设存在的P和M一些社区层面超参数:μ p和μ 米。θpθp\theta_pθp× θ米θp×θm\theta_p\times\theta_mμpμp\mu_pμmμm\mu_m 因此,对于每个扬声器: 和θ 米〜b Ë 吨一个(μ 米 × κ 米,(1 - μ 米)× κ 米)其中κ p和κ 米θp∼beta(μp×κp,(1−μp)×κp)θp∼beta(μp×κp,(1−μp)×κp)\theta_p \sim beta(\mu_p\times\kappa_p, (1-\mu_p)\times\kappa_p)θm∼beta(μm×κm,(1−μm)×κm)θm∼beta(μm×κm,(1−μm)×κm)\theta_m \sim beta(\mu_m\times\kappa_m, (1-\mu_m)\times\kappa_m)κpκp\kappa_pκmκm\kappa_m控制如何达到峰值的分布是围绕和μ 米。μpμp\mu_pμmμm\mu_m 也,μ 米〜b Ë 吨一(甲米,乙米)。μp∼beta(Ap,Bp)μp∼beta(Ap,Bp)\mu_p \sim beta(A_p, B_p)μm∼beta(Am,Bm)μm∼beta(Am,Bm)\mu_m \sim beta(A_m, B_m) 这是我的锯齿模型: model{ ## y = N bernoulli trials ## …

5
如何在大量数据点中进行值的插补?
我的数据集非常大,大约缺少5%的随机值。这些变量相互关联。以下示例R数据集只是一个具有虚拟相关数据的玩具示例。 set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds <- round ( runif(N, 1, length(xmat)) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
分层贝叶斯模型(?)
请为统计术语but之以鼻:)我在这里发现了几个与广告和点击率有关的问题。但是他们对我的等级状况的了解都没有对我有太大帮助。 还有一个相关的问题,即相同的贝叶斯模型的这些等效表示吗?,但我不确定它们是否确实存在类似问题。另一个问题是贝叶斯分层二项式模型的先验论证了有关超优先级的细节,但是我无法将其解决方案映射到我的问题上 我在网上有几个新产品的广告。我让广告投放了几天。到那时,足够多的人点击了广告,以查看哪个获得了最多的点击。在排除所有点击次数最多的广告之后,我让该广告再运行几天,以查看点击广告后实际有多少人购买。那时我知道首先投放广告是否是个好主意。 我的统计数据非常嘈杂,因为我每天只卖几件商品,所以我没有很多数据。因此,很难估计看到广告后有多少人买东西。每150次点击中只有约1次导致购买。 一般而言,我需要通过某种方式使用所有广告的全局统计信息来平滑每个广告组的统计信息,以了解是否会尽快在每个广告上赔钱。 如果我等到每个广告都看到足够的购买,我就会破产,因为它花费的时间太长:测试10个广告,我需要多花10倍的钱,以便每个广告的统计数据足够可靠。到那时我可能已经亏钱了。 如果我平均购买所有广告,那么我将无法淘汰效果不佳的广告。 我可以使用全球购买率( N $子分配的优先级吗?这意味着我为每个广告获得的数据越多,该广告获得的统计信息就越独立。如果没有人点击广告,我认为全球平均水平是合适的。perclick)anduseitasapriorforperclick)anduseitasapriorfor per click) and use it as a prior for 我会为此选择哪个发行版? 如果我在A上有20次点击,在B上有4次点击,该如何建模?到目前为止,我已经发现二项分布或泊松分布在这里可能有意义: purchase_rate ~ poisson (?) (purchase_rate | group A) ~ poisson (仅估算A组的购买率?) 但是,接下来我该怎么做才能真正计算出purchase_rate | group A。如何将两个发行版连接在一起以使组A(或任何其他组)有意义。 我必须先拟合模型吗?我有可用于“训练”模型的数据: 广告A:352次点击,5次购买 广告B:15次点击,0次购买 广告C:3519次点击,130次购买 我正在寻找一种方法来估计任何一组的概率。如果一个组只有几个数据点,那么我本质上想回落到全局平均值。我对贝叶斯统计信息有些了解,并且阅读了很多PDF,这些人描述了如何使用贝叶斯推理和共轭先验进行建模等。我认为有一种方法可以正确执行此操作,但是我无法弄清楚如何正确建模。 我会很高兴能以贝叶斯方式解决问题的提示。这将对在线查找示例产生很大帮助,我可以使用这些示例来实际实现此目标。 更新: 非常感谢您的回复。我开始对我的问题越来越了解。谢谢!让我问几个问题,看看我现在对这个问题的理解是否更好: 因此,我假设转换是作为Beta分布分布的,并且Beta分布具有两个参数和。baaabbb 所述的参数是超参数,所以它们的参数现有?因此,最终我将转化次数和点击次数设置为Beta分发的参数吗? 11212\frac{1}{2} 1212\frac{1}{2} 在某些时候,当我想比较不同的广告时,我会计算。如何计算该公式的每个部分?P(conversion|ad=X)=P(ad=X|conversion)∗P(conversion)P(ad=X)P(conversion|ad=X)=P(ad=X|conversion)∗P(conversion)P(ad=X)P(\mathrm{conversion} | …

3
用于多层建模的说明性数据集和分析
我最近参加了有关多级建模的入门课程。我们使用的大多数数据集和示例均来自社会科学。我刚刚在生物统计学部门进行了为期2周的实习,他们希望我在医院之间以及5年以上的高死亡率的紧急情况下,开展有关患者结局水平变化的项目,以应对这种情况。时间跨度。我将从下周开始实习,我希望能找到一本书或在线资源,其中已经进行了类似的分析(最好是使用R,Stata或MLwiN),最好是它们可以为读者提供数据集。任何链接将是最欢迎的。 编辑:我将使用详细记录患者住院治疗所有已记录方面的数据集。感兴趣的主要结果是入院后30天内死亡。

1
随机森林(或其他分类器)的分层分类
因此,我得到了大约60 x 1000的矩阵。我将其视为具有1000个特征的60个对象。这60个对象分为3类(a,b,c)。每个类别20个对象,我们知道真正的分类。我想在这60个训练示例集上进行有监督的学习,并且我对分类器的准确性(和相关指标)以及对1000个特征的特征选择都感兴趣。 首先,我的命名方式如何? 现在真正的问题是: 如我所述,我可以在上面添加随机森林,或者其他任何数量的分类器。但是有一个微妙之处-我真的只关心区分c类与a类和b类。我可以合并类a和b,但是有一种很好的方法来使用先验知识,即所有非c对象都可能形成两个不同的集群吗?我更喜欢使用随机森林或其变体,因为事实证明它对类似于我的数据有效。但是我可以说服我尝试其他方法。

5
借阅信息到底意味着什么?
我经常与他们谈论贝叶斯层次模型中的信息借用或信息共享。对于这实际上意味着什么以及贝叶斯层次模型是否独特,我似乎无法获得一个直接的答案。我有点主意:层次结构中的某些级别共享一个公共参数。我不知道这如何转换为“信息借用”。 人们喜欢扔掉“信息借用” /“信息共享”这句话吗? 是否有一个封闭形式的后继例子来说明这种共享现象? 这是贝叶斯分析所独有的吗?通常,当我看到“信息借用”示例时,它们只是混合模型。也许我以一种老式的方式学习了这种模型,但是我看不到任何共享。 我对开始有关方法的哲学辩论不感兴趣。我只是对这个术语的使用感到好奇。



1
在MCMC中管理高自相关
我正在为使用R和JAGS的元分析建立一个相当复杂的分层贝叶斯模型。简化了一下,该模型的两个关键级别具有 其中是的第观察研究终点(在这种情况下,是转基因作物与非转基因作物的产量),是研究的影响, s是各种研究水平变量的影响(通过函数族和索引完成了研究,作物种类,研究方法等)ÿ我Ĵ= αĴ+ ϵ一世ÿ一世Ĵ=αĴ+ϵ一世 y_{ij} = \alpha_j + \epsilon_i αĴ= ∑Hγh (j )+ ϵĴαĴ=∑HγH(Ĵ)+ϵĴ\alpha_j = \sum_h \gamma_{h(j)} + \epsilon_jÿ我Ĵÿ一世Ĵy_{ij}一世一世iĴĴjαĴαĴ\alpha_jĴĴjγγ\gammaHHhϵϵ\epsilons是错误术语。请注意,不是虚拟变量的系数。相反,对于不同的研究水平值,存在不同的变量。例如,有为发展中国家和发达国家。 γγ\gammaγγ\gammaγde v e l o p 我Ñ 克γdËvË升Øp一世ñG\gamma_{developing}γdÈ v Ë 升ö p ë dγdËvË升ØpËd\gamma_{developed} 我主要对估算的值感兴趣。这意味着从模型中删除研究级别的变量不是一个好的选择。 γγ\gamma 一些研究水平变量之间具有高度相关性,我认为这在我的MCMC链中产生了很大的自相关性。此诊断图说明了链轨迹(左)和所得的自相关(右): 自相关的结果是,我从4个每10,000个样本的链中获得了60-120的有效样本量。 我有两个问题,一个是客观的,另一个是主观的。 除了细化,添加更多链和使采样器运行更长时间之外,我还可以使用哪些技术来管理此自相关问题?“管理”是指“在合理的时间内得出合理的估计”。在计算能力方面,我正在MacBook Pro上运行这些模型。 自相关程度有多严重?此处和John Kruschke博客上的讨论都表明,如果我们将模型运行足够长的时间,“笨拙的自相关可能已经全部消除了”(Kruschke),因此这并不是什么大问题。 这是产生上面的图的模型的JAGS代码,以防万一有人有兴趣浏览细节的情况: model { for (i in 1:n) …

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.