Questions tagged «stan»

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
如何总结医疗对象的合理间隔
使用Stan和frontend软件包,rstanarm或者brms像以前一样,我可以像以前一样轻松地以贝叶斯方式分析数据lme。虽然我桌上有Kruschke-Gelman-Wagenmakers等的大部分书籍和文章,但这些内容并没有告诉我如何总结医学观众的结果,这些结果困扰于贝叶斯愤怒的Skylla和医学评论家的Charybdis( “我们需要意义,而不是那些分散的东西”)。 例如:胃频率(1 / min)分为三组;健康对照是参考。每个参与者都有几种度量,因此常客我使用以下混合模型lme: summary(lme(freq_min~ group, random = ~1|study_id, data = mo)) 略有修改的结果: Fixed effects: freq_min ~ group Value Std.Error DF t-value p-value (Intercept) 2.712 0.0804 70 33.7 0.0000 groupno_symptoms 0.353 0.1180 27 3.0 0.0058 groupwith_symptoms 0.195 0.1174 27 1.7 0.1086 为简单起见,我将使用2 * std错误作为95%CI。 在常客的背景下,我将其总结为: 在对照组中,估计频率为2.7 / min(也许在此处添加CI,但由于绝对和差异CI造成的混淆,我有时会避免这样做)。 在no_symptoms组中,频率比对照组高0.4 …

1
斯坦
我正在浏览Stan文档,可以从此处下载。我对他们实施Gelman-Rubin诊断程序特别感兴趣。最初的论文Gelman&Rubin(1992)定义了潜在的水垢减少因子(PSRF)如下: 令为第个采样的马尔可夫链,并让整个独立的链采样。假设为第链的均值,而为整体均值。定义 其中 并定义Xi,1,…,Xi,NXi,1,…,Xi,NX_{i,1}, \dots , X_{i,N}iiiMMMX¯i⋅X¯i⋅\bar{X}_{i\cdot}iiiX¯⋅⋅X¯⋅⋅\bar{X}_{\cdot \cdot}W=1M∑m=1Ms2m,W=1M∑m=1Msm2,W = \dfrac{1}{M} \sum_{m=1}^{M} {s^2_m}, s2m=1N−1∑t=1N(X¯mt−X¯m⋅)2.sm2=1N−1∑t=1N(X¯mt−X¯m⋅)2.s^2_m = \dfrac{1}{N-1} \sum_{t=1}^{N} (\bar{X}_{m t} - \bar{X}_{m \cdot})^2\,. BBB B=NM−1∑m=1M(X¯m⋅−X¯⋅⋅)2.B=NM−1∑m=1M(X¯m⋅−X¯⋅⋅)2.B = \dfrac{N}{M-1} \sum_{m=1}^{M} (\bar{X}_{m \cdot} - \bar{X}_{\cdot \cdot})^2 \,. 定义 使用估算PSRF ,其中 其中。V^=(N−1N)W+(M+1MN)B.V^=(N−1N)W+(M+1MN)B.\hat{V} = \left(\dfrac{N-1}{N} \right)W + \left( \dfrac{M+1}{MN} \right)B\,. [R= VR^−−√R^\sqrt{\hat{R}}d ˚F = 2 V / …

2
Stan中没有定义先验的参数
我刚刚开始学习使用Stan和rstan。除非一直对JAGS / BUGS的工作方式感到困惑,否则我一直认为您必须为要从中提取模型的每个参数定义某种先验分布。似乎您不必根据Stan的文档在Stan中执行此操作。这是他们在此处提供的示例模型。 data { int<lower=0> J; // number of schools real y[J]; // estimated treatment effects real<lower=0> sigma[J]; // s.e. of effect estimates } parameters { real theta[J]; real mu; real<lower=0> tau; } model { theta ~ normal(mu, tau); y ~ normal(theta, sigma); } 既mu没有tau定义先验也没有。在将我的一些JAGS模型转换为Stan时,我发现如果我对许多参数(大多数)具有未定义的先验值,它们将起作用。 问题是,当我有没有定义的先验的参数时,我不理解Stan在做什么。是否默认为统一分布?这是HMC的特殊属性之一,它不需要为每个参数都定义一个先验吗?

1
哈密​​顿量蒙特卡洛和离散参数空间
我刚刚开始在stan中建立模型;为了熟悉该工具,我正在完成贝叶斯数据分析(第二版)中的一些练习。所述沃特伯克锻炼设该数据,与(Ñ ,θ )是未知的。由于汉密尔顿蒙特卡洛法令不允许离散参数,因此我已将N声明为实数∈ [ 72 ,∞ ),并使用该函数对实值二项式分布进行了编码。Ñ 〜二项式(Ñ,θ )n∼binomial(N,θ)n \sim \text{binomial}(N, \theta)(N,θ )(N,θ)(N, \theta)ñNN∈ [ 72 ,∞ )∈[72,∞)\in [72, \infty)lbeta 结果的直方图看起来与我直接计算后验密度所发现的结果几乎相同。但是,我担心可能有些微妙的原因使我总体上不相信这些结果。由于对的实值推论为非整数值分配了正概率,因此我们知道这些值是不可能的,因为分数Waterbuck实际上并不存在。另一方面,结果似乎很好,因此在这种情况下,简化似乎对推理没有影响。ñNN 是否有任何以这种方式进行建模的指导原则或经验法则,或者这种将离散参数“提升”为实际不良做法的方法?

2
为什么对MCMC采样器有反对使用Jeffreys或基于熵的先验的建议?
Stan的开发人员在其Wiki页面上指出: 我们不喜欢的一些原理:不变性,杰弗里斯,熵 相反,我看到了很多正态分布建议。到目前为止,我使用了不依赖于采样贝叶斯方法,并且是那种高兴地明白了为什么是二项式可能性的不错选择。θ 〜贝塔( α = 12,β= 12)θ〜贝塔(α=1个2,β=1个2)\theta \sim \text{Beta}\left(\alpha=\frac{1}{2},\beta=\frac{1}{2}\right)
11 bayesian  mcmc  prior  pymc  stan 

2
如何使用BUGS / JAGS / STAN为比例建模?
我正在尝试建立一个模型,其中回应是一个比例(实际上是政党在选区中获得的选票份额)。它的分布不正常,因此我决定使用beta分布对其进行建模。我也有几个预测指标。 但是,我不知道如何用BUGS / JAGS / STAN编写它(JAGS是我最好的选择,但这并不重要)。我的问题是我通过预测变量对参数求和,但是该怎么办呢? 代码将是这样的(使用JAGS语法),但是我不知道如何“链接” y_hat和y参数。 for (i in 1:n) { y[i] ~ dbeta(alpha, beta) y_hat[i] <- a + b * x[i] } (y_hat只是参数和预测变量的乘积,因此是确定性关系。a并且b是我试图估计的系数,x作为预测变量)。 感谢您的建议!

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.