Questions tagged «hierarchical-bayesian»

多层贝叶斯模型指定先验分布的先验参数和先验分布的参数的超先验


2
“深度学习”与多层/分层建模之间有什么区别?
“深度学习”只是多层次/层次建模的另一个术语吗? 我比后者更熟悉后者,但是据我所知,主要区别不在于它们的定义,而是它们在其应用程序域中的使用和评估方式。 看起来,典型的“深度学习”应用程序中的节点数量更多,并且使用通用的层次结构形式,而多级建模的应用程序通常使用层次结构关系来模仿正在建模的生成过程。在应用统计(层次建模)域中使用通用层次结构将被视为现象的“不正确”模型,而对特定领域的层次结构进行建模可能被视为颠覆了制造通用深度学习机器的目标。 这两件事是否真的是同一台机器,但使用两种不同的名称,以两种不同的方式使用?

5
如何在机器学习中处理分层/嵌套数据
我将用一个例子来解释我的问题。假设您要根据以下属性预测个人的收入:{年龄,性别,国家/地区,城市}。你有一个像这样的训练数据集 train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 1 1 2 62 M 71 4 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 


1
在盖尔曼(Gelman)的8个学校示例中,为什么已知的单个估计的标准误差已知?
内容: 在盖尔曼(Gelman)的8个学校的示例(贝叶斯数据分析,第3版,第5.5章)中,有8个学校的八个平行实验测试了教练的效果。每个实验都会对教练的有效性和相关的标准误产生一个估计值。 然后,作者为教练效应的8个数据点建立了一个层次模型,如下所示: yi∼N(θi,sei)θi∼N(μ,τ)yi∼N(θi,sei)θi∼N(μ,τ) y_i \sim N(\theta_i, se_i) \\ \theta_i \sim N(\mu, \tau) 问题 在这个模型中,他们假设seiseise_i是已知的。如果我们觉得我们必须模型-我不明白这个假设θiθi\theta_i,我们为什么不这样做对同一seiseise_i? 我检查了鲁宾的原始论文,介绍了8学派的例子,作者也在那说(p 382): 当我们通过估计的效果及其标准误差对研究进行总结时,通常会进行正态性和已知标准误差的假设,在此我们不会质疑其用途。 总结一下,我们为什么不模拟seiseise_i?为什么我们将其视为已知?

2
二项式分布的贝叶斯估计
这个问题的技术跟进这个问题。 我在理解和复制Raftery(1988)中NNN提出的模型时遇到了麻烦:二项式参数的推论: WinBUGS / OpenBUGS / JAGS中的分层贝叶斯方法。它不仅与代码有关,因此在这里应该是主题。 背景 令是一组来自未知和的二项式分布的成功计数。此外,我假设遵循参数的泊松分布(如本文所述)。然后,每个的泊松分布均值为。我想根据和指定先验。ñ θ Ñ μ X 我 λ = μ θ λ θx=(x1,…,xn)x=(x1,…,xn)x=(x_{1},\ldots,x_{n})NNNθθ\thetaNNNμμ\muxixix_{i}λ=μθλ=μθ\lambda = \mu \thetaλλ\lambdaθθ\theta 假设我对或没有任何先验知识,我想为和分配非信息先验。说,我的先验是和。θ λ θ λ 〜ģ 一米米一(0.001 ,0.001 )θ 〜ü Ñ 我˚F ö ř 米(0 ,1 )NNNθθ\thetaλλ\lambdaθθ\thetaλ∼Gamma(0.001,0.001)λ∼Gamma(0.001,0.001)\lambda\sim \mathrm{Gamma}(0.001, 0.001)θ∼Uniform(0,1)θ∼Uniform(0,1)\theta\sim \mathrm{Uniform}(0, 1) 作者使用不当先验,但WinBUGS不接受不当先验。p(N,θ)∝N−1p(N,θ)∝N−1p(N,\theta)\propto N^{-1} 例 在纸(第226)中,提供了观察到的水羚的以下成功计数:。我想估计,即人口的大小。Ñ53,57,66,67,7253,57,66,67,7253, 57, 66, 67, …

2
当平均方差受到关注时,可以/应该将哪些先验分布用于分层贝叶斯模型中的方差?
在他被广泛引用的论文中,层次模型中方差参数的先验分布 (到目前为止,在Google学术搜索中已有916次引用)Gelman提出,对于贝叶斯分层模型,方差的良好非信息性先验分布是均匀分布和Half t分布。如果我理解正确的话,那么当主要关注位置参数(例如均值)时,这将很好地工作。有时,方差参数是主要关注的问题,例如,当分析来自计时任务的人的响应数据时,意味着计时的可变性通常是关注的度量。在那些情况下,我不清楚如何用例如均匀分布的分层方法对可变性进行建模,因为我在分析后想获得参与者水平和小组水平的平均方差的可信度。 然后我的问题是:在主要考虑数据方差的情况下,建立分层贝叶斯模型时,建议采用哪种分布? 我知道伽马分布可以重新设定为均值和标准差。例如,下面的层次模型来自Kruschke的书《做贝叶斯数据分析》。但是,盖尔曼(Gelman)在他的文章中概述了伽玛分布的一些问题,我很感谢提出替代方案的建议,最好是不难在BUGS / JAGS中工作的替代方案。

1
为什么添加滞后效应会增加贝叶斯分层模型中的平均偏差?
背景:我目前正在做一些比较各种贝叶斯层次模型的工作。数据是参与者i和时间j的幸福感的数字量度。我大约有1000位参与者,每位参与者5到10个观察值。ÿ我Ĵÿ一世Ĵy_{ij}一世一世iĴĴj 像大多数纵向数据集一样,我希望看到某种形式的自相关,其中时间上较近的观测值比距离较远的观测值具有更大的相关性。简化几件事,基本模型如下: ÿ我Ĵ〜ñ(μ我Ĵ,σ2)ÿ一世Ĵ〜ñ(μ一世Ĵ,σ2)y_{ij} \sim N(\mu_{ij}, \sigma^2) 我在比较无滞后模型的地方: μ我Ĵ= β0 我μ一世Ĵ=β0一世\mu_{ij} = \beta_{0i} 使用滞后模型: μ我Ĵ= β0 我+ β1个(yi (j − 1 )- β0 我)μ一世Ĵ=β0一世+β1个(ÿ一世(Ĵ-1个)-β0一世)\mu_{ij} = \beta_{0i} + \beta_{1} (y_{i(j-1)} - \beta_{0i}) 其中是一个人级的均值和ββ0 我β0一世\beta_{0i}β1个β1个\beta_1ÿ我0ÿ一世0y_{i0} 我得到的结果表明: 滞后参数约为0.18,95%CI [.14,.21]。即非零 当模型中包含滞后时,平均偏差和DIC都会增加数百 后验预测检查表明,通过包括滞后效应,模型可以更好地恢复数据中的自相关 因此,总的来说,非零滞后参数和后验预测表明滞后模型更好。但均值偏差和DIC表明无滞后模型更好。这让我感到困惑。 我的一般经验是,如果添加有用的参数,则至少应减少平均偏差(即使在复杂度降低后DIC也不会得到改善)。此外,滞后参数的零值将实现与无滞后模型相同的偏差。 题 为什么即使滞后参数不为零并且增加滞后效应,也可以增加贝叶斯分层模型中的平均偏差,从而改善后验预测性检查? 最初的想法 我已经做了很多 收敛性检查(例如,查看轨迹图;检查跨链和跨运行的偏差结果的变化),并且两个模型似乎都收敛于后验。 我已经执行了代码检查,将滞后效应强制为零,这确实恢复了无滞后模型偏差。 我还研究了平均偏差减去惩罚值,该偏差值应使偏差超出预期值,这也使滞后模型显得更糟。 β0iβ0i\beta_{0i} 我如何估计第一次观察之前的隐含时间点可能存在一些问题。 在此数据中,滞后效应可能只是微弱的 我尝试使用lme与的最大相似度来估计模型correlation=corAR1()。滞后参数的估计值非常相似。在这种情况下,与没有滞后的模型相比,滞后模型具有更大的对数可能性和较小的AIC(大约100)(即,它表明滞后模型更好)。因此,这加强了这样的想法,即增加滞后还应降低贝叶斯模型中的偏差。 …

1
为什么冗余均值参数化可以加快Gibbs MCMC?
在Gelman&Hill(2007)的书(使用回归和多级/层次模型进行数据分析)中,作者声称包括冗余均值参数可以帮助加快MCMC。 给定的示例是“飞行模拟器”(公式13.9)的非嵌套模型: yiγjδk∼N(μ+γj[i]+δk[i],σ2y)∼N(0,σ2γ)∼N(0,σ2δ)yi∼N(μ+γj[i]+δk[i],σy2)γj∼N(0,σγ2)δk∼N(0,σδ2) \begin{align} y_i &\sim N(\mu + \gamma_{j[i]} + \delta_{k[i]}, \sigma^2_y) \\ \gamma_j &\sim N(0, \sigma^2_\gamma) \\ \delta_k &\sim N(0, \sigma^2_\delta) \end{align} 他们建议重新参数化,并添加平均参数和,如下所示:μγμγ\mu_\gammaμδμδ\mu_\delta γj∼N(μγ,σ2γ)δk∼N(μδ,σ2δ)γj∼N(μγ,σγ2)δk∼N(μδ,σδ2) \begin{align} \gamma_j \sim N(\mu_\gamma, \sigma^2_\gamma) \\ \delta_k \sim N(\mu_\delta, \sigma^2_\delta) \end{align} 提供的唯一理由是(第420页): 仿真可能会陷入整个矢量(或)远离零的配置中(即使分配了均值为0的分布)。最终,模拟将收敛到正确的分布,但是我们不想等待。γγ\gammaδδ\delta 冗余均值参数如何解决此问题? 在我看来,非嵌套模型的速度较慢,主要是因为和呈负相关。(实际上,如果一个总数上升,则另一个则必须下降,因为它们的总和被数据“固定”了)。冗余均值参数是否有助于降低和之间的相关性,或完全减少其他方面的相关性?γγ\gammaδδ\deltaγγ\gammaδδ\delta

2
Wishart-Wishart后验的参数是什么?
当推断用于生成 D维向量的正态分布的精度矩阵时 我们通常将Wishart放在之前,因为Wishart分布是具有已知均值和未知方差的多元正态分布的命题: 其中是自由度和的ΛΛ\boldsymbol{\Lambda}NNNx1,..,xNx1,..,xN\mathbf{x_1},..,\mathbf{x_N} xi∼N(μ,Λ−1)xi∼N(μ,Λ−1)\begin{align} \mathbf{x_i} &\sim \mathcal{N}(\boldsymbol{\mu, \Lambda^{-1}}) \\ \end{align}ΛΛ\boldsymbol{\Lambda}Λ∼W(υ,Λ0)Λ∼W(υ,Λ0)\begin{align} \mathbf{\Lambda} &\sim \mathcal{W}(\upsilon, \boldsymbol{\Lambda_0}) \\ \end{align}υυ\upsilonΛ0Λ0\boldsymbol{\Lambda_0}比例矩阵。为了增加模型的鲁棒性和灵活性,我们对Wishart的参数设置了优先级。例如,Görür和Rasmussen建议: 其中是伽马分布。Λ01υ−D+1∼W(D,1DΛx)∼G(1,1D)Λ0∼W(D,1DΛx)1υ−D+1∼G(1,1D)\begin{align} \mathbf{\Lambda_0} &\sim \mathcal{W}(D, \frac{1}{D}\boldsymbol{\Lambda_x}) \\ \frac{1}{\upsilon-D + 1} &\sim \mathcal{G}(1, \frac{1}{D}) \\ \end{align}GG\mathcal{G} 题: 为了采样Λ0Λ0\boldsymbol{\Lambda_0} p(Λ0|X,Λ,υ,D,Λx)∝W(Λ|υ,Λ0)W(Λ0|D,1DΛx)p(Λ0|X,Λ,υ,D,Λx)∝W(Λ|υ,Λ0)W(Λ0|D,1DΛx)\begin{align} p(\boldsymbol{\Lambda_0 | X, \Lambda}, \upsilon, D, \boldsymbol{\Lambda_x}) \propto \mathcal{W}(\boldsymbol{\Lambda} | \upsilon, \boldsymbol{\Lambda_0}) \mathcal{W}(\boldsymbol{\Lambda_0} |D, \frac{1}{D}\boldsymbol{\Lambda_x}) \\ …

1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

5
借阅信息到底意味着什么?
我经常与他们谈论贝叶斯层次模型中的信息借用或信息共享。对于这实际上意味着什么以及贝叶斯层次模型是否独特,我似乎无法获得一个直接的答案。我有点主意:层次结构中的某些级别共享一个公共参数。我不知道这如何转换为“信息借用”。 人们喜欢扔掉“信息借用” /“信息共享”这句话吗? 是否有一个封闭形式的后继例子来说明这种共享现象? 这是贝叶斯分析所独有的吗?通常,当我看到“信息借用”示例时,它们只是混合模型。也许我以一种老式的方式学习了这种模型,但是我看不到任何共享。 我对开始有关方法的哲学辩论不感兴趣。我只是对这个术语的使用感到好奇。

2
为什么限制最大似然会产生更好的(无偏的)方差估计?
我正在阅读道格·贝茨(Doug Bates)关于R的lme4程序包的理论论文,以更好地理解混合模型的本质,并遇到了一个我想更好理解的有趣结果,即使用受限最大似然(REML)估计方差。 在关于REML标准的第3.3节中,他指出,在拟合线性模型中根据残差估计方差时,在方差估计中使用REML与使用自由度校正紧密相关。特别是,“尽管通常不是这样得出的”,但可以通过优化“ REML准则”估算方差来推导自由度校正(公式(28))。REML标准基本上只是可​​能性,但是线性拟合参数已通过边缘化来消除(而不是将其设置为等于拟合估计值,这会产生有偏差的样本方差)。 我进行了数学运算,并验证了仅具有固定效果的简单线性模型所声称的结果。我正在努力的是解释。是否存在某种观点,可以通过优化拟合参数被边缘化的可能性来自然地推导方差估计?感觉有点像贝叶斯,好像我认为似然性是后验的,将拟合参数边缘化,就好像它们是随机变量一样。 还是说辩护主要只是数学上的-它在线性情况下有效,但也可以推广?

1
分层Gamma-Poisson模型的超先验密度
在数据的层次模型中,其中 在实践中选择值似乎很典型(,以使伽玛分布的均值和方差与数据的均值和方差大致匹配(例如Clayton和Kaldor,1987年“疾病测绘的年龄标准化相对风险的经验贝叶斯估计”,Biometrics)。显然,这只是一个临时解决方案,因为它会夸大研究人员对参数的信心yyyy∼Poisson(λ)y∼Poisson(λ)y \sim \textrm{Poisson}(\lambda) λ∼Gamma(α,β)λ∼Gamma(α,β)\lambda \sim \textrm{Gamma}(\alpha, \beta)α,β)α,β)\alpha, \beta)yyy(α,β)(α,β)(\alpha, \beta)即使基础数据生成过程保持不变,已实现数据的微小波动也可能对伽玛密度产生重大影响。 此外,Gelman 在贝叶斯数据分析(第二版)中写道,这种方法是“ 草率的 ”。在书和本文中(从第3232页开始),他建议以类似于大鼠肿瘤示例(从第130页开始)的方式选择一些优先级较高的密度)。p(α,β)p(α,β)p(\alpha, \beta) 尽管很明显,只要只要产生一定的后验密度就可以接受,但我还没有找到研究人员过去用于此问题的任何超高密度示例。如果有人可以指出我使用超优先密度来估计泊松-伽马模型的书籍或文章,我将不胜感激。理想情况下,我对感兴趣,它相对平坦,并且会像老鼠肿瘤示例中的数据一样占主导地位,或者对几种替代规格以及与每种规格相关的取舍进行讨论。p(α,β)p(α,β)p(\alpha, \beta)p(α,β)p(α,β)p(\alpha, \beta)

1
为什么LKJcorr是相关矩阵的先验?
I'm阅读中(第13章“冒险协方差” 高超)一书统计反思理查德McElreath在那里,他提出以下层次模型: (R是一个相关矩阵) 作者解释说,这LKJcorr是信息量较弱的先验,可作为相关矩阵的正则化先验。但是为什么会这样呢?LKJcorr分布具有什么特征,使其成为相关矩阵的先验?相关矩阵在实践中还使用了哪些其他先验条件?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.