Questions tagged «bayesian»

贝叶斯推断是一种统计推断的方法,该方法依赖于将模型参数视为随机变量,并应用贝叶斯定理来推导有关参数或假设的主观概率陈述(取决于观察到的数据集)。

2
哈密​​尔顿蒙特卡洛
有人可以解释汉密尔顿蒙特卡罗方法背后的主要思想吗?在哪种情况下,它们会比马尔可夫链蒙特卡罗方法产生更好的结果?
14 bayesian  mcmc  hmc 

1
Jeffreys先验多个参数
在某些情况下,前一个完整的多维模型的杰弗里被generaly视为不足,这是例如的情况下: (其中, ε 〜Ñ (0 ,σ 2),具有 μ和 σ未知),其中事先下面是首选(与全杰弗瑞斯现有 π (μ ,σ )α σ - 2): p (μ ,σ )= π (μ )·&π (σ )α σ - 1yi=μ+εi,yi=μ+εi, y_i=\mu + \varepsilon_i \, , ε∼N(0,σ2)ε∼N(0,σ2)\varepsilon \sim N(0,\sigma^2)μμ\muσσ\sigmaπ(μ,σ)∝σ−2π(μ,σ)∝σ−2\pi(\mu,\sigma)\propto \sigma^{-2} 其中 π (μ )是保持 σ固定时(以及类似的 p (σ ))获得的Jeffreys先验值。当在单独的组中处理 σ和 μ时,该先验与参考先验重合。p(μ,σ)=π(μ)⋅π(σ)∝σ−1,p(μ,σ)=π(μ)⋅π(σ)∝σ−1, p(\mu,\sigma) = \pi(\mu) …

2
MCMC的性能基准
是否有大规模的MCMC方法研究在一组测试密度上比较了几种不同算法的性能?我想到的是与Rios和Sahinidis的论文(2013)相同的东西,该论文将大量无衍生的黑盒优化器在几种测试函数上进行了全面比较。 对于MCMC,可以通过例如每个密度评估的有效样本数(ESS)或其他一些适当的指标来评估性能。 一些评论: 我理解性能将在很大程度上取决于目标pdf的细节,但是对于优化而言,类似的参数(可能不相同)成立,尽管如此,仍有大量基准测试功能,套件,竞赛,论文等用于基准测试优化。算法。 同样,MCMC与优化的不同之处还在于,需要更多的用户关注和调整。但是,现在有几种MCMC方法几乎不需要调整:在老化阶段,采样过程中适应的方法,或演化多个交互链并使用的多状态(也称为ensemble)方法(例如Emcee)。来自其他链条的信息以指导抽样。 我对标准方法与多状态(又称为合奏)方法之间的比较特别感兴趣。有关多状态的定义,请参阅MacKay的书的 30.6节: 在多状态方法中,多个参数向量被保留;它们在大都会和吉布斯等举动下各自发展;向量之间也存在相互作用。XX\textbf{x} 这个问题起源于这里。 更新资料 对于一个有趣采取多态又名集成方法,请参阅本博客文章由鲍勃·卡彭特格尔曼的博客,我的评论指这CV职位。

1
您是否必须遵循似然性原则才能成为贝叶斯?
这个问题是由以下问题引起的:什么时候(如果有的话)频频论方法实质上比贝叶斯方法好? 正如我在我对该问题的解决方案中所发布的那样,我认为,如果您是常客,则不必相信/坚持似然性原则, 因为经常使用常客的方法会违反该原则。但是,这通常是在适当先验的假设下,贝叶斯方法从不违反似然原理。 那么,现在说您是贝叶斯主义者是否在可能性原则上确认了自己的信念或共识,还是说作为贝叶斯主义者的论点只是产生了不违反似然原则的好结果?

1
为什么添加滞后效应会增加贝叶斯分层模型中的平均偏差?
背景:我目前正在做一些比较各种贝叶斯层次模型的工作。数据是参与者i和时间j的幸福感的数字量度。我大约有1000位参与者,每位参与者5到10个观察值。ÿ我Ĵÿ一世Ĵy_{ij}一世一世iĴĴj 像大多数纵向数据集一样,我希望看到某种形式的自相关,其中时间上较近的观测值比距离较远的观测值具有更大的相关性。简化几件事,基本模型如下: ÿ我Ĵ〜ñ(μ我Ĵ,σ2)ÿ一世Ĵ〜ñ(μ一世Ĵ,σ2)y_{ij} \sim N(\mu_{ij}, \sigma^2) 我在比较无滞后模型的地方: μ我Ĵ= β0 我μ一世Ĵ=β0一世\mu_{ij} = \beta_{0i} 使用滞后模型: μ我Ĵ= β0 我+ β1个(yi (j − 1 )- β0 我)μ一世Ĵ=β0一世+β1个(ÿ一世(Ĵ-1个)-β0一世)\mu_{ij} = \beta_{0i} + \beta_{1} (y_{i(j-1)} - \beta_{0i}) 其中是一个人级的均值和ββ0 我β0一世\beta_{0i}β1个β1个\beta_1ÿ我0ÿ一世0y_{i0} 我得到的结果表明: 滞后参数约为0.18,95%CI [.14,.21]。即非零 当模型中包含滞后时,平均偏差和DIC都会增加数百 后验预测检查表明,通过包括滞后效应,模型可以更好地恢复数据中的自相关 因此,总的来说,非零滞后参数和后验预测表明滞后模型更好。但均值偏差和DIC表明无滞后模型更好。这让我感到困惑。 我的一般经验是,如果添加有用的参数,则至少应减少平均偏差(即使在复杂度降低后DIC也不会得到改善)。此外,滞后参数的零值将实现与无滞后模型相同的偏差。 题 为什么即使滞后参数不为零并且增加滞后效应,也可以增加贝叶斯分层模型中的平均偏差,从而改善后验预测性检查? 最初的想法 我已经做了很多 收敛性检查(例如,查看轨迹图;检查跨链和跨运行的偏差结果的变化),并且两个模型似乎都收敛于后验。 我已经执行了代码检查,将滞后效应强制为零,这确实恢复了无滞后模型偏差。 我还研究了平均偏差减去惩罚值,该偏差值应使偏差超出预期值,这也使滞后模型显得更糟。 β0iβ0i\beta_{0i} 我如何估计第一次观察之前的隐含时间点可能存在一些问题。 在此数据中,滞后效应可能只是微弱的 我尝试使用lme与的最大相似度来估计模型correlation=corAR1()。滞后参数的估计值非常相似。在这种情况下,与没有滞后的模型相比,滞后模型具有更大的对数可能性和较小的AIC(大约100)(即,它表明滞后模型更好)。因此,这加强了这样的想法,即增加滞后还应降低贝叶斯模型中的偏差。 …

2
Dirichlet聚类流程:如何处理标签?
问:使用Dirichlet流程对数据进行聚类的标准方法是什么? 使用吉布斯采样时,采样簇会出现并消失。此外,由于后验分布对于聚类重标记是不变的,因此我们存在可识别性问题。因此,我们不能说哪个是用户集群,而是两个用户在同一个集群中(即)。p(ci=cj)p(ci=cj)p(c_i=c_j) 我们可以总结一下类的分配,以便如果是点的集群分配,那么现在不仅是而且是?cicic_iiiici=cjci=cjc_i=c_jci=cj=cj=...=czci=cj=cj=...=czc_i=c_j=c_j=...=c_z 这些是我找到的替代方案,也是为什么我认为它们不完整或被误导的原因。 (1)DP-GMM + Gibbs采样+基于对的混淆矩阵 为了将Dirichlet过程高斯混合模型(DP-GMM)用于聚类,我实现了本文,其中作者提出了使用Gibbs采样进行密度估计的DP-GMM 。 为了探讨集群性能,他们说: 由于在[MCMC]链上组件的数量发生了变化,因此需要形成一个混淆矩阵,显示每个数据对在整个链中分配给同一组件的频率,见图6。 缺点:这不是真正的“完整”群集,而是成对群集。该图看起来不错,因为我们知道了真实的簇,并据此安排了矩阵。 (2)DP-GMM + Gibbs采样+采样直到没有任何变化 我一直在搜索,发现有些人声称使用Gibbs采样器基于Dirichlet Process进行聚类。例如,这篇文章认为当聚类数量或均值没有更多变化时,链收敛,因此可以从那里获得汇总。 缺点:我不确定这是否允许,因为如果我没有记错的话: (a)在MCMC期间可能会有标签切换。 (b)即使在固定分布中,采样器也可以不时创建一些簇。 (3)DP-GMM + Gibbs采样+选择最可能划分的采样 在本文中,作者说: 在“老化”阶段之后,可以从Gibbs采样器中提取来自IGMM后分布的无偏样本。可以通过绘制许多此类样本并使用类别指标变量的联合可能性最高的样本来找到硬聚类。我们使用M. Mandel编写的经过修改的IGMM实现。 缺点:除非这是一个折叠的吉布斯采样器,我们仅对分配进行采样,否则我们可以计算而不是边际。(取而代之的是获得具有最高的状态,这是一个好习惯吗?)p (c)p (c,θ )p(c|θ)p(c|θ)p(\mathbf{c} | \theta)p(c)p(c)p(\mathbf{c})p(c,θ)p(c,θ)p(\mathbf{c}, \theta) (4)具有可变推论的DP-GMM: 我已经看到一些库使用变分推理。我不太了解变分推理,但我想您那里没有可识别性问题。但是,我想坚持使用MCMC方法(如果可能)。 任何参考将有所帮助。

2
频率统计的主观性
我经常听到有人声称贝叶斯统计数据可能是高度主观的。主要论点是推论取决于先验的选择(即使可以使用无差异或最大熵的原理来选择先验)。相比之下,常客统计通常更客观。这句话有多少道理? 另外,这让我感到奇怪: 经常性统计的具体要素(如果有)中哪些是特别主观的,在贝叶斯统计中不存在或不太重要? 贝叶斯主义的主观性是否比常客主义的统计更为普遍?

4
从贝叶斯概率角度来看,为什么95%的置信区间不包含具有95%概率的真实参数?
从Wikipedia页面上的置信区间: ...如果在重复(可能不同)实验的许多单独数据分析中构建置信区间,则包含参数真实值的此类区间的比例将与置信度匹配... 并在同一页面上: 置信区间不能预测给定实际获得的数据,参数的真实值具有置信区间内的特定概率。 如果我理解正确的话,那么最后的陈述是考虑到概率论的频繁性解释。但是,从贝叶斯概率角度来看,为什么95%的置信区间不包含具有95%概率的真实参数?如果不是,则以下推理出了什么问题? 如果我知道某个过程在95%的时间内都能给出正确的答案,则下一个答案正确的可能性为0.95(假设我没有有关该过程的任何额外信息)。同样,如果有人向我展示了由某个过程创建的置信区间,该过程将在95%的时间内包含真实参数,那么根据我所知,我是否应该说它包含0.95概率的真实参数? 这个问题类似于但不相同,为什么95%CI并不意味着95%的机会包含均值?这个问题的答案一直集中在为什么从经常性的角度来看,95%CI并不意味着95%的机会包含均值。我的问题是相同的,但是从贝叶斯概率角度来看。

4
MCMC的实际示例
我正在听一些与MCMC有关的讲座。但是,我找不到如何使用它的好例子。谁能给我一个具体的例子。我所看到的是它们运行着一个马尔可夫链,并说其平稳分布是所需的分布。 我想要一个很好的例子,其中难以从中获取所需的分布。因此,我们创建了一个马尔可夫链。我想知道如何选择过渡矩阵,以便其马尔可夫链的平稳分布成为目标分布

3
贝叶斯变量选择-真的有效吗?
我以为我可能会喜欢上一些不错的博客文章和其中的链接论文,以选择一些贝叶斯变量来玩。我用rjags(我是个菜鸟)编写了一个程序,并获取了埃克森美孚的价格数据,以及一些不太可能解释其收益的信息(例如,钯金价格)以及其他应该高度相关的信息(例如SP500) )。 运行lm(),我们看到有强有力的证据证明模型过度参数化,但是绝对应该排除钯: Call: lm(formula = Exxon ~ 0 + SP + Palladium + Russell + OilETF + EnergyStks, data = chkr) Residuals: Min 1Q Median 3Q Max -1.663e-03 -4.419e-04 3.099e-05 3.991e-04 1.677e-03 Coefficients: Estimate Std. Error t value Pr(>|t|) SP 0.51913 0.19772 2.626 0.010588 * Palladium 0.01620 0.03744 0.433 …

3
您将如何在R中进行贝叶斯ANOVA和回归分析?[关闭]
关闭。这个问题是题外话。它当前不接受答案。 想改善这个问题吗? 更新问题,使它成为交叉验证的主题。 2年前关闭。 我有一个相当简单的数据集,由一个自变量,一个因变量和一个分类变量组成。我在运行诸如aov()和的频繁测试方面有丰富的经验lm(),但是我无法弄清楚如何在R中执行它们的贝叶斯等效项。 我想对前两个变量进行贝叶斯线性回归,并使用分类变量作为分组进行方差的贝叶斯分析,但是我找不到任何简单的示例来说明如何使用R做到这一点。都?此外,贝叶斯分析所创建的输出统计信息到底是什么,它们表示什么? 我对统计数据不是很精通,但是共识似乎是,现在认为使用带有p值的基本测试有些误入歧途,我正在努力跟上。问候。

2
贝叶斯分析的最佳软件包
我想知道你们推荐哪种软件统计软件包来执行贝叶斯推理。 例如,我知道您可以独立运行openBUGS或winBUGS,也可以从R调用它们。但是R也有几个自己的软件包(MCMCPack,BACCO)可以进行贝叶斯分析。 是否有人对R中的哪个贝叶斯统计软件包最好或其他替代方案(Matlab或Mathematica)有任何建议? 我要比较的主要功能是性能,易用性,稳定性和灵活性

3
为什么这个摘录说标准偏差的无偏估计通常不相关?
我正在阅读标准偏差的无偏估计的计算方法以及我所阅读的资料 (...)除非在某些重要情况下,否则该任务与统计的应用几乎没有关系,因为通过标准程序(例如,使用显着性检验和置信区间或使用贝叶斯分析)可以避免执行此任务。 我想知道是否有人可以阐明该语句背后的原因,例如,置信区间不是将标准差用作计算的一部分吗?因此,置信区间不会受到标准偏差的影响吗? 编辑: 到目前为止,谢谢您的回答,但是我不确定我是否遵循它们的某些推理,因此我将添加一个非常简单的示例。关键是,如果源是正确的,那么从我的结论到示例,都出了点问题,我希望有人指出p值如何不依赖于标准偏差。 假设研究人员希望测试他或她所在城市的五年级学生的平均分数是否与全国平均值76分(显着性水平为0.05)不同。研究人员随机抽取了20名学生的分数。样本平均值为80.85,样本标准偏差为8.87。这意味着:t =(80.85-76)/(8.87 / sqrt(20))= 2.44。然后使用t表计算以19 df在2.44时的2尾概率值为0.025。这低于我们的显着性水平0.05,因此我们拒绝零假设。 因此,在此示例中,p值(也许还有您的结论)是否会根据您估计样本标准偏差的方式而改变?

1
为什么我们要讨论不同拓扑中不同估计量的收敛行为?
在《代数几何与统计学习理论》一书的第一章中,讨论了不同函数空间中的估计的收敛性,其中提到贝叶斯估计对应于Schwartz分布拓扑,而最大似然估计对应于超范数拓扑(第7页): 例如sup-norm, -norm,希尔伯特空间弱拓扑,Schwartz分布拓扑等。是否收敛成立,很大程度上取决于函数空间的拓扑。贝叶斯估计对应于Schwartz分布拓扑,而最大似然或后验方法对应于超范数。这种差异会强烈影响单一模型的学习结果。大号p大号pL^p大号2大号2L^2ķñ( w )→ K( w )ķñ(w)→ķ(w)K_n(w)\to K(w) 其中和分别是真实模型与参数模型(参数)之间的经验KL散度(观测值之和)和真实KL散度(数据分布的总和)。Kn(w)Kn(w)K_n(w)K(w)K(w)K(w)www 谁能解释一下,或暗示我书中哪个地方有道理?谢谢。 更新:版权内容已删除。

2
贝叶斯和常识性EDA方法是否存在差异?
简而言之:探索性数据分析的贝叶斯和频率论方法有什么区别吗? 我不知道EDA方法中的固有偏差,因为直方图是直方图,散点图是散点图等,我也没有找到关于EDA的讲授或呈现方式差异的示例(忽略了A. Gelman的特别理论论文) 。最后,我看了CRAN,它是所有应用的仲裁者:我没有找到适合贝叶斯方法的软件包。但是,我认为CV可能会有一些人对此有所了解。 为什么要有差异? 对于初学者: 在确定适当的先验分布时,不应该用肉眼进行调查吗? 在汇总数据并建议是使用常客模型还是贝叶斯模型时,EDA是否不建议选择哪个方向? 两种方法在如何处理混合模型方面有非常明显的区别。鉴定样本可能来自人群混合是具有挑战性的,并且与用于估计混合物参数的方法直接相关。 两种方法都包含随机模型,并且通过了解数据来驱动模型的选择。更复杂的数据或更复杂的模型需要在EDA中花费更多时间。鉴于随机模型或生成过程之间的这种区别,EDA活动存在差异,因此,难道不应该因不同的随机方法而产生区别吗? 注1:我并不关心“阵营”的哲学-我只想解决我的EDA工具包和方法中的任何空白。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.