Questions tagged «bayesian»

贝叶斯推断是一种统计推断的方法,该方法依赖于将模型参数视为随机变量,并应用贝叶斯定理来推导有关参数或假设的主观概率陈述(取决于观察到的数据集)。

0
Jaynes的分布
在Jaynes的《概率论:科学的逻辑》一书中,Jaynes有一章(第18章)标题为“分布和继承规则”,在其中他介绍了分布的概念,这一段有助于说明:一种p一种pA_p一种p一种pA_p [...]要看到这一点,请想象获得新信息的效果。假设我们将硬币扔了五次,每次都掉到尾巴上。你问我下一次投篮的可能性是多少?我还是说1/2。但是,如果您再告诉我一个有关火星的事实,我已经准备好完全改变我的概率分配[ 火星上曾经有生命 ]。一分钱都使我的信念状态非常稳定,而火星则使我的信念状态非常不稳定 这似乎是对概率论作为逻辑的致命反对。也许我们需要将一个命题关联起来,不仅仅是一个代表合理性的数字,而是两个数字:一个代表合理性,另一个在面对新证据时其稳定性如何。因此,将需要一种二值理论。[...] 他接着介绍了一个新的命题,使得 一种p一种pA_pP(A | ApË)≡ pP(一种|一种pË)≡pP(A|A_pE) ≡ p “其中E是任何额外的证据。如果我们要渲染。作为一个口头声明,它会出来这样的事: 不论任何其他可能已被告知,A的概率为p。”一种p一种pA_p一种p一种pA_p ≡≡≡ 我试图仅使用满足这些标准的Beta分布来查看两个数的概念(“合理性,以及面对新证据时另一个稳定性”)之间的区别。 图18.2与使用(例如)非常相似,而对于火星,它可能是Beta(1 / 2,1 / 2),信念状态为“非常不稳定”α = β= 100α=β=100\alpha=\beta=100 上面的原始命题可以是非常大的 Beta(),这样 /(。则没有证据可以改变p和P(A | A_pE)≡p的分布一种p一种pA_pα ,βα,β\alpha,\betaα ,βα,β\alpha,\betaαα\alphaα + β)= pα+β)=p\alpha+\beta)=ppppP(A | ApË)≡ pP(一种|一种pË)≡pP(A|A_pE) ≡ p 在本书中都讨论了Beta分布,因此我是否错过了一些区别,这里的区别是微妙的,需要一种新的理论(分布)?他确实在下一段提到“似乎好像我们在谈论'概率的可能性'。”一种p一种pA_p

2
一般拟合优度的贝叶斯等效项是什么?
我有两个数据集,一个来自一组物理观测值(温度),另一个来自一组数值模型。我正在做一个完美模型分析,假设模型集合表示一个真实的独立样本,并检查是否从该分布中得出观察结果。我计算出的统计数据已归一化,理论上应为标准正态分布。当然,它并不完美,所以我想测试一下贴合度。 使用常识性推理,我可以计算Cramér-vonMises统计信息(或Kolmogorov-Smirnov等)或类似数据,并在表中查找该值以获得p值,以帮助我确定该值不太可能看到的是,给定的观察结果与模型相同。 该过程的贝叶斯等效项是什么?也就是说,如何量化我对这两个分布(我的计算统计量和标准正态分布)不同的信念的强度?

4
Ziliak(2011)反对使用p值,并提到了一些替代方案。这些是什么?
在最近的一篇文章中讨论了依赖p值进行统计推断的缺点,称为“ Matrixx诉Siracusano和Student诉Fisher的审判统计意义”(DOI:10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak反对使用p值。在最后几段中,他说: 数据是我们已经知道并且肯定的一件事。我们实际上想知道的是完全不同的东西:给定我们拥有的数据,假设成立的可能性为真(或至少在实践中有用)。我们想知道两种药物不同的可能性,以及在给定证据的情况下相差多少。显着性检验(基于转置条件的谬误,即Fisher陷入的陷阱)不会,也无法告诉我们这种可能性。幂函数,预期损失函数以及许多其他的决策理论方法和贝叶斯方法都可以从Student和Jeffreys继承而来,这些方法现已广泛可用并且可以免费在线使用。 幂函数,期望损失函数和“其他决策理论和贝叶斯方法”是什么?这些方法是否被广泛使用?它们在R中可用吗?这些新建议方法如何实施?例如,我将如何使用这些方法在数据集中检验我的假设,否则我将使用常规的两样本t检验和p值?

4
解决模型不确定性
我想知道在CrossValidated社区中的贝叶斯主义者如何看待模型不确定性问题,以及他们希望如何处理它?我将尝试分两个部分提出我的问题: (根据您的经验/观点)处理模型不确定性有多重要?我在机器学习社区中没有找到任何有关此问题的论文,所以我只是想知道为什么。 处理模型不确定性(奖励点,如果提供参考)的常用方法是什么?我听说过贝叶斯模型平均,但是我不熟悉这种方法的特定技术/局限性。还有哪些?为什么您偏爱另一个?

3
贝叶斯如何比较分布?
因此,我认为我对频繁出现概率和统计分析的基础知识(以及使用它的严重程度)有很好的了解。在一个频繁论者的世界中,提出这样的问题是有意义的:“此分布是否不同于该分布”,因为假定分布是真实的,客观的且不变的(至少对于给定的情况而言),因此我们可以得出从一个形状像另一个样本的分布中抽取一个样本的可能性有多大。 在贝叶斯世界观中,考虑到我们过去的经验,我们只关心我们期望看到的结果(在这一部分上我仍然有点含糊,但是我理解贝叶斯更新的概念)。如果是这样,贝叶斯怎么能说“这组数据与那组数据不同”? 出于这个问题的目的,我不在乎统计意义或类似意义,而只是在乎如何量化差异。我同样对参数和非参数分布感兴趣。

1
经验贝叶斯如何有效?
因此,我刚读完一本很棒的书《经验贝叶斯简介》。我以为这本书很棒,但是根据数据建立先验感觉是错误的。我们接受过培训,要求您提出分析计划,然后收集数据,然后测试您先前在分析计划中确定的假设。在对已经收集的数据进行分析时,这将使您进入选择性后推断,在此之后您必须对所谓的“重要”更为严格,请参见此处。我认为机器学习有一个类似的东西,叫做“樱桃采摘”,意思是在建立测试和训练集之前选出预测变量(《统计学习入门》)。 鉴于我以前学到的知识,在我看来,经验贝叶斯基于薄弱的基础。人们是否仅在被动生成数据的环境中使用它?如果是这样,这可能是合理的,但是在进行严格的实验设计时使用它似乎并不正确,但是我知道Brad Efron确实使用了专门针对生物统计学的经验贝叶斯方法,而贝叶斯通常是一个非常重要的NHST领域。 我的问题是: 经验贝叶斯如何有效? 在什么情况下使用? 在什么情况下应该避免使用经验贝叶斯方法?为什么? 人们是否在生物统计学之外的其他领域使用它?如果是,他们在什么情况下使用它?


1
半柯西分布的性质是什么?
我目前正在研究一个问题,我需要为状态空间模型开发马尔可夫链蒙特卡罗(MCMC)算法。 为了能够解决该问题,我给了以下概率:p()= 2I( > 0)/(1+)。是的标准偏差。ττ\tauττ\tauττ\tauτ2τ2\tau^2ττ\tauxxx 所以现在我知道这是一个半Cauchy分布,因为我从查看示例中就知道了它,并且因为有人告诉我。但是我不完全理解为什么它是一个“半Cauchy”发行版以及附带的属性。 在属性方面,我不确定我想要什么。我对这种计量经济学理论还很陌生。因此,对我而言,更多的是了解分布以及如何在状态空间模型上下文中使用它。模型本身看起来像这样: ytxt+1at+1p(σ2)p(τ)=xt+et=xt+at + 1∼ N(0 ,τ2)∝ 1 /σ2=2I(τ> 0)π(1 + τ2)yŤ=XŤ+ËŤXŤ+1个=XŤ+一种Ť+1个一种Ť+1个〜 ñ(0,τ2)p(σ2)∝1个/σ2p(τ)=2一世(τ>0)π(1个+τ2)\begin{align} y_t &= x_t + e_t \\ x_{t+1} &= x_t + a_{t+1} \\[10pt] a_{t+1} &\sim ~ N(0, \tau^2) \\ p(\sigma^2) &\propto 1/\sigma^2 \\[3pt] p(\tau) &= \frac{2I(\tau>0)}{\pi(1+\tau^2)} \end{align} 编辑:我在p()中包含。感谢您指出这一点。ππ\piττ\tau

3
无知先验理论的历史
我正在为贝叶斯统计课程(经济学硕士)写一则关于非先验先验的简短理论文章,并且试图理解发展该理论的步骤。 到目前为止,我的时间轴分为三个主要步骤:拉普拉斯的冷漠原则(1812),非不变先验(Jeffreys(1946)),伯纳多参考先验(1979)。 从我的文献综述中,我了解到,冷漠原理(Laplace)是用来表示缺乏先验信息的第一个工具,但是由于缺少不变性的要求,导致这种放弃一直到40年代,杰弗里斯(Jeffreys)提出了他的方法,该方法具有不变性的期望性质。由于在70年代不小心使用了不当先验而导致的边缘化悖论的出现促使贝尔纳多(Bernardo)阐述了他的先验先验理论以解决这个问题。 阅读文献时,每个作者都引用了不同的贡献:Jaynes的最大熵,Box和Tiao的数据翻译的可能性,Zellner,... 您认为我缺少哪些关键步骤? 编辑:如果有人需要,我添加我的(主要)引用: 1)通过正式规则选择先验者,卡斯,瓦瑟曼 2)无信息先验的目录,Yang,Berger 3)非信息贝叶斯先验解释以及构造和应用问题

1
从MCMC样本计算边际可能性
这是一个反复出现的问题(请参阅本文,本文和文章),但是我有不同的看法。 假设我有一堆来自通用MCMC采样器的采样。对于每个样本,我知道对数似然和对数在先。如果有帮助,我也知道每个数据点的对数似然值\ log f(x_i | \ theta)(此信息对某些方法(例如WAIC和PSIS-LOO)有所帮助)。θθ\thetalogf(x|θ)log⁡f(x|θ)\log f(\textbf{x} | \theta)logf(θ)log⁡f(θ)\log f(\theta)logf(xi|θ)log⁡f(xi|θ)\log f(x_i | \theta) 我想仅凭我拥有的样本以及可能的其他一些功能评估(但不重新运行即席 MCMC)来获得(粗略)边际可能性的估计。 首先,让我们清除表。众所周知,谐波估计器是有史以来最差的估计器。让我们继续前进。如果使用封闭形式的先验和后验进行Gibbs采样,则可以使用Chib方法。但是我不确定如何在这些情况之外进行概括。还有一些方法需要您修改采样过程(例如通过回火的后验者),但是我对此并不感兴趣。 我正在考虑的方法包括用参数(或非参数)形状g(\ theta)近似基础分布g(θ)g(θ)g(\theta),然后将归一化常数ZZZ视为一维优化问题(即,使某些误差最小的ZZZ之间Zg(θ)Zg(θ)Z g(\theta)和f(x|θ)f(θ)f(x|θ)f(θ)f(\textbf{x}|\theta) f(\theta)评价对样品)。在最简单的情况下,假设后验近似为多元法线,我可以将g(\ theta)拟合g(θ)g(θ)g(\theta)为多元法线,并得到类似于拉普拉斯近似的东西(我可能想使用一些其他函数求值来细化位置模式)。但是,我可以将其用作g(θ)g(θ)g(\theta)更灵活的族,例如多元ttt分布的变体混合。 我知道只有在Zg(θ)Zg(θ)Z g(\theta)是f(\ textbf {x} | \ theta)f(\ theta)的合理近似值的情况下,此方法才有效f(x|θ)f(θ)f(x|θ)f(θ)f(\textbf{x}|\theta) f(\theta),但是任何理由或谨慎的说法对于为什么这样做都是非常不明智的会吗 您会建议阅读吗? 完全非参数方法使用一些非参数族,例如高斯过程(GP),来近似logf(x|θ)+logf(θ)log⁡f(x|θ)+log⁡f(θ)\log f(\textbf{x}|\theta) + \log f(\theta)(或其一些其他非线性变换,例如(作为平方根)和贝叶斯正交,以隐式集成基础目标(请参见此处和此处)。这似乎是一种有趣的替代方法,但在精神上是类似的(另请注意,就我而言,全科医生会很笨拙)。


1
多项式(1 / n,…,1 / n)可以表征为离散Dirichlet(1,..,1)吗?
所以这个问题有点混乱,但是我将提供彩色图表来弥补这一点!首先是背景,然后是问题。 背景 假设您有维多项式分布,并且在类别上的Probailites相等。令是该分布的归一化计数(),即:nnnnnnπ=(π1,…,πn)π=(π1,…,πn)\pi = (\pi_1, \ldots, \pi_n)ccc (c1,…,cn)∼Multinomial(1/n,…,1/n)πi=cin(c1,…,cn)∼Multinomial(1/n,…,1/n)πi=cin(c_1, \ldots, c_n) \sim \text{Multinomial}(1/n, \ldots, 1/n) \\ \pi_i = {c_i \over n} 现在上的分布已支持n -simplex,但具有离散步骤。例如,对于n = 3,此分布具有以下支持(红点):ππ\pinnnn=3n=3n = 3 具有类似支持的另一个分布是维分布,即单位单纯形上的均匀分布。例如,这是一个3维 1,1,1)的随机抽奖:狄利克雷(1 ,... ,1 )狄利克雷(1 ,1 ,1 )nnnDirichlet(1,…,1)Dirichlet(1,…,1)\text{Dirichlet}(1, \ldots, 1)Dirichlet(1,1,1)Dirichlet(1,1,1)\text{Dirichlet}(1, 1, 1) 现在我有了一个想法,即分布中的分布可以被描述为来自离散化为的离散支持。我想到的离散化(似乎很好用)是将单纯形中的每个点取整并“舍入”到支持的最接近点。对于3维单纯形,您将获得以下分区,其中每个有色区域中的点应“舍入”到最接近的红点:ππ\piMultinomial(1/n,…,1/n)Multinomial(1/n,…,1/n)\text{Multinomial}(1/n, \ldots, 1/n)Dirichlet(1,…,1)Dirichlet(1,…,1)\text{Dirichlet}(1, \ldots, 1)ππ\piππ\pi 由于狄利克雷分布是均匀的,因此每个点的最终密度/概率与“四舍五入”到每个点的面积/体积成比例。对于二维和三维情况,这些概率为: (这些概率来自蒙特卡洛模拟) 这样看来,至少对于2维和3维,以这种特殊方式离散化所得到的概率分布与的概率分布相同。那就是分布的标准化结果。我也尝试过使用4维,并且似乎可以使用。Dirichlet(1,…,1)Dirichlet(1,…,1)\text{Dirichlet}(1, \ldots, 1)ππ\piMultinomial(1/n,…,1/n)Multinomial(1/n,…,1/n)\text{Multinomial}(1/n, \ldots, 1/n) …

2
什么样的统计模型或算法可以用来解决约翰·斯诺霍乱问题?
我感兴趣的是学习如何基于John Snow霍乱疫情的数据来发展某种震中的地理近似。在不事先知道井位的情况下,可以使用什么统计模型来解决该问题。 作为一个普遍的问题,您将拥有时间,已知点的位置以及观察者的行走路径。我正在寻找的方法将使用这三件事来估计“爆发”的震中。

2
贝叶斯击球平均先验
我想问一个问题,这个问题的灵感来自关于Beta发行版直觉的出色答案。我想更好地了解击球平均值的先验分布的推导。看起来David正在从均值和范围中退出参数。 在平均值为并且标准偏差为的假设下,您可以通过求解以下两个方程式来退回和: 0.270.270.270.180.180.18αα\alphaββ\betaαα+β=0.27α⋅β(α+β)2⋅(α+β+1)=0.182αα+β=0.27α⋅β(α+β)2⋅(α+β+1)=0.182\begin{equation} \frac{\alpha}{\alpha+\beta}=0.27 \\ \frac{\alpha\cdot\beta}{(\alpha+\beta)^2\cdot(\alpha+\beta+1)}=0.18^2 \end{equation}
23 bayesian  prior 

2
“基准”是什么意思(在统计中)?
当我为 "fisher" "fiducial" ...我肯定会收到很多成功,但我一直关注的所有事情都超出了我的理解范围。 所有这些命中似乎确实有一个共同点:它们都是为染羊毛的统计学家而写的,这些人对统计的理论,实践,历史和知识都非常了解。(因此,这些陈述都没有费心去解释或说明费舍尔的“基准”的意思,而不求助于术语的大行其道和/或不给某些经典或其他数学统计文献带来损失。) 好吧,我不属于可以从我这个主题的发现中受益的特定目标受众,这也许可以解释为什么我每次试图理解费舍尔“基准”的含义的尝试都撞到了墙上。难以理解的胡言乱语。 有谁知道向非专业统计学家解释费舍尔“基准”是什么意思的尝试? PS:我意识到费舍尔在确定他的“基准”的含义时是一个移动的目标,但是我认为该术语必须具有一定的“恒定核心”含义,否则它将无法正常工作(因为它很明显确实是本领域内通常理解的术语。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.