Questions tagged «bayesian»

贝叶斯推断是一种统计推断的方法,该方法依赖于将模型参数视为随机变量,并应用贝叶斯定理来推导有关参数或假设的主观概率陈述(取决于观察到的数据集)。

2
掷硬币时的Beta分布
克鲁施克(Kruschke)的贝叶斯书说,关于使用Beta分布来掷硬币, 例如,如果除了硬币没有正面和反面的知识之外,我们没有其他先验知识,那等于先前观察到一个头和一条尾巴对应于a = 1和b = 1。 为什么没有信息等于看到一头一尾-0头和0尾对我来说似乎更自然。

2
贝叶斯方法本质上是顺序的吗?
也就是说,要使用频繁性方法进行顺序分析(您无法提前确切地知道要收集多少数据),需要特别注意;您不能仅在p值变得足够小或置信区间变得足够短之前收集数据。 但是,在进行贝叶斯分析时,这是否值得关注?我们可以自由地做诸如收集数据之类的事情,直到可信间隔变得足够小时吗?

3
Jeffreys Prior用于均值和方差未知的正态分布
我正在阅读先验分布,并为均值和方差未知的正态分布随机变量的样本计算了Jeffreys Prior。根据我的计算,以下适用于现有杰弗里: p (μ ,σ2)= dË Ť (我)-----√= de t (1 / σ2001 /(2 σ4))------------------√= 12个σ6----√∝ 1σ3。p(μ,σ2)=dËŤ(一世)=dËŤ(1个/σ2001个/(2σ4))=1个2σ6∝1个σ3。 p(\mu,\sigma^2)=\sqrt{det(I)}=\sqrt{det\begin{pmatrix}1/\sigma^2 & 0 \\ 0 & 1/(2\sigma^4)\end{pmatrix}}=\sqrt{\frac{1}{2\sigma^6}}\propto\frac{1}{\sigma^3}. 在这里,一世一世I是费舍尔的信息矩阵。 但是,我还阅读了以下出版物和文件: p (μ ,σ2)∝ 1 / σ2p(μ,σ2)∝1个/σ2p(\mu,\sigma^2)\propto 1/\sigma^2见第2.2节中卡斯和瓦塞尔曼(1996)。 参见第25页中羊和Berger(1998)p (μ ,σ2)∝ 1 / σ4p(μ,σ2)∝1个/σ4p(\mu,\sigma^2)\propto 1/\sigma^4 如Jeffreys Prior那样,均值和方差未知的正态分布。杰弗里斯先验的“实际”是什么?


1
Fisher精确检验和超几何分布
我想更好地理解费舍尔的精确测试,因此设计了以下玩具示例,其中f和m分别对应于男性和女性,而n和y对应于“苏打水消耗”,如下所示: > soda_gender f m n 0 5 y 5 0 显然,这是一个极大的简化,但是我不希望上下文妨碍您。在这里,我只是假设男性不喝苏打水,女性不喝苏打水,并想看看统计程序是否得出相同的结论。 在R中运行fisher精确测试时,得到以下结果: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.0000000 0.4353226 sample estimates: odds ratio 0 在这里,由于p值为0.007937,我们可以得出结论,性别和苏打水消费是相关的。 我知道费舍尔精确检验与超基因组分布有关。因此,我想使用该方法获得相似的结果。换句话说,您可以按以下方式查看此问题:有10个球,其中5个标记为“雄性”,5个标记为“雌性”,您随机抽出5个球而不进行替换,并且看到0个雄性球。这种观察的机会是什么?为了回答这个问题,我使用了以下命令: > …

2
为什么托马斯·贝叶斯(Thomas Bayes)觉得贝叶斯定理如此具有挑战性?
这更多是关于科学史的问题,但我希望这里成为话题。 我读到托马斯·贝叶斯(Thomas Bayes)仅设法发现了统一先验的特殊情况下的贝叶斯定理,即使如此,他显然仍在努力。 考虑到一般贝叶斯定理在现代处理中是多么琐碎,为什么它对当时的贝叶斯和其他数学家提出了挑战?为了进行比较,艾萨克·牛顿的《自然哲学的数学原理》在贝叶斯的主要作品出版36年后出版。

4
比较最大似然估计(MLE)和贝叶斯定理
在贝叶斯定理中,,从我正在阅读的书中,称为可能性,但我认为这只是给定时的条件概率,对吗? p(x|y)p(y|x)=p(x|y)p(y)p(x)p(y|x)=p(x|y)p(y)p(x)p(y|x) = \frac{p(x|y)p(y)}{p(x)}p(x|y)p(x|y)p(x|y)ÿxxxyyy 在最大似然估计试图最大化,对不对?如果是这样,我很困惑,因为都是随机变量,对吗?为了最大限度地提高只是找出了?还有一个问题,如果这两个随机变量是独立的,则只是,对吗?然后,最大化就是最大化。x ,y p (x | y )p(x|y)p(x|y)p(x|y)x,yx,yx,yp(x|y)p(x|y)p(x|y) p(X|Ý)p(X)p(X|Ý)p(X)y^y^\hat yp(x|y)p(x|y)p(x|y)p(x)p(x)p(x)p(x|y)p(x|y)p(x|y)p(x)p(x)p(x) 也许是某些参数的函数,即,而MLE试图找到可以最大化的?或者甚至实际上是模型的参数,而不是随机变量,因此最大化可能性是找到?θ p (X | Ý ; θ )θ p (X | Ý )ÿ ÿp(x|y)p(x|y)p(x|y)θθ\thetap (x | y; θ )p(x|y;θ)p(x|y; \theta)θθ\thetap (x | y)p(x|y)p(x|y)ÿyyÿ^y^\hat y 更新 我是机器学习的新手,这个问题与我从机器学习教程中读到的内容相混淆。在这里,给定观察到的数据集,目标值为,我尝试在该数据集上拟合模型,所以我假设给定,具有一种分布形式由参数化,即,并且我假设这是后验概率,对吗?{ ÿ 1,ÿ 2,。。。,ÿ Ñ } X ý W¯¯ θ p (Ý …

1
逻辑回归模型操纵
我想了解以下代码在做什么。编写代码的人不再在这里工作,并且几乎完全没有文档记录。有人认为“ 这是贝叶斯逻辑回归模型 ” ,有人要求我进行调查 bglm <- function(Y,X) { # Y is a vector of binary responses # X is a design matrix fit <- glm.fit(X,Y, family = binomial(link = logit)) beta <- coef(fit) fs <- summary.glm(fit) M <- t(chol(fs$cov.unscaled)) betastar <- beta + M %*% rnorm(ncol(M)) p <- 1/(1 + …

5
标准化自变量是否会降低共线性?
我在Bayes / MCMC上看到了一篇很好的文章。IT建议您对自变量进行标准化将使MCMC(Metropolis)算法更有效,但也可能会降低(多重)共线性。可以吗?这是我应该做的标准工作吗(抱歉)。 Kruschke,2011年,《进行贝叶斯数据分析》。(美联社) 编辑:例如 > data(longley) > cor.test(longley$Unemployed, longley$Armed.Forces) Pearson's product-moment correlation data: longley$Unemployed and longley$Armed.Forces t = -0.6745, df = 14, p-value = 0.5109 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.6187113 0.3489766 sample estimates: cor -0.1774206 > standardise <- function(x) {(x-mean(x))/sd(x)} …

1
火车等待时间的贝叶斯建模:模型定义
这是我从常驻人员那里进行贝叶斯数据分析的第一次尝试。我阅读了A. Gelman撰写的Bayesian Data Analysis中的许多教程和一些章节。 作为第一个或多或少独立数据分析示例,我选择了火车等待时间。我问自己:等待时间的分布是什么? 该数据集在博客上提供,并且在PyMC之外进行了稍有不同的分析。 我的目标是给定这19个数据条目,估计预期的火车等待时间。 我建立的模型如下: μ∼N(μ^,σ^)μ∼N(μ^,σ^)\mu \sim N(\hat\mu,\hat\sigma) σ∼|N(0,σ^)|σ∼|N(0,σ^)|\sigma \sim |N(0,\hat\sigma)| λ∼Γ(μ,σ)λ∼Γ(μ,σ)\lambda \sim \Gamma(\mu,\sigma) ρ∼Poisson(λ)ρ∼Poisson(λ)\rho \sim Poisson(\lambda) 其中μ^μ^\hat\mu是数据平均值,σ^σ^\hat\sigma是数据标准偏差乘以1000。 我使用泊松分布将预期的等待时间建模为ρρ\rho。此分布的速率参数是使用Gamma分布建模的,因为它是与Poisson分布的共轭分布。超先验μμ\mu和σσ\sigma分别使用正态分布和半正态分布建模。使标准偏差σσ\sigma尽可能宽,以使其尽可能不被置信。 我有很多问题 这个模型对任务是否合理(几种可能的建模方法?)? 我有没有犯任何新手错误? 是否可以简化模型(我倾向于使简单的事情复杂化)? 如何验证rate参数()的后验是否确实适合数据?ρρ\rho 如何从拟合的泊松分布中抽取一些样本以查看样本? 在经过5000个Metropolis步骤后,后继者看起来像这样: 我也可以发布源代码。在模型拟合阶段,我使用NUTS 执行参数和的步骤。然后在第二步中对速率参数进行Metropolis操作。最后,我使用内置工具绘制轨迹。μμ\muσσ\sigmaρρ\rho 对于任何能够使我掌握更多概率编程的言论和评论,我将不胜感激。可能还有更多值得尝试的经典示例吗? 这是我使用PyMC3在Python中编写的代码。数据文件可以在这里找到。 import matplotlib.pyplot as plt import pandas as pd import numpy as np import pymc3 from scipy import …
12 bayesian  pymc 

2
显示贝叶斯模型平均(BMA)优点的简单示例
我将贝叶斯模型平均(BMA)方法纳入研究,并将很快向同事介绍我的工作。但是,BMA在我的领域并没有那么知名,因此在向他们介绍所有理论之后并将其实际应用于我的问题之前,我想提出一个简单而有启发性的示例,说明BMA为何起作用。 我在考虑一个简单的示例,其中有两个模型可供选择,但是真正的数据生成模型(DGM)介于两者之间,证据并不真正支持其中的任何一个。因此,如果您选择一个并继续进行下去,则将忽略模型不确定性并产生错误,但是BMA尽管真实模型不是模型集的一部分,但至少可以正确给出感兴趣参数的后验密度。例如,每天有两个天气预报(A和B),并且一个人希望最好地预测天气,因此在经典统计中,您首先会尝试找到两者之间的最佳天气预报者,但是如果真相介于两者之间,该怎么办? (也就是说,有时A是正确的,有时B是正确的)。但是我无法将其形式化。那样的东西,但是我很愿意接受想法。我希望这个问题足够具体! 在文献中,到目前为止,我还没有找到任何很好的例子: Kruschke(2011)虽然很好地介绍了贝叶斯统计,但并没有真正关注BMA,而他在第4章中介绍的抛硬币示例对于介绍贝叶斯统计非常有用,但并没有真正说服其他研究人员使用BMA。(“为什么我又有三个模型,一个为什么说硬币是公平的,而另一个说它在任一方向上都有偏见?”) 我阅读的所有其他内容(Koop 2003,Koop / Poirier / Tobias(2007),Hoeting等人(1999)以及大量其他文章)都是很好的参考,但是我还没有在其中找到一个简单的玩具示例。 但是也许我只是错过了一个很好的消息来源。 那么,有没有人有介绍BMA的好榜样?也许甚至显示出可能性和后继者,因为我认为这将很有启发性。

2
最大似然参数偏离后验分布
我有一个似然函数大号(d| θ)L(d|θ)\mathcal{L}(d | \theta)为我的数据的概率ddd给出一些模型参数θ∈RNθ∈RN\theta \in \mathbf{R}^N,我想估计。假设先验参数平坦,则似然度与后验概率成正比。我使用MCMC方法来采样这种可能性。 查看生成的收敛链,我发现最大似然参数与后验分布不一致。例如,对于一个参数的边缘化后验概率分布可能是θ0∼N(μ=0,σ2=1)θ0∼N(μ=0,σ2=1)\theta_0 \sim N(\mu=0, \sigma^2=1),而值θ0θ0\theta_0在最大似然点是θML0≈4θ0ML≈4\theta_0^{ML} \approx 4,基本上是几乎最大值θ0θ0\theta_0通过MCMC采样器遍历。 这是一个说明性的例子,不是我的实际结果。实际分布要复杂得多,但是某些ML参数在其各自的后验分布中具有类似的不太可能具有p值。注意,我的一些参数的有界(例如0≤θ1≤10≤θ1≤10 \leq \theta_1 \leq 1); 在范围内,先验总是一致的。 我的问题是: 这样的偏差本身就是问题吗?显然,我不希望ML参数与它们的每个边缘化后验分布的最大值完全一致,但是从直觉上来说,感觉它们也不应该在尾部深处发现。这种偏离会自动使我的结果无效吗? 这是否一定有问题,在数据分析的某个阶段是否可能是特定病理的症状?例如,是否有可能做出一般性的陈述,说明这种偏差是由不正确的收敛链,不正确的模型还是对参数的过度约束引起的?

3
为什么用于贝叶斯因子和p值的临界值如此不同?
我想了解贝叶斯因子(BF)。我相信它们就像两个假设的似然比。因此,如果BF为5,则意味着H1的可能性是H0的5倍。值3-10表示中度证据,而值> 10表示有力证据。 但是,对于P值,传统上将0.05作为截止值。在此P值下,H1 / H0似然比应约为95/5或19。 那么,为什么BF的截止值> 3,而P值的截止值> 19?这些值也不是很接近。

2
贝叶斯主义者如何使用蒙特卡洛模拟方法验证其方法?
背景:我拥有社会心理学博士学位,在我的定量课程中几乎没有涉及理论统计和数学。通过本科和研究生学校,我通过“经典”常客制框架得到了教育(可能与社会科学中的许多人一样)。现在,我也很喜欢R和使用模拟方法来验证方法,使工作方式对我来说,比数学上的证明更有意义(再次:定量社会科学的背景,而不是理论统计)。惯常方法和模拟方法对我来说意义非凡。因为常客将概率视为长期可能性(例如,如果我执行任意多次,并且这种情况发生在50%的时间中,那么就有50%的概率)。我们可以使用蒙特卡洛方法来模拟这种长期运行! 并发症:由于大学阶段,我已经很清楚的贝叶斯方法,并一直存在的人在我的生命给我打电话贝叶斯一边,说,结果更容易解释,我们得到概率的一个假设,而不是数据我真的很喜欢这个,参加了贝叶斯课程,阅读了一些贝叶斯书籍和论文,现在对Stan及其相关的R包非常熟悉。 输入Mayo:在思考了一段时间的“贝叶斯可能是未来之路”之后,我读了Deborah Mayo的“ 统计推断”作为“严格测试”。她说,她在书的开头并没有选择任何一方,但她这样做:她是一名常客,许多书都在捍卫常客的方法论。我不想讨论我们是否认为她认为证据有效的方式,但这让我思考:贝叶斯真的是广告宣传的全部吗?我的意思是,贝叶斯人群是如此分散,以至于我什至不知道经常在贝叶斯框架中分析数据的“正确”方法。通常我会用rstanarm现在的点估计值和可信区间...这通常与常客的估计和置信区间非常接近。我可能会进行模型比较,但是我总是害怕将贝叶斯因素描述为后验概率比较等。 更多思考:在梅奥的书中,我一直在思考:有一种方法可以使用计算机来确保我们的常客方法有效,因为从长远来看,概率是可以看到的,并且可以模拟。看来,贝叶斯人甚至不能就概率的确切性达成共识,这取决于贝叶斯学派(默认,主观等)。这引出我的问题: 问题:如果长期未将概率定义为费率,贝叶斯主义者如何使用蒙特卡罗模拟方法验证他们的方法是否正确定义了不确定性(即,计算有效的可信区间和后验分布)? 示例:我创建一个数据生成器。这只是从伯努利分布中以0.​​5的概率进行模拟: set.seed(1839) p <- .50 n <- 100 gen_dat <- function(n, p) { rbinom(n, 1, p) } 现在,假设我要确保逻辑回归中的置信区间实际上是有效的。我可以多次模拟回归,并确保实际总体值在95%的时间内处于95%的置信区间内。这是一个仅拦截的模型,所以我只想确保自己估计p正确: set.seed(1839) iter <- 10000 results <- sapply(seq_len(iter), function(zzz) { mod <- glm(gen_dat(n, p) ~ 1, binomial) conf <- suppressMessages(confint(mod)) log(p / (1 - p)) < …

3
一致先验概率的贝叶斯后验均值术语
如果统一,和滨,然后的后平均由下式给出。p∼p∼p \sim(0,1)(0,1)(0,1)X∼X∼X \sim(n,p)(n,p)(n, p)pppX+1n+2X+1n+2\frac{X+1}{n+2} 这个估算器有一个通用名称吗?我发现它解决了很多人的问题,我希望能够为人们提供参考,但是却找不到合适的名称。 我隐约记得在统计101本书中,它被称为“ + 1 / + 2估计器”,但这不是一个非常可搜索的术语。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.