Questions tagged «bayesian»

贝叶斯推断是一种统计推断的方法,该方法依赖于将模型参数视为随机变量,并应用贝叶斯定理来推导有关参数或假设的主观概率陈述(取决于观察到的数据集)。

2
如果我们已经知道后验分布,为什么需要从后验分布中采样?
我的理解是,当使用贝叶斯方法估算参数值时: 后验分布是先验分布和似然分布的组合。 我们通过从后验分​​布生成样本来模拟此过程(例如,使用Metropolis-Hasting算法生成值,如果它们超过属于后验分布的概率的某个阈值,则接受它们)。 生成此样本后,我们将使用它来近似后验分布以及诸如均值之类的东西。 但是,我觉得我一定是误会了。听起来我们有一个后验分布,然后从中进行采样,然后使用该样本作为后验分布的近似值。但是,如果我们有后验分布开始,为什么我们需要从中进行采样来近似呢?

3
后验概率可以大于1吗?
用贝叶斯公式: P(x|a)=P(a|x)P(x)P(a)P(x|a)=P(a|x)P(x)P(a)P(x|a) = \frac{P(a|x) P(x)}{P(a)} 后验概率P(x|a)P(x|a)P(x|a)超过1? 我认为,例如,假设0&lt;P(a)&lt;10&lt;P(a)&lt;10 < P(a) < 1且P(a)&lt;P(x)&lt;1P(a)&lt;P(x)&lt;1P(a) < P(x) < 1且P(a)/P(x)&lt;P(a|x)&lt;1P(a)/P(x)&lt;P(a|x)&lt;1P(a)/P(x) < P(a|x) < 1。但是我对此不确定,因为概率大于1意味着什么?

4
使用对数似然比与可能性的理论动机
我试图在更深层次上理解统计和概率论中对数似然性(也许更一般地说对数概率)的普遍性。对数概率随处可见:我们通常使用对数似然进行分析(例如,最大化),Fisher信息是根据对数似然的二阶导数定义的,熵是预期的对数概率,Kullback-Liebler散度涉及对数概率,预期差异是预期对数可能性,等等。 现在,我感谢许多实际和方便的原因。许多常见和有用的pdf都来自指数族,这在对数转换时会导致术语的简化。总和比产品更容易使用(尤其是用于区分)。对数概率比直概率有很大的浮点优势。对数转换pdf通常会将非凹函数转换为凹函数。但是对数概率的理论原因/合理性/动机是什么? 作为我困惑的一个示例,请考虑Fisher信息(FI)。理解FI的通常解释是对数似然率的二阶导数告诉我们对数似然率有多“峰值”:对数似然率高度峰值意味着MLE已得到很好的指定,我们相对确定其价值,尽管近似平坦的对数似然(低曲率)意味着许多不同的参数值(就对数似然而言)几乎与MLE一样好,所以我们的MLE更加不确定。 这一切都很好,但是仅仅找到似然函数本身的曲率(不进行对数转换)是否更自然?乍一看,对数转换的强调似乎是任意和错误的。当然,我们对实际似然函数的曲率更感兴趣。Fisher使用计分函数和对数似然的Hessian的动机是什么? 答案是否简单,最后,我们从对数似然渐近地得到了不错的结果?例如,Mram /后部的Cramer-Rao和正态性。还是有更深层次的原因?


5
贝叶斯统计量是否会使过分析变得过时?
我只是想知道,如果这样会使荟萃分析过时,那么从第一次研究到最后一次研究是否都可以应用贝叶斯统计方法。 例如,假设在不同时间点进行了20项研究。第一次研究的估计或分布是在没有先验信息的情况下进行的。第二项研究使用后验分布作为先验分布。现在将新的后验分布用作第三项研究的先验分布,依此类推。 最后,我们有一个估计,其中包含之前完成的所有估计或数据。进行荟萃分析是否有意义? 有趣的是,我想改变这种分析的顺序也会相应地改变最后的后验分布。



3
为什么贝叶斯统计在统计过程控制中不受欢迎?
我对贝叶斯与频繁主义者辩论的理解是,频繁主义者统计数据: 是(或声称是)客观的 或至少没有偏见 所以不同的研究人员,使用不同的假设仍然可以获得定量可比的结果 贝叶斯统计 声称做出“更好”的预测(即较低的预期损失),因为它可以使用先验知识(在其他原因中) 需要较少的“临时”选择,而由具有现实世界解释的先验/模型选择(至少在原则上)代替它们。 鉴于此,我本以为贝叶斯统计将在SPC中非常流行:如果我是一家工厂老板,试图控制自己的过程质量,那么我将主要关注预期的损失;如果我可以减少这种情况,因为我比竞争对手拥有更多/更好的先验知识,甚至更好。 但是实际上,我所阅读的有关SPC的所有内容似乎都是常客(例如,没有先验分布,所有参数的点估计,关于样本大小,p值的许多临时选择)。 这是为什么?我可以看到为什么在1960年代使用笔和纸完成SPC时,经常性统计数据是更好的选择。但是从那以后为什么没有人尝试过不同的方法呢?

4
当我们通常使用无信息或主观先验时,贝叶斯框架在解释方面如何更好?
人们经常认为贝叶斯框架在解释(相对于频繁主义者)方面具有很大的优势,因为贝叶斯框架在给定数据而不是频繁主义者框架中的p (x | θ )的情况下计算参数的概率。到目前为止,一切都很好。p (θ | x )p(θ|X)p(\theta|x)p (x | θ )p(X|θ)p(x|\theta) 但是,整个方程式基于: p (θ | x )= p (x | θ )。p (θ )p (x )p(θ|X)=p(X|θ)。p(θ)p(X)p(\theta|x) = {p(x|\theta) . p(\theta) \over p(x)} 在我看来有点可疑,原因有两个: 在许多论文中,通常使用无信息的先验(均匀分布),然后仅使用,因此贝叶斯算法与常客得到的结果相同-那么贝叶斯框架如何更好地解释,当贝叶斯后验概率和常客概率是相同的分布时?它只是产生相同的结果。p (θ | x )= p (x | θ )p(θ|X)=p(X|θ)p(\theta|x) = p(x|\theta) 当使用信息先验时,您会得到不同的结果,但是贝叶斯方法受主观先验的影响,因此整个也具有主观色彩。p (θ | …

2
MCMC何时开始普及?
有谁知道MCMC在哪一年左右变得司空见惯(即贝叶斯推理的一种流行方法)?随着时间的推移,链接到已发表的MCMC(期刊)文章的数量将特别有用。
18 bayesian  mcmc  history 

1
多元正常后验
这是一个非常简单的问题,但我无法在互联网上或书中的任何地方找到推导。我想看到一个贝叶斯如何更新多元正态分布的推导。例如:想象一下 P(x|μ,Σ)P(μ)==N(μ,Σ)N(μ0,Σ0).P(x|μ,Σ)=N(μ,Σ)P(μ)=N(μ0,Σ0). \begin{array}{rcl} \mathbb{P}({\bf x}|{\bf μ},{\bf Σ}) & = & N({\bf \mu}, {\bf \Sigma}) \\ \mathbb{P}({\bf \mu}) &= & N({\bf \mu_0}, {\bf \Sigma_0})\,. \end{array} 观察一组x1...xnx1...xn{\bf x_1 ... x_n},我想计算P(μ|x1...xn)P(μ|x1...xn)\mathbb{P}({\bf \mu | x_1 ... x_n})。我知道答案是P(μ|x1...xn)=N(μn,Σn)P(μ|x1...xn)=N(μn,Σn)\mathbb{P}({\bf \mu | x_1 ... x_n}) = N({\bf \mu_n}, {\bf \Sigma_n})其中 μnΣn==Σ0(Σ0+1nΣ)−1(1n∑i=1nxi)+1nΣ(Σ0+1nΣ)−1μ0Σ0(Σ0+1nΣ)−11nΣμn=Σ0(Σ0+1nΣ)−1(1n∑i=1nxi)+1nΣ(Σ0+1nΣ)−1μ0Σn=Σ0(Σ0+1nΣ)−11nΣ \begin{array}{rcl} \bf \mu_n &=& \displaystyle\Sigma_0 \left(\Sigma_0 …

4
贝叶斯方法何时比频率论者更可取?
我真的很想学习贝叶斯技术,所以我一直在努力教自己一些知识。但是,我很难知道何时使用贝叶斯技术比频频方法具有优势。例如:我在文献中已经看到一些关于如何使用信息先验,而另一些如何使用非信息先验的信息。但是,如果您使用的是非信息性先验(这似乎真的很普遍?),并且您发现后验分布是一个beta分布...难道您不只是在开始时就适合一个beta分布并称为好吗 我看不出如何构造一个不会告诉您任何事情的先验发行版……可以,真的告诉您什么吗? 事实证明,我在R中使用的某些方法混合使用了贝叶斯方法和贝叶斯方法(作者承认这有些矛盾),我什至无法辨别贝叶斯的组成部分。除了分布拟合,我什至无法弄清楚如何使用贝叶斯方法。有“贝叶斯回归”吗?那会是什么样?我能想像的是,一遍又一遍地猜测基础分布,而频率论者则在思考数据,观察数据,观察泊松分布并运行GLM。(这不是批评……我真的不明白!) 所以..也许一些基本的例子会有所帮助?而且,如果您知道一些像我这样的真正初学者的实用参考资料,那也将非常有帮助!

1
在盖尔曼(Gelman)的8个学校示例中,为什么已知的单个估计的标准误差已知?
内容: 在盖尔曼(Gelman)的8个学校的示例(贝叶斯数据分析,第3版,第5.5章)中,有8个学校的八个平行实验测试了教练的效果。每个实验都会对教练的有效性和相关的标准误产生一个估计值。 然后,作者为教练效应的8个数据点建立了一个层次模型,如下所示: yi∼N(θi,sei)θi∼N(μ,τ)yi∼N(θi,sei)θi∼N(μ,τ) y_i \sim N(\theta_i, se_i) \\ \theta_i \sim N(\mu, \tau) 问题 在这个模型中,他们假设seiseise_i是已知的。如果我们觉得我们必须模型-我不明白这个假设θiθi\theta_i,我们为什么不这样做对同一seiseise_i? 我检查了鲁宾的原始论文,介绍了8学派的例子,作者也在那说(p 382): 当我们通过估计的效果及其标准误差对研究进行总结时,通常会进行正态性和已知标准误差的假设,在此我们不会质疑其用途。 总结一下,我们为什么不模拟seiseise_i?为什么我们将其视为已知?

2
从贝叶斯角度看LASSO和ridge:调整参数如何?
惩罚性回归估计量(例如LASSO和ridge)据说与具有某些先验的贝叶斯估计量相对应。我猜(因为我对贝叶斯统计知识还不够了解),对于固定的调整参数,存在一个具体的对应先验。 现在,常客可以通过交叉验证来优化调整参数。是否有这样做的贝叶斯等效项,并且完全使用吗?还是贝叶斯方法在查看数据之前有效地调整了调整参数?(我猜后者会损害预测性能。)

1
有同时进行L1和L2正则化(又称弹性网)的线性回归的贝叶斯解释吗?
众所周知,惩罚为线性回归等效于在系数上给出高斯先验后找到MAP估计。同样,使用l 1罚则等同于使用拉普拉斯分布作为先验。l2l2l^2l1l1l^1 使用和l 2正则化的一些加权组合并不罕见。我们是否可以说这等于系数上的某些先验分布(直觉上似乎必须如此)?我们可以给这个分布一个好的分析形式(也许是高斯和拉普拉斯的混合)吗?如果没有,为什么不呢?l1l1l^1l2l2l^2

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.