Questions tagged «prior»

在贝叶斯统计中,先验分布以概率分布的形式形式化了信息或知识(通常是主观的),这些信息或知识在看到样本之前就可用。当对参数知之甚少时,使用具有大分布的分布,而较窄的先验分布表示更大程度的信息。

2
为什么拉普拉斯事前生产稀疏解决方案?
我浏览了有关正则化的文献,经常看到一些段落将L2重新调节与高斯先验联系起来,将L1与拉普拉斯联系起来的中心是零。 我知道这些先验的样子,但我不知道它如何转换为线性模型中的权重。在L1中,如果我理解正确,我们期望稀疏解,即某些权重将被精确地推为零。在L2中,我们获得较小的权重,但没有获得零权重。 但是为什么会发生呢? 如果需要提供更多信息或阐明我的思路,请发表评论。

3
不合适的先验如何导致正确的后验分布?
我们知道,在适当分配优先权的情况下, P(θ | X)= P(X| θ )P(θ )P(X)P(θ∣X)=P(X∣θ)P(θ)P(X)P(\theta \mid X) = \dfrac{P(X \mid \theta)P(\theta)}{P(X)} α P(X| θ )P(θ )∝P(X∣θ)P(θ) \propto P(X \mid \theta)P(\theta)。 该步骤的通常的理由是,边缘分布XXX,P(X)P(X)P(X),是相对于恒定θθ\theta和导出后验分布时可因此被忽略。 但是,如果先验不正确,您如何知道后验分布实际上存在?这个看似循环的论点似乎有些缺失。换句话说,如果我假设后验存在,那么我就会理解如何推导后验的机制,但是我似乎缺少关于为何甚至存在的理论依据。 PS我也认识到,在某些情况下,先验错误会导致后验错误。

6
后验与先验和可能性大不相同
如果先验和可能性彼此之间非常不同,则有时会发生后验与两者都不相似的情况。例如,请参阅此图片,它使用正态分布。 尽管从数学上讲这是正确的,但是这似乎与我的直觉不符-如果数据与我坚信不移的信念或数据不符,我希望这两个范围都不会表现良好,并且期望后验整个范围或围绕先验和可能性的双峰分布(我不确定哪个更合乎逻辑)。我当然不会期望在既不符合我先前的信念也不符合数据的范围内出现后紧态。我知道随着收集到更多数据,后验将朝着可能性发展,但是在这种情况下,这似乎是违反直觉的。 我的问题是:我对这种情况的理解是有缺陷的(还是有缺陷的)。在这种情况下,后验函数是否正确?如果没有,还可以如何建模? 为了完整性起见,先验被指定为,似然度被指定为。N(μ = 6.1 ,σ = 0.4 )ñ(μ = 1.5 ,σ= 0.4 )N(μ=1.5,σ=0.4)\mathcal{N}(\mu=1.5, \sigma=0.4)ñ(μ = 6.1 ,σ= 0.4 )N(μ=6.1,σ=0.4)\mathcal{N}(\mu=6.1, \sigma=0.4) 编辑:看一些给出的答案,我觉得我没有很好地解释这种情况。我的观点是,鉴于模型中的假设,贝叶斯分析似乎会产生非直觉的结果。我的希望是,后验将以某种方式“解释”错误的建模决策,但考虑到这一点绝对不是这种情况。我将在回答中对此进行扩展。


2
LDA超参数的自然解释
有人可以解释LDA超参数的自然解释是什么吗?ALPHA和BETA是分别用于(按文档)主题和(按主题)单词分布的Dirichlet分布的参数。但是,有人可以解释一下选择这些超参数中的较大值与较小值的含义吗?这是否意味着对文档中的主题稀疏性和词语的主题互斥性有任何先入之见? 这个问题与潜在的Dirichlet分配有关,但是下面紧随其后的BGReene的评论涉及线性判别分析,该分析也令人困惑,也简称为LDA。

2
为什么方差上的被认为是弱的?
背景 最常用的方差弱先验之一是反伽玛,其参数(Gelman 2006)。α = 0.001 ,β= 0.001α=0.001,β=0.001\alpha =0.001, \beta=0.001 但是,此分布的90%CI约为。[ 3 × 1019,∞ ][3×1019,∞][3\times10^{19},\infty] library(pscl) sapply(c(0.05, 0.95), function(x) qigamma(x, 0.001, 0.001)) [1] 3.362941e+19 Inf 据此,我认为给出方差非常高的可能性很小,而方差小于1可能性很低。一世ģ (0.001 ,0.001 )IG(0.001,0.001)IG(0.001, 0.001)P(σ&lt; 1 | α = 0.001 ,β= 0.001 )= 0.006P(σ&lt;1|α=0.001,β=0.001)=0.006P(\sigma<1|\alpha=0.001, \beta=0.001)=0.006 pigamma(1, 0.001, 0.001) [1] 0.006312353 题 我是否缺少某些东西,或者这实际上是一个有用的信息? 更新以澄清,我之所以考虑这个“信息性”,是因为它非常强烈地声称方差巨大,并且远远超出了曾经测量的几乎任何方差的范围。 后续的大量方差估计的荟萃分析是否可以提供更合理的先验? 参考 Gelman2006。层次模型中方差参数的先验分布。贝叶斯分析1(3):515–533



4
当我们通常使用无信息或主观先验时,贝叶斯框架在解释方面如何更好?
人们经常认为贝叶斯框架在解释(相对于频繁主义者)方面具有很大的优势,因为贝叶斯框架在给定数据而不是频繁主义者框架中的p (x | θ )的情况下计算参数的概率。到目前为止,一切都很好。p (θ | x )p(θ|X)p(\theta|x)p (x | θ )p(X|θ)p(x|\theta) 但是,整个方程式基于: p (θ | x )= p (x | θ )。p (θ )p (x )p(θ|X)=p(X|θ)。p(θ)p(X)p(\theta|x) = {p(x|\theta) . p(\theta) \over p(x)} 在我看来有点可疑,原因有两个: 在许多论文中,通常使用无信息的先验(均匀分布),然后仅使用,因此贝叶斯算法与常客得到的结果相同-那么贝叶斯框架如何更好地解释,当贝叶斯后验概率和常客概率是相同的分布时?它只是产生相同的结果。p (θ | x )= p (x | θ )p(θ|X)=p(X|θ)p(\theta|x) = p(x|\theta) 当使用信息先验时,您会得到不同的结果,但是贝叶斯方法受主观先验的影响,因此整个也具有主观色彩。p (θ | …

1
有同时进行L1和L2正则化(又称弹性网)的线性回归的贝叶斯解释吗?
众所周知,惩罚为线性回归等效于在系数上给出高斯先验后找到MAP估计。同样,使用l 1罚则等同于使用拉普拉斯分布作为先验。l2l2l^2l1l1l^1 使用和l 2正则化的一些加权组合并不罕见。我们是否可以说这等于系数上的某些先验分布(直觉上似乎必须如此)?我们可以给这个分布一个好的分析形式(也许是高斯和拉普拉斯的混合)吗?如果没有,为什么不呢?l1l1l^1l2l2l^2

2
Jeffreys Priors和方差稳定转换之间的关系是什么?
我维基百科上之前阅读有关杰弗瑞斯:杰弗里斯之前和锯,其各实施例之后,它描述了一个方差稳定转化如何接通杰弗里斯现有成均匀之前。 例如,对于伯努利的情况,它表示对于以概率前进的硬币,伯努利试验模型得出,参数的杰弗里斯先验值为:γ∈[0,1]γ∈[0,1]\gamma \in [0,1]γγ\gamma p(γ)∝1γ(1−γ)−−−−−−−√p(γ)∝1γ(1−γ) p(\gamma) \propto \frac{1}{\sqrt{\gamma ( 1-\gamma)}} 然后声明这是一个带有的beta分布。它还指出,如果,则现有的杰弗里中的间隔是均匀的。α=β=12α=β=12\alpha = \beta = \frac{1}{2}γ=sin2(θ)γ=sin2⁡(θ)\gamma = \sin^2(\theta)θθ\theta[0,π2][0,π2]\left[0, \frac{\pi}{2}\right] 我认为该转换是稳定方差的转换。让我感到困惑的是: 为什么稳定方差的转换会导致统一的先验? 我们为什么还要统一制服?(因为它似乎更容易受到不当行为的影响) 总的来说,我不确定为什么要给出平方正弦变换以及起什么作用。有人有什么想法吗?


2
频率和先验
罗比McKilliam说,在一个评论这个职位: 应该指出的是,从常客的观点来看,没有理由不能将先验知识整合到模型中。从这个意义上讲,常客视图更简单,您只有一个模型和一些数据。无需将先验信息与模型分开 另外,@ jbowman 在这里说,常客通过成本/罚函数使用正则化,而贝叶斯算法则可以将其作为先验: 频繁的人意识到正则化是好的,并且如今已经非常普遍地使用它-贝叶斯先验可以很容易地解释为正则化。 因此,我的问题是,贝叶斯主义者通常可以将贝叶斯主义者指定为先验者的常识纳入他们的模型吗?以正则化为例,成本/罚函数是否真的集成到了模型中,或者这仅仅是调整解决方案(以及使其唯一)的纯人工方式?

1
在无信息的Beta先验之间进行选择
我正在寻找无信息的先验信息,以进行Beta分发以使用二项式过程(命中率/小姐)。最初,我考虑使用生成统一的PDF,或者使用Jeffrey 优先使用。但是我实际上是在寻找对后验结果影响最小的先验,然后我考虑使用的不正确的先验。这里的问题是,只有当我至少有一次命中和一次错过时,我的后验分布才起作用。为了克服这个问题,我然后考虑使用一个非常小的常数,例如,只是为了确保后和将。α=1,β=1α=1,β=1\alpha=1, \beta=1α=0.5,β=0.5α=0.5,β=0.5\alpha=0.5, \beta=0.5α = 0,β= 0α=0,β=0\alpha=0, \beta=0α = 0.0001 ,β= 0.0001α=0.0001,β=0.0001\alpha=0.0001, \beta=0.0001αα\alphaββ\beta&gt; 0&gt;0>0 有谁知道这种方法是否可以接受?我看到了更改这些先验的数值效果,但是有人可以给我一种将像这样的小常数放在先验的解释吗?

4
贝叶斯统计如何处理先验缺失?
这个问题的灵感来自于我最近的两次互动,一次是在简历中,另一次是在Economics.se。 在那里,我已经发布了一个答案,以著名的“信封悖论”(请注意,不是在 “正确答案”,而是从具体的假设,流程约情况的结构的答案)。一段时间后,一个用户发表了评论,我进行了交谈,试图了解他的观点。很明显,他在思考贝叶斯方法,并不停地谈论先验-然后我恍然大悟,我对我自己说:“等一下,谁说过任何事先什么吗?在路上,我已经制定了问题,这里没有先验条件,他们只是不需要输入图片,也不需要”。 最近,我在简历中看到了关于统计独立性的答案。我向作者评论说他的判决 “ ...如果事件在统计上是独立的,那么(根据定义)我们不能从观察另一个事件中学到任何事情。” 是公然的错误。在评论交流中,他一直回头谈(他的话) ““学习”是否意味着基于对另一个事物的观察来改变我们对事物的信念? 再一次,很明显,他正在思考贝叶斯方法,并且他认为不言而喻,我们是从某种信念(即先验)开始的,然后是我们如何更改/更新它们的问题。但是,如何建立第一至第一的信念? 由于科学必须符合现实,因此我注意到存在这样的情况,即所涉及的人类没有先例(一件事,我一直都没有任何先例地进入情况,并且请不要争辩说我确实有先例,但是我只是不了解而已,让我们在此处进行虚假的精神分析)。 因为我碰巧听到过“无信息先验”一词,所以我将问题分为两个部分,并且我可以肯定,在贝叶斯理论中精通的用户确切知道我要问的问题: 问题1:是否没有先验等价物(从严格的理论意义上讲)与没有信息的先验相提并论? 如果对Q1的回答是“是”(请作详细说明),则意味着贝叶斯方法是普遍适用的,并且从一开始就适用,因为在任何情况下,涉案人员都宣称“我没有先验”,我们可以补充一下。它所处的先验地位对于手头的案件没有多大意义。 但是,如果对Q1的回答为“否”,那么Q2就会出现: 问题2:如果问题1的答案为“否”,是否表示在没有先验条件的情况下,贝叶斯方法从一开始就不适用,我们必须首先通过某种非贝叶斯方法形成先验条件,这样我们就可以随后应用贝叶斯方法了?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.