Questions tagged «prior»

在贝叶斯统计中,先验分布以概率分布的形式形式化了信息或知识(通常是主观的),这些信息或知识在看到样本之前就可用。当对参数知之甚少时,使用具有大分布的分布,而较窄的先验分布表示更大程度的信息。

2
当平均方差受到关注时,可以/应该将哪些先验分布用于分层贝叶斯模型中的方差?
在他被广泛引用的论文中,层次模型中方差参数的先验分布 (到目前为止,在Google学术搜索中已有916次引用)Gelman提出,对于贝叶斯分层模型,方差的良好非信息性先验分布是均匀分布和Half t分布。如果我理解正确的话,那么当主要关注位置参数(例如均值)时,这将很好地工作。有时,方差参数是主要关注的问题,例如,当分析来自计时任务的人的响应数据时,意味着计时的可变性通常是关注的度量。在那些情况下,我不清楚如何用例如均匀分布的分层方法对可变性进行建模,因为我在分析后想获得参与者水平和小组水平的平均方差的可信度。 然后我的问题是:在主要考虑数据方差的情况下,建立分层贝叶斯模型时,建议采用哪种分布? 我知道伽马分布可以重新设定为均值和标准差。例如,下面的层次模型来自Kruschke的书《做贝叶斯数据分析》。但是,盖尔曼(Gelman)在他的文章中概述了伽玛分布的一些问题,我很感谢提出替代方案的建议,最好是不难在BUGS / JAGS中工作的替代方案。

3
贝叶斯参数估计中如何选择先验
我知道3种进行参数估计的方法,即ML,MAP和贝叶斯方法。对于MAP和Bayes方法,我们需要先验参数,对吗? 假设我有这个模型,其中是参数,为了使用MAP或Bayes进行估计,我在书中读到我们最好选择一个共轭先前的,这是的联合概率,对吧?p(x|α,β)p(x|α,β)p(x|\alpha,\beta)α,βα,β\alpha,\betap(α,β)p(α,β)p(\alpha,\beta)α,βα,β\alpha,\beta 我有两个问题: 除了这个共轭数之外,我们还有其他选择吗? 除了将它们组合在一起,我们是否可以像和一样分别为和选择先验?αα\alphaββ\betap(α)p(α)p(\alpha)p(β)p(β)p(\beta)

2
岭回归-贝叶斯解释
我听说,如果适当选择先验,则可以将岭回归作为后验分布的平均值。直觉是先验对回归系数设置的约束(例如,标准正态分布在0附近)是否相同/替换对系数平方大小设置的惩罚?要保持等价,先验是否必须是高斯?

3
为什么没人使用贝叶斯多项式朴素贝叶斯分类器?
因此,在(无监督的)文本建模中,潜在狄利克雷分配(LDA)是概率潜在语义分析(PLSA)的贝叶斯版本。本质上,LDA = PLSA + Dirichlet优先于其参数。我的理解是,LDA现在是参考算法,并以各种程序包实现,而PLSA不再使用。 但是在(监督)文本分类中,我们可以对多项式朴素贝叶斯分类器执行完全相同的操作,并将Dirichlet放在参数之前。但是我认为我从未见过有人这样做,并且多项朴素贝叶斯的“点估计”版本似乎是大多数软件包中实现的版本。有什么理由吗?

1
在原假设下,可交换样本背后的直觉是什么?
排列检验(也称为随机检验,重新随机检验或精确检验)非常有用,并且在t-test未满足例如要求的正态分布的假设以及通过按等级对值进行转换时派上用场非参数测试之类的测试Mann-Whitney-U-test会导致丢失更多信息。但是,在使用这种检验时,一个假设且唯一一个假设应该是原假设下样本的可交换性假设。还值得注意的是,当有两个以上的示例(如在coinR包中实现的示例)时,也可以应用这种方法。 您能用简单的英语用一些比喻语言或概念直觉来说明这一假设吗?这对于在像我这样的非统计学家中阐明这个被忽视的问题非常有用。 注意: 提及在相同假设下应用置换测试不成立或无效的情况将非常有帮助。 更新: 假设我随机从我所在地区的当地诊所收集了50个受试者。他们被随机分配为接受药物或安慰剂的比例为1:1。分别Par1在V1(基准),V2(3个月后)和V3(1年后)时测量了参数1 。根据特征A,所有50个主题都可以分为2组;正值= 20,负值=30。它们也可以基于特征B细分为另外2组;B阳性= 15,B阴性=35。 现在,我具有Par1所有访问中所有受试者的值。在可交换性的假设下,如果可以,我是否可以在Par1使用置换测试的水平之间进行比较: -将接受药物治疗的受试者与接受V2安慰剂治疗的受试者进行比较? -将具有特征A的对象与具有V2的特征B的对象进行比较? -比较在V2具有特征A的对象与在V3具有特征A的对象? -在哪种情况下,这种比较是无效的,并且违反了可交换性的假设?
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
平坦,共轭和超先验。这些是什么?
我目前正在阅读Yang撰写的计算分子进化中的贝叶斯方法。在5.2节中,它讨论了先验,特别是非信息性/平坦/模糊/漫射,共轭和超先验。 这可能要求过分简化,但是,有人可以简单解释一下这些先验类型之间的区别,以及这如何影响我在贝叶斯分析过程中所做的分析/决策的结果? (我不是统计学家,我只是在学习贝叶斯分析的道路上开始,所以从外行角度讲,越多越好)
15 bayesian  prior 

2
Stan中没有定义先验的参数
我刚刚开始学习使用Stan和rstan。除非一直对JAGS / BUGS的工作方式感到困惑,否则我一直认为您必须为要从中提取模型的每个参数定义某种先验分布。似乎您不必根据Stan的文档在Stan中执行此操作。这是他们在此处提供的示例模型。 data { int<lower=0> J; // number of schools real y[J]; // estimated treatment effects real<lower=0> sigma[J]; // s.e. of effect estimates } parameters { real theta[J]; real mu; real<lower=0> tau; } model { theta ~ normal(mu, tau); y ~ normal(theta, sigma); } 既mu没有tau定义先验也没有。在将我的一些JAGS模型转换为Stan时,我发现如果我对许多参数(大多数)具有未定义的先验值,它们将起作用。 问题是,当我有没有定义的先验的参数时,我不理解Stan在做什么。是否默认为统一分布?这是HMC的特殊属性之一,它不需要为每个参数都定义一个先验吗?


1
Jeffreys先验多个参数
在某些情况下,前一个完整的多维模型的杰弗里被generaly视为不足,这是例如的情况下: (其中, ε 〜Ñ (0 ,σ 2),具有 μ和 σ未知),其中事先下面是首选(与全杰弗瑞斯现有 π (μ ,σ )α σ - 2): p (μ ,σ )= π (μ )·&π (σ )α σ - 1yi=μ+εi,yi=μ+εi, y_i=\mu + \varepsilon_i \, , ε∼N(0,σ2)ε∼N(0,σ2)\varepsilon \sim N(0,\sigma^2)μμ\muσσ\sigmaπ(μ,σ)∝σ−2π(μ,σ)∝σ−2\pi(\mu,\sigma)\propto \sigma^{-2} 其中 π (μ )是保持 σ固定时(以及类似的 p (σ ))获得的Jeffreys先验值。当在单独的组中处理 σ和 μ时,该先验与参考先验重合。p(μ,σ)=π(μ)⋅π(σ)∝σ−1,p(μ,σ)=π(μ)⋅π(σ)∝σ−1, p(\mu,\sigma) = \pi(\mu) …

2
从频繁结果中得出贝叶斯先验
如何将频繁出现的结果转换为贝叶斯先验结果? 考虑以下非常普通的场景:过去进行了一次实验,并测量了某些参数结果。该分析是采用常客方法进行的。结果中给出了置信区间。φϕϕ\phiϕϕ\phi 我现在正在进行一些新的实验,我想测量一些其他参数,例如和。我的实验与以前的研究不同---它不是使用相同的方法进行的。我想进行贝叶斯分析,因此需要将先验放在和。φ θ φθθ\thetaϕϕ\phiθθ\thetaϕϕ\phi 以前没有进行过测量,因此我在其上放了一个无信息的信息(例如其统一的信息)。 θθ\theta 如前所述,有一个先前的结果,以置信区间给出。要在我的当前分析中使用该结果,我需要将以前的常客性结果转换为内容丰富的先验信息以进行分析。 ϕϕ\phi 在这种组合方案中不可用的一个选项是重复先前的分析,以贝叶斯方式进行测量。 如果我可以做到这一点,那么将具有先前实验的后验,然后将其用作我的先验,那么就没有问题了。ϕϕ\phi ϕϕ\phi 我应该如何将常客身份CI转换为贝叶斯先验分布以进行分析?或者换句话说,我怎么可能对他们的翻译结果frequentest在成后,我会再在我的分析之前使用?φϕϕ\phiϕϕ\phi 欢迎讨论此类型问题的任何见解或参考。

2
您观察到n次投掷k个头。硬币公平吗?
在一次采访中我被问到。有没有“正确”的答案?(n,k)=(400,220)(n,k)=(400,220)(n, k) = (400, 220) 假设抛掷是同性的,正面的概率为。那么,在400次抛掷中头部的分布应该接近于法线(200,10 ^ 2),这样220头部的平均值就会偏离平均值2个标准差。观察到这种结果的可能性(即,在任一方向上均距平均值多2个SD)略小于5%。p=0.5p=0.5p=0.5 面试官告诉我,基本上,“如果我观察到均值> = 2 SD,就会得出结论,其他事情还在继续。我敢打赌这枚硬币是公平的。” 这是合理的-毕竟,这就是大多数假设检验所做的。但这就是故事的结局吗?对于面试官来说,这似乎是“正确”的答案。我要问的是,有些细微差别是否合理。 我忍不住指出,在这种抛硬币的情况下,判定硬币不公平是一个奇怪的结论。我说对吗?我会在下面解释。 首先,我-我也会假设大多数人-对硬币有很深的了解:它们很可能是公平的。当然,这取决于我们所说的公平-一种可能性是将“公平”定义为“具有接近0.5(例如介于0.49和0.51之间)的可能性”。 (你也可以定义“公平”为指的正面的概率正好是0.50,在这种情况下,有一个完全公平的硬币现在似乎相当取消可能。) 您的先验可能不仅取决于您对硬币的一般看法,还取决于上下文。如果您从自己的口袋里掏出硬币,那么您几乎可以肯定这是公平的。如果您的魔术师朋友从他的钱包中拿出硬币,那么您以前的朋友可能会加大双头硬币的重量。 无论如何,要想出一个合理的先验就很容易了:(i)使硬币很可能是公平的;(ii)即使观察了220个头,也使后验非常相似。然后,您会得出结论,尽管观察到结果均值2 SD,但该代币很可能是公平的。 实际上,您还可以构建一些示例,其中在400次抛掷中观察220个头,这会使您的后方对硬币保持更大的重量,例如,如果所有不公平的硬币的正面概率都为。{0,1}{0,1}\{0, 1\} 谁能为我阐明一下? 在写完这个问题之后,我想起了我以前听说过这种大局的情况,这不是林德利的“悖论”吗? Whuber在评论中加入了一个非常有趣的链接:您可以装模,但不能偏向硬币。从第3页: 不能说硬币的正面概率为p,因为硬币可以完全由抛掷的方式确定,除非将硬币抛向空中并快速旋转并抛向空中。无弹跳,在这种情况下,p = 1/2。 太酷了!这以一种有趣的方式与我的问题联系在一起:假设我们知道硬币被“迅速旋转抛向空中,并被弹跳而没有跳动”。那么我们绝对不应该拒绝硬币是公平的假设(这里的“公平”现在意味着“以上述方式抛硬币时,p = 1/2”),因为我们有效地拥有了将所有概率置于硬币是公平的。也许在某种程度上可以证明为什么在观察到220个头之后我不愿意拒绝null。

1
我何时应该担心贝叶斯模型选择中的Jeffreys-Lindley悖论?
我正在考虑使用RJMCMC探索各种复杂性的大型(但有限)模型。每个模型的参数向量的先验是非常有用的。 在哪种情况下(如果有),当更复杂的模型之一更适合时,我应该担心Jeffreys-Lindley悖论偏爱更简单的模型吗? 有没有简单的例子可以突出贝叶斯模型选择中的悖论问题? 我已经读了几篇文章,分别是西安的博客和安德鲁·盖尔曼的博客,但是我仍然不太了解这个问题。

3
Jeffreys Prior用于均值和方差未知的正态分布
我正在阅读先验分布,并为均值和方差未知的正态分布随机变量的样本计算了Jeffreys Prior。根据我的计算,以下适用于现有杰弗里: p (μ ,σ2)= dË Ť (我)-----√= de t (1 / σ2001 /(2 σ4))------------------√= 12个σ6----√∝ 1σ3。p(μ,σ2)=dËŤ(一世)=dËŤ(1个/σ2001个/(2σ4))=1个2σ6∝1个σ3。 p(\mu,\sigma^2)=\sqrt{det(I)}=\sqrt{det\begin{pmatrix}1/\sigma^2 & 0 \\ 0 & 1/(2\sigma^4)\end{pmatrix}}=\sqrt{\frac{1}{2\sigma^6}}\propto\frac{1}{\sigma^3}. 在这里,一世一世I是费舍尔的信息矩阵。 但是,我还阅读了以下出版物和文件: p (μ ,σ2)∝ 1 / σ2p(μ,σ2)∝1个/σ2p(\mu,\sigma^2)\propto 1/\sigma^2见第2.2节中卡斯和瓦塞尔曼(1996)。 参见第25页中羊和Berger(1998)p (μ ,σ2)∝ 1 / σ4p(μ,σ2)∝1个/σ4p(\mu,\sigma^2)\propto 1/\sigma^4 如Jeffreys Prior那样,均值和方差未知的正态分布。杰弗里斯先验的“实际”是什么?

2
适当的先验和取幂的可能性会导致不正确的后验吗?
(此问题的灵感来自西安的评论。) 众所周知的是,如果先验分布π(θ )π(θ)\pi(\theta)是适当的和似然L (θ | x )L(θ|x)L(\theta | x)是良好定义的,然后将后验分布π(θ | X )α π(θ )L (θ | x )π(θ|x)∝π(θ)L(θ|x)\pi(\theta|x)\propto \pi(\theta) L(\theta|x)几乎可以肯定是正确的。 在某些情况下,我们改用经过调和或取幂的可能性,从而导致伪后验 π〜(θ | X )α π(θ )L (θ | x )απ~(θ|x)∝π(θ)L(θ|x)α\tilde\pi(\theta|x)\propto \pi(\theta) L(\theta|x)^\alpha 为一些α > 0α>0\alpha>0(例如,这可以具有计算上的优点)。 在这种情况下,是否可能有适当的先验但伪后验不当?

1
统计人员在实际应用工作中是否使用Jeffreys先验?
当我在研究生统计推断课程中了解Jeffreys的先驱时,我的教授们听起来听起来像是有趣的,主要是出于历史原因,而不是因为有人会使用它。然后,当我进行贝叶斯数据分析时,我们从未被要求使用杰弗里斯的先验知识。有人实际使用这些吗?如果是这样(如果不是),为什么或为什么不呢?为什么有些统计学家不重视它?

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.