Questions tagged «credible-interval»

可信区间是贝叶斯统计中的区间,该区间包括概率为的参数的真实值。可信间隔将间隔视为固定间隔,将参数视为随机间隔。 (1α)%


6
可信区域和贝叶斯假设检验之间有什么联系?
在常客统计中,置信区间和检验之间存在紧密的联系。使用推理约在分布作为一个例子,将置信区间 包含在重要性级别上未被检验拒绝的所有值。Ñ (μ ,σ 2)1 - α ˉ X ± 吨α / 2(Ñ - 1 )⋅ 小号/ √μμ\muN(μ,σ2)N(μ,σ2)\rm N(\mu,\sigma^2)1−α1−α1-\alpha μ吨αx¯±tα/2(n−1)⋅s/n−−√x¯±tα/2(n−1)⋅s/n\bar{x}\pm t_{\alpha/2}(n-1)\cdot s/\sqrt{n}μμ\mutttαα\alpha 从这个意义上讲,频繁的置信区间是倒置测试。(顺便说一句,这意味着我们可以将值解释为的最小值,为此参数的空值将包含在置信区间中。我发现这可能是一种有用的方法,向了解一些统计信息的人解释真正含义。)α 1 - α ppppαα\alpha1−α1−α1-\alphappp 在阅读了贝叶斯可信区域的决策理论基础后,我开始怀疑可信区域与贝叶斯测试之间是否存在类似的联系/对等关系。 有一般的联系吗? 如果没有常规连接,是否存在连接的示例? 如果没有一般的联系,我们怎么看?


2
什么是最高密度区域(HDR)?
在统计推断问题9.6b中,提到了“最高密度区域(HDR)”。但是,我在书中找不到该术语的定义。 一个类似的术语是最高后密度(HPD)。但这并不适合这种情况,因为9.6b没有提及任何关于先验的东西。在建议的解决方案中,它只说“显然是HDR”。Ç (ÿ)C(ÿ)c(y) 还是HDR是一个包含pdf模式的区域? 什么是最高密度区域(HDR)?

2
如何总结医疗对象的合理间隔
使用Stan和frontend软件包,rstanarm或者brms像以前一样,我可以像以前一样轻松地以贝叶斯方式分析数据lme。虽然我桌上有Kruschke-Gelman-Wagenmakers等的大部分书籍和文章,但这些内容并没有告诉我如何总结医学观众的结果,这些结果困扰于贝叶斯愤怒的Skylla和医学评论家的Charybdis( “我们需要意义,而不是那些分散的东西”)。 例如:胃频率(1 / min)分为三组;健康对照是参考。每个参与者都有几种度量,因此常客我使用以下混合模型lme: summary(lme(freq_min~ group, random = ~1|study_id, data = mo)) 略有修改的结果: Fixed effects: freq_min ~ group Value Std.Error DF t-value p-value (Intercept) 2.712 0.0804 70 33.7 0.0000 groupno_symptoms 0.353 0.1180 27 3.0 0.0058 groupwith_symptoms 0.195 0.1174 27 1.7 0.1086 为简单起见,我将使用2 * std错误作为95%CI。 在常客的背景下,我将其总结为: 在对照组中,估计频率为2.7 / min(也许在此处添加CI,但由于绝对和差异CI造成的混淆,我有时会避免这样做)。 在no_symptoms组中,频率比对照组高0.4 …

2
贝叶斯可信区间过程的决策理论依据是什么?
(要了解我为什么写这篇文章,请查看我对这个问题的回答下方的评论。) III型错误和统计决策理论 为错误的问题提供正确的答案有时被称为III型错误。统计决策理论是不确定性下决策的形式化。它提供了一种概念框架,可以帮助避免III型错误。该框架的关键要素称为损失函数。它包含两个参数:第一个是世界的真实状态(的相关子集)(例如,在参数估计问题中,真实参数值);第二个是一组可能动作中的一个元素(例如,在参数估计问题中,估计θ)θθ\thetaθ^)θ^)\hat{\theta})。输出对与世界上每种可能的真实状态有关的每种可能的动作所造成的损失进行建模。例如,在参数估计问题中,一些众所周知的损失函数是: 绝对误差损失L(θ,θ^)=|θ−θ^|L(θ,θ^)=|θ−θ^|L(\theta, \hat{\theta}) = |\theta - \hat{\theta}| 平方误差损失L(θ,θ^)=(θ−θ^)2L(θ,θ^)=(θ−θ^)2L(\theta, \hat{\theta}) = (\theta - \hat{\theta})^2 哈尔瓦里安的LINEX损失L(θ,θ^;k)=exp(k(θ−θ^))−k(θ−θ^)−1, k≠0L(θ,θ^;k)=exp⁡(k(θ−θ^))−k(θ−θ^)−1, k≠0L(\theta, \hat{\theta}; k) = \exp(k(\theta - \hat{\theta})) - k(\theta - \hat{\theta}) - 1,\text{ } k \ne0 检查答案以找到问题 在某些情况下,可能会试图通过着重于制定正确的损失函数并继续进行其余的决策理论方法(此处未详述)来避免III型错误。这不是我的简要介绍–毕竟,统计学家已经掌握了许多行之有效的技术和方法,即使它们并非源自这种方法。但是,在我看来,最终结果是绝大多数统计学家都不了解也不在乎统计决策理论,而且我认为他们不在了。对于那些统计学家,我认为他们之所以会发现统计决策理论在避免III类错误方面很有价值,是因为它提供了一个框架,可以在其中询问任何建议的数据分析程序:该程序可以最佳地应对什么损失函数(如果有)?也就是说,在什么决策情况下,它到底能提供最佳答案? 后预期损失 从贝叶斯角度来看,损失函数就是我们所需要的。我们几乎可以忽略决策理论的休息-几乎可以肯定,做的最好的事情是尽量减少后预期损失,也就是找到动作aaa最小化L~(a)=∫ΘL(θ,a)p(θ|D)dθL~(a)=∫ΘL(θ,a)p(θ|D)dθ\tilde{L}(a) = \int_{\Theta}L(\theta, a)p(\theta|D)d\theta。 ?(至于非贝叶斯观点嗯,这是频率论决策理论的定理-具体来说,沃尔德的完全类定理 -即最佳动作永远是尽量减少贝叶斯后验预期损失相对于一些(可能是不当)这个结果的困难在于它是一个存在定理,没有给出关于使用哪个先验的指导,但是它有效地限制了我们可以“反转”以弄清楚到底是哪个问题的过程的类别。特别是,反转任何非贝叶斯程序的第一步是弄清楚它复制或近似哪个贝叶斯程序(如果有)。 嘿,青色,您知道这是一个问答网站,对吗? 最后,这使我提出了一个统计问题。在贝叶斯统计中,当为单变量参数提供间隔估计时,两个常见的可信间隔过程是基于分位数的可信间隔和最高后验密度可信间隔。这些程序背后的损失函数是什么?

2
为什么要使用“随机”置信度或可信区间?
我最近正在阅读一篇论文,该论文将随机性纳入其置信度和可信区间中,我想知道这是否是标准的(如果是标准的话,为什么这样做是合理的)。为了设置符号,假设我们的数据是并且我们有兴趣为参数创建间隔。我习惯于通过构建函数来构建置信度/可信度区间:θ ∈ ΘX ∈ XX∈Xx \in Xθ ∈ Θθ∈Θ\theta \in \Theta FX:Θ →交通{ 0 ,1 }FX:Θ→{0,1个}f_{x} : \Theta \rightarrow \{0,1\} 并让我们的间隔为。一世= { θ ∈ Θ:FX(θ )= 1 }一世={θ∈Θ:FX(θ)=1个}I = \{ \theta \in \Theta \, : \, f_{x}(\theta) = 1\} 从某种意义上说,这是随机的,它取决于数据,但条件是它只是一个间隔。相反,本文定义 GX:Θ →交通[ 0 ,1 ]GX:Θ→[0,1个]g_{x} : \Theta \rightarrow [0,1] 以及上的iid统一随机变量的集合。它定义关联的间隔为。请注意,除了数据之外,这很大程度上取决于辅助随机性。 …

3
置信区间何时“有意义”,而相应的可信区间却没有?
通常情况下,具有95%覆盖率的置信区间与包含95%后验密度的可信区间非常相似。当先验是均匀的或在后者情况下接近均匀时,会发生这种情况。因此,置信区间通常可以用来近似可信区间,反之亦然。重要的是,我们可以由此得出结论,对于许多简单的用例而言,将置信区间作为可信区间的误解很多,几乎没有实际意义。 有许多没有发生这种情况的例子,但是它们似乎都被贝叶斯统计的拥护者挑剔,试图证明这种惯常方法是有问题的。在这些示例中,我们看到置信区间包含不可能的值等,这应该表明它们是无稽之谈。 我不想回顾那些例子,也不想对贝叶斯与频频主义者进行哲学讨论。 我只是在寻找相反的例子。在任何情况下,置信度和可信度间隔都大不相同,并且置信度过程提供的间隔明显更好吗? 需要说明的是:这是通常期望可信区间与相应的置信区间重合的情况,即使用先验,统一等先验时的情况。我对有人选择事先任意决定的情况不感兴趣。 编辑: 为响应@JaeHyeok Shin的以下回答,我必须不同意他的示例使用正确的可能性。我使用近似贝叶斯计算来估计下面R中theta的正确后验分布: ### Methods ### # Packages require(HDInterval) # Define the likelihood like <- function(k = 1.2, theta = 0, n_print = 1e5){ x = NULL rule = FALSE while(!rule){ x = c(x, rnorm(1, theta, 1)) n = length(x) x_bar = mean(x) rule = …

1
如何找到95%的可信区间?
我正在尝试计算以下后验分布的95%可信区间。我找不到R中的函数,但是下面的方法正确吗? x <- seq(0.4,12,0.4) px <- c(0,0, 0, 0, 0, 0, 0.0002, 0.0037, 0.018, 0.06, 0.22 ,0.43, 0.64,0.7579, 0.7870, 0.72, 0.555, 0.37, 0.24, 0.11, 0.07, 0.02, 0.009, 0.005, 0.0001, 0,0.0002, 0, 0, 0) plot(x,px, type="l") mm <- sum(x*px)/sum(px) var <- (sum((x)^2*px)/sum(px)) - (mm^2) cat("95% credible interval: ", round(mm -1.96*sqrt(var),3), "-", …

1
预测间隔=可信间隔?
我想知道预测间隔和可信间隔是否会评估同一件事。 例如,使用线性回归,当您估计拟合值的预测间隔时,您将估计期望值下降的间隔的极限。相反,与置信区间相反,您不会关注平均值等分布参数,而是会针对指定的X值(假设)来说明变量的取值。(1−α)%(1−α)%(1-\alpha)\% Y=a+b.X Y=a+b.X\ Y = a + b.X 当从后验概率分布中估计贝叶斯框架内给定值的拟合值时,可以估计可信区间。这个间隔是否为您提供了有关拟合值的相同信息?XXX

1
置信区间和可信区间何时重合的示例
在有关可信间隔的Wikipedia文章中,它说: 对于单个参数和可以在单个足够统计量中汇总的数据的情况,可以证明,如果未知参数是位置参数(即,前向概率函数具有以下形式),则可信区间和置信区间将重合Pr(x |μ)= f(x −μ)),先验是均匀的平坦分布; [5]并且如果未知参数是比例参数(即,前向概率函数的形式为Pr(x) | s)= f(x / s)),并带有Jeffreys的先验[5]-后者是后继的,因为采用这种比例参数的对数会将其转换为具有均匀分布的位置参数。但是,这些情况显然是特殊的(尽管很重要)。一般而言,不能做到等价。” 人们可以举一些具体的例子吗?95%CI何时真正对应于“ 95%机会”,从而“违反” CI的一般定义?

1
为什么多项式回归中的贝叶斯可信区间偏向而置信区间正确?
考虑下面的绘图,在该绘图中,我模拟了以下数据。我们看一下二元结果,用黑线表示真实概率为1。协变量x和p (y o b s = 1 | x )之间的函数关系是具有逻辑链接的三阶多项式(因此在双向过程中是非线性的)。yobsyobsy_{obs}xxxp(yobs=1|x)p(yobs=1|x)p(y_{obs}=1 | x) 绿线是GLM logistic回归拟合,其中被引入为三阶多项式。虚线绿线是围绕预测的95%置信区间p (Ý ø b 小号 = 1 | X ,β),其中β拟合回归系数。我曾经和这个。xxxp(yobs=1|x,β^)p(yobs=1|x,β^)p(y_{obs}=1 | x, \hat{\beta})β^β^\hat{\beta}R glmpredict.glm 类似地,pruple线与95%可信区间的平均后的使用均匀现有贝叶斯逻辑回归模型的。为此,我使用了具有功能的软件包(设置提供了统一的先验信息)。p(yobs=1|x,β)p(yobs=1|x,β)p(y_{obs}=1 | x, \beta)MCMCpackMCMClogitB0=0 红点表示数据集中的观测值,黑点表示y o b s = 0的观测值。请注意,在分类/离散分析中常见的是y,但没有观察到p (y o b s = 1 | x )。yobs=1yobs=1y_{obs}=1yobs=0yobs=0y_{obs}=0yyyp(yobs=1|x)p(yobs=1|x)p(y_{obs}=1 | x) 可以看到几件事: 我故意模拟了左手稀疏。我希望由于缺乏信息(观察)而在这里扩大信心和可信区间。xxx …

3
贝叶斯模型选择和可信区间
我有一个包含三个变量的数据集,其中所有变量都是定量的。让我们将其称为,和。我通过MCMC在贝叶斯角度拟合回归模型yyyx1x1x_1x2x2x_2rjags 我进行了探索性分析,的散点图建议应使用二次项。然后我装了两个模型y×x2y×x2y\times x_2 (1)y=β0+β1∗x1+β2∗x2y=β0+β1∗x1+β2∗x2y=\beta_0+\beta_1*x_1+\beta_2*x_2 (2)y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x21+β5∗x22y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x12+β5∗x22y=\beta_0+\beta_1*x1+\beta_2*x_2+\beta_3*x_1x_2+\beta_4*x_1^2+\beta_5*x_2^2 在模型1中,每个参数的效果大小都不小,并且95%可信区间的值不为。000 在模型2中,参数和的效果大小较小,并且所有参数的可信区间均包含。β3β3\beta_3β4β4\beta_4000 可信区间包含的事实足以说明该参数不重要吗?000 然后我调整了以下模型 (3)y=β0+β1∗x1+β2∗x2+β3∗x22y=β0+β1∗x1+β2∗x2+β3∗x22y=\beta_0+\beta_1*x_1+\beta_2*x_2+\beta_3*x^2_2 每个参数的效果大小都不小,但是除外,所有可信区间都包含。 0β1β1\beta_1000 在贝叶斯统计中进行变量选择的正确方法是哪种? 编辑:我可以在任何回归模型(如Beta模型)中使用套索吗?我使用的是变量分散的模型,其中 其中是向量。我也应该在使用Laplace 吗?δlog(σ)=−δδXlog(σ)=−δδXlog(\sigma)=-\pmb{\delta}Xδδδδδ\pmb{\delta}δδδδ\pmb{\delta} EDIT2:我安装了两个模型,一个模型具有针对,高斯先验模型,另一种具有Laplace(double-exponential)模型。δ Ĵβjβj\beta_jδjδj\delta_j 高斯模型的估计是 Mean SD Naive SE Time-series SE B[1] -1.17767 0.07112 0.0007497 0.0007498 B[2] -0.15624 0.03916 0.0004128 0.0004249 B[3] 0.15600 0.05500 0.0005797 0.0005889 B[4] 0.07682 0.04720 0.0004975 0.0005209 delta[1] -3.42286 0.32934 0.0034715 0.0034712 …

1
我应该报告可信区间而不是置信区间吗?
在统计教科书中迷失了这个概念之后,我试图做出自己的决定,最后得出一个结论,该结论似乎符合我到目前为止所看到的所有解释:非统计学家认为可信的区间是可信的间隔是。 对于像我这样一个小时的人来说,离题 如果我们观察到数据并从中预测出一些参数,则可以说是平均值 μμ\mu,可信区间是区间 [μ分, μ最高][μ分, μ最高][\mu_{\text{min}},\ \mu_{\text{max}}]为此,我们有95%的把握确保mu属于内部(如果使用其他级别,则为95%以外的某个数字)。入门级统计课中讲授的置信区间可以与可信区间重叠,但并不总是重叠良好。如果你要勇敢的解释,尝试阅读这和这对交叉验证的问题; 经过反复的摸爬滚打,我终于明白了的是这个答案。 这是否意味着在结果中使用可信区间而不是置信区间在科学上更可取?如果是,为什么我还没有看到使用它的出版物? 是因为应该使用该概念,但测量科学家尚未赶上正确的统计方法吗? 还是说原始置信区间的含义更适合于解释经验研究的结果? 还是在实践中它们经常重叠以至根本没有关系? 选择是否取决于我们为数据假设的统计分布?也许具有高斯分布,它们总是在数值上重叠,因此,纯粹的统计数据之外没有人关心这种差异(我读过的许多研究甚至都不费心计算任何间隔,也许大约有1%会给思想留下空间他们的数据可能不会以正态分布)。 这是否取决于我们的科学理论地位?例如,感觉在实证主义工作中应该使用置信区间,而在解释主义工作中应该使用可信区间,但是我不确定这种感觉是否正确。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.