Questions tagged «bayesian»

贝叶斯推断是一种统计推断的方法,该方法依赖于将模型参数视为随机变量,并应用贝叶斯定理来推导有关参数或假设的主观概率陈述(取决于观察到的数据集)。


3
估计均匀分布的参数:不正确的先验?
我们有N个样本 X一世XiX_i,从均匀分布 [0,θ][0,θ][0,\theta] 哪里 θθ\theta未知。估计θθ\theta 从数据。 因此,贝叶斯法则... F(θ|X一世)=F(X一世|θ)F(θ)F(X一世)f(θ|Xi)=f(Xi|θ)f(θ)f(Xi)f(\theta | {X_i}) = \frac{f({X_i}|\theta)f(\theta)}{f({X_i})} 可能是: F(X一世|θ)=∏ñ一世=1个1个θf(Xi|θ)=∏Ni=11θf({X_i}|\theta) = \prod_{i=1}^N \frac{1}{\theta} (编辑:何时 0≤X一世≤θ0≤Xi≤θ0 \le X_i \le \theta 对所有人 一世ii,否则为0-感谢whuber) 但是没有其他信息 θθ\theta,似乎事前应该与 1个11 (即制服)或 1个大号1L\frac{1}{L} (杰弗里斯事前?) [0,∞][0,∞][0,\infty]但是然后我的积分不收敛,我不确定如何进行。有任何想法吗?

3
统计学习要素练习2.2
教科书首先通过以下方式生成一些2类数据: 这使: 然后它问: 我尝试通过首先使用此图形模型对此模型进行建模来解决此问题: 其中是标签,是所选均值的索引,是数据点。这将给ccch(1≤h≤10)h(1≤h≤10)h\,(1\le h \le 10)mchmhcm_h^cxxx PR (X |米CH)=镨(米CH∣ h ,c = b l u e)=镨(米CH| ħ ,Ç = ö ř 一个Ñ 克ë)=PR (ħ )=PR (C ^ )=ñ(米CH,我/ 5 )ñ((1 ,0)Ť,我)ñ((0 ,1)Ť,我)1个101个2镨(X∣米HC)=ñ(米HC,一世/5)镨(米HC∣H,C=b升üË)=ñ((1个,0)Ť,一世)镨(米HC∣H,C=Ø[R一个ñGË)=ñ((0,1个)Ť,一世)镨(H)=1个10镨(C)=1个2 \begin{align*} \Pr(x\mid m_h^c) =& \mathcal{N}(m_h^c,\mathbf{I}/5)\\ \Pr(m_h^c\mid h,c=\mathrm{blue}) =& \mathcal{N}((1,0)^T,\mathbf{I})\\ \Pr(m_h^c\mid h,c=\mathrm{orange}) =& \mathcal{N}((0,1)^T,\mathbf{I})\\ \Pr(h) =& \frac{1}{10}\\ …

2
这个单一值与该分布相符吗?
这似乎是一个非常幼稚的问题,但我很难看到答案。 我有一组30个值。我独立地获得了第31个值。空假设是第31个值是同一分布的一部分。另一种选择是,它与众不同。我想要某种p值或可能性度量。 我有一些想法: 这类似于想要进行两个样本的t检验-除了对于第二个样本,我只有一个值,并且30个值不一定呈正态分布。 如果我有30个测量值而不是30个测量值,则单个测量值的等级可以提供一些有用的信息。 如何计算这种可能性或p值? 谢谢!亚尼克

4
R中的离散时间事件历史(生存)模型
我正在尝试在R中拟合离散时间模型,但不确定如何执行。 我读过您可以将因变量组织在不同的行中,每个时间观察行一个,并将该glm函数与logit或cloglog链接一起使用。从这个意义上讲,我有三列:ID,Event(在每个时间范围内为1或0)和Time Elapsed(自观察开始以来)以及其他协变量。 如何编写适合模型的代码?哪个因变量?我想我可以将其Event用作因变量,并将其包括Time Elapsed在协变量中。但是,会发生什么ID呢?我需要吗? 谢谢。
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

3
Winbugs和其他MCMC,无须事先分发的信息
当您不了解参数分布时会发生什么?我们应该使用什么方法? 大多数时候,我们的目标是低估某个变量是否对某个物种的存在/不存在有任何影响,并且根据变量的重要性来接受或不接受该变量。这意味着大多数时候我们不考虑参数应具有的展开分布。 当我所知道的是b1,b2,b3和b4应该在-2和2之间变化而b0可以在-5和5之间变化时,假设所有参数都遵循正态分布是正确的吗? model { # N observations for (i in 1:N) { species[i] ~ dbern(p[i]) logit(p[i]) <- b0 + b1*var1[i] + b2*var2[i] + b3*var3[i] + b4*var4[i] } # Priors b0 ~ dnorm(0,10) b1 ~ dnorm(0,10) b2 ~ dnorm(0,10) b3 ~ dnorm(0,10) b4 ~ dnorm(0,10) }
10 r  bayesian  mcmc  bugs  winbugs 

5
首先适合贝叶斯模型,然后开始削弱先验可以吗?
在进行常客统计时,一长串重大的禁忌之举,例如在决定收​​集更多数据之前先查看统计测试的结果。我通常想知道贝叶斯统计中涉及的方法是否存在类似的不行清单,尤其是以下内容是否是其中之一。 我最近意识到,对于我一直在拟合的某些模型,我的过程一直是首先将模型与信息丰富的先验条件拟合,以查看其是否起作用或爆炸,然后将先验条件削弱为缺乏信息或弱信息化,调整模型。 我这样做的动机确实与我用JAGS / Stan编写这些模型有关,在我看来,我一直将其视为编程任务,而不是统计任务。因此,我进行了首次运行,通过使用先验信息使它能够快速收敛,从而更容易发现我编写的模型中的错误。然后,在调试模型后,我用无信息或信息量较弱的先验条件对其进行了重新拟合。 我的问题是我是否在此过程中违反了一些严肃的规定。例如,为了使我的推论有效,并且避免利用研究人员的自由度,在开始拟合任何模型之前,我是否需要承诺先验先验?

1
如何获得WinBUGS中特定变量的预测?
我是WinBUGS的新用户,并且有一个问题需要您的帮助。运行下面的代码后,我获得了参数beta0through beta4(统计信息,密度),但是我不知道如何获得的最后一个值的预测h,我将NA在代码中对其进行建模。 有人可以给我提示吗?任何建议将不胜感激。 model { for(i in 1: N) { CF01[i] ~ dnorm(0, 20) CF02[i] ~ dnorm(0, 1) h[i] ~ dpois (lambda [i]) log(lambda [i]) <- beta0 + beta1*CF03[i] + beta2*CF02[i] + beta3*CF01[i] + beta4*IND[i] } beta0 ~ dnorm(0.0, 1.0E-6) beta1 ~ dnorm(0.0, 1.0E-6) beta2 ~ dnorm(0.0, 1.0E-6) beta3 ~ …

1
R线性回归分类变量“隐藏”值
这只是我多次遇到的示例,因此我没有任何示例数据。在R中运行线性回归模型: a.lm = lm(Y ~ x1 + x2) x1是一个连续变量。x2是分类的,具有三个值,例如“低”,“中”和“高”。但是,R给出的输出将类似于: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 我知道R在这种因素(x2是一个因素)上引入了某种虚拟编码。我只是想知道,如何解释x2“高”值?例如,x2在此处给出的示例中,“ High” 对响应变量有什么影响? 我在其他地方(例如这里)已经看到了这样的示例,但是还没有找到我能理解的解释。
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

4
给定10D MCMC链,如何确定R中的后验模式?
问题:假设有10维MCMC链,我准备将抽奖矩阵交给您:10个参数(列)的100,000次迭代(行),我如何才能最好地识别后验模式?我特别关注多种模式。 背景:我认为自己是一位精通计算的统计学家,但是当一位同事问我这个问题时,我为自己无法给出一个合理的答案而感到ham愧。主要关注的是可能会出现多种模式,但前提是必须考虑十个维度中的至少八个左右。我的第一个想法是使用核密度估计,但是对R的搜索没有发现对大于3维问题的希望。同事已经提出了十个维度的临时分箱策略并寻求最大值,但我担心的是带宽可能会导致严重的稀疏性问题或缺乏分辨多种模式的分辨率。就是说,我很乐意接受有关自动带宽建议的建议,与10个内核密度估算器的链接或您所知道的其他任何信息。 顾虑: 我们认为该分布可能会偏斜;因此,我们希望确定后验模式,而不是后验方法。 我们担心可能存在几种后验模式。 如果可能的话,我们希望使用基于R的建议。但是,只要不难以实现,任何算法都可以。我想我不希望通过从头开始自动带宽选择来实现Nd内核密度估计器。

1
为什么贝叶斯后验集中在KL散度的最小值上?
考虑贝叶斯后验。渐近地,其最大值出现在MLE估计,这恰好使似然性 argmin最大化。θ∣Xθ∣X\theta\mid Xθ^θ^\hat \thetaargminθfθ(X)argminθfθ(X)\operatorname{argmin}_\theta\, f_\theta(X) 所有这些概念(贝叶斯先验,使可能性最大化)听起来都是超级原则,一点也不随意。看不到日志。 然而,MLE最小化了实分布和之间的KL散度,即,它最小化了f~f~\tilde ffθ(x)fθ(x)f_\theta(x) KL(f~∥fθ)=∫+∞−∞f~(x)[logf~(x)−logfθ(x)]dxKL(f~∥fθ)=∫−∞+∞f~(x)[log⁡f~(x)−log⁡fθ(x)]dx KL(\tilde f \parallel f_\theta) = \int_{-\infty}^{+\infty} \tilde f(x) \left[ \log \tilde f(x) - \log f_\theta(x) \right] \, dx 哇,这些日志是从哪里来的?为什么特别是KL分歧? 例如,为什么最小化不同的差异与贝叶斯后验的超原则性和积极性概念不相符,而使上述可能性最大化呢? 在这种情况下,KL散度和/或对数似乎有一些特殊之处。当然,我们可以举手示意这就是数学。但是我怀疑可能会有更深刻的直觉或发现的联系。

2
没有采样的高维推理问题的不确定性估计?
我正在研究一个高维推理问题(大约2000个模型参数),通过结合基于梯度的优化和遗传算法,可以找到对数后验的全局最大值,从而能够稳健地执行MAP估计。 除了找到MAP估计值外,我非常希望能够对模型参数的不确定性做出一些估计。 我们能够有效地计算相对于参数的对数后验的梯度,因此长期而言,我们的目标是使用哈密顿量MCMC进行一些抽样,但是现在我对基于非抽样的估计感兴趣。 我知道的唯一方法是在该模式下计算Hessian的逆值,以近似于多元多元法线的后验,但即使对于这样的大型系统,这似乎也不可行,因为即使我们计算出∼4×106∼4×106\sim 4\times10^{6}元素粗麻布我敢肯定我们找不到它的逆。 谁能建议在这种情况下通常使用哪种方法? 谢谢! 编辑 -有关该问题的其他信息 背景技术 这是一个与大型物理实验有关的反问题。我们有一个2D三角形网格,描述了一些物理场,我们的模型参数是这些场在网格每个顶点处的物理值。网格具有大约650个顶点,我们对3个字段进行了建模,因此这就是我们2000个模型参数的来源。 我们的实验数据来自不能直接测量这些场的仪器,而是来自那些复杂的非线性函数的量。对于每种不同的仪器,我们都有一个正向模型,该模型将模型参数映射到实验数据的预测,并且将预测与测量值进行比较可得出对数似然。 然后,我们总结来自所有这些不同工具的对数似然率,并添加一些对数优先级值,这些值将某些物理约束应用于字段。 因此,我怀疑这个“模型”是否整齐地归为一类-我们无法选择模型是什么,它取决于实际仪器如何收集我们的实验数据。 数据集 数据集由500x500张图像组成,每个摄像机只有一张图像,因此总数据点为500x500x4 = 10610610^6。 错误模型目前, 我们将问题中的所有错误都设为高斯。在某些时候,我可能会尝试移至Student-t错误模型,只是为了获得更大的灵活性,但是对于高斯人来说,事情似乎仍然运作良好。 可能性示例 这是一个等离子物理实验,我们的大部分数据来自指向等离子的相机,镜头前有特定的滤光片,只能观察光谱的特定部分。 要重现数据,有两个步骤;首先,我们必须对来自网格上等离子的光进行建模,然后我们必须对该光进行建模,使其返回相机图像。 不幸的是,对来自等离子体的光进行建模取决于有效的速率系数,即在给定电场的情况下,不同过程发出多少光。这些速率是由一些昂贵的数值模型预测的,因此我们必须将它们的输出存储在网格中,然后进行插值以查找值。费率函数数据仅计算一次-我们将其存储,然后在代码启动时从中构建一个样条,然后将该样条用于所有函数评估。 假设R1R1R_1和R2R2R_2是速率函数(我们通过插值法对其求值),则网格E i的第iii个顶点的发射由 E i = R 1(x i,y i)+ z i给出R 2(x i,y i) 其中(x ,y ,z )EiEi\mathcal{E}_iEi=R1(xi,yi)+ziR2(xi,yi)Ei=R1(xi,yi)+ziR2(xi,yi) \mathcal{E}_i = R_1(x_i, y_i) + z_i R_2(x_i, y_i) …

3
贝叶斯估计器是否要求true参数是先验的可能变量?
这可能是一个有点哲学问题的,但在这里我们去:在决策理论,贝叶斯估计的风险为相对于定义为先验分布上。θ∈ΘπΘθ^(x)θ^(x)\hat\theta(x)θ∈Θθ∈Θ\theta\in\Thetaππ\piΘΘ\Theta 现在,一方面,为了使真实的生成数据(即“存在”),必须是下的可能变量,例如具有非零概率,非零密度等。另一方面,是未知的,因此先验的选择,因此我们不能保证真实的是我们选择的下的可能变量。θ π θ θ πθθ\thetaθθ\thetaππ\piθθ\thetaθθ\thetaππ\pi 现在,对我来说,似乎我们不得不以某种方式选择,以使成为可能的变量。否则,某些定理将不成立。例如,最小极大值的估计将不是最不利先验的贝叶斯估计,因为我们可以通过从其域中排除周围并包括的大区域来使该先验任意地变坏。但是,很难保证确实在域中。θ θππ\piθθ\thetaθθ\thetaθθ\theta 所以我的问题是: 通常是否假定实际是的可能变量?πθθ\thetaππ\pi 可以保证吗? 是否可以至少以某种方式检测到违反此情况的案例,所以在条件不成立时,不依赖最小定理等定理吗? 如果不需要,为什么决策理论中的标准结果成立呢?

2
贝叶斯充分性与频繁性充分性有何关系?
在Wikipedia中,给出了从频繁主义者角度来看足够统计量的最简单定义。但是,我最近遇到了一本贝叶斯书,定义为。链接中指出两者是等效的,但我不知道如何。同样,在同一页面的“其他类型的充足性”部分中,声明了两个定义在无限维空间中是不相等的...P(θ|x,t)=P(θ|t)P(θ|x,t)=P(θ|t)P(\theta|x,t)=P(\theta|t) 另外,预测性充足性与经典充分性有何关系?

2
贝叶斯不需要测试集是真的吗?
我最近观看了埃里克·马(Eric J. Ma)的演讲,并查看了他的博客文章,他引用了拉德福德·尼尔(Radford Neal)的观点,认为贝叶斯模型不会过拟合(但可以过拟合),并且在使用它们时,我们不需要测试集来验证它们(对于在我看来,引号似乎是在谈论使用验证集来调整参数)。老实说,这些论点并不能说服我,而且我也无权阅读这本书,因此,您能为这种说法提供更详细,更严格的论点吗? 顺便说一句,在此同时,埃里克·马指出我讨论关于同一主题。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.