没有采样的高维推理问题的不确定性估计?


9

我正在研究一个高维推理问题(大约2000个模型参数),通过结合基于梯度的优化和遗传算法,可以找到对数后验的全局最大值,从而能够稳健地执行MAP估计。

除了找到MAP估计值外,我非常希望能够对模型参数的不确定性做出一些估计。

我们能够有效地计算相对于参数的对数后验的梯度,因此长期而言,我们的目标是使用哈密顿量MCMC进行一些抽样,但是现在我对基于非抽样的估计感兴趣。

我知道的唯一方法是在该模式下计算Hessian的逆值,以近似于多元多元法线的后验,但即使对于这样的大型系统,这似乎也不可行,因为即使我们计算出4×106元素粗麻布我敢肯定我们找不到它的逆。

谁能建议在这种情况下通常使用哪种方法?

谢谢!

编辑 -有关该问题的其他信息

背景技术
这是一个与大型物理实验有关的反问题。我们有一个2D三角形网格,描述了一些物理场,我们的模型参数是这些场在网格每个顶点处的物理值。网格具有大约650个顶点,我们对3个字段进行了建模,因此这就是我们2000个模型参数的来源。

我们的实验数据来自不能直接测量这些场的仪器,而是来自那些复杂的非线性函数的量。对于每种不同的仪器,我们都有一个正向模型,该模型将模型参数映射到实验数据的预测,并且将预测与测量值进行比较可得出对数似然。

然后,我们总结来自所有这些不同工具的对数似然率,并添加一些对数优先级值,这些值将某些物理约束应用于字段。

因此,我怀疑这个“模型”是否整齐地归为一类-我们无法选择模型是什么,它取决于实际仪器如何收集我们的实验数据。

数据集
数据集由500x500张图像组成,每个摄像机只有一张图像,因此总数据点为500x500x4 = 106

错误模型目前,
我们将问题中的所有错误都设为高斯。在某些时候,我可能会尝试移至Student-t错误模型,只是为了获得更大的灵活性,但是对于高斯人来说,事情似乎仍然运作良好。

可能性示例
这是一个等离子物理实验,我们的大部分数据来自指向等离子的相机,镜头前有特定的滤光片,只能观察光谱的特定部分。

要重现数据,有两个步骤;首先,我们必须对来自网格上等离子的光进行建模,然后我们必须对该光进行建模,使其返回相机图像。

不幸的是,对来自等离子体的光进行建模取决于有效的速率系数,即在给定电场的情况下,不同过程发出多少光。这些速率是由一些昂贵的数值模型预测的,因此我们必须将它们的输出存储在网格中,然后进行插值以查找值。费率函数数据仅计算一次-我们将其存储,然后在代码启动时从中构建一个样条,然后将该样条用于所有函数评估。

假设R1R2是速率函数(我们通过插值法对其求值),则网格E i的第i个顶点的发射由 E i = R 1x iy i+ z i给出R 2x iy i 其中x y z Ei

Ei=R1(xi,yi)+ziR2(xi,yi)
(x,y,z)是我们在网格上建模的3个字段。将发射矢量获取到相机图像很容易,只需将其与矩阵G相乘即可,矩阵G对每个相机像素所经过的网格的哪些部分进行编码。

由于误差是高斯型,因此该特定摄像机的对数似然为

L=12(GEd)Σ1(GEd)

其中d是摄像机数据。总对数似然是上述表达式中的4个的总和,但对于不同的相机,由于它们查看的是光谱的不同部分,所以它们的速率函数R1,R2不同。

先验示例
我们拥有各种先验,这些先验实际上只是为各种数量设置了一定的上限和下限,但是它们往往不会对问题产生太大的作用。我们确实有一个先例,其作用很强,可以有效地将拉普拉斯型平滑应用于场。它还采用高斯形式:

log-prior=12xSx12ySy12zSz


1
您适合什么型号?线性回归?GP?分层计数模型?计算机模型的贝叶斯校准?请添加有关您要解决的问题的更多详细信息,我将就VI的优缺点写一个答案。
DeltaIV

1
@DeltaIV我已经用更多信息更新了问题-可能是我没有详细说明您要寻找的内容。如果是这样,请告诉我,我将再进行编辑,谢谢!
CBowman '19

1
@DeltaIV再次感谢!添加了更多信息,让我知道是否还有其他可以添加的信息。
CBowman '19

1
@DeltaIV,数据图像为500x500,每个摄像机有一个,因此总数据点为500x500x4 = 。费率函数数据仅计算一次-我们将其存储,然后在代码启动时从中构建一个样条,然后将该样条用于所有函数评估。106
CBowman '19

1
k2000k

Answers:


4

首先,我认为您的统计模型是错误的。我将您的表示法更改为统计学家更熟悉的一种,因此让

d=y=(y1,,yN), N=106

成为您的观察(数据)载体,并且

x=θ=(θ1,,θp)y=ϕ=(ϕ1,,ϕp)z=ρ=(ρ1,,ρp), p650

d=3p2000

y=Gr1(θ,ϕ)+ρGr2(θ,ϕ))+ϵ, ϵN(0,IN)

GN×d

这显然是错误的。同一台摄像机的图像中不同点的误差与其他摄像机中的图像相同点的误差是不可能独立的。您应该研究空间统计和模型,例如广义最小二乘法,半变异函数估计,克里格法,高斯过程等。


话虽如此,由于您的问题不是模型是否是实际数据生成过程的良好近似,而是如何估算这样的模型,因此,我将向您展示一些实现此目的的选择。

HMC

106

优点:在链中无限数量的样本中,“精确”推断。

缺点:估计误差不严格,存在多种收敛性诊断指标,但都不是理想的。

大样本近似

θp(θ|y)N(θ0^n,In1(θ0))θ0θ0^nθ0In1(θ0)θ0θ0In1(θ0^n)R1,R2 是有效的,如果您的数据实际上像您假设的那样是iid,但我不相信它们是正确的,正如我在开始时所解释的那样。

p<<Nθ0

p(θ|y)

变异推理

p(θ|y)dpqϕ(θ)qQϕϕϕqp

ϕ=argminϕΦDKL(qϕ(θ)||p(θ|y))

qϕ(θ)

  • ϕ
  • p(θ|y)ϕq

qϕ(θ)d

qϕ(θ)=i=1dqϕi(θi)

qϕj(θj)

logqj(θj)=Eij[logp(y,θ)]+const.

p(y,θ)q1(θ1),,qj1(θj1),qj+1(θj+1),,qd(θd)qi(θi)(d1)

qqiqN数据点。为了摊销推理成本,使用了神经网络将输入空间映射到变分参数空间。有关该算法的详细说明,请参见本文:VAE实现在所有主要的深度学习框架中均可用。


s2

@DeltaIV统计模型实际上通常是非常好的,不同摄像机之间的误差非常非常独立,并且同一摄像机中的不同像素也将基本独立,除非它们实际上是相邻的。我们可以通过使用高斯过程似然来对相邻像素中的一些空间相关性进行编码,但这需要我们直接对协方差矩阵求逆,或者每次我们想要评估似然时都求解稀疏线性系统,这要大得多。昂贵(尽管并非不可能)。
CBowman

2

您可能需要检出某些“ bayesX”软件,也可能要检出“ inla”软件。这些都可能有一些您可以尝试的想法。去谷歌上查询

两者都非常依赖精确度矩阵参数化(即条件独立性,马尔可夫类型模型)的稀疏性-并为此设计了反演算法。大多数示例都基于多级或自回归高斯模型。应该与您发布的示例非常相似

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.