估计空间过程的参数


12

我得到了个正整数值的网格。这些数字表示的强度应与占据该网格位置的人的信念强度相对应(较高的值表示较高的信念)。一个人通常会影响多个网格单元。n×n

我认为强度的模式应“看起来像高斯”,因为它将有一个高强度的中心位置,然后强度在所有方向上呈放射状逐渐减小。具体来说,我想将值建模为来自“比例高斯”,其中一个参数用于方差,另一个用于比例因子。

有两个复杂的因素:

  • 由于背景噪声和其他影响,没有人不会对应零值,但该值应较小。但是它们可能是不稳定的,并且一开始可能很难将其建模为简单的高斯噪声。
  • 强度范围可以变化。在一个实例中,值的范围可能在1到10之间,而在另一个实例中,值可能在1到100之间。

我正在寻找合适的参数估计策略或相关文献的指南。指出为什么我以错误的方式完全解决这个问题的指针也将不胜感激:)。我一直在阅读有关克里金法和高斯过程的信息,但这对于我的问题而言似乎是很繁琐的工作。


1
具有方差比例参数的高斯是什么意思?方差参数高斯!的比例参数!我也不确定您到目前为止已建立的模型。您能否更详细地描述您实际上要解决的问题?使用高斯模型对低粒度的整数值观测值建模似乎很麻烦。
主教

(+1)一个有趣的问题。期待了解您要解决的问题。
主教

以下是一些观察结果:1.如果您的值是整数,则使用高斯似乎不合适。2.目前尚不清楚您的模型的目的是什么,例如,您是否要确定强烈信念的集群?如果您有这些参数,将会如何解释?3.既然有网格,为什么不尝试拟合双变量分布的混合?然后,网格将成为分布的支撑(例如单位平方),并且强度将对应于高概率区域。
mpiktas 2011年

感谢所有有趣的观点。让我尝试澄清一下。根据评论,“高斯”的选择可能是一个红色的鲱鱼,引起的混乱比它的帮助更大。数据的关键特征是在人们所处位置的最高置信点处具有高强度值,并且在其周围“径向”逐渐变细(我已经根据经验观察到)。强度值来自于(线性)反问题的解,因此实际上并不一定需要是积分的-这只是我们碰巧拥有的数据。
Suresh Venkatasubramanian

顺便说一句,我感谢使问题更加明确和更好地建模的尝试。我将尽力解释实际的数据设置,以便收敛于正确的建模假设。
Suresh Venkatasubramanian

Answers:


5

您可以将pysal python库的此模块用于我下面讨论的空间数据分析方法。

您对每个人的态度如何受到周围人的态度影响的描述可以通过空间自回归模型(SAR)来表示(另请参见此SE答案 2中我简单的SAR解释)。最简单的方法是忽略其他因素,并使用Moran的I统计量来估计周围人如何影响彼此的态度的影响力。

如果要评估其他因素的重要性,同时估算周围人的影响力(一项更复杂的任务),则可以估算回归参数:。请参阅此处的文档。(估计这种回归的方法来自空间计量经济学领域,并且比我给出的参考文献要复杂得多。)y=bx+rhoWy+e

您的挑战将是建立空间权重矩阵()。我认为矩阵每个元素应当为1或0,这取决于人是否在一定距离内,您认为需要影响其他人。Wwijij

为了对问题有一个直观的了解,下面说明了空间自回归数据生成过程(DGP)如何构成值的模式。对于2个模拟值的格子,白色块代表较高的值,黑色块代表较低的值。

在下面的第一个晶格中,网格值是通过正态分布随机过程(或高斯)生成的,其中为零。rho

随机(高斯)

在下面的下一个晶格中,网格值是通过空间自回归过程生成的,其中已设置为较高的值,例如0.8。 rho在此处输入图片说明


这非常有趣(相关的Geary C也是如此)。这可能接近我的需求。
Suresh Venkatasubramanian

Geary C帮助您了解值如何彼此接近,甚至分布中间的值也是如此。莫兰(Moran)的I帮助您了解非常高的值如何与非常高的值聚集在一起,非常低的值如何围绕非常低的值聚集在一起。因此,也许您是正确的,最简单,最好的方法是Geary'sC。请记住,Geary's C方法是探索性的,不会让您将结果限制在其他因素上。查看此python模块以获取运行Geary C的代码:pysal.org/1.1/library/esda/geary.html
b_dev 2011年

让我再玩这些。如果它似乎可以满足我的要求(并且我认为会做到),那么这似乎是最好的答案。
Suresh Venkatasubramanian

3

这是一个可行的简单想法。正如我在评论中所说,如果您有一个具有强度的网格,为什么不拟合双变量分布的密度?

这是示例图来说明我的观点: 在此处输入图片说明

每个具有的网格点都显示为一个正方形,并根据强度进行着色。在图上叠加的是二元正态密度图的等高线图。如您所见,轮廓线在强度降低的方向上扩展。中心将由二元法线的均值和根据协方差矩阵的强度分布来控制。

为了获得均值和协方差矩阵的估计,可以使用简单的数值优化,以均值和协方差矩阵为参数将强度与密度函数的值进行比较。最小化以获取估计值。

当然,严格来说,这不是统计估计,但至少可以使您了解如何进一步进行。

这是用于重现图形的代码:

require(mvtnorm)
sigma=cbind(c(0.1,0.7*0.1),c(0.7*0.1,0.1))

x<-seq(0,1,by=0.01)
y<-seq(0,1,by=0.01)
z<-outer(x,y,function(x,y)dmvnorm(cbind(x,y),mean=mean,sigma=sigma))

mz<-melt(z)

mz$X1<-(mz$X1-1)/100
mz$X2<-(mz$X2-1)/100

colnames(mz)<-c("x","y","z")

mz$intensity<-round(mz$z*1000)

ggplot(mz, aes(x,y)) + geom_tile(aes(fill = intensity), colour = "white") + scale_fill_gradient(low = "white",     high = "steelblue")+geom_contour(aes(z=z),colour="black")

2

您的模型是二维随机字段,并且您正在尝试估计整数值随机变量的联合分布。您将要假设空间平稳性:即的联合分布与的联合分布相同。特别是,每个单元的边际分布都相同。一个简单的问题是字段的自相关结构。也就是说,给定距离是什么?我们将其表示为一个函数X[i,j]X[i,j](X[i1,j1],...,X[im,jm])(X[i1+k,j1+l]...,X[im+k,jm+l])corr(X[i1,j1],X[i2,j2])d([i1,j1],[i2,j2])ρ(d)。自相关结构的简单模型是,其中是一个常数。ρ(d)=kd1k

“高斯”效应对应于二次距离函数,但您还应考虑许多其他距离函数,例如出租车标准。一旦确定了距离函数和自相关模型的形式,就可以很简单地估计例如通过最大似然。有关更多建议,请查找“随机字段”。ρ d d([i1,j1],[i2,j2])=|i1i2|+|j1j2|ρ(d)


1
“想假设空间平稳性”似乎直接与OP的假设“强度在所有方向上逐渐减小”相矛盾。
whuber

怎么会这样?我建议的自相关结构会出现这种模式。
charles.y.zheng 2011年

1
@charles这是重要的一点:如果确实将这种明显的趋势归因于自相关,那么原则上该过程的另一个独立实现可能会呈现出截然不同的趋势,例如远离中心点的价值增长。由于OP明确阐明并区分了趋势的某些确定性元素(“径向渐缩”)和相关性元素(“对多个网格具有影响力”),因此对此方面的答复可能比对断言的答复更积极地看待。 OP“将要”改变主意。
whuber

我不确定我是否了解空间平稳状态。从表面上看,在特定位置设置一个“逐渐减小的峰值”的想法似乎有些矛盾,但是我显然不了解。
Suresh Venkatasubramanian

1
@charles,由于空间平稳性假设,您描述的模式将出现在每个网格点上。平稳性基本上是说我的所有观点都表现相似。OP并非如此。答案仍然很好,但在这种情况下不合适。
mpiktas 2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.