为什么在GAM中包含纬度和经度会引起空间自相关?


60

我已经制作了用于毁林的广义加性模型。为了说明空间自相关,我将经度和纬度作为平滑的交互项(即s(x,y))包括在内。

我以阅读许多论文为基础,这些论文的作者说:“要考虑空间自相关,将点的坐标作为平滑项包括在内”,但是这些都从未解释过为什么会这样解释。真令人沮丧。我已经阅读了所有可以在GAM上找到的书籍,以期找到答案,但是大多数书籍(例如,通用加性模型,R的简介,SN Wood)只是在不加解释的情况下触及了该主题。

如果有人可以解释为什么将纬度和经度帐户包含在空间自相关中,以及“帐户”的真正含义,我真的很感激-将其包含在模型中是否足够简单,或者您应该将模型与s(x,y)in和没有模型?术语解释的偏差是否表示空间自相关的程度?


如果是相关的,我在R.使用的“砰”功能从“mgcv”包
gisol

另外,我的空间自相关使用莫兰一测试
gisol


3
给定此处的答案,我们可能会将其他Q @Macro链接标记为该链接的副本,以便遇到该链接的人在此处看到“答案”,尤其是胡扯。
加文·辛普森

+1 @GavinSimpson-顺便说一句,请注意,您确实有权投近票,足够多的票数将导致两个问题合并。
2012年

Answers:


38

任何统计模型中的主要问题是构成任何推理程序基础的假设。在您描述的模型中,假设残差是独立的。如果它们具有一定的空间相关性,并且未在模型的词性部分中进行建模,则该模型的残差也将显示出空间相关性,换句话说,它们将在空间上自相关。例如,这种依赖性将使从GAM中的测试统计信息产生p值的理论无效。您无法信任p值,因为它们是在假设独立性的情况下计算的。

您可以使用两个主要选项来处理此类数据:i)在模型的系统部分中对空间依赖性进行建模,或ii)放松独立性的假设并估计残差之间的相关性。

i)试图通过在模型中包括平滑的空间位置来进行尝试。ii)通常需要在模型拟合期间使用广义最小二乘法等程序估算残差的相关矩阵。这两种方法对空间依赖性的处理效果如何,将取决于空间依赖性的性质和复杂性以及建模的难易程度。

总而言之,如果您可以对观测值之间的空间依赖性进行建模,则残差更有可能是独立的随机变量,因此不会违反任何推论过程的假设。


感谢您的明确回答加文。是什么使空间自相关与模型中未包含的任何梯度根本不同?假设您的研究区域位于倾斜的山坡上,并且感兴趣的物种更喜欢低生境而不是高生境。如果未在模型中包含高程,则会在残差中留下结构,不是吗?是否简单地忘记了或不考虑空间自相关?(PS也许这是一个糟糕的例子,因为包含lat,long也会造成这种影响)。
gisol 2012年

4
是。我怀疑在这些示例中,您所关注的是空间分量,因此是通过纬度/经度进行了显式建模,还是空间分量是一个令人讨厌的项,但是需要建模以保留残差iid。通过不同的变量(例如,评论中的海拔)更好地对组件进行建模,然后将使用该变量的平滑度代替空间位置。
加文·辛普森

1
为什么要平滑?“平滑”到底是什么意思?
朱利安(Julian)

1
@Julian响应的值相对于2个空间坐标平滑。换句话说,空间效应被估计为平滑的二维函数。所谓平滑,是指通过样条的平方二阶平方求出的摆动度。选择摆动来平衡模型的拟合度和复杂性。如果您想知道平滑函数(样条曲线)的形成方式,那么可能值得提出一个具体问题。
加文·辛普森

55

“空间自相关”对各个人而言意味着各种事物。但是,最重要的概念是,在位置处观察到的现象可能以某种确定的方式取决于(a)协变量,(b)位置和(c)在附近位置的值。(在技术定义变化的地方在于要考虑的数据类型,假定的“确定方式”以及“附近”的意思:所有这些都必须经过量化才能继续。)z

为了查看可能发生的情况,让我们考虑一个描述区域地形的空间模型的简单示例。让在点测得的标高ÿ Ž。一种可能的模型是y以某种确定的数学方式取决于z的坐标,我将在这种二维情况下写出z 1z 2。让ε代表观测值与模型之间的(假设上独立的)偏差(通常假定其期望值为零),我们可以写成zy(z)yž(z1,z2)ε

y(z)=β0+β1z1+β2z2+ε(z)

用于线性趋势模型。线性趋势(由所表示的β 2系数)是捕获的想法的一种方式,附近的值Ý Žÿ Ž ',用于Ž接近Ž ',应趋向于接近彼此。我们甚至可以考虑之间的差异的大小的期望值计算该Ÿ žŸ ž 'é [ | ÿβ1β2y(z)y(z)zzy(z)y(z)。事实证明,如果使用稍有不同的差异度量,则数学简单得多:相反,我们计算期望的平方差异:E[|y(z)y(z)|]

E[(y(z)y(z))2]=E[(β0+β1z1+β2z2+ε(z)(β0+β1z1+β2z2+ε(z)))2]=E[(β1(z1z1)+β2(z2z2)+ε(z)ε(z))2]=E[(β1(z1z1)+β2(z2z2))2+2(β1(z1z1)+β2(z2z2))(ε(z)ε(z))+(ε(z)ε(z))2]=(β1(z1z1)+β2(z2z2))2+E[(ε(z)ε(z))2]

该模型没有任何显式的空间自相关,因为其中没有将与附近的值y z '直接相关的项。y(z)y(z)

另一种不同的模型忽略了线性趋势,仅假设存在自相关。一种方法是通过偏差的结构。我们可能会认为ε(z

y(z)=β0+ε(z)

并且,考虑到我们对相关性的预期,我们将为假设某种“协方差结构” 。为了使它在空间上有意义,我们将假设ε zε z '之间的协方差等于E [ ε zε z '],因为ε具有零均值,随着z趋于减小和ž '变得越来越遥远。因为细节无关紧要,所以我们称此协方差为Cεε(z)ε(z)E[ε(z)ε(z)]εzz这是空间自相关。 实际上, y z y z '之间的(通常为Pearson)相关性是C(z,z)y(z)y(z)

ρ(y(z),y(z))=C(z,z)C(z,z)C(z,z).

在这种表示法中,第一个模型的的先前期望平方差为y

E[(y(z)y(z))2]=(β1(z1z1)+β2(z2z2))2+E[(ε(z)ε(z))2]=(β1(z1z1)+β2(z2z2))2+C1(z,z)+C1(z,z)

(假设),因为假定不同位置的ε是独立的。我写了C 1而不是C来表明这是第一个模型的协方差函数。zzεC1C

的协方差从一个位置到另一个位置变化不大时(实际上,通常假定它们是恒定的),该方程式表明y的期望平方差随zz '之间的距离平方增加。增加的实际量由趋势系数确定β 0β 1εyzzβ0β1

让我们看看对于新模型(模型2),的期望平方差是多少:y

E[(y(z)y(z))2]=E[(β0+ε(z)(β0+ε(z)))2]=E[(ε(z)ε(z))2]=E[ε(z)22ε(z)ε(z)+ε(z)2]=C2(z,z)2C2(z,z)+C2(z,z).

同样,这表现在以正确的方式:因为我们计算 应该减少žZ ^ '变得更加分离,在预期的平方差Ÿ的确实去随位置的分离。C2(z,z)zzy

E[(y(z)y(z))2](β1(z1z1)+β2(z2z2))22C2(z,z)Ci(z,z)

ε)。在实践中,模型结合了两种方法。您选择哪种模型取决于您要使用模型完成的工作以及对空间自相关如何产生的看法-是潜在趋势所隐含还是反映了您希望随机考虑的变化。两种方法都不总是正确的,在任何给定的问题中,通常都可以使用两种模型来分析数据,理解现象并预测其在其他位置的值(插值)。


2
+1-很高兴看到处理空间依赖性的两种方法之间的联系。好答案,胡扯!
2012年

非常全面,谢谢。我需要花一些时间来思考所有这一切。
gisol 2012年

6
如果所有的统计写作都属于此类,那么世界上将会有更多思路清晰的应用统计工作。做得漂亮。
Ari B. Friedman 2013年

当我从中得出将简单地将X / Y坐标作为自变量添加到any(?!)模型中时,我是否正确理解了这个答案?
朱利安

1
@Julian:我们正在谈论为相同的数据构造不同的模型。如果将X和Y坐标包括为解释变量,但没有考虑空间相关性,则“空间相关性”对于此模型没有意义,因此我们必须注意“空间相关性”的含义。但是,如果我们理解您的问题,询问将坐标用作解释变量是否与构建明确表示空间相关性的模型一样有效,那么我的回答是“是的,通常是这种情况”。
whuber

0

其他答案很好,我只想添加一些有关“考虑”空间自相关的信息。有时,这种主张是根据“考虑未由协变量解释的空间自相关”的观点提出的。

这可能会误导有关空间平滑度的功能。这并不是像平滑人耐心地等待协变量先出现然后平滑人会擦掉“无法解释的”部分的可能性那样,存在一些有序的队列。实际上,他们都有机会解释数据。

尽管从CAR模型的角度来看,适用于GAM平滑的原理,但这篇论文的标题恰如其分地清晰地呈现了这个问题。

添加空间相关的错误可能会弄乱您喜欢的固定效果

本文中的“解决方案”是对残差进行平滑处理,而不是对空间进行平滑处理。这将使您的协变量能够解释它们的作用。当然,在许多应用中,这并不是理想的解决方案。


-2

空间相关性只是x和y坐标与空间中所得曲面的大小之间的关系。因此,可以根据相邻点之间的函数关系来表示坐标之间的自相关。


1
迈克尔,您好,感谢您的回复。我想我理解您的意思,但这似乎是对空间自相关的描述,而不是对坐标包含的解释;尽管如此,我可能会遗漏您的观点。例如,假设我有2个模型,第一个模型(A)具有一个术语-砍伐森林是距首都的距离的函数,第二个(B)具有距首都的距离以及纬度和经度的函数术语。您介意在这种情况下重申您的答案吗?也许我能更好地理解它。
gisol 2012年

1
我认为,如果模型中没有交互项,则相邻点之间的空间自相关为0。当您有迭代项时,该项将确定空间自相关的值。
迈克尔·切尔尼克

4
@Michael,空间自相关意味着点之间的相关性取决于它们的空间位置。我认为,如果您可以解释为什么使用平滑函数估计(以空间位置作为输入)来说明此问题,则此答案将更有用。从表面上看,平滑函数方法为均值建模,而空间自相关是指协方差结构。我知道平滑过程的协方差函数与平滑函数估计之间存在关系,但如果不建立这种联系,这个答案似乎是不完整的。
2012年

1
@Michael,您肯定会看到使纬度/经度坐标影响均值不同于对空间中两个点之间的相关性进行建模... OP询问如何对空间自相关建模,我认为参数的一部分-准确解释了如何拟合光滑的空间表面(这是坐标中的广义加性模型将执行的操作)对空间自相关建模的方式。gams和协方差函数之间存在某种关系(我不知道足够精确),但是在这里似乎需要吸引这种关系。
2012年

1
@Marco 如果可以的话,我会看一下Simon Wood的,因为它有详细信息,并引用了有关平滑效果的相关文献作为随机效果位。
加文·辛普森
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.