回归模型与空间自相关


15

我已经使用OLS和GWR来验证两个不同数据库之间的依赖关系。GWR的残差平方为0.82,因此使其成为用于确定两个数据集之间关系的正确回归模型。

我想知道的是,GWR是局部回归,OLS是全局回归,应在何时何地使用?

另外,如果GWR模型的Moran's I是Random,这真的意味着什么?

Answers:


13

这些程序是什么

尽管OLSGWR在统计表述方面有很多共同之处,但它们用于不同的目的:

  • OLS 正式为特定种类全局关系建模。以最简单的形式,数据集中的每个记录(或案例)都由实验者设置的值x (通常称为“自变量”)和要观察的另一个值y (“因变量”)组成。 )。OLS假设y 大约为以特别简单的方式与x相关:即存在(未知)数字“ a”和“ b”,对于实验者可能感兴趣的所有x值,a + b * x将是y的良好估计。“好的估算值”承认y的值可以并且将会与任何这样的数学预测有所不同,因为(1)它们确实可以做到-性质很少像数学方程式那么简单-(2)y是用一些错误。除了估计a和b的值外,OLS还可以量化y的变化量。这使OLS能够确定参数a和b 的统计显着性。

这是OLS拟合:

在此处输入图片说明

  • GWR用于探索本地关系。在这种设置下,仍然有(x,y)对,但现在(1)通常可以同时观察到x和y(实验者无法事先确定)和(2)每条记录都有一个空间位置 z 。对于z的任何位置(即使有可用数据也不一定是z),GWR将OLS 算法应用于相邻数据值,以y = a(z)+ b(z)的形式估算y和x之间的特定位置关系。 *X。符号“(z)”强调系数a和b 在位置之间变化。 因此,GWR是本地加权平滑器的专用版本其中仅使用空间坐标来确定邻域。它的输出用于建议 x和y的值如何在空间区域内变化。值得注意的是,通常没有理由选择在方程式中“ x”和“ y”中哪个应扮演自变量和因变量的作用,但是当您切换这些角色时,结果将改变!这是应将GWR视为探索性的多种原因之一-一种视觉和概念上的帮助来理解数据-而非正式方法。

这是局部加权的平滑。 请注意,它如何遵循数据中明显的“摆动”,但并不能完全通过每个点。(通过更改过程中的设置,可以使其通过点,或跟随较小的摆动,这与通过更改过程中的设置使GWR或多或少准确地遵循空间数据一样。)

劳斯

直观地,将OLS认为是适合(x,y)对散点图的刚性形状(例如直线),而GWR则允许该形状任意摆动。

在他们之间选择

在目前的情况下,尽管不清楚“两个不同的数据库”的含义是什么,但是似乎似乎不适合使用OLS或GWR来“验证”它们之间的关系。例如,如果数据库在相同的一组位置代表相同数量的独立的观察,然后(1)OLS可能是不适当的,因为这两个 X(在一个数据库中的值)和y(在其他数据库中的值)应(2)GWR非常适合探索 x和y之间的关系,但是它不能用于验证一切:保证找到关系,无论如何。此外,如前面所指出,“两个数据库”的对称的作用表明,任一可被选择为“x”和另一个作为“Y”,从而导致这些都保证以不同的两种可能的GWR结果。

这是相同数据的局部加权平滑,颠倒了x和y的作用。 将此与上一个图进行比较:注意整体拟合的陡度以及细节之间的差异。

最低2

需要不同的技术来确定两个数据库正在提供相同的信息,或者评估它们的相对偏差或相对精度。技术的选择取决于数据的统计属性和验证的目的。作为示例,通常将使用校准技术来比较化学测量的数据库。

解读莫兰的我

很难说“ Moran's I for GWR模型”的含义。我猜想可能已经为GWR计算的残差计算了Moran's I统计量。(残差是实际值与拟合值之间的差。) Moran's I是空间相关性的整体度量。如果太小,则表明y值与GWR与x值拟合之间的变化几乎没有空间相关性。当GWR被“调谐”到数据时(这涉及确定什么是真正构成任何点的“邻居”),由于GWR(隐式)利用了x和y之间的任何空间相关性,因此残差中的空间相关性很低。其算法中的值。


因此,在GWR中,您说对变量进行反转会得出不同的结果,但对残差平方的求和却并不大,这是否意味着它们之间的关系更牢固?
Sam007

Sam,残差平方本身并不表示两者之间存在更强的关系。特别是,当您颠倒x和y的角色时,您甚至无法比较残差平方-它们经常以不同的单位表示。(例如,一个可能是温度的平方,另一个可能是降雨量的平方:您如何确定哪个较低?)您可以通过在模型中包括更多参数来始终减少残差平方,即使它们没有意义。 :朝这个方向走得太远称为“过度拟合”。从某种意义上说,空间范围短的GWR是一种过拟合的形式。
whuber

2
Sam,您可能会想到R平方:这是一个比率。(我理解“残差平方”正好是它所说的:残差平方和。大多数统计软件都会将此统计信息与R平方值一起报告。)但是比较不同的模型(例如以x表示y,以y表示x),以R平方表示:见stats.stackexchange.com/questions/13314。因为GWR是探索性的,所以它非常适合查找模式和假设关系,但是(无论如何通常如此)它不适合证实要求。
ub

1
哇,那真的是所有统计数据。实际上,我发现很难的原因是因为我在统计方面的背景非常差,所以我仅依靠模型结果,而没有了解它们的确切含义。R2上的大多数东西都让我头疼。您能推荐一些不错的初学者书籍来帮助我入门并建立统计基础吗?
Sam007


3

Rsquared不应用于比较模型。使用对数或AIC值。

如果您在GWR中的残差是随机的,或者我想似乎是随机的(不是统计学上的信号),则可能是您具有指定的模型。它至少表明您没有相关的残差,并且应该建议您没有任何遗漏的变量。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.