比较两个空间点模式?


41

如果我在同一地理区域内有两个点模式分布,该如何视觉和定量地比较这两个分布?

还要假设我在一个较小的区域内有许多点,因此仅显示一个引脚图是没有信息的。

Answers:


32

与往常一样,它取决于您的目标和数据的性质。对于完全映射的数据,强大的工具是Ripley的L函数,它是Ripley的K函数的近亲。许多软件都可以对此进行计算。现在,ArcGIS可能会这样做。我还没检查 CrimeStat做到了。所以,做GeoDa和R。与相关地图一起使用的示例出现在

Sinton,DS和W.Huber。在美国绘制波尔卡及其种族遗产的地图。地理杂志第一卷 106:41-47。2007年

这是Ripley K的“ L函数”版本的CrimeStatic屏幕截图:

Ripley K函数的屏幕截图

蓝色曲线记录了非常非随机的点分布,因为它不位于零周围的红色和绿色带之间,这是随机分布的L函数的蓝色迹线应位于的位置。

对于采样数据,很大程度上取决于采样的性质。史蒂文·汤普森(Steven Thompson)的教科书《采样》(Sampling)是一个很好的资源,可供那些数学(数学)和统计领域(但并非完全没有)的人使用。

通常情况下,大多数统计比较都可以通过图形方式进行说明,而所有图形比较都对应于或建议有统计对应项。因此,您从统计文献中得到的任何想法都可能会建议一些有用的方法来映射或以图形方式比较两个数据集。


感谢您的Dixon论文,它似乎是非常有用的资源。我从未遇到过空间交互和多变量模式的随机标记之间的区别。我将需要阅读。
Andy W 2010年

+1好资源。因此,“ 90%的鱼在10%的湖中”的古老捕鱼论据真的取决于采样方法吗?
Kirk Kuykendall,2010年

@Kirk对于我们许多人来说,0%的鱼在我们实际上设法到达的10%的湖中!
ub

14

注意:以下是根据胡伯尔的评论编辑的

您可能要采用蒙特卡洛方法。这是一个简单的例子。假设您要确定犯罪事件A的分布在统计上是否类似于B的分布,您可以将A和B事件之间的统计量与这种措施的经验分布进行比较,以随机重新分配“标记”。

例如,给定A(白色)和B(蓝色)的分布,

在此处输入图片说明

您可以将标签A和B随机重新分配给组合数据集中的所有点。这是单个模拟的示例:

在此处输入图片说明

重复多次(例如999次),对于每次模拟,您都将使用随机标记的点计算统计信息(在此示例中为平均最近邻居统计信息)。后面的代码段在R中(需要使用spatstat库)。

nn.sim = vector()
P.r = P
for(i in 1:999){
  marks(P.r) = sample(P$marks)  # Reassign labels at random, point locations don't change
  nn.sim[i] = mean(nncross(split(P.r)$A,split(P.r)$B)$dist)
}

然后,您可以以图形方式比较结果(红色垂直线是原始统计数据),

hist(nn.sim,breaks=30)
abline(v=mean(nncross(split(P)$A,split(P)$B)$dist),col="red")

在此处输入图片说明

或数值上。

# Compute empirical cumulative distribution
nn.sim.ecdf = ecdf(nn.sim)

# See how the original stat compares to the simulated distribution
nn.sim.ecdf(mean(nncross(split(P)$A,split(P)$B)$dist)) 

请注意,平均最近邻居统计信息可能不是解决您问题的最佳统计方法。诸如K函数之类的统计信息可能会更具有启发性(请参阅胡布的答案)。

可以使用Modelbuilder在ArcGIS中轻松实现以上内容。循环中,将属性值随机重新分配给每个点,然后计算空间统计量。您应该能够将结果汇总到表格中。


2
您可能要考虑置换测试,而不是内核密度方法Manny。零假设是蓝色和白色标签与点无关。要对此进行测试,请采用适合于邻域的统计信息(例如,沿着街道行驶的蓝点和白点之间的平均最近距离)。将颜色随机分配给所有点,并保持相同数量的蓝色和白色,然后重新计算统计量。重复多次以估计统计的零分布。将统计信息的实际值参考此分布以获取p值。
ub

谢谢胡伯。我从未想到将其视为明显的问题。我更新了我的答案以反映这种方法。但是,我不清楚我的原始方法(即使用核密度网格生成随机点)为何导致不同结果的原因。实际上,它(我的原始解决方案)没有如实反映A和B都来自类似过程的事实。这是因为内核密度方法没有利用点数据提供给我们的细节吗?
MannyG '01年

1
内核密度具有很小的任意性(与半角的选择有关)。这可以有所作为。它也从实际发生的事情中删除了:有一个潜在的过程产生点;您会看到该过程的一种实现;你做的KDE ; 然后您从该KDE中获得新的认识。实际上,您只是在复制新配置,就像观察到的单个配置一样。在置换方法中,两个分布相同的零假设证明对标记进行置换是正确的:这是直接而有效的。
Whuber

1
感谢您的输入,我将在有更多时间的时候给出更完整的评论。最好注意这个R代码(您甚至在答案中提到了R代码吗?)并且它利用了spatstat程序包中的函数。
Andy W

2
+1,利用像这样的置换测试的好处之一是:1)受地理编码器的特殊性(在大多数情况下,犯罪数据的地址或地址范围)的限制,与完全空间随机性相比,评估点模式的效果不佳很有道理。2)这样的置换测试避免了边缘效应的问题。当然,这些都是笼统的概括,但是我认为可以将这种框架推广到评估许多不同类型的点模式统计数据。
安迪W

4

您可能想查看CrimeStat。

根据网站:

CrimeStat是由Ned Levine&Associates开发的一项用于分析犯罪事件位置的空间统计程序,该程序由国家司法学院提供资助(拨款1997-IJ-CX-0040、1999-IJ-CX-0044, 2002-IJ-CX-0007和2005-IJ-CX-K037)。该程序基于Windows,可与大多数桌面GIS程序接口。目的是提供补充统计工具,以协助执法机构和刑事司法研究人员进行犯罪绘图工作。全球许多警察部门以及刑事司法和其他研究人员都在使用CrimeStat。最新版本是3.3(CrimeStat III)。


2

一种简单而快速的方法是创建热图和这两个热图的差异图。相关:如何建立有效的热图?


3
不幸的是,对两个插值图或平滑图进行差分往往会告诉您有关插值或平滑方法的信息,而不是数据:-(.。如果必须进行插值,请务必做得好(例如,在执行EDA和变异函数后要进行krige),并且只需对其中一个数据集进行插值即可,您可以将一组中的实际数据与另一组数据集进行插值比较,从而消除了比较两个插值图的一半错误。请注意,插值对多种数据均无效,并且平滑处理不适合其他类型的数据。
whuber

我同意这种方法不适用于多种输入数据。我认为在分析点密度模式时可以给人留下很好的第一印象。
昏暗

毫无疑问,当插值是由专家进行并明智地解释时,您是正确的。
ub

2

假设您已经阅读了有关空间自相关的文献。通过工具箱脚本,ArcGIS提供了多种指向和点击工具来帮助您完成此任务:空间统计工具->分析模式

您可以向后工作-找到一种工具并查看所实现的算法,以查看它是否适合您的方案。有时我在研究土壤矿物发生的空间关系时使用了莫兰指数。


2

您可以在许多统计软件中运行双变量相关性分析,以确定两个变量之间的统计相关性水平和显着性水平。然后,您可以通过使用chloropleth方案映射一个变量,并使用刻度符号映射另一个变量来备份统计结果。覆盖后,您可以确定哪些区域显示高/高,高/低和低/低空间关系。此演示文稿有一些很好的例子。

您也可以尝试一些独特的地理可视化软件。我非常喜欢CommonGIS用于这种类型的可视化。您可以选择一个社区(您的示例),所有有用的统计数据和图表都将立即可供您使用。它使对多变量映射的分析变得非常轻松。


2
这些是不错的主意,但是我注意到您引用的示例是成功的,因为这些属性对应于常见的功能集。在当前问题中,要素具有不同的位置,并且这些位置是随机变量(例如,不是固定的管理单位)。这些都是重要的复杂性,因为现在我们需要找到一些有意义的过程来将一个位置的值与其他位置的值相关联,并且我们需要应对这些位置本身的随机性。
whuber

感谢您的澄清!我误读了OP,并认为它是共享位置/地理范围的两个自变量(例如DA / CT等)
Michael Markieta 2012年

1

平方分析对此非常有用。这是一种GIS方法,能够突出显示和比较不同点数据层的空间模式。

可在http://www.nccu.edu/academics/sc/artsandsciences/geospatialscience/_documents/se_daag_poster.pdf上找到量化多点数据层之间空间关系的方差分析的概述 。


1
(1)链接是404(这就是为什么我们要求答案包括所有链接的摘要的原因)。(2)平方分析如何精确地比较两点分布
ub

(1)该链接现在可能有效。(2)平方分析将给定区域划分为大小适当的相等大小的单位。然后,它使用概率分析来确定每个正交图中各点的实际频率与每个频率的期望值。在ArcMap的空间分析器扩展中,使用点密度命令和区域统计作为表格工具,除了可以汇总这些点要素类以进行回归分析外,我们还可以突出显示高密度点位置附近的区域。

您已经描述了点分布单变量分析的过程。可以对其进行调整(通过评估正交相关性)以比较两个过程的共现程度,但存在两个明显的局限性。首先,它没有研究过程之间的关系与距离的关系。第二,通过分箱在样方点失去动力。断电意味着您可能无法识别重要的模式,否则意味着您需要收集更多数据才能实现调查目标。
ub

我已经将此“过程”用于点分布的多元分析。尽管这确实意味着功率的损失,但它还提供了一种在视觉上和定量上比较处于唯一聚集级别的两个点模式分布的方法(此处是针对原始问题的解决方案)。

我希望您在我们网站上阅读的内容能激发您将来考虑使用其他方法的可能性:它们将增强您充分利用数据和有限研究资源的能力。
ub
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.