衡量具有二进制值的点的空间自相关的合适统计量是什么?


9

我正在尝试确定点数据集中的空间自相关级别。我感兴趣的属性是二进制的(存在/不存在一个物种),Moran's I不适合该属性。另一方面,通常推荐用于二进制或分类数据的联合计数统计信息显然不适用于点数据。简而言之,问题是:当感兴趣的属性为二进制时,什么合适的统计量用于测量点的全局和/或局部空间自相关?

Answers:


4

您认为Join-Counts统计不适用于二进制数据的说法是不正确的。只是如何指定空间权重矩阵(Wij)的问题。像在Morna's-I中一样,您不能在这种类型的分析中使用距离矩阵,但是,可以使用距离截止来计算适当的权变二进制矩阵。您可以创建这种类型的空间权重矩阵,也可以在R spdep库中进行Join-Count分析。请参见“ joincount.test”和joincount.mc(用于蒙特卡洛置换测试)功能。


谢谢,杰弗里。联合计数显然是获取二进制数据的方法,但是我看到了一个建议(现在不记得在哪里),联合计数仅适用于面积(而不是点)数据。对于我来说,尚不清楚为什么您不能使用距离阈值来创建权重矩阵,而不能使用联合计数,但是我无法在一些粗略搜索中找到此类示例。您可以为这种使用提供参考吗?
user13706 2013年

这是有关点模式分析的大量文献。Join-Counts统计数据并不常用,因此在当前文献中并不十分普遍。我会回到Diggle或Geits的早期工作。您对量化二项式数据中的空间依赖性的目标是什么?您不能在混合效果或CAR / SAR模型等中使用Join-Counts系数。在占用模式调整(这里是一些一些有趣的背景en.wikipedia.org/wiki/Scaling_pattern_of_occupancy
杰弗里·埃文斯

1
RandomForest是一个非参数模型,因此不受自相关的影响。该模型的关注点是自举集合内的相关性。通常,自相关会在您的数据中产生“冗余”,从而在Bootstrap中造成偏差。我将根据您的协变量的条件分布进行研究。我在此处有R代码“ R-按分组因子的图概率密度”:conserveonline.org/workspaces/emt/documents/all.html
Jeffrey Evans

1
哦,我不会将RF概括为黑匣子。实际上并非如此。这种模式通常被称为“灰色盒子”。由于自相关主要因素会影响惯常方法中的IID假设,因此可以肯定地说,没有违反非参数假设。
Jeffrey Evans

1
我们正在概括“非参数”统计。这包括许多方法。如果回头看Brieman的2001年证明,您会发现RF并不具有独立性。Hastie的书《统计学习的要素》为与机器学习方法相关的样本理论提供了扎实的统计背景。如前所述,关注的是整体中的相关性,这肯定是由伪复制/自相关引起的。但是,这不是RF中的模型假设。但是,如果足够严重,偏差或过度拟合的净效果显然是相同的。
杰弗里·埃文斯

0

二进制数据是空间自相关的正常用例。我认为大多数空间分析书都会谈论它。该文档可能会有所帮助。


1
参考资料的第一页强调“数据位置就是区域 ”,因此看起来它根本不适用于点数据。
whuber

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.