测量2D正方形中点分布的均匀性


11

我有一个2D正方形,里面有一组点,例如1000点。我需要一种方法来查看正方形内的点的分布是否散布(或或多或少均匀分布),或者它们倾向于在正方形内的某个点聚集在一起。

我需要一种数学/统计(非编程)方法来确定这一点。我在Google上搜索,发现了诸如拟合优度,Kolmogorov等之类的东西,只是想知道是否还有其他方法可以实现这一目标。需要这个用于课堂论文。

输入:2D正方形和1000点。输出:是/否(是=均匀分布,否=在某些地方聚集在一起)。


1
您还没有清楚地为您“均匀分配”什么。您是指均匀平铺的2D均匀立方体还是其他东西?例如,点间距均匀的点链?还是一个圆点?从某种意义上说,这些数字也是统一的价差。
ttnphns 2012年

3
@ttnphns在此上下文中,“制服”具有公认的常规含义。它对应于强度恒定的泊松过程。它通常被称为“ CSR”,完全在空间上是随机的
ub

2
@Van您想研究“空间点过程”。好的关键字包括“ Ripley K函数”,“ CSR”和“泊松”。O'Sullivan&Unwin,地理信息分析将为您提供方便的参考Ripley是经典的《空间统计》:它专注于点过程。对于应用程序,请快速查看CrimeStat。如果您感到满意R,可以使用很多工具来完成此任务
ub

Answers:


5

我认为@John进行卡方检验的想法是一种方法。

您可能希望在2-d上安装补丁,但是您想使用1路卡方检验来测试它们;也就是说,单元格的期望值为,其中N是单元格的数量。1000ñ

但是,不同数量的单元格可能会给出不同的结论。

另一种可能性是计算点之间的平均距离,然后将其与该平均值的模拟结果进行比较。这避免了任意数量的单元的问题。

编辑(有关平均距离的更多信息)

对于1000个点,点之间存在成对的距离。这些都可以计算出来(例如,使用欧几里得距离)。这些距离可以平均。10009992

然后,您可以生成N个(大量)1000个点的集合,这些点是均匀分布的。这N个集合中的每一个也具有点之间的平均距离。

将实际点的结果与模拟点进行比较,以获取p值或仅查看其落在何处。


我同意单样本卡方(“协议卡方检验”)是合理的方法之一。但是,您能否详细说明您的“可用距离”建议?我不太明白。
ttnphns 2012年

@ttnphns,在空间分析中使用的是最邻近测试(即Clark和Evans测试)或Ripley'sK。有关示例,请参阅R库spatstatCrimeStat文档。基于模拟的另一种可能性是“扫描”测试,但是这些不是基于平均距离。
Andy W

3

另一种可能性是卡方检验。将正方形划分为大小相等的非重叠面片,并在均匀性假设下将落入面片的点的计数与其预期计数进行比较(如果面片的大小均相等,则面片的期望为total_points / total_patches) ,然后应用卡方检验。对于1000点,9个补丁就足够了,但是您可能希望根据数据的外观使用更多的粒度。


1
我认为您想要的只是拟合优方差法,即比较每个单元格中的实际计数与相等单元格的预期计数之间的拟合度。仅当行取决于列时,使用应变测试不会测试单元格之间是否存在均匀分布。
约翰,

同样,卡方检验只会告诉您在所选单元格中它们是否不一致。它不会告诉您它们是否统一。
约翰,

是的,我的意思是在统一性为零的假设下,将计数与预期计数进行比较,如果不清楚,我表示歉意。您可以将其可视化为表格,以帮助您了解未开始的事情!显然,您仅限于针对所选单元格进行测试,而不是抽象意义上的一致性
Ben Allison 2012年

@John,通常在进行“分散测试”时,通常进行双面测试。如果您真的想偶然发现图案是否比预期的更加均匀,您可以简单地看一下卡方检验是否落在分布的左尾(无论您选择哪种截止值)。
Andy W

安迪(Andy),您应该提供一个详细说明这种契合度测试的两面性的答案。通常情况下,双面测试仅测试两种不同的null替代方法,但仍然无法证明null。您的建议很有趣。
2012年

1

为什么不使用Kolmogorov-Smirnov检验?那就是我要做的,特别是考虑到您的样本量足够大以弥补功效不足。

或者,您可以进行一些模拟。它并不严格,但是它提供了一些有关数据是否均匀分布的证据。


@whuber KS的二维扩展是众所周知的(请参阅此处)。在这种情况下,我们正在研究是否可以从二维联合均匀分布中绘制这1000个绘制(坐标(x,y))-至少这就是我读到的“均匀分布”的方式。@John我可能笨拙地表达了自己(我的母语不是数学也不是英语)。我的意思是,可以使用诸如KS之类的测试来计算确切的p值,而在进行模拟时,p值(或任何您称呼的等效值)只会渐近趋向。


为什么模拟不严格?
约翰,

1
您能否解释一下KS检验(旨在用于假设为连续随机变量的iid结果的实数集)将如何应用于此空间数据集?
ub

@whuber我已经编辑了答案,尝试为您的答复提供答案。最好。
2012年

@John我试图解释我的意思。最好。
abaumann
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.