如何找到不同类型事件之间的关系(由事件的2D位置定义)?


9

我有同一时间段内发生的事件的数据集。每个事件都有一个类型(很少有不同类型,少于十个)和一个位置,以2D点表示。

我想检查事件类型之间或类型与位置之间是否存在任何关联。例如,也许类型A的事件通常不会发生,而类型B的事件却不会发生。也许在某些地区,大多数是C型事件。

我可以使用哪种工具来执行此操作?作为统计分析的新手,我的第一个想法是在此数据集上使用某种PCA(主成分分析),以查看每种类型的事件是否具有自己的成分,或者某些事件是否共享相同的成分(即相关的成分)?

我不得不提到,我的数据集约为500'000点,因此使处理起来有些困难。(x,y,type)

编辑:如下面的答案和评论中所述,方法是将此模型建模为标记点过程,然后使用R来完成所有繁重的工作,如本研讨会报告中的详细说明:http:// /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html


这是栅格数据集,例如(处理后的)遥感图像,还是不规则数据集?
ub

好吧,我想您会称其为不规则行为:它是特定月份在英国发生的犯罪记录,可在以下位置找到:Police.uk/data
Wookai 2011年

@Wookai在一个月内在英国犯下了500,000,000起犯罪?新闻界是否曾报道无政府状态降落在不列颠群岛上,只是最后才在警察档案中透露?:-)我几乎可以相信这个数字的1/100。
ub

哇,我真的很抱歉这个“错别字”;)!实际上,它减少了1000倍,减少了50万次犯罪(算上“车辆犯罪”,例如,快票等)。
Wookai 2011年

1
是的,R看起来很成功!我找到了一个有关R的spatstat模块的研讨会的非常完整的报告,该报告正是我所寻找的:csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html
Wookai

Answers:


3

您描述的数据类型通常称为“标记点模式”,R具有用于空间统计的任务视图,该视图为此类分析提供了许多很好的程序包,其中大多数可能无法处理您所需要的庞大数据有:(

例如,也许类型A的事件通常不会发生,而类型B的事件却不会发生。也许在某些地区,大多数是C型事件。

这是两种截然不同的问题:第二种是关于一种标记/事件的定位。如果您有兴趣发现聚类(某类事件趋向于聚集在一起)或排斥(某类事件趋于分离)的模式,则在这种情况下要寻找的流行词是fe强度估计或K函数估计。第一个询问不同类型事件之间的相关性。通常使用标记相关函数进行测量。

我认为对数据进行二次采样以获得更易处理的数据大小是危险的(请参阅@hamner的回复评论),但是也许您可以汇总数据:将观察窗口划分为可管理的相等大小的单元格数目,并在其中列出事件计数每。然后,通过其中心位置和10个标记类型的10个计数向量来描述每个单元格。您应该能够在此聚合过程中将标准方法用于标记点过程。


我熟悉标记过程和一些相关的理论工具,我之前应该已经想到过。非常感谢您的关键字,您可能对此有一些建议吗?也感谢聚合的想法,我有一个类似的想法,将尝试做到这一点。
Wookai 2011年

2
彼得·迪格勒(Peter Diggle)撰写了《基于模型的地统计》。他还可以在此页面上对Lancashire犯罪数据进行分析:lancs.ac.uk/staff/diggle/MADE,可能会给您一些好主意。
fabians 2011年

1

首先,数据集的大小。我建议获取数据集的较小且易于处理的样本(通过随机选择N个数据点,或通过随机选择XY平面中的几个相对较小的矩形并获取该平面内的所有点),然后将分析技术应用于此子集。一旦确定了可行的分析形式,便可以将其应用于数据集的较大部分。

PCA主要用作降维技术。您的数据集只有三个维度(其中一个是分类维度),因此我怀疑它是否适用于此。

尝试与Matlab或R一起使用,以可视化在XY平面中分析的点(如果使用整个数据集,则显示其相对密度),无论是针对单个类型还是组合在一起的所有类型,并查看可见的图案。这可以帮助指导进行更严格的分析。


1
是否合适取决于您对数据生成过程的了解或假设。如果数据不是同质的,则按区域对数据进行二次采样(即在某个预定义的较小窗口中获取所有点)可能很危险(因为使用其他窗口会改变您的结论)。采样数据而不考虑训练集的位置会“变薄”观察到的过程,并使您可能想得出的结论无效,例如标记或聚类/排斥过程之间的相关范围。
fabians 2011年

是的,我知道PCA是用于降维的,这就是为什么我对如何将其应用于数据集感到困惑的原因。想法是查看每种事件类型是否具有自己的“方向”,或者是否某些“共享相同的方向”。但是我想我只是在想关联。
Wookai 2011年
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.