Questions tagged «clustering»

根据数据相互之间的“相似性”将数据分区为对象的子集,而无需使用诸如类标签之类的现有知识。

2
使用QGIS识别shapefile中x公里内没有其他点的点
这可能是一个幼稚的问题,但作为QGIS的新用户,我一直在努力。 我有一个非常大的shapefile(275,000个点,但是可以将其分成大约10个子区域,以便进行更快的处理)。 我想识别200米之内没有其他点的所有点,然后在文件的字段中用值“ unique”对每个点进行编码。 然后,对于属于本地集群的所有其他点,我想将其编码为“集群”。 实现这一目标后,我想为每个群集随机选择一个,以保留在数据集中,而丢弃其他群集。 目前,我无法完成第1步,因此欢迎您提供任何帮助。

1
空间分析和附近要素的聚类
我正在研究群体动物的行为,并且对标记行为如何受到邻近群体的某些特征的影响感兴趣。我从使用a-LoCoH创建的95%密度等值线绘制了每个组的区域。将一组中每个人的标记绘制为单独的点层。标记行为似乎不是随机的,它们似乎聚集在与相邻组的边界周围。我想调查一下个人在某些团体附近的标记是否比在其他团体附近的标记多,例如,个人在邻近团体之间的标记较少吗?是否有可能表明点聚集在某些要素附近而不是其他要素附近? 可以提供的任何帮助将不胜感激, 戴夫·汉弗莱斯 #####更新 为了演示,下面是四个区域(A,B,C和D)的图像以及A组中两个人的标记位置。A和B组密切相关。C组和D组与A组无关。
11 clustering 

1
使用R从经纬线对中创建点组?
我有一个包含纬度/经度对的数据库,用于标识兴趣点的位置。我想将兴趣点分为10个组。该组在地理位置上应该准确地包含10个点。每个组应具有最小面积。 我已经看过R中的各种实现,但是它们(我都能看到)都不允许您指定确定的集群大小。 我之前曾问过将地图点分组为固定的簇大小吗?但是我认为我的问题不够准确,无法得到很好的答案。 从地理位置上讲 -我想我的意思是小组不应有太多重叠。在我的应用程序中(将人员分配到各个组进行监视),如果每个组的物理区域尽可能小,那将是理想的。 最小面积 -再次尝试将组面积保持为最小。我想这可以量化为将每个小组的面积保持在指定的阈值以下(避免数十个小团体和一个大团体)。

1
从QGIS中的建筑群中生成城市足迹多边形?
我不确定正确的术语是什么,但这是一种常见的制图设计模式。 我想将建筑物区域的轮廓显示为道路和建筑物图层下的填充多边形。 在OpenStreetMap中,有时可以将这些区域设置为landuse = residential。我怀疑这些都是手动跟踪的。 这是一个例子,这是直布罗陀。我手动数字化了此轮廓并将其裁剪到海岸线。“城市足迹”由紫色/粉红色区域组成(此区域已扩展到海洋,然后从OpenStreetMapData裁剪到土地轮廓) QGIS中是否有可用的工具(或其他FOSS GIS工具)可​​从一组建筑物中自动生成这些工具? 我已经尝试过的两种方法... 我尝试了凹面船体插件,但只有一个区域。 我还在从建筑物轮廓提取的节点上尝试了Delauney三角剖分。我怀疑我是否可以抛弃大多边形或顶点之间具有非常锐角的多边形,这可能行得通...

1
桦木算法未按预期聚类
我正在使用scipy-learn Python程序包中的Birch算法,将一组点集中在一个10个一组的小城市中。 我使用以下代码: no = len(list_of_points)/10 brc = Birch(branching_factor=50, n_clusters=no, threshold=0.05,compute_labels=True) 以我的想法,我总是会得到10分。在我的情况下,我有650个要聚类的点,而n_clusters是65个。 但是,我的问题是,如果阈值太低,我最终只能为一个群集分配1个地址,而阈值则稍大一些-每个群集40个地址。 我在这里做错了什么?

2
如何将近点与GPS位置分组?
我是一名IT人员,所以我对预测不了解太多,所以希望您能为我提供帮助。 我已经为Android制作了一个应用程序,该应用程序收集GPS位置,因此我在给定时间具有经度和纬度。我要救那些元素结合在一起接近对方,在相同的物理性大小的地形区域的群体; 问题是我不事先知道这些要点,它们可以来自世界的任何位置。 我的第一个想法(稍微解释一下这个问题)是使用经度和纬度的小数点进行分组。例如,一组将是纬度在35.123和35.124之间,经度在60.101和60.102之间的位置。因此,如果我得到像lat = 35.1235647和lon = 60.1012254598之类的职位,那么这一点将转到该组。 对于笛卡尔2D表示,此解决方案是可以的,因为我的宽度和高度为0.001单位;但是,由于不同纬度下1度经度的大小不同,因此我无法使用此方法。 任何的想法?

1
分层OpenLayers集群
我有一个带有点聚类的OpenLayers映射,但是我想对映射中表示的数据应用更精细的粒度。具体来说,我想根据功能上的属性对群集进行分层(我们将其称为“类别”)。 因此,假设我有五个类别:实际上,我只需要将点与同一类别中的其他点聚在一起。我想这可以通过五个不同的层来完成,但是随着类别的数量增加(此刻我有50多个),这很快变得很麻烦。 有人在OpenLayers上看到过类似的东西吗?

3
如何基于核密度对点进行聚类?
我有一个大型数据集,其中有36k个点代表商业土地用途,每个点都有一个包含平方英尺的字段。我已经对该数据集进行了内核密度分析,生成了一个栅格,显示了整个都市区域内商业平方英尺的密度。我需要将此栅格划分为与局部最大值相对应的区域,我称其为“中心”。我已经确定了中心的位置,现在我需要做以下两件事之一: 使用点聚类工具(例如“围绕类固醇分区”)将点分组到围绕我确定的中心的聚类中。这种方法的问题在于计算量大,如果我尝试使用相异矩阵按大小对点加权,则更是如此。 以某种方式将内核密度栅格(大致类似于地形栅格)划分为每个中心周围的各个“山丘”。但是我想不出什么工具可以做到这一点。 这个问题困扰了我一阵子,我希望我能够在R中执行聚类方法,但是这很耗时,我已经没时间了。有谁知道将密度栅格划分为强度邻域或快速聚类大型数据集的简单方法吗?


1
将地图点分组为固定的簇大小?
我有655个纬度/经度对的数据集,我希望将其分为100个组。一组应具有5-10对,地理上彼此靠近。密集的组应该有更多的点,稀疏的组应该有更少的点。例如,城市分组应较大,农村分组应较小。 是否有建立此类分组的既定算法,还是我必须从头开始设计一个? 我正在使用google maps v3 api来显示此数据,但由于它是固定的数据集,因此我准备进行一些脱机号码处理。

1
自然邻里术语
有时,分析中最困难的部分是知道什么叫什么。 什么是R软件包,但更重要的是,我应该寻求基于房屋价格变化来定义连续的城市社区的术语-基本上是一张地形图,将这些价格变化视为高程(并忽略了房地产人们如何定义社区)。 我不确定这是所谓的“自然邻域确定”还是“空间受限聚类”或仅仅是“分组分析”。

1
比较多边形数据的空间聚类/聚集模式
我有多边形形式的农业数据,我想测试这些数据的空间聚类/空间集聚。 总而言之,我大约有40个变量,可以用不同的方式进行汇总和标准化。标准化的一种方式可以是例如计算每个多边形内的人均生产值。另一种方法是计算每个多边形内每公顷的生产值。 标准化和聚合的所有方式都会产生具有不同空间模式的不同地图:聚类和非聚类。因此,作为我以后分析的基础,我将不识别产生强烈空间聚类的此类聚合/标准化组合。因此,我需要比较汇总和标准化的不同结果。 当然,我可以手动查看地图(请参见下面的示例)。但这是很主观的,只有在某些情况下,您才能清楚地区分。想象一下,对40个变量进行此操作,并假设有8种可能的数据准备方法……所以我宁愿使用一些客观的度量,即空间统计。 我使用R和Arc GIS。有谁知道如何实施这种分析? 下面的示例显示香蕉生产一次不标准化,人均标准化一次。它们看起来非常相似,但是哪一个在空间上更加聚集?

2
空间统计工具:栅格数据的聚类分析
我有一个看似简单的问题,但我找不到使用的明确方法。 我的任务是使用CIESIN的世界网格人口数据集通过矢量凸多边形来界定“城市区域” 该数据集以栅格文件的形式提供了整个世界的人口密度值。正如您已经猜到的那样,问题是密度值变化很大,并且“城市”的定义是相对的。 我尝试使用经典方法,并像密度值是海拔高度一样计算了斜率,但是斜率值也非常不同并且在空间上非常复杂。 我研究了ArcGIS和GeoDa的空间聚类算法,LISA工具(空间协会的本地记录员),但是在非常具体的工具中我却迷失了。其中一些方法仅适用于矢量形状,因此需要重新分类和矢量化(长时间计算)。 您可以帮助我完善要使用的方法和工具集吗?谢谢 !
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.