Questions tagged «large-datasets»

2
寻找用于2亿个点的多边形分析中最快的解决方案[关闭]
我有一个包含2亿个观测值的CSV,格式如下: id,x1,y1,x2,y2,day,color 1,"-105.4652334","39.2586939","-105.4321296","39.2236632","Monday","Black" 2,"-105.3224523","39.1323299","-105.4439944","39.3352235","Tuesday","Green" 3,"-104.4233452","39.0234355","-105.4643990","39.1223435","Wednesday","Blue" 对于每组坐标(x1 / y1和x2 / y2),我想分配它所属的美国人口普查区或人口普查区(我在此处下载了人口普查区TIGER形状文件:ftp : //ftp2.census.gov/ geo / tiger / TIGER2011 / TRACT / tl_2011_08_tract.zip)。因此,我需要为每个观察做两次多边形点操作。比赛必须非常准确。 最快的方法是什么,包括花时间学习软件?我可以访问具有48GB内存的计算机,以防万一这可能是一个相关的限制。 有多个线程建议使用PostGIS或Spatialite(Spatialite看起来更易于使用-但它与PostGIS一样有效吗?)。如果这些是最佳选择,是否必须填充空间索引(RTree)?如果是这样,怎么做(例如使用人口普查道Shapefile)?对于包含示例代码(或示例代码的指针)的任何建议,我将不胜感激。 我的第一次尝试(在找到此站点之前)包括使用ArcGIS对美国人口普查数据块的数据(100,000点)的子样本进行空间连接(仅x1 / y1)。在我终止该过程之前,花了5个多小时。我希望可以在不到40小时的计算时间内对整个数据集实施的解决方案。 很抱歉提出之前提出的问题-我已经阅读了答案,但不知道如何实施建议。我从未使用过SQL,Python,C,并且以前只使用过一次ArcGIS-我是一个完整的初学者。



4
如何概括海岸线?
我有大量的数据点,它们基本上代表了世界的海岸线。我不知道确切的分辨率,但我会说它在5-10m附近。 想象一组代表锯齿状海岸线的点。在1m分辨率下,我们可以看到所有细节,并且需要50个数据点才能正确表示海岸,但是,在10km分辨率下,海岸看起来像一条直线,我们只需要2个点。 我正在编写一个映射应用程序,它将需要数据从“全行星”分辨率缩放到“街道”分辨率。我需要一些帮助来降低我的数据点的分辨率,以及随后获得更大分辨率的数据量。 我一直在阅读有关Vector-Tiling的信息,并认为这将是最好的解决方案(我已经在做类似的事情了),但是,在低分辨率下,我的数据集仍然很大,这意味着花费[相对]长的时间时间,高分辨率的速度很快,因为“有效”数据集很小(整个子集)。 我试图确定如何获取大型数据集并减小其规模,以使“全行星”视图的图块数据处于可管理的大小。如何从较大的完整数据集创建图块子数据集? 我很高兴使用工具,但我想自己做,以了解它是如何完成的。

1
50 Gb DEM需要集群处理资源吗?
为了“出租”,我必须从我大学的计算中心指定所需的计算资源。我几乎不知道该问些什么。 考虑以下信息,您可以提出一些建议吗? 这是计算集群:“一个10刀片服务器,每个刀片由2个四核Intel Xeon 2.33 Ghz CPU和16 GB内存组成,总共80个CPU和160 GB内存。一个2 TB磁盘系统上的帐户。运行64位Linux” 使用无损压缩,原始数据是一个50gb的tiff文件。在某个时间点,我将处理多个(最多十个)50gb的文件。 我会使用GDAL,Python脚本,甚至C ++脚本。如果允许,我将使用Grass GIS和Saga GIS之类的软件。同样,R语言带有空间库。我将得出通常的地形参数,尝试将面向对象的算法应用于特定特征(地形)的提取,并使用统计分析进行描述和建模。
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.