寻找用于2亿个点的多边形分析中最快的解决方案[关闭]
我有一个包含2亿个观测值的CSV,格式如下: id,x1,y1,x2,y2,day,color 1,"-105.4652334","39.2586939","-105.4321296","39.2236632","Monday","Black" 2,"-105.3224523","39.1323299","-105.4439944","39.3352235","Tuesday","Green" 3,"-104.4233452","39.0234355","-105.4643990","39.1223435","Wednesday","Blue" 对于每组坐标(x1 / y1和x2 / y2),我想分配它所属的美国人口普查区或人口普查区(我在此处下载了人口普查区TIGER形状文件:ftp : //ftp2.census.gov/ geo / tiger / TIGER2011 / TRACT / tl_2011_08_tract.zip)。因此,我需要为每个观察做两次多边形点操作。比赛必须非常准确。 最快的方法是什么,包括花时间学习软件?我可以访问具有48GB内存的计算机,以防万一这可能是一个相关的限制。 有多个线程建议使用PostGIS或Spatialite(Spatialite看起来更易于使用-但它与PostGIS一样有效吗?)。如果这些是最佳选择,是否必须填充空间索引(RTree)?如果是这样,怎么做(例如使用人口普查道Shapefile)?对于包含示例代码(或示例代码的指针)的任何建议,我将不胜感激。 我的第一次尝试(在找到此站点之前)包括使用ArcGIS对美国人口普查数据块的数据(100,000点)的子样本进行空间连接(仅x1 / y1)。在我终止该过程之前,花了5个多小时。我希望可以在不到40小时的计算时间内对整个数据集实施的解决方案。 很抱歉提出之前提出的问题-我已经阅读了答案,但不知道如何实施建议。我从未使用过SQL,Python,C,并且以前只使用过一次ArcGIS-我是一个完整的初学者。