Questions tagged «big-data»

2
简化大数据的Python代码
我有Python代码,旨在通过以下工作流程获取点shapefile: 合并点 积分点,使彼此之间1 m之内的任何点成为一个点 创建要素图层,在其中选择z <10的点 缓冲点 多边形到栅格的1m分辨率 重新分类,其中1-9 = 1;NoData = 0 每个shapefile大约有250,000至350,000个点,覆盖〜5x7 km。用作输入的点数据表示树的位置。每个点(即树)都有一个关联的“ z”值,该值代表冠半径,并在缓冲过程中使用。我的目的是在单独的过程中使用最终的二进制输出来生成描述遮篷的栅格。 我对四个shapefile进行了测试,生成了700MB的栅格,耗时35分钟(i5处理器和8GB RAM)。鉴于我将需要在3500个shapefile上运行此过程,因此,我希望获得有关简化该过程的任何建议(请参阅随附的代码)。一般来说,处理地理数据的最佳方法是什么?更具体地说,对代码或工作流程是否有任何有助于提高效率的调整? 编辑: 地理处理任务的时间(占总数的百分比): 合并= 7.6% 积分= 7.1% Lyr = 0的特征 缓冲= 8.8% 多边形转栅格= 74.8% 重新分类= 1.6% # Import arcpy module import arcpy # Check out any necessary licenses arcpy.CheckOutExtension("spatial") # Script arguments temp4 …

2
将大型数据集导入PostGIS的最佳方法是什么?
我必须将大型Shapefile文件(> 100万条记录)导入PostGIS,而且我一直在想最好的方法。 在我的问题中,我故意使用“ hack”一词,而不是工具,因为我认为这与哪个工具无关,而与要使用的步骤集或配置设置有关。到目前为止,我已经尝试了SPIT插件(QGIS),shp2pgsql Postgis工具和GDAL ogr2ogr工具。您可以在这篇文章中查看我的完整评论。到目前为止,当处理大型数据集时,我发现它们都真的没有响应。我想知道是否有人遇到过类似的问题,以及您是否可以分享有关此方法的一些信息。

1
如何利用NumPy数组优化大数据地理处理?
我对学习如何利用NumPy数组优化地理处理感兴趣。我的大部分工作都涉及“大数据”,其中地理处理通常需要几天的时间才能完成某些任务。不用说,我对优化这些例程非常感兴趣。ArcGIS 10.1具有许多可通过arcpy访问的NumPy函数,包括: NumPyArrayToFeatureClass(arcpy.da) RasterToNumPyArray(arcpy) TableToNumPyArray(arcpy.da) 出于示例目的,假设我想利用NumPy数组优化以下处理密集型工作流程: 这里的总体思想是,有大量的基于矢量的点在矢量和基于栅格的操作中移动,从而生成二进制整数栅格数据集。 如何合并NumPy数组以优化此类工作流程?

2
在ArcGIS中优化Multcore处理的方法
我对学习方法有兴趣,以充分利用台式计算机上可用的多核处理能力。Arc指出,后台地理处理允许用户利用多个核心,但是,任务本质上必须排队等待上一个任务完成。 是否有人在Arc / Python中开发了并行或多线程地理处理方法?是否存在阻止单个任务进行多核处理的硬件瓶颈? 尽管不是地理处理示例,但我在Stackoverflow中找到了一个有趣的示例,引起了我的兴趣: from multiprocessing import Pool import numpy numToFactor = 976 def isFactor(x): result = None div = (numToFactor / x) if div*x == numToFactor: result = (x,div) return result if __name__ == '__main__': pool = Pool(processes=4) possibleFactors = range(1,int(numpy.floor(numpy.sqrt(numToFactor)))+1) print 'Checking ', possibleFactors result = pool.map(isFactor, …

3
剪辑大型栅格ECW文件的最佳方法?
我正在尝试剪切较大的ECW(详细信息如下),但是光栅文件太大而无法完全处理。 以下ECW的一些详细信息 驱动程序:ECW / ERDAS压缩小波(SDK 5.0) 文件大小:50gb大小为450000、565081像素大小:0.15 0.15 COLORSPACE = RGB COMPRESSION_RATE_TARGET = 9 VERSION = 2波段数:4 我要裁剪的区域大约是原始文件的1/5。 这是我尝试不成功的方法: 使用Arcgis将ecw保存为tiff /其他格式...(我很快就放弃了) 使用了Qgis及其裁剪器工具...文件创建停留在40%左右。 除了Qgis以外,还使用gdal_translate从OSGeo4W中退出。(试图以为可以不使用Qgis释放一些内存就可以了) 使用gdal_retile的想法是,我会将图像切成小块,然后抓住想要的图像。命令“ gdal_retile -ps 10000 10000 -of ecw -tileIndex tile.shp -targetDir input.ecw这崩溃得更快” 有人有主意吗? 有关信息,我在具有16GB内存的i5-3470 3.2Ghz上运行Windows 7 64位。
9 raster  gdal  clip  ecw  big-data 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.