50 Gb DEM需要集群处理资源吗?


9

为了“出租”,我必须从我大学的计算中心指定所需的计算资源。我几乎不知道该问些什么。

考虑以下信息,您可以提出一些建议吗?

这是计算集群:“一个10刀片服务器,每个刀片由2个四核Intel Xeon 2.33 Ghz CPU和16 GB内存组成,总共80个CPU和160 GB内存。一个2 TB磁盘系统上的帐户。运行64位Linux”

使用无损压缩,原始数据是一个50gb的tiff文件。在某个时间点,我将处理多个(最多十个)50gb的文件。

我会使用GDAL,Python脚本,甚至C ++脚本。如果允许,我将使用Grass GIS和Saga GIS之类的软件。同样,R语言带有空间库。我将得出通常的地形参数,尝试将面向对象的算法应用于特定特征(地形)的提取,并使用统计分析进行描述和建模。


3
您从答案中确切期望得到什么-可以要求多少个数量?刀片数量,1个刀片上的芯数等?您是否需要填写可能提供任何线索的表格?
blah238

1
嗨等等 没有形式。我的主管事先要问我这些问题(有一些我不知道的想法)。但是,稍后,在访问平台时,应准确指定处理器数量,以及预期的内存需求和处理时间。因此,最好不要。处理器和允许执行简单矩阵代数(A * 0.1 + B + C / 50)的内存量,每个矩阵的大小为50Gb,例如,少于一小时(考虑到该软件允许并行计算) )。谢谢。
Marco

2
如果您先确定解决问题的策略,可能会有所帮助。我不认为您的Python脚本(使用GDAL绑定)“开箱即用”将能够利用多个处理器。您打算如何划分数据并进行并行处理。然后,您可以运行基于内核数量的数据,并推断总加工时间的一大块一些测试,你打算使用等
DavidF

谢谢大卫。我已经对此进行了更彻底的思考。我将使用Matlab进行一些测试。
Marco

Answers:


2

因此,最好不要。处理器和允许执行简单矩阵代数的内存量(A * 0.1 + B + C / 50)

正如DavidF在评论中所说的那样,更重要的是策略,不要管机器,您不能同时运行50GB矩阵代数(或者运行一个完整的矩阵,这不是一个好主意),因为从概念上讲,这意味着整个矩阵必须写入内存。

一个快速,非常容易且高效的好策略是使用gdal_calc,它以块的形式读写栅格,因此它的内存效率很高。

例如:gdal_calc.py -A input.tif -B input2.tif --outfile = result.tif --calc =“(A + B)/ 2”

尝试一下,很有可能可以在桌面上运行该处理,然后您可能只需要一台更好的计算机来加快或不加快该过程。

观察:您需要对多个gdal_calc进程进行垃圾邮件处理才能利用多核处理器。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.