谁将R与多核,SNOW或CUDA软件包一起用于资源密集型计算?


16

在本论坛中,谁愿意将“> R与多核snow软件包或CUDA一起使用,因此对于需要比工作站CPU更大功率的高级计算?您在哪个硬件上计算这些脚本?数据中心访问某处?

这些问题的背景如下:我目前正在写我的硕士学位。关于R和高性能计算的论文,需要对谁真正使用R有深入的了解。我读到R在2008年拥有100万用户,但这几乎是我可以找到的关于该主题的唯一用户统计信息-所以我希望您能答案!

真诚的海因里希


可能的相关问题,stats.stackexchange.com / questions / 825 /…
chl 2010年

Answers:


6

我是一位生物学家,他模拟年际气候变化对几种迁徙物种的种群动态的影响。我的数据集非常大(空间密集型数据),因此我multicore在Amazon EC2服务器上运行我的R代码。如果我的任务特别耗费资源,我将选择一个高内存四重超大型实例,该实例带有26个CPU单元,8个内核和68G的RAM。在这种情况下,我通常同时运行4-6个脚本,每个脚本都通过相当大的数据集工作。对于较小的任务,我选择具有4-6个内核和大约20 GB RAM的服务器。

我启动这些实例(通常是现货实例,因为它们比较便宜,但可以在当前费率超出我选择支付的价格时终止),运行脚本数小时,然后在脚本完成后终止实例。至于机器映像(Amazon机器映像),我在Ubuntu 3上安装了其他人,更新了R,安装了软件包,并将其另存为我的S3存储空间中的私有AMI。

我的个人计算机是双核Macbook Pro,很难拨出多核电话。如果您有其他问题,请随时发送电子邮件。


您能否告诉您数据集的大小是多少?
suncoolsu

当然。我目前正在使用的数据集大约是14个演出
Maiasaura

4

如您所愿,我将foreach软件包与多核后端一起使用。我用它在一个带有大量RAM的单个Nehalem盒上跨多个内核分配了一个令人尴尬的并行工作负载。这对于即将完成的任务非常有效。


感谢您的回答!您是在工作/学术研究中还是在个人PC上为自己的项目进行计算?
海因里希

这是在商业环境中完成的。对于此任务,我使用一个具有32GB RAM和RAID磁盘的Intel盒子(主要困难是大量数据,而处理本身对计算的要求并不高。)
NPE 2010年

好吧,@ aix,您多久执行一次这些计算。您是整天运行还是闲置?
海因里希(Heinrich)2010年

@NPE的快速问题:您将数据存储在哪个系统中?您是否使用数据库后端?
nassimhddd 2012年

3

我在学院工作,我在机器学习算法的一些较重基准测试中使用多核,主要是在基于Opteron的Sun Constellation和一些较小的群集上使用;这些也是相当令人尴尬的并行问题,因此多核的主要作用是在不增加内存使用量的情况下在节点上分布计算。


我们在汉堡的这里一直存在一个问题,就是学术数据中心的等待时间真的很长。对你来说一样吗?
海因里希

@Heinrich我在一个学术数据中心工作,所以我没有这样的问题(-认真地说,在华沙,科学的CPU时间供应量大于需求量,因此我相信获得资助很容易。我想你应该尝试d-网格或EGEE,我的经验是,在一般的格栅是很充分利用。

哦。这太有趣了。您知道这些扩展中使用R的业务类型吗?
海因里希

2

我将降雪和降雪用于HPC群集上的进程并行化,并将CUDA用于精细数据并行处理。我在流行病学中进行疾病传播建模。所以我都用。


感谢您的信息。课程并行化是什么意思?
海因里希(Heinrich)2010年

课程并行化将类似于MCMC更改的独立运行,即非常大的夹头可以在不同步线程的情况下并行运行。细颗粒的一个示例是计算可能性,在该可能性下可以独立地对数据点执行计算。
Andrew Redd
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.