什么时候在云中构建集群比在我的实验室中为MD模拟构建集群便宜?


23

关于亚马逊EC2的计算集群费用$ 800- $ 1000(取决于占空比)每个物理CPU内核,在3年的时间。在我们的最后一轮硬件收购中,我的实验室以大约300美元的价格购买了与亚马逊集群非常相似的48个内核的硬件。

我在这里想念什么吗?在任何情况下,在云中为高CPU任务(例如分子动力学模拟)构建集群都具有经济意义吗?还是我总是最好自己建造和保姆当当机呢?

(我应该提到,我的实验室不支付服务器机房的电费(至少不直接支付),但是即使有了这种好处,亚马逊似乎仍然非常昂贵)。


2
我可以告诉您的一件事是,您在集群管理和维护方面缺少了一些人工成本。在学术环境中,必须由某个人担任群集管理员并完成所有艰巨的工作,例如OS系统更新和升级,新软件安装,群集关闭时的技术支持等等。这些任务是令人费解的,并且取决于管理员的技能,可能需要很多时间。EC2群集将减少群集维护所需的工时。
杰夫·奥克斯伯里

1
好吧,您显然已经便宜了硬件。我已经计算出在我以前的工作场所中使用192核集群的3年成本,结果是每个核每年超过850美元。更不用说我们在电力系统和散热方面遇到的所有问题了……
Hristo Iliev

@GeoffOxberry您对人工成本很清楚。在我的实验室中,我是管理员,所以我不考虑这些事情。有时可能会令人沮丧,但这是爱的劳动。如果我有现金和放置的地方,我将按照该博客上的(稀疏)说明进行操作,并尝试构建自己的Watson。
tel

@HristoIliev我什至都不认为它那么便宜。如果您愿意采用戴尔的“轻量级”集群,则可以将成本降至每核200美元左右。您能告诉我更多有关您以前工作场所的硬件的信息吗?
2012年

1
这是一个定制的系统,具有12个双Supermicro双插槽Xeon机箱(24个节点,48个E5420s),每个节点上具有16个GiB ECC RAM,一台单插槽Nehalem机器和2台Tesla M2090s,一个24端口InfiniBand交换机,一个带4个磁盘的文件服务器,两个10 kVA UPS,两个空调。在为期三年的项目期内,我们分几个阶段获得了它。虽然不是最高的,但仍然是约10万欧元(保加利亚的最高学术价格)。
赫里斯托·伊利耶夫

Answers:


15

在我看来,使用基于云的资源的主要优势是灵活性,即,如果您的工作负载波动,那么您只需为需要的东西付费。

如果在您的应用程序中不是这种情况,即您知道您将有一个可量化且恒定的工作量,那么您可能会更好地构建自己的集群。在云中,您需要为灵活性付费,而如果您不需要灵活性,那么您将为不需要的东西付费。

如果您的工作负载是灵活的但有些紧张并且依赖于某些硬件功能(请参阅aeismail的答案),则您可能想尝试与大学中的其他人共享群集以分摊闲置周期。我的老大学在这样的共享群集上运行“共享者模型”,其中每个组都可以保证与他们在硬件上的投资成比例的计算能力份额,并且任何人都可以使用空闲周期。唯一的困难是集中集群管理。


3
当场,关键是“可量化且恒定的”。通常,工作负载差异很大,未充分利用的成本很可能远远高于每核300美元。此外,在设置云计算时,如果临时需要(会议召开前一周?),可以轻松扩展到更多实例。
菲尔H

1
为此+1。我对群集的使用从0变为句号“您做了什么!?”。每当我需要时,我都负担不起第二个的价格。
Fomite

7

使用MD模拟进行云计算时,需要担心一些事情。例如,您需要担心将要运行这些作业的服务器场中处理器的物理布局。原因是,取决于模拟的大小以及所运行的计算类型(例如,带有静电的系统),您可能会严重依赖FFT,并将电子推到巨大集群中的不同处理器上可能会成为总计算时间中非常耗时的部分。

另外,对于像MD这样的数据密集型应用,您需要确保具有与服务器的快速上载和下载连接,以及对数据存储的合理限制。否则,许多节省的成本可能会浪费掉生产力和存储费用。

就其价值而言,我们研究所刚刚为我们的本地集群购买了约240个内核,每个内核的成本不到500欧元。这笔费用包括在我们的校园中托管,管理和提供服务四年。按年计算,这似乎很便宜。我认为这可能是两全其美的方法-本地访问,但不需要我们自己的IT团队即可进行专业维护。


5

我没有像Amazon EC2这样的云服务的第一手经验,但是每个核心的实际成本可能比您引用的要高得多:这是初始购买,电力,散热,建筑物空间,更换硬件的成本。加上管理成本:设置操作系统和群集服务,使操作系统保持最新状态,对队列进行故障排除等。如果所有这些的总和是初始购买成本的两倍,我一点也不感到惊讶。当然,您可以获得灵活性。

对我来说,模型缩小了规模:如果您有一个真正的大型集群(1000个核心或更多),则可以分摊工作时间,维修和系统管理,因为有足够的工作要做,可以让专业人员忙碌。如果您有一个很小的集群,不值得让专职人员去做,那么您很可能会让某个人去做,而其首要工作应该是从事科学工作,在这种情况下,这个人的时间很少花在这种行政工作上。这就是云服务器等按需服务的亮点。


在我的实验室中,集群的电,制冷和空间全部由我们的大学从设施费补助金中扣除。无论我们是否在运行集群,这种削减都是相同的。您是否知道大多数大学是否存在类似情况,或者大多数实验室是否直接掏钱购买制冷等费用?
tel

1
我相信大多数实验室的安排与您的安排相同,但是无论如何要忽略这些费用是错误的。即使不是您本人,也必须有人来承担。如果您同意虚拟地而不是在校园中构建集群,那么可能值得部门/大学更多地退还给您的间接成本。
Wolfgang Bangerth,2012年

4

作为对一些已经很好的答案的补充,还有另一个要考虑的因素:

  • 无论费用如何,您将如何付款?

我遇到了一笔微不足道的赠款,无论如何在任何情况下都不会支付硬件费用,而是会为EC2之类的计算时间支付费用。因此,在某些融资情况下,尽管您可以用非结构化资金或实验室启动软件包为小型“测试平台”集群提供资金,但对于大型项目而言,这可能是为计算成本提供资金的唯一方法。

考虑NIH:

ADP /计算机服务:此处包含的服务应该是针对特定计算机的研究服务,例如在超级计算机上保留计算时间或获取专用软件来帮助您运行统计信息。本部分不应包括您的标准台式办公计算机,笔记本电脑或您所在机构提供的标准技术支持。这些费用应从F&A费用中扣除。

虽然可以将群集计算机的价格降至5,000美元以上,但您可以对此提出充分的论据,但我发现,对于此问题而言,审阅者不屑一顾,而对于保持此类费用的现行成本却犹豫不决的大学系统。

有些补助甚至更加严格。我目前获得的一笔赠款如下:

资金也可能不用于计算机硬件

如果集群基于EC2或许多类似产品之一,则比直接购买硬件更容易用直接成本支付集群,特别是如果您的机构对间接成本持谨慎态度时。对于您来说可能不是这种情况,但对于某些情况则是如此。


我认为这不是一个好论点。我只熟悉美国的融资系统,但是如果您在“设备”类别中投入了一定的资金,则可以使用它购买集群。当然,如果该类别为空,则您要求的美元设置错误。设备实际上具有一个很好的优势,如果它是单件设备,购买价格超过5,000美元,您根本就不需要支付任何管理费用(至少在我们的大学中)。
Wolfgang Bangerth 2012年

@WolfgangBangerth有关详细信息,请参见我的编辑-不允许将其置于“设备”类别下。
Fomite

是的,如果满足这些条件,那么您将无能为力。但是我发现,如果您有一个很好的理由,为什么要在拨款中索取设备费,那么审阅者通常会选择它—无论如何,这通常并不是总金额的很大一部分。当然,如果一开始就没有预算这笔钱,那么事后您将无能为力。
Wolfgang Bangerth 2012年

0

已经有很多上帝的答案。我只想补充两点。

1.)我知道IBM提供了类似的服务。因此,根据您的应用程序,可能有必要比较不同的报价。不仅在成本方面,而且在设备方面。

2.)当然,大多数实验室规模太小,无法投资自己的集群。因此,问题在于是否不可能将多个实验室聚集在一起并投资于在不同实验室之间共享的集群。这不仅具有明显的成本分摊效果,而且还具有更均匀的负载分配优势。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.