关于亚马逊EC2的计算集群费用$ 800- $ 1000(取决于占空比)每个物理CPU内核,在3年的时间。在我们的最后一轮硬件收购中,我的实验室以大约300美元的价格购买了与亚马逊集群非常相似的48个内核的硬件。
我在这里想念什么吗?在任何情况下,在云中为高CPU任务(例如分子动力学模拟)构建集群都具有经济意义吗?还是我总是最好自己建造和保姆当当机呢?
(我应该提到,我的实验室不支付服务器机房的电费(至少不直接支付),但是即使有了这种好处,亚马逊似乎仍然非常昂贵)。
关于亚马逊EC2的计算集群费用$ 800- $ 1000(取决于占空比)每个物理CPU内核,在3年的时间。在我们的最后一轮硬件收购中,我的实验室以大约300美元的价格购买了与亚马逊集群非常相似的48个内核的硬件。
我在这里想念什么吗?在任何情况下,在云中为高CPU任务(例如分子动力学模拟)构建集群都具有经济意义吗?还是我总是最好自己建造和保姆当当机呢?
(我应该提到,我的实验室不支付服务器机房的电费(至少不直接支付),但是即使有了这种好处,亚马逊似乎仍然非常昂贵)。
Answers:
在我看来,使用基于云的资源的主要优势是灵活性,即,如果您的工作负载波动,那么您只需为需要的东西付费。
如果在您的应用程序中不是这种情况,即您知道您将有一个可量化且恒定的工作量,那么您可能会更好地构建自己的集群。在云中,您需要为灵活性付费,而如果您不需要灵活性,那么您将为不需要的东西付费。
如果您的工作负载是灵活的但有些紧张并且依赖于某些硬件功能(请参阅aeismail的答案),则您可能想尝试与大学中的其他人共享群集以分摊闲置周期。我的老大学在这样的共享群集上运行“共享者模型”,其中每个组都可以保证与他们在硬件上的投资成比例的计算能力份额,并且任何人都可以使用空闲周期。唯一的困难是集中集群管理。
使用MD模拟进行云计算时,需要担心一些事情。例如,您需要担心将要运行这些作业的服务器场中处理器的物理布局。原因是,取决于模拟的大小以及所运行的计算类型(例如,带有静电的系统),您可能会严重依赖FFT,并将电子推到巨大集群中的不同处理器上可能会成为总计算时间中非常耗时的部分。
另外,对于像MD这样的数据密集型应用,您需要确保具有与服务器的快速上载和下载连接,以及对数据存储的合理限制。否则,许多节省的成本可能会浪费掉生产力和存储费用。
就其价值而言,我们研究所刚刚为我们的本地集群购买了约240个内核,每个内核的成本不到500欧元。这笔费用包括在我们的校园中托管,管理和提供服务四年。按年计算,这似乎很便宜。我认为这可能是两全其美的方法-本地访问,但不需要我们自己的IT团队即可进行专业维护。
我没有像Amazon EC2这样的云服务的第一手经验,但是每个核心的实际成本可能比您引用的要高得多:这是初始购买,电力,散热,建筑物空间,更换硬件的成本。加上管理成本:设置操作系统和群集服务,使操作系统保持最新状态,对队列进行故障排除等。如果所有这些的总和是初始购买成本的两倍,我一点也不感到惊讶。当然,您可以获得灵活性。
对我来说,模型缩小了规模:如果您有一个真正的大型集群(1000个核心或更多),则可以分摊工作时间,维修和系统管理,因为有足够的工作要做,可以让专业人员忙碌。如果您有一个很小的集群,不值得让专职人员去做,那么您很可能会让某个人去做,而其首要工作应该是从事科学工作,在这种情况下,这个人的时间很少花在这种行政工作上。这就是云服务器等按需服务的亮点。
作为对一些已经很好的答案的补充,还有另一个要考虑的因素:
我遇到了一笔微不足道的赠款,无论如何在任何情况下都不会支付硬件费用,而是会为EC2之类的计算时间支付费用。因此,在某些融资情况下,尽管您可以用非结构化资金或实验室启动软件包为小型“测试平台”集群提供资金,但对于大型项目而言,这可能是为计算成本提供资金的唯一方法。
考虑NIH:
ADP /计算机服务:此处包含的服务应该是针对特定计算机的研究服务,例如在超级计算机上保留计算时间或获取专用软件来帮助您运行统计信息。本部分不应包括您的标准台式办公计算机,笔记本电脑或您所在机构提供的标准技术支持。这些费用应从F&A费用中扣除。
虽然可以将群集计算机的价格降至5,000美元以上,但您可以对此提出充分的论据,但我发现,对于此问题而言,审阅者不屑一顾,而对于保持此类费用的现行成本却犹豫不决的大学系统。
有些补助甚至更加严格。我目前获得的一笔赠款如下:
资金也可能不用于计算机硬件
如果集群基于EC2或许多类似产品之一,则比直接购买硬件更容易用直接成本支付集群,特别是如果您的机构对间接成本持谨慎态度时。对于您来说可能不是这种情况,但对于某些情况则是如此。
已经有很多上帝的答案。我只想补充两点。
1.)我知道IBM提供了类似的服务。因此,根据您的应用程序,可能有必要比较不同的报价。不仅在成本方面,而且在设备方面。
2.)当然,大多数实验室规模太小,无法投资自己的集群。因此,问题在于是否不可能将多个实验室聚集在一起并投资于在不同实验室之间共享的集群。这不仅具有明显的成本分摊效果,而且还具有更均匀的负载分配优势。