哪个分布式文件系统作为云计算的后端?


11

我在Ubuntu Server(9.04)和Eucalyptus上运行了基本的云。Walrus(Eucalyptus的API兼容S3实现)将文件存储在云控制器上。但是,其他4台服务器中的每台服务器都有1TB的存储空间,这些存储空间基本上没有使用。我正在寻找一种将所有存储集中在一起的方法,以便利用所有可用资源。我一直在寻找各种选择,包括PVFS,Lustre,HDFS(Hadoop)。

我唯一的要求是它需要可伸缩并且在Ubuntu上运行良好。希望收到任何具有此类技术经验的人的来信,我们期待收到您的建议。


如果不需要是Ubuntu,我会说ZFS。
布拉德·吉尔伯特

3
ZFS不是集群文件系统。
MarkR

Answers:



2

GlusterFS对我来说似乎是理想的解决方案。对于声称Gluster花费很多精力来建立的人来说,我必须说他可能从未尝试过。从Gluster 3.2开始,配置实用程序非常出色,它需要2或3条命令来建立gluster卷并在网络上共享。安装gluster卷同样简单。

从好的方面来说,它也比NFS提供更多的灵活性。它可以进行条带化,复制,地理复制,当然也符合POSIX等。有一个称为HekaFS的扩展,其中还添加了SSL和更高级的身份验证机制,这可能对云计算很有趣。也可以缩放!它是F / OSS,由最近购买了Gluster的RedHat开发。


1

您是否看过mogileFS? http://danga.com/mogilefs/

它不是传统意义上的文件系统,但是对于在群集中分布文件数据(考虑复制和冗余)非常有用。

如果您要为Web应用程序提供文件,则需要一些东西来提供文件。我建议使用HTTP请求作为搜索关键字的PHP脚本,以在Mogile FS中查找所需的文件。然后,您可以将文件的内容读入缓冲区并回显/打印出来。

MogileFS已经非常快,但是您可以将mogileFS与memcache结合使用,以加快对最常用文件的访问。


我似乎还记得,就元数据节点而言,MogileFS具有单点故障。HDFS也有类似的问题。
David Pashley 09年

MogileFS似乎很有趣,它的复制和冗余非常理想,但是由于应用程序需要意识到它们正在运行,因此它似乎不适合一般用法。应用程序可以与FS无关的更传统的文件系统将更适合。
Jaunty)

1
MogileFS可以运行多个跟踪器,并且您可以在后端进行故障转移mysql。这样,您可以消除所有单点故障。
davidsheldon

1

使用Lustre,您必须在服务器上有一个特殊的内核,而我只能将服务器作为服务器,而没有别的。

奇怪的是,最理智的答案就是NFS。我们已经在亚马逊云上使用了NFS。它的扩展性可能不如某些文件系统好,但其简单性我不应被忽略。单个名称空间可能不值得花去实现的精力。


1

您还在研究HDFS吗?Cloudera的一位成员今年在VelocityConf上发表了有关Hadoop和HDFS的演讲,该演讲集中在管理大数据集群上,因此他谈到了HDFS。幻灯片非常有用。我还没有亲自使用HDFS,但我曾与Velocity的一些随机人员进行过交谈,他们在Ubuntu上使用它来进行各种数据分析。


1

在虚拟化环境中放置某种共享文件系统非常普遍。您有很多选择,取决于您要完成的工作。

最简单的解决方案可能是NFS,因为您正在运行的任何发行版都将原生支持此功能。NFS可以作为虚拟化后端文件系统正常运行,尽管这并不是最快的。

如果您正在运行RedHat(或派生)集群,则将对RedHat的集群文件系统GFS2拥有开箱即用的支持。这不能扩展到数百个节点,但是对于较小的群集来说很好。

除此之外,您还开始输入Lustre,Glusterfs,GPFS等内容。这些都是高性能的并行文件系统,但是与此处的其他选项相比,它们需要大量的工作来进行设置。如果您的环境很大,可能值得一看。


1

我同意@larsks的观点,因为NFS是最好的选择;完成一些iSCSI目标NFS的设置。这将扩展到大约5-10个节点;基于I / O,网络功能等的YMMV(或者,设置具有多路径I / O支持的iSCSI)。

如果您需要大约20个以上的节点,则可能需要研究Ceph。Lustre前景看好且稳定,但是它是(F / OSS)Oracle产品,我个人不喜欢Oracle。:)

Ceph也很活跃。最新版本是5天前。


Lustre不再隶属于Oracle。参见whamcloud.com
utopiabound,2012年

1

XtreemFS可能是您的解决方案。安装和配置非常简单,也有适用于Ubuntu的软件包。




0

您可以尝试PVFS2。它的设置比Lustre容易得多,通常比Gluster快。


比Gluster快?您可以共享有关性能的任何数据吗?
约翰·ZFS

我目前没有基准。早在2008年,Gluster比Lustre慢得多,而PVFS2仅稍慢一些。如今可能有所不同,也许我会对此进行基准测试。
wazoox 2011年

谢谢,如果您进行基准测试,请告诉我。maruti.j@gmail.com或您可以在serverfault上发布帖子,以使每个人都受益
John-ZFS
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.