DFS用于WAN上的几个小型集群


2

我的朋友和我都在我们的系统上有结核病。然而,我们都没有任何地理上分布的完整备份,因为在这些数据量下,诸如Dropbox,S3等的解决方案。对我们来说成本过高。但是,我们每个人都有过多的本地存储空间。事实上,每个TB都没有使用过。

我们开始思考:如果我们可以将我们的主机连接到某种形式的分布式文件系统,我们每个人都可以获得完整数据集的地理分布式备份,同时实现更高的存储容量利用率。完美的解决方案......我们认为。

  1. 我们至少有三个人。如果该项目产量结果肯定是6或更多。
  2. 我们每个人都有1-2TB的数据,至少还有很多。
  3. 我们都是通过WAN传播的。
  4. 我们需要能够让任何主机任意进入和离开云服务。
  5. 真实(ish)时间同步。否则,我们每周只会见一次啤酒,并在一堆外部硬盘上进行交易。
  6. F / OSS是必不可少的,但我们有足够的肘部油脂。
  7. 如果我们可以在这个过程中使用/学习/利用分布式计算平台,那就更好了。

我们开始考虑在OpenStack或Hadoop之上构建一个Dropbox-esque接口,但是我想知道是否还有其他替代方案我们忽略了。也许对于我们的案例,有一个更简单的解决方案?鉴于每个群集的节点数量很少,这样的事情是否可行?

注意:自然地,初始同步/平衡/转移/等至少需要几天,但这是可以接受的。


如果它不需要是FOSS,我怀疑crashplan可以完美地工作。即使它没有,他们也有一些有趣的想法
Journeyman Geek

1
@JourneymanGeek:张贴作为答案,我会接受。似乎我们没有能够用我们拥有的硬件F / OSS这个东西(除非我们定制构建整个系统)。

Answers:


1

它不是FOSS,但是crashplan对于这个来说是个不错的选择。死了简单的设置和运行,但它将完美地处理3 4和5。它的设置也很简单 - 安装客户端,设置可用空间,并添加你想允许使用该空间的人。


2

我在Ubuntu服务器上使用了sshfs,在cron上使用了一个简单的rsync脚本。每个主机都保留自己的自治权(即使我在3个主机的配置中具有root访问权限)以及跨节点复制的频率以及哪些节点也完全可控。存储量可以通过分区或配额来控制,我选择分区只是因为我控制所有3个主机。缺点是复制频率(同步)控制不足。如果主机经常同步,则可能过度利用带宽,特别是如果跨越wan使用快照。与其他人很好地玩并在rsync命令上使用kbps限制是必要的。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.