DFS用于WAN上的几个小型集群

2

我的朋友和我都在我们的系统上有结核病。然而，我们都没有任何地理上分布的完整备份，因为在这些数据量下，诸如Dropbox，S3等的解决方案。对我们来说成本过高。但是，我们每个人都有过多的本地存储空间。事实上，每个TB都没有使用过。

我们开始思考：如果我们可以将我们的主机连接到某种形式的分布式文件系统，我们每个人都可以获得完整数据集的地理分布式备份，同时实现更高的存储容量利用率。完美的解决方案......我们认为。

我们至少有三个人。如果该项目产量结果肯定是6或更多。
我们每个人都有1-2TB的数据，至少还有很多。
我们都是通过WAN传播的。
我们需要能够让任何主机任意进入和离开云服务。
真实（ish）时间同步。否则，我们每周只会见一次啤酒，并在一堆外部硬盘上进行交易。
F / OSS是必不可少的，但我们有足够的肘部油脂。
如果我们可以在这个过程中使用/学习/利用分布式计算平台，那就更好了。

我们开始考虑在OpenStack或Hadoop之上构建一个Dropbox-esque接口，但是我想知道是否还有其他替代方案我们忽略了。也许对于我们的案例，有一个更简单的解决方案？鉴于每个群集的节点数量很少，这样的事情是否可行？

注意：自然地，初始同步/平衡/转移/等至少需要几天，但这是可以接受的。

如果它不需要是FOSS，我怀疑crashplan可以完美地工作。即使它没有，他们也有一些有趣的想法

— Journeyman Geek

1

@JourneymanGeek：张贴作为答案，我会接受。似乎我们没有能够用我们拥有的硬件F / OSS这个东西（除非我们定制构建整个系统）。

1

它不是FOSS，但是crashplan对于这个来说是个不错的选择。死了简单的设置和运行，但它将完美地处理3 4和5。它的设置也很简单 - 安装客户端，设置可用空间，并添加你想允许使用该空间的人。

— Journeyman Geek
source

2

我在Ubuntu服务器上使用了sshfs，在cron上使用了一个简单的rsync脚本。每个主机都保留自己的自治权（即使我在3个主机的配置中具有root访问权限）以及跨节点复制的频率以及哪些节点也完全可控。存储量可以通过分区或配额来控制，我选择分区只是因为我控制所有3个主机。缺点是复制频率（同步）控制不足。如果主机经常同步，则可能过度利用带宽，特别是如果跨越wan使用快照。与其他人很好地玩并在rsync命令上使用kbps限制是必要的。

— Kam Salisbury
source