9
如何处理大量(二进制)数据的版本控制
我是地球物理学的博士学位学生,并且处理大量的图像数据(数百GB,成千上万个文件)。我非常了解svn并git开始重视项目历史,并具有轻松协作并防止磁盘损坏的能力。我发现git对于进行一致的备份也非常有帮助,但是我知道git无法有效处理大量二进制数据。 在我的硕士研究中,我研究了大小相似(也包括图像)的数据集,并且在跟踪不同服务器/设备上的不同版本时遇到很多问题。通过网络分配100GB的确不是一件好事,这花了我很多时间和精力。 我知道科学界的其他人似乎也有类似的问题,但我找不到很好的解决方案。 我想使用我研究所的存储设备,所以我需要可以使用“哑”服务器的东西。我还希望在便携式硬盘上有一个额外的备份,因为我想避免在任何可能的情况下通过网络传输数百GB。因此,我需要一种可以处理多个远程位置的工具。 最后,我确实需要其他研究人员可以使用的东西,因此它不需要超级简单,但应该可以在几个小时内学习。 我已经评估了许多不同的解决方案,但似乎都不适合: svn效率低下,需要一台智能服务器 HG bigfile / largefile只能使用一个遥控器 git bigfile / media也只能使用一个远程,但是效率也不高 阁楼似乎没有对数或差异功能 bup看起来确实不错,但是需要“智能”服务器才能工作 我已经尝试过了git-annex,它可以完成我需要做的所有事情(还有更多),但是使用起来非常困难,并且没有很好的文档记录。我已经使用了几天,无法理解,所以我怀疑其他任何同事都会对此感兴趣。 研究人员如何处理大型数据集,其他研究小组正在使用什么? 需要明确的是,我主要对其他研究人员如何处理这种情况感兴趣,而不仅仅是这个特定的数据集。在我看来,几乎每个人都应该有这个问题,但我不知道有谁解决了这个问题。我应该只保留原始数据的备份,而忘记所有这些版本控制内容吗?那是其他人在做什么吗?