数据科学 version-control

使用Python进行可重复数据科学的工具和协议

我正在使用Python进行数据科学项目。该项目分为几个阶段。每个阶段包括使用Python脚本获取数据集，辅助数据，配置和参数，以及创建另一个数据集。我将代码存储在git中，以便覆盖该部分。我想听听：数据版本控制工具。能够重现阶段和实验的工具。此类项目的协议和建议的目录结构。自动化的构建/运行工具。

50 python tools version-control

如何处理大量（二进制）数据的版本控制

我是地球物理学的博士学位学生，并且处理大量的图像数据（数百GB，成千上万个文件）。我非常了解svn并git开始重视项目历史，并具有轻松协作并防止磁盘损坏的能力。我发现git对于进行一致的备份也非常有帮助，但是我知道git无法有效处理大量二进制数据。在我的硕士研究中，我研究了大小相似（也包括图像）的数据集，并且在跟踪不同服务器/设备上的不同版本时遇到很多问题。通过网络分配100GB的确不是一件好事，这花了我很多时间和精力。我知道科学界的其他人似乎也有类似的问题，但我找不到很好的解决方案。我想使用我研究所的存储设备，所以我需要可以使用“哑”服务器的东西。我还希望在便携式硬盘上有一个额外的备份，因为我想避免在任何可能的情况下通过网络传输数百GB。因此，我需要一种可以处理多个远程位置的工具。最后，我确实需要其他研究人员可以使用的东西，因此它不需要超级简单，但应该可以在几个小时内学习。我已经评估了许多不同的解决方案，但似乎都不适合： svn效率低下，需要一台智能服务器 HG bigfile / largefile只能使用一个遥控器 git bigfile / media也只能使用一个远程，但是效率也不高阁楼似乎没有对数或差异功能 bup看起来确实不错，但是需要“智能”服务器才能工作我已经尝试过了git-annex，它可以完成我需要做的所有事情（还有更多），但是使用起来非常困难，并且没有很好的文档记录。我已经使用了几天，无法理解，所以我怀疑其他任何同事都会对此感兴趣。研究人员如何处理大型数据集，其他研究小组正在使用什么？需要明确的是，我主要对其他研究人员如何处理这种情况感兴趣，而不仅仅是这个特定的数据集。在我看来，几乎每个人都应该有这个问题，但我不知道有谁解决了这个问题。我应该只保留原始数据的备份，而忘记所有这些版本控制内容吗？那是其他人在做什么吗？

46 bigdata databases binary version-control

Questions tagged «version-control»