我有一些较小的单元测试,它们使用真实数据集中的小片段。由于多种原因,我还想针对完整的数据集测试我的程序。唯一的问题是单个真实数据集约为5GB。我还没有找到关于Git存储库可以存储的任何硬数字,但这似乎太多了。
根据该程序员的帖子,我应该将测试项目所需的所有数据保留在存储库中。
我的团队采用的解决方案是该项目具有一个文件,该文件包含指向包含我们的测试数据的网络连接文件系统的路径。该文件被Git忽略。
我觉得这是一个不完善的解决方案,原因有两个。当NAS无法正常工作,运行缓慢或出现故障时,我们将无法进行全面测试。第二个原因是,当某人第一次克隆存储库时,单元测试失败,因此他们必须弄清楚如何使用特定名称挂载事物以及用于构建测试路径文件的语法。
所以我的问题有两个。多少数据就是太多数据无法存储在修订控制中?
什么是处理大量测试数据的更好方法?