计算科学 data-storage

9

是否有专门设计用于压缩浮点科学数据的工具？如果函数是平滑的，则表示该函数的数字之间显然存在很多相关性，因此数据应压缩得很好。压缩/压缩二进制浮点数据并不能很好地压缩它。我想知道是否有专门开发的用于压缩浮点数据的方法。要求：无损压缩或指定保留最小位数的可能性（对于某些应用程序double可能超出我们的需求，而float精度可能不够高）。经过良好测试的工作工具（即不仅仅是描述理论方法的论文）。适用于压缩一维数字数据（例如时间序列）跨平台（必须在Windows上运行）它必须快 ---最好不慢于gzip。我发现如果我将数字存储为ASCII，则对该文件进行gzip压缩可以加快读取和处理该文件的速度（因为该操作可能受I / O限制）。我特别想听听实际使用过这种工具的人们的意见。

26 data-storage

1

hdf5的替代品

我已经使用HDF5多年了，但是随着数据集大小的增加，我开始遇到这里列出的相同问题 http://cyrille.rossant.net/moving-away-hdf5/ 您能指出我使用HDF5之类的格式吗？-对并行写入的良好支持-支持对大型矩阵的分块访问我的典型用例是100k x 100k整数矩阵。从逻辑的角度来看，我希望将其作为一个完整的文件，但是我需要使用并行工作程序将其逐块写入。

15 data-storage

3

存储分层模拟数据的最佳实践

TL，DR 科学计算界中用于存储大量分层结构数据的最佳实践是什么？例如，SQL在大型稀疏矩阵上不能很好地发挥作用。是否有用于构建，仓储和分析此类数据的好工具？大型强子对撞机的人使用什么？用例详细信息我想根据以下层次结构存储蛋白质模拟中的数据： protein |__simulation conditions |____|__residues |____|____|__conformers |____|____|____|__atoms 每个蛋白质都应该知道其每个残基，每个原子都应该知道用于其模拟的条件，等等，反之亦然。最初，我认为关系数据库将非常适合该应用程序，因此我使用python和sqlalchemey编写了一个程序，该程序将数据存储在SQL数据库中。但是实际上，该程序不能很好地运行。最大的问题与以下事实有关：由于每个可能的构象体对之间的成对相互作用，在构象体数据级别存在一个N x N矩阵，该矩阵存储势能。矩阵中的大多数条目都是零，因此我以一种稀疏格式将矩阵存储在数据库中的另一个表中，每个条目一行。不幸的是，对于涉及数千个conformer的模拟，成对表仍然以数十万行结尾，并且： a）构建和查询非常缓慢（几小时） b）与作为非稀疏矩阵的等效数据纯文本表示相比，我的硬盘驱动器占用了更多的数量级空间 c）在以下情况下占用了超过10 GB的内存：该表被读入内存我的最终目标是在数据库中存储成千上万次运行（在几十种模拟条件下源自数千种蛋白质），以便可以一起分析所有运行。这意味着代表成对矩阵的表可能会增长到大约十亿行。目前看来，我需要一个Cray或其他共享内存的怪物，以便甚至对该数据库运行单个查询。我在这里有更好的选择吗？大型强子对撞机的人使用什么？

13 data-management data-storage data-analysis

3

HDF5文件是否适合git版本控制？

我不熟悉HDF5中使用的文件格式，但是我想知道HDF5文件是否适合git的版本控制（例如Mercurial或Subversion）？我想我的意思是：HDF5文件是否适合基于行的差异处理，或者git是否必须将HDF5视为一个大二进制文件并为每个修订版本存储整个副本？

13 data-management data-storage

Questions tagged «data-storage»