Questions tagged «data-storage»

9
压缩浮点数据
是否有专门设计用于压缩浮点科学数据的工具? 如果函数是平滑的,则表示该函数的数字之间显然存在很多相关性,因此数据应压缩得很好。压缩/压缩二进制浮点数据并不能很好地压缩它。我想知道是否有专门开发的用于压缩浮点数据的方法。 要求: 无损压缩或指定保留最小位数的可能性(对于某些应用程序double可能超出我们的需求,而float精度可能不够高)。 经过良好测试的工作工具(即不仅仅是描述理论方法的论文)。 适用于压缩一维数字数据(例如时间序列) 跨平台(必须在Windows上运行) 它必须快 ---最好不慢于gzip。我发现如果我将数字存储为ASCII,则对该文件进行gzip压缩可以加快读取和处理该文件的速度(因为该操作可能受I / O限制)。 我特别想听听实际使用过这种工具的人们的意见。

1
hdf5的替代品
我已经使用HDF5多年了,但是随着数据集大小的增加,我开始遇到这里列出的相同问题 http://cyrille.rossant.net/moving-away-hdf5/ 您能指出我使用HDF5之类的格式吗?-对并行写入的良好支持-支持对大型矩阵的分块访问 我的典型用例是100k x 100k整数矩阵。从逻辑的角度来看,我希望将其作为一个完整的文件,但是我需要使用并行工作程序将其逐块写入。

3
存储分层模拟数据的最佳实践
TL,DR 科学计算界中用于存储大量分层结构数据的最佳实践是什么?例如,SQL在大型稀疏矩阵上不能很好地发挥作用。是否有用于构建,仓储和分析此类数据的好工具?大型强子对撞机的人使用什么? 用例详细信息 我想根据以下层次结构存储蛋白质模拟中的数据: protein |__simulation conditions |____|__residues |____|____|__conformers |____|____|____|__atoms 每个蛋白质都应该知道其每个残基,每个原子都应该知道用于其模拟的条件,等等,反之亦然。 最初,我认为关系数据库将非常适合该应用程序,因此我使用python和sqlalchemey编写了一个程序,该程序将数据存储在SQL数据库中。但是实际上,该程序不能很好地运行。 最大的问题与以下事实有关:由于每个可能的构象体对之间的成对相互作用,在构象体数据级别存在一个N x N矩阵,该矩阵存储势能。矩阵中的大多数条目都是零,因此我以一种稀疏格式将矩阵存储在数据库中的另一个表中,每个条目一行。不幸的是,对于涉及数千个conformer的模拟,成对表仍然以数十万行结尾,并且: a)构建和查询非常缓慢(几小时) b)与作为非稀疏矩阵的等效数据纯文本表示相比,我的硬盘驱动器占用了更多的数量级空间 c)在以下情况下占用了超过10 GB的内存:该表被读入内存 我的最终目标是在数据库中存储成千上万次运行(在几十种模拟条件下源自数千种蛋白质),以便可以一起分析所有运行。这意味着代表成对矩阵的表可能会增长到大约十亿行。目前看来,我需要一个Cray或其他共享内存的怪物,以便甚至对该数据库运行单个查询。 我在这里有更好的选择吗?大型强子对撞机的人使用什么?

3
HDF5文件是否适合git版本控制?
我不熟悉HDF5中使用的文件格式,但是我想知道HDF5文件是否适合git的版本控制(例如Mercurial或Subversion)?我想我的意思是:HDF5文件是否适合基于行的差异处理,或者git是否必须将HDF5视为一个大二进制文件并为每个修订版本存储整个副本?
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.