羽毛和镶木地板有什么区别?


89

两者都是用于数据分析系统的列式(磁盘)存储格式。两者都集成在Apache Arrow(用于python的pyarrow软件包)中,并且旨在与Arrow对应,作为列式内存分析层。

两种格式有何不同?

如果可能的话,在与熊猫一起工作时,您是否应该总是喜欢羽毛?

在哪些情况下羽毛实木复合地板更合适,反之则更合适?


附录

我在这里https://github.com/wesm/feather/issues/188找到了一些提示,但是鉴于这个项目的年龄很小,可能有点过时了。

这不是一个严格的速度测试,因为我只是转储并加载整个Dataframe,但是如果您以前从未听说过这些格式,则可以给您留下深刻的印象:

 # IPython    
import numpy as np
import pandas as pd
import pyarrow as pa
import pyarrow.feather as feather
import pyarrow.parquet as pq
import fastparquet as fp


df = pd.DataFrame({'one': [-1, np.nan, 2.5],
                   'two': ['foo', 'bar', 'baz'],
                   'three': [True, False, True]})

print("pandas df to disk ####################################################")
print('example_feather:')
%timeit feather.write_feather(df, 'example_feather')
# 2.62 ms ± 35.8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
print('example_parquet:')
%timeit pq.write_table(pa.Table.from_pandas(df), 'example.parquet')
# 3.19 ms ± 51 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
print()

print("for comparison:")
print('example_pickle:')
%timeit df.to_pickle('example_pickle')
# 2.75 ms ± 18.8 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
print('example_fp_parquet:')
%timeit fp.write('example_fp_parquet', df)
# 7.06 ms ± 205 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)
print('example_hdf:')
%timeit df.to_hdf('example_hdf', 'key_to_store', mode='w', table=True)
# 24.6 ms ± 4.45 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)
print()

print("pandas df from disk ##################################################")
print('example_feather:')
%timeit feather.read_feather('example_feather')
# 969 µs ± 1.8 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
print('example_parquet:')
%timeit pq.read_table('example.parquet').to_pandas()
# 1.9 ms ± 5.5 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

print("for comparison:")
print('example_pickle:')
%timeit pd.read_pickle('example_pickle')
# 1.07 ms ± 6.21 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
print('example_fp_parquet:')
%timeit fp.ParquetFile('example_fp_parquet').to_pandas()
# 4.53 ms ± 260 µs per loop (mean ± std. dev. of 7 runs, 1 loop each)
print('example_hdf:')
%timeit pd.read_hdf('example_hdf')
# 10 ms ± 43.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

# pandas version: 0.22.0
# fastparquet version: 0.1.3
# numpy version: 1.13.3
# pandas version: 0.22.0
# pyarrow version: 0.8.0
# sys.version: 3.6.3
# example Dataframe taken from https://arrow.apache.org/docs/python/parquet.html

Answers:


131
  • Parquet格式是为长期存储而设计的,其中Arrow更适合于短期或临时存储(在1.0.0版本发布后,Arrow可能更适合于长期存储,因为那时二进制格式将是稳定的)

  • Parquet比Feather更昂贵,因为它具有更多的编码和压缩层。羽毛是未修饰的原始柱状箭头记忆。将来我们可能会在Feather中添加简单的压缩。

  • 由于字典编码,RLE编码和数据页压缩,Parquet文件通常比Feather文件小得多。

  • Parquet是分析的一种标准存储格式,它受许多不同系统支持:Spark,Hive,Impala,各种AWS服务,将来由BigQuery等支持。因此,如果您要进行分析,Parquet是一个很好的选择,可作为以下存储的参考多个系统查询

由于您读取和写入的数据非常小,因此显示的基准非常嘈杂。您应该尝试压缩至少100MB或1GB以上的数据,以获得更多有用的基准,请参见例如http://wesmckinney.com/blog/python-parquet-multithreading/

希望这可以帮助


2
是的,始终可以选择“未压缩”
Wes McKinney

1
我注意到generate_floats您的基准代码wesmckinney.com/blog/python-parquet-update中的函数不能保证unique_values。它们只是随机的。在n = 100M的情况下,我每10次运行就有2次重复。仅提及在有人使用此功能的情况下应确保唯一性。
Darkonaut

1
@Darkonaut只是想知道...压缩会导致较小的大小,因此将其读入内存会更快。可能由于压缩/解压缩而产生的额外处理仍比必须读取更多字节要快。还是您有我没有想到的情况?
PascalVKooten

1
HDF5更通用,更重...大多数情况下也要慢很​​多。
ivo Welch

3
@WesMcKinney我注意到您的答案是在2018年写的。2.3年之后,您是否仍然认为Arrow(羽毛)不能长期存储(与Parquet相比)?是否有特定原因?喜欢稳定吗?格式演变?要么?
HCSF
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.