Questions tagged «parquet»

3
与其他格式相比,实木复合地板格式的优缺点是什么?
Apache Parquet的特征是: 自我描述 柱状格式 语言无关 与Avro,Sequence Files,RC File等相比。我想要这些格式的概述。我已经读过:Impala如何与Hadoop文件格式一起使用,它提供了一些有关格式的见解,但是我想知道在每种格式中如何进行数据访问和数据存储。镶木地板比其他镶木地板有什么优势?
136 file  hadoop  hdfs  avro  parquet 

7
Avro与镶木地板
我计划为我的hadoop相关项目使用hadoop文件格式之一。我了解镶木地板对于基于列的查询和avro进行全面扫描或需要所有列数据都是有效的! 在继续选择一种文件格式之前,我想了解一种相对于另一种的缺点/缺点。有人可以简单地向我解释吗?
91 hadoop  avro  parquet 

1
羽毛和镶木地板有什么区别?
两者都是用于数据分析系统的列式(磁盘)存储格式。两者都集成在Apache Arrow(用于python的pyarrow软件包)中,并且旨在与Arrow对应,作为列式内存分析层。 两种格式有何不同? 如果可能的话,在与熊猫一起工作时,您是否应该总是喜欢羽毛? 在哪些情况下羽毛比实木复合地板更合适,反之则更合适? 附录 我在这里https://github.com/wesm/feather/issues/188找到了一些提示,但是鉴于这个项目的年龄很小,可能有点过时了。 这不是一个严格的速度测试,因为我只是转储并加载整个Dataframe,但是如果您以前从未听说过这些格式,则可以给您留下深刻的印象: # IPython import numpy as np import pandas as pd import pyarrow as pa import pyarrow.feather as feather import pyarrow.parquet as pq import fastparquet as fp df = pd.DataFrame({'one': [-1, np.nan, 2.5], 'two': ['foo', 'bar', 'baz'], 'three': [True, False, True]}) print("pandas df …

5
Parquet vs ORC vs Snappy的ORC
我正在对Hive可用的存储格式进行一些测试,并使用Parquet和ORC作为主要选项。我将ORC包含一次默认压缩,一次包含Snappy。 我已经阅读了许多文档,这些文档指出Parquet在时间/空间复杂度上比ORC更好,但是我的测试与我通过的文档相反。 跟随我的数据的一些细节。 Table A- Text File Format- 2.5GB Table B - ORC - 652MB Table C - ORC with Snappy - 802MB Table D - Parquet - 1.9 GB 就我桌子的压缩而言,实木复合地板最糟糕。 我对以上表格的测试得出以下结果。 行计数操作 Text Format Cumulative CPU - 123.33 sec Parquet Format Cumulative CPU - 204.92 sec ORC Format Cumulative …
87 hadoop  hive  parquet  snappy  orc 

3
如何将Parquet文件读入Pandas DataFrame?
如何在不建立集群计算基础架构(例如Hadoop或Spark)的情况下,将大小适中的Parquet数据集读取到内存中的Pandas DataFrame中?我只想在笔记本电脑上使用简单的Python脚本在内存中读取这些数据,但是数量很少。数据不驻留在HDFS上。它位于本地文件系统上,也可能位于S3中。我不想启动并配置其他服务,例如Hadoop,Hive或Spark。 我以为Blaze / Odo可以做到这一点:Odo文档中提到了Parquet,但是这些示例似乎都是通过外部Hive运行时进行的。
81 python  pandas  parquet  blaze 
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.