程序设计 blaze

如何将Parquet文件读入Pandas DataFrame？

如何在不建立集群计算基础架构（例如Hadoop或Spark）的情况下，将大小适中的Parquet数据集读取到内存中的Pandas DataFrame中？我只想在笔记本电脑上使用简单的Python脚本在内存中读取这些数据，但是数量很少。数据不驻留在HDFS上。它位于本地文件系统上，也可能位于S3中。我不想启动并配置其他服务，例如Hadoop，Hive或Spark。我以为Blaze / Odo可以做到这一点：Odo文档中提到了Parquet，但是这些示例似乎都是通过外部Hive运行时进行的。

81 python pandas parquet blaze

Questions tagged «blaze»