读取pandas数据框的前几行的方法

100

是否有内置的使用方式 read_csv仅读取n文件的前几行而无需提前知道行的长度？我有一个大文件，需要花费很长时间才能读取，偶尔只想使用前20行来获取它的样本（并且不希望加载完整的文件并花大头）。

如果我知道总行数，则可以执行类似的操作footer_lines = total_lines - n并将其传递给skipfooter关键字arg。我当前的解决方案是n使用python和StringIO 手动将第一行抓取到熊猫：

import pandas as pd
from StringIO import StringIO

n = 20
with open('big_file.csv', 'r') as f:
    head = ''.join(f.readlines(n))

df = pd.read_csv(StringIO(head))

并没有那么糟，但是有没有更简洁的“ pandasic”（？）方式来处理关键字或其他内容呢？

— Beardc
source

要查看如何加载最后N行，请检出此SO帖子

— zelusp

你是说“泛滥”吗？:)

— 1''

182

我认为您可以使用该nrows参数。从文档：

nrows : int, default None

    Number of rows of file to read. Useful for reading pieces of large files

这似乎有效。使用标准大型测试文件之一（988504479字节，5344499行）：

In [1]: import pandas as pd

In [2]: time z = pd.read_csv("P00000001-ALL.csv", nrows=20)
CPU times: user 0.00 s, sys: 0.00 s, total: 0.00 s
Wall time: 0.00 s

In [3]: len(z)
Out[3]: 20

In [4]: time z = pd.read_csv("P00000001-ALL.csv")
CPU times: user 27.63 s, sys: 1.92 s, total: 29.55 s
Wall time: 30.23 s

— 帝斯曼
source

太棒了，一定错过了该参数。谢谢。

— beardc

skiprows=None也是要记住的一个有用参数

— Nitin

加载最后n行的最佳方法是什么？基本上，tail（）会做什么，但是我在加载csv时需要使用它。提前致谢！

— Danail Petrov