是否有内置的使用方式 read_csv
仅读取n
文件的前几行而无需提前知道行的长度?我有一个大文件,需要花费很长时间才能读取,偶尔只想使用前20行来获取它的样本(并且不希望加载完整的文件并花大头)。
如果我知道总行数,则可以执行类似的操作footer_lines = total_lines - n
并将其传递给skipfooter
关键字arg。我当前的解决方案是n
使用python和StringIO 手动将第一行抓取到熊猫:
import pandas as pd
from StringIO import StringIO
n = 20
with open('big_file.csv', 'r') as f:
head = ''.join(f.readlines(n))
df = pd.read_csv(StringIO(head))
并没有那么糟,但是有没有更简洁的“ pandasic”(?)方式来处理关键字或其他内容呢?
1
要查看如何加载最后N行,请检出此SO帖子
—
zelusp
你是说“泛滥”吗?:)
—
1''