Python:在csv.DictReader中跳过标有#的注释行


71

csv.DictReader处理CSV文件很棒-但是我有带注释行的CSV文件(例如,在行的开头用哈希表示):

#步长= 1.61853
val0,val1,val2,杂交,温度,smattr
0.206895,0.797923,0.202077,0.631199,0.368801,0.311052,0.688948,0.597237,0.402763
-169.32,1,1.61853,2.04069e-92,1,0.000906546,0.999093,0.241356,0.758644,0.202382
#改编完成

csv模块不包含任何跳过此类行的方法

我可以轻松地做些骇人听闻的事情,但是我想有一种将csv.DicReader包装在其他迭代器对象周围的好方法,该对象会进行预处理以丢弃行。

Answers:


94

实际上,这与filter

import csv
fp = open('samples.csv')
rdr = csv.DictReader(filter(lambda row: row[0]!='#', fp))
for row in rdr:
    print(row)
fp.close()

20
这样会将整个文件读入内存。如果不是太大,那就没问题,否则您可能要使用生成器表达式或itertools.ifilter()
邓肯

39
...或生成器表达式: csv.DictReader(row for row in fp if not row.startswith('#'))
Andy Mikhaylenko 2014年

7
@Duncan在Python3.6中不需要itertools,因为filter()默认情况下会返回迭代器,因此该文件将不会加载到内存中。
Aelfinn

15

一个很好的问题,一个很好的例子,说明Python的CSV库如何缺少重要的功能,例如处理基本注释(在CSV文件顶部并不罕见)。尽管Dan Stowell的解决方案适用于OP的特定情况,但它的局限性在于它#必须作为第一个符号出现。更通用的解决方案是:

def decomment(csvfile):
    for row in csvfile:
        raw = row.split('#')[0].strip()
        if raw: yield raw

with open('dummy.csv') as csvfile:
    reader = csv.reader(decomment(csvfile))
    for row in reader:
        print(row)

例如,以下dummy.csv文件:

# comment
 # comment
a,b,c # comment
1,2,3
10,20,30
# comment

退货

['a', 'b', 'c']
['1', '2', '3']
['10', '20', '30']

当然,这也适用于csv.DictReader()


我相信在decomment()函数中,您的意思是“产量行”而不是“产量原始”。CSV文件中的字符串中可以包含#个字符,并且完全有效。
Thibault Reuille

@ThibaultReuille:的确,尽管CSV格式没有很好的标准化,但是许多CSV文件中的字符串中都可以包含#。我是说yield raw。我的建议在任何情况下都不会处理#中的字符串。
sigvaldm'4

@ThibaultReuille:您所指的正是为什么不建议手动为库可以为您做的事情键入很多代码的原因。您可能不会在第一时间就获得所有详细信息(例如,您还可能在字符串中包含换行符),这将占用您实际解决的任务的时间。我认为我的解决方案可以解决应该存在的问题csv。如果需要大量扩展才能为您工作,也许您应该考虑使用另一个csv库,例如pandas中的一个。希望能有所帮助。
sigvaldm'4

8

读取CSV文件的另一种方法是使用 pandas

这是一个示例代码:

df = pd.read_csv('test.csv',
                 sep=',',     # field separator
                 comment='#', # comment
                 index_col=0, # number or label of index column
                 skipinitialspace=True,
                 skip_blank_lines=True,
                 error_bad_lines=False,
                 warn_bad_lines=True
                 ).sort_index()
print(df)
df.fillna('no value', inplace=True) # replace NaN with 'no value'
print(df)

对于此csv文件:

a,b,c,d,e
1,,16,,55#,,65##77
8,77,77,,16#86,18#
#This is a comment
13,19,25,28,82

我们将获得以下输出:

       b   c     d   e
a                     
1    NaN  16   NaN  55
8   77.0  77   NaN  16
13  19.0  25  28.0  82
           b   c         d   e
a                             
1   no value  16  no value  55
8         77  77  no value  16
13        19  25        28  82

1
pandas虽然确实是一个功能强大的库,但它是一个依赖项,需要设置和学习使用。此外,作者已经在问题中说过,他只是想使用内置csv.DictReader模块,并且几年前已经提供了相关的答案。我不明白为什么要添加此解决方案作为替代方案。
莱切克

4
问题的作者可能不需要熊猫。但是,这个论坛的目的不仅仅是帮助每个问题的作者解决他们的特定问题。
老太隐隐作痛

@GrannyAching.sort_index()在这里到底能实现什么?:)
Micheal J. Roberts

0

只需发布@sigvaldm解决方案中的错误修正即可。

def decomment(csvfile):
for row in csvfile:
    raw = row.split('#')[0].strip()
    if raw: yield row

with open('dummy.csv') as csvfile:
    reader = csv.reader(decomment(csvfile))
    for row in reader:
        print(row)

CSV行可以在带引号的字符串中包含“#”字符,并且完全有效。先前的解决方案是切断包含“#”字符的字符串。


当注释在行的末尾(例如)时,此功能将不起作用a,b,c # comment
sigvaldm'4
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.