使用csv模块从csv文件中读取特定列？

176

我正在尝试解析一个csv文件，并仅从特定列中提取数据。

范例csv：

ID | Name | Address | City | State | Zip | Phone | OPEID | IPEDS |
10 | C... | 130 W.. | Mo.. | AL... | 3.. | 334.. | 01023 | 10063 |

我想只捕获特定的列，说ID，Name，Zip和Phone。

我看过的代码使我相信我可以通过其对应的编号来调用特定的列，即：Name将使用对应2并遍历每一行将row[2]产生列2中的所有项。只有这样，它才不会。

到目前为止，这是我所做的：

import sys, argparse, csv
from settings import *

# command arguments
parser = argparse.ArgumentParser(description='csv to postgres',\
 fromfile_prefix_chars="@" )
parser.add_argument('file', help='csv file to import', action='store')
args = parser.parse_args()
csv_file = args.file

# open csv file
with open(csv_file, 'rb') as csvfile:

    # get number of columns
    for line in csvfile.readlines():
        array = line.split(',')
        first_item = array[0]

    num_columns = len(array)
    csvfile.seek(0)

    reader = csv.reader(csvfile, delimiter=' ')
        included_cols = [1, 2, 6, 7]

    for row in reader:
            content = list(row[i] for i in included_cols)
            print content

并且我希望这只会打印出我想要的每一行的特定列，除非不是，我只会得到最后一列。

python csv

— 坦率的
source

1

为什么要'rb'标记open()？不应该很简单r吗？

— Elazar

7

@Elazar：在Python 2中（OP正在使用）"rb"适合传递给csv.reader。

— DSM

为什么您的示例CSV文件将管道字符显示为定界符，但示例代码使用空格？

— 凯利·法国

1

@ KellyS.French我认为这将有助于可视化此问题的数据。

— frankV

186

你会得到从这个代码的最后一列的唯一方法是，如果你不包括你的print语句中的for循环。

这很可能是代码的结尾：

for row in reader:
    content = list(row[i] for i in included_cols)
print content

您希望它是这样的：

for row in reader:
        content = list(row[i] for i in included_cols)
        print content

既然我们已经解决了您的错误，那么我想花时间向您介绍pandas模块。

Pandas在处理csv文件方面非常出色，下面的代码将是您读取csv并将整列保存到变量中所需的全部：

import pandas as pd
df = pd.read_csv(csv_file)
saved_column = df.column_name #you can also use df['column_name']

因此，如果您想将列中的所有信息保存Names到变量中，则只需执行以下操作：

names = df.Names

这是一个很棒的模块，建议您研究一下。如果由于某种原因您的打印语句处于for循环状态，并且仍然仅打印出最后一列，则不应该发生，但是请让我知道我的假设是否错误。您发布的代码有很多缩进错误，因此很难知道应该在哪里。希望这对您有所帮助！

— 瑞安·萨克斯（Ryan Saxe）
source

1

是否可以从查询中删除索引号？@Ryan Saxe

— Malachi Bazar

是的，只需在for循环中对其进行迭代。

— davegallant

109

import csv
from collections import defaultdict

columns = defaultdict(list) # each value in each column is appended to a list

with open('file.txt') as f:
    reader = csv.DictReader(f) # read rows into a dictionary format
    for row in reader: # read a row as {column1: value1, column2: value2,...}
        for (k,v) in row.items(): # go over each column name and value 
            columns[k].append(v) # append the value into the appropriate list
                                 # based on column name k

print(columns['name'])
print(columns['phone'])
print(columns['street'])

带有类似的文件

name,phone,street
Bob,0893,32 Silly
James,000,400 McHilly
Smithers,4442,23 Looped St.

将输出

>>> 
['Bob', 'James', 'Smithers']
['0893', '000', '4442']
['32 Silly', '400 McHilly', '23 Looped St.']

或者，如果您希望对列进行数字索引：

with open('file.txt') as f:
    reader = csv.reader(f)
    reader.next()
    for row in reader:
        for (i,v) in enumerate(row):
            columns[i].append(v)
print(columns[0])

>>> 
['Bob', 'James', 'Smithers']

要更改分隔符，请添加delimiter=" "适当的实例，即reader = csv.reader(f,delimiter=" ")

— 亨尼
source

30

使用熊猫：

import pandas as pd
my_csv = pd.read_csv(filename)
column = my_csv.column_name
# you can also use my_csv['column_name']

在解析时丢弃不需要的列：

my_filtered_csv = pd.read_csv(filename, usecols=['col1', 'col3', 'col7'])

PS：我只是以一种简单的方式来汇总别人的话。实际的答案是从这里到这里。

— 瓦西里·诺维科夫
source

1

我认为Pandas是一个完全可以接受的解决方案。我经常使用Pandas，并且非常喜欢该库，但是这个问题专门引用了CSV模块。

— frankV

1

@frankV AFAI可以看到，标题，标签和第一段绝不禁止熊猫。我实际上只是希望为此处已经做出的回答添加一个简单的答案（其他答案也使用熊猫）。

— VasiliNovikov '17

18

随着熊猫，你可以使用read_csv带有usecols参数：

df = pd.read_csv(filename, usecols=['col1', 'col3', 'col7'])

例：

import pandas as pd
import io

s = '''
total_bill,tip,sex,smoker,day,time,size
16.99,1.01,Female,No,Sun,Dinner,2
10.34,1.66,Male,No,Sun,Dinner,3
21.01,3.5,Male,No,Sun,Dinner,3
'''

df = pd.read_csv(io.StringIO(s), usecols=['total_bill', 'day', 'size'])
print(df)

   total_bill  day  size
0       16.99  Sun     2
1       10.34  Sun     3
2       21.01  Sun     3

— 艾汉
source

16

您可以使用numpy.loadtext(filename)。例如，如果这是您的数据库.csv：

ID | Name | Address | City | State | Zip | Phone | OPEID | IPEDS |
10 | Adam | 130 W.. | Mo.. | AL... | 3.. | 334.. | 01023 | 10063 |
10 | Carl | 130 W.. | Mo.. | AL... | 3.. | 334.. | 01023 | 10063 |
10 | Adolf | 130 W.. | Mo.. | AL... | 3.. | 334.. | 01023 | 10063 |
10 | Den | 130 W.. | Mo.. | AL... | 3.. | 334.. | 01023 | 10063 |

您想要该Name列：

import numpy as np 
b=np.loadtxt(r'filepath\name.csv',dtype=str,delimiter='|',skiprows=1,usecols=(1,))

>>> b
array([' Adam ', ' Carl ', ' Adolf ', ' Den '], 
      dtype='|S7')

您可以更轻松地使用genfromtext：

b = np.genfromtxt(r'filepath\name.csv', delimiter='|', names=True,dtype=None)
>>> b['Name']
array([' Adam ', ' Carl ', ' Adolf ', ' Den '], 
      dtype='|S7')

— 通用汽车
source

@G是否在“ filepath \ name.csv”旁边有一个r？

— 114年

6

上下文：对于这类工作，您应该使用令人惊叹的python petl库。通过标准的csv模块“手动”执行操作，可以节省大量工作和潜在的挫败感。AFAIK，唯一仍在使用csv模块的人是尚未发现更好的工具来处理表格数据（熊猫，petl等）的人，这很好，但是如果您打算在其中处理大量数据，您可以从各种各样的陌生来源获得职业，学习像petl这样的东西是您可以做出的最好的投资之一。pip安装petl后，只需30分钟即可开始使用。该文档非常好。

答：假设您在csv文件中拥有第一个表（也可以使用petl直接从数据库中加载）。然后，您只需加载它并执行以下操作。

from petl import fromcsv, look, cut, tocsv 

#Load the table
table1 = fromcsv('table1.csv')
# Alter the colums
table2 = cut(table1, 'Song_Name','Artist_ID')
#have a quick look to make sure things are ok. Prints a nicely formatted table to your console
print look(table2)
# Save to new file
tocsv(table2, 'new.csv')

— 皮特·比特
source

4

我认为有一个更简单的方法

import pandas as pd

dataset = pd.read_csv('table1.csv')
ftCol = dataset.iloc[:, 0].values

因此在这里iloc[:, 0]，:表示所有值，0表示列的位置。在下面的示例ID中将被选中

ID | Name | Address | City | State | Zip | Phone | OPEID | IPEDS |
10 | C... | 130 W.. | Mo.. | AL... | 3.. | 334.. | 01023 | 10063 |

— 努里丁·库德拉托夫（Nuriddin Kudratov）
source

如果是

— 可行的

3

import pandas as pd 
csv_file = pd.read_csv("file.csv") 
column_val_list = csv_file.column_name._ndarray_values

— 开里
source

您必须pip install pandas首先

— 鲍里斯

1

多亏了您可以为熊猫数据帧建立索引并对其进行子集化的一种方法，一种将csv文件中的单个列提取到变量中的非常简单的方法是：

myVar = pd.read_csv('YourPath', sep = ",")['ColumnName']

需要考虑的几件事：

上面的代码片断会产生大熊猫Series并没有dataframe。usecols如果速度是一个问题，ayhan和ayhan的建议也会更快。使用以下方法测试两种不同的方法%timeit大小为2122 KB的csv文件，将产生22.8 msusecols方法和53 ms我建议的方法。

别忘了 import pandas as pd

— 背心
source

0

如果您需要分别处理这些列，那么我想使用zip(*iterable)模式来对这些列进行解构（有效地“解压缩”）。因此，对于您的示例：

ids, names, zips, phones = zip(*(
  (row[1], row[2], row[6], row[7])
  for row in reader
))

— 罗伯特·詹森
source

-1

抓取列名，而不是使用readlines方法（）更好地使用的ReadLine（） ，以避免循环和读取的完整文件＆其存储在数组中。

with open(csv_file, 'rb') as csvfile:

    # get number of columns

    line = csvfile.readline()

    first_item = line.split(',')

— 苏仁
source