如何使用Python将文本文件读取到列表或数组中


176

我正在尝试将文本文件的行读入python中的列表或数组中。创建后,我只需要能够单独访问列表或数组中的任何项目。

文本文件的格式如下:

0,0,200,0,53,1,0,255,...,0.

...以上,有实际的文本文件中有数百或数千多个项目。

我正在使用以下代码尝试将文件读入列表:

text_file = open("filename.dat", "r")
lines = text_file.readlines()
print lines
print len(lines)
text_file.close()

我得到的输出是:

['0,0,200,0,53,1,0,255,...,0.']
1

显然,它将整个文件读入一个项目列表,而不是单个项目列表。我究竟做错了什么?


1
只是一个注释。看来这个问题应该改写为如何将csv文件读入Python列表中。但是,我不遵守OP四年多以前的初衷,但我不知道。
demongolem



1
实际上,从最上面的答案看,这是stackoverflow.com/questions/3277503/…的副本。
AMC

Answers:


135

您将必须使用以下方法将字符串拆分为值列表 split()

所以,

lines = text_file.read().split(',')

1
我认为,这个答案可以做得更好......如果你考虑多.csv文件(由OP提到的),例如,按行包含字母字符3文件(a,b,cd,e,f,等)和应用上面你会得到什么描述的过程是这样的列表:(['a', 'b', 'c\nd', 'e', ... ]请注意项目'c\nd')。我想补充一点,尽管上面的问题仍然存在,但此过程折叠了单个巨型列表中各个行的数据,通常不是我在处理面向记录的数据文件时想要的数据。
gboffi

拆分将离开换行符。不这样做,使用csv,模块或其它一些现有的解析器
让·弗朗索瓦·法布尔

42

您也可以使用numpy loadtxt

from numpy import loadtxt
lines = loadtxt("filename.dat", comments="#", delimiter=",", unpack=False)

1
我也需要 我在Raspberry Pi上注意到numpy的运行速度非常慢。对于此应用程序,我还原为打开文件并逐行读取。
Guus

2
这对于通过dtype : data-type参数指定格式也很有用。 docs.scipy.org/doc/numpy/reference/generation/numpy.loadtxt.html 熊猫read_csv非常易于使用。但是我没有看到指定格式的方法。它正在从文件读取浮点数,而我需要字符串。感谢@Thiru显示loadtxt。
Ozgur Ozturk

1
如果txt文件包含字符串,则应指定dtype,因此应类似于lines = loadtxt(“ filename.dat”,dtype = str,comments =“#”,delimiter =“,”,unpack = False)
Alex M981

19

所以您想创建一个列表列表...我们需要从一个空列表开始

list_of_lists = []

接下来,我们逐行读取文件内容

with open('data') as f:
    for line in f:
        inner_list = [elt.strip() for elt in line.split(',')]
        # in alternative, if you need to use the file content as numbers
        # inner_list = [int(elt.strip()) for elt in line.split(',')]
        list_of_lists.append(inner_list)

一个常见的用例是列式数据,但我们的存储单位是文件的行,我们已逐一读取它,因此您可能需要转置 列表列表。这可以通过以下成语来完成

by_cols = zip(*list_of_lists)

另一个常见的用法是为每列命名

col_names = ('apples sold', 'pears sold', 'apples revenue', 'pears revenue')
by_names = {}
for i, col_name in enumerate(col_names):
    by_names[col_name] = by_cols[i]

这样您就可以对同类数据项进行操作

 mean_apple_prices = [money/fruits for money, fruits in
                     zip(by_names['apples revenue'], by_names['apples_sold'])]

我编写的大多数内容都可以使用csv标准库中的模块来加速。另一个第三方模块是pandas,它使您可以自动化典型数据分析的大多数方面(但具有许多依赖性)。


更新虽然在Python 2中zip(*list_of_lists)返回了一个不同的列表(换位后的列表),但在Python 3中情况发生了变化,并zip(*list_of_lists)返回了一个不能下标的zip对象

如果您需要索引访问,则可以使用

by_cols = list(zip(*list_of_lists))

为您提供了两个Python版本中的列表列表。

另一方面,如果您不需要索引访问,而您想要的只是构建一个按列名称索引的字典,那么zip对象就可以了。

file = open('some_data.csv')
names = get_names(next(file))
columns = zip(*((x.strip() for x in line.split(',')) for line in file)))
d = {}
for name, column in zip(names, columns): d[name] = column

OP说他们想要CSV格式的数据列表,而不是“列表列表”。只需使用该csv模块即可……
Blairg23

4

这个问题问如何将文件中的逗号分隔值内容读取到可迭代列表中:

0,0,200,0,53,1,0,255,...,0.

最简单的方法是使用以下csv模块:

import csv
with open('filename.dat', newline='') as csvfile:
    spamreader = csv.reader(csvfile, delimiter=',')

现在,您可以spamreader像这样轻松地进行迭代:

for row in spamreader:
    print(', '.join(row))

有关更多示例,请参见文档

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.