使用Python在Pandas中读取CSV文件时出现UnicodeDecodeError

412

我正在运行一个程序，正在处理30,000个类似文件。他们中有随机数正在停止并产生此错误...

   File "C:\Importer\src\dfman\importer.py", line 26, in import_chr
     data = pd.read_csv(filepath, names=fields)
   File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 400, in parser_f
     return _read(filepath_or_buffer, kwds)
   File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 205, in _read
     return parser.read()
   File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 608, in read
     ret = self._engine.read(nrows)
   File "C:\Python33\lib\site-packages\pandas\io\parsers.py", line 1028, in read
     data = self._reader.read(nrows)
   File "parser.pyx", line 706, in pandas.parser.TextReader.read (pandas\parser.c:6745)
   File "parser.pyx", line 728, in pandas.parser.TextReader._read_low_memory (pandas\parser.c:6964)
   File "parser.pyx", line 804, in pandas.parser.TextReader._read_rows (pandas\parser.c:7780)
   File "parser.pyx", line 890, in pandas.parser.TextReader._convert_column_data (pandas\parser.c:8793)
   File "parser.pyx", line 950, in pandas.parser.TextReader._convert_tokens (pandas\parser.c:9484)
   File "parser.pyx", line 1026, in pandas.parser.TextReader._convert_with_dtype (pandas\parser.c:10642)
   File "parser.pyx", line 1046, in pandas.parser.TextReader._string_convert (pandas\parser.c:10853)
   File "parser.pyx", line 1278, in pandas.parser._string_box_utf8 (pandas\parser.c:15657)
 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xda in position 6: invalid    continuation byte

这些文件的源/创建都来自同一位置。纠正此错误以继续导入的最佳方法是什么？

— TravisVOX
source

821

read_csv可以encoding选择处理不同格式的文件。我主要使用read_csv('file', encoding = "ISO-8859-1")，或者替代地encoding = "utf-8"阅读，并且通常utf-8用于to_csv。

您还可以使用而不是的多个alias选项'latin'之一'ISO-8859-1'（请参阅python docs，还可能会遇到许多其他编码）。

请参阅相关的Pandas文档，有关csv文件的python文档示例以及有关SO的大量相关问题。一个好的背景资源是每个开发人员应了解的unicode和字符集。

要检测编码（假设文件包含非ASCII字符），可以使用enca（请参见手册页）或file -i（linux）或file -I（osx）（请参见手册页）。

— 斯特凡
source

7

由于这是Windows问题，因此cp1252可能更可取iso-8859-1。

— tzot

7

谢谢你pd.read_csv('immigration.csv', encoding = "ISO-8859-1", engine='python')为我工作

— Mona Jalal '18

8

不要仅仅因为没有抛出异常而盲目地认为某种编码是正确的。您需要查看字符串并弄清楚解释是否有意义。例如，如果您获得的是“开光”而不是“开光”，则可能需要从ISO-8859-1切换到ISO-8859-15。

— 约阿希姆·瓦格纳

6

对我来说是ANSI。为了弄清楚它，我打开了csv，notepad然后单击save as，它在保存按钮旁边显示了编码。

— Vaibhav Vishal

4

@Ben这是一个很好的资源每个开发人员都应该了解unicode和字符集

— Stefan

68

所有解决方案中最简单的：

import pandas as pd
df = pd.read_csv('file_name.csv', engine='python')

替代解决方案：

在Sublime文本编辑器中打开csv文件。
以utf-8格式保存文件。

崇高地，单击文件->使用编码保存-> UTF-8

然后，您可以照常读取文件：

import pandas as pd
data = pd.read_csv('file_name.csv', encoding='utf-8')

其他不同的编码类型是：

encoding = "cp1252"
encoding = "ISO-8859-1"

— 吉尔·巴乔
source

11

该问题说明有30,000个此类文件。手动打开每个文件都不可行。

— 基思

4

至少对于一个文件来说，这似乎对我有用！

— apil.tamang

C引擎显然在接受方面更宽容。对于可以正常打开的特定CSV文件encoding='iso-8859-1'，请使用engine='python'throws _csv.Error: field larger than field limit (131072)。

— 格雷格·培根

1

使用带有编码保存功能的替代解决方案真的很有帮助！这里是如何使用它的VSCode stackoverflow.com/questions/30082741/...

— brownmagik352

20

熊猫允许指定编码，但不允许忽略错误以免自动替换有问题的字节。因此，没有一种适合所有方法的大小，而是取决于实际用例的不同方法。

您知道编码，并且文件中没有编码错误。太好了：您只需要指定编码即可：

file_encoding = 'cp1252'        # set file_encoding to the file encoding (utf8, latin1, etc.)
pd.read_csv(input_file_and_path, ..., encoding=file_encoding)

您不希望被编码问题困扰，无论某些文本字段是否包含垃圾内容，都只希望加载该死的文件。好的，您只需要使用Latin1编码，因为它接受任何可能的字节作为输入（并将其转换为相同代码的unicode字符）：
```
pd.read_csv(input_file_and_path, ..., encoding='latin1')
```
您知道大多数文件都是用特定的编码编写的，但是它也包含编码错误。一个真实的示例是一个UTF8文件，该文件已使用非utf8编辑器进行了编辑，并且其中包含一些使用不同编码的行。Pandas没有提供特殊的错误处理的准备，但是Python open函数具有（假设Python3），并且read_csv接受像object这样的文件。在这里使用的典型错误参数是'ignore'仅抑制有问题的字节，或者（IMHO更好）'backslashreplace'用其Python的反斜杠转义序列替换有问题的字节：
```
file_encoding = 'utf8'        # set file_encoding to the file encoding (utf8, latin1, etc.)
input_fd = open(input_file_and_path, encoding=file_encoding, errors = 'backslashreplace')
pd.read_csv(input_fd, ...)
```

— Serge Ballesta
source

1

答案较晚，但针对的是重复问题 ...

— Serge Ballesta

14

with open('filename.csv') as f:
   print(f)

执行此代码后，您将找到“ filename.csv”的编码，然后执行以下代码

data=pd.read_csv('filename.csv', encoding="encoding as you found earlier"

你去

— 巴韦什
source

6

就我而言，USC-2 LE BOM根据Notepad ++ ，文件具有编码。它encoding="utf_16_le"用于python。

希望这有助于更快找到某人的答案。

— Vodyanikov Andrew Anatolevich
source

4

就我而言，这适用于python 2.7：

data = read_csv(filename, encoding = "ISO-8859-1", dtype={'name_of_colum': unicode}, low_memory=False)

而对于python 3，仅：

data = read_csv(filename, encoding = "ISO-8859-1", low_memory=False)

— 维克多·维拉科塔（Victor Villacorta）
source

3

尝试指定engine ='python'。它对我有用，但我仍在尝试找出原因。

df = pd.read_csv(input_file_path,...engine='python')

— 一月33
source

这也为我工作。编码=“ ISO-8859-1”也是如此。绝对是编码问题。如果特殊字符是用ANSI编码的，例如椭圆字符（即“ ...”），而您尝试用UTF-8读取它，则可能会出错。最重要的是，您必须知道创建文件所使用的编码。

— 肖恩·麦卡锡

3

我正在发布答案，以提供有关为什么会出现此问题的更新解决方案和解释。假设您正在从数据库或Excel工作簿中获取此数据。如果您有特殊字符，例如La Cañada Flintridge city，除非您使用UTF-8编码导出数据，否则将引入错误。La Cañada Flintridge city将成为La Ca\xf1ada Flintridge city。如果您pandas.read_csv对默认参数没有任何调整，则会遇到以下错误

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xf1 in position 5: invalid continuation byte

幸运的是，有一些解决方案。

选项1，修复出口。确保使用UTF-8编码。

选项2，如果您无法解决出口问题，而需要使用pandas.read_csv，请确保包括以下参数engine='python'。缺省情况下，pandas使用engine='C'此选项非常适合读取大型干净文件，但如果出现意外情况，它将崩溃。根据我的经验，设置encoding='utf-8'从未解决过这个问题UnicodeDecodeError。另外，您不需要使用errors_bad_lines，但是，如果您确实需要它，那仍然是一个选择。

pd.read_csv(<your file>, engine='python')

选项3：解决方案是我个人首选的解决方案。使用香草Python读取文件。

import pandas as pd

data = []

with open(<your file>, "rb") as myfile:
    # read the header seperately
    # decode it as 'utf-8', remove any special characters, and split it on the comma (or deliminator)
    header = myfile.readline().decode('utf-8').replace('\r\n', '').split(',')
    # read the rest of the data
    for line in myfile:
        row = line.decode('utf-8', errors='ignore').replace('\r\n', '').split(',')
        data.append(row)

# save the data as a dataframe
df = pd.DataFrame(data=data, columns = header)

希望这可以帮助人们第一次遇到这个问题。

— 乔恩
source

2

挣扎了一段时间，以为我会在这个问题上发布，因为它是第一个搜索结果。将encoding="iso-8859-1"标签添加到熊猫read_csv没有用，也没有任何其他编码，但始终给出UnicodeDecodeError。

如果您要传递文件句柄，则pd.read_csv(),需要将encoding属性放在文件上，而不是中read_csv。事后看来很明显，但是要跟踪却有一个微妙的错误。

— 特恩特
source

1

这个答案似乎可以解决CSV编码问题。如果标题出现奇怪的编码问题，如下所示：

>>> f = open(filename,"r")
>>> reader = DictReader(f)
>>> next(reader)
OrderedDict([('\ufeffid', '1'), ... ])

然后，您在CSV文件的开头就有一个字节顺序标记（BOM）字符。这个答案解决了这个问题：

Python读取csv-BOM嵌入第一个密钥

解决方案是使用加载CSV encoding="utf-8-sig"：

>>> f = open(filename,"r", encoding="utf-8-sig")
>>> reader = DictReader(f)
>>> next(reader)
OrderedDict([('id', '1'), ... ])

希望这对某人有帮助。

— 恩伍德伍德沃德
source

1

我正在发布此旧线程的更新。我找到了一个可行的解决方案，但需要打开每个文件。我在LibreOffice中打开了csv文件，选择另存为>编辑过滤器设置。在下拉菜单中，我选择了UTF8编码。然后我添加encoding="utf-8-sig"到data = pd.read_csv(r'C:\fullpathtofile\filename.csv', sep = ',', encoding="utf-8-sig")。

希望这对某人有帮助。

— t恤dr1
source

Nisse，谢谢您的编辑。您能解释一下您所做的更改吗？我没什么区别。

— tshirtdr1

1

我无法打开从网上银行下载的简体中文CSV文件，我尝试过latin1，尝试过iso-8859-1，cp1252，但都无济于事。

但是pd.read_csv("",encoding ='gbk')工作就完成了。

— 卢克·阿隆
source

1

请尝试添加

encoding='unicode_escape'

这会有所帮助。为我工作。另外，请确保使用正确的定界符和列名。

您可以从仅加载1000行开始，以快速加载文件。

— 普拉卡·拉蒂（Prakhar Rathi）
source

0

我正在使用Jupyter笔记本。以我为例，它以错误的格式显示文件。“编码”选项无效。因此，我将CSV保存为utf-8格式，并且可以正常工作。

— Himanshu Sharma
source

0

尝试这个：

import pandas as pd
with open('filename.csv') as f:
    data = pd.read_csv(f)

看起来它会处理编码，而无需通过参数明确表示

— 徐克
source

0

在传递给熊猫之前，请检查编码。它会使您减速，但是...

with open(path, 'r') as f:
    encoding = f.encoding 

df = pd.read_csv(path,sep=sep, encoding=encoding)

在python 3.7中

— 戴夫
source

0

我遇到的另一个导致相同错误的重要问题是：

_values = pd.read_csv("C:\Users\Mujeeb\Desktop\file.xlxs")

^此行导致相同的错误，因为我正在使用read_csv()方法读取Excel文件。使用read_excel()阅读.xlxs

— Mujeeb Ishaque
source

哇，其他所有人都在谈论编码问题。看来我的问题很奇怪。

— Mujeeb Ishaque

这是因为您有一只read_excel熊猫。

— 阿妮梅农