熊猫数据框read_csv上的不良数据

Question 1

我想读取一个非常大的csv（无法在excel中打开并轻松编辑），但是在第100,000行左右的某个地方，有一行带有一个额外的列，导致程序崩溃。该行是错误的，因此我需要一种方法来忽略它是多余的列这一事实。大约有50列，因此对标题进行硬编码和使用名称或usecols是不可取的。我可能还会在其他csv中遇到此问题，并希望有一个通用的解决方案。不幸的是，我在read_csv中找不到任何东西。代码很简单：

def loadCSV(filePath):
    dataframe = pd.read_csv(filePath, index_col=False, encoding='iso-8859-1', nrows=1000)
    datakeys = dataframe.keys();
    return dataframe, datakeys

Question 2

传递error_bad_lines=False以跳过错误的行：

error_bad_lines：布尔值，默认情况下，包含太多字段的True Lines（例如，带有太多逗号的csv行）默认情况下会引发异常，并且不会返回DataFrame。如果为False，则这些“坏行”将从返回的DataFrame中删除。（仅对C解析器有效）

Question 3

要获取有关导致行出错的信息，请尝试使用error_bad_lines=False和的组合warn_bad_lines=True：

dataframe = pd.read_csv(filePath, index_col=False, encoding='iso-8859-1', nrows=1000,
                        warn_bad_lines=True, error_bad_lines=False)

error_bad_lines=False跳过导致错误的行并显示warn_bad_lines=True错误详细信息和行号，如下所示：

'Skipping line 3: expected 4 fields, saw 3401\nSkipping line 4: expected 4 fields, saw 30...'

如果您要保存警告消息（即进行进一步处理），则也可以将其保存到文件中（使用contextlib）：

import contextlib

with open(r'D:\Temp\log.txt', 'w') as log:
    with contextlib.redirect_stderr(log):
        dataframe = pd.read_csv(filePath, index_col=False, encoding='iso-8859-1', 
                                warn_bad_lines=True, error_bad_lines=False)

Question 4

这是我解决这些问题的方法，它很慢，但是效果很好，简单地说，只需将CSV文件读取为txt文件，然后逐行检查即可。如果“，”逗号小于应跳过该行。最终确保正确的线路。

def bad_lines(path):
    import itertools
    num_columns = []
    lines = ""
    
    for i in range(10,50,5):
        content = open(path).readlines(i)[0]
        if (content.count("'") == 0) and (content.count('"') == 0):
            num_columns.append(content.count(","))

    if len(set(num_columns)) == 1:
        for line in itertools.islice(open(path), 0, None):
            if line.count(",") >= num_columns[0]:
                lines = lines + line

    text_file = open("temp.txt", "w")
    n = text_file.write(lines)
    text_file.close()
    
    return("temp.txt")