为什么在C ++中从stdin读取行比Python慢得多？

1838

我想比较使用Python和C ++从stdin读取的字符串输入的行数，并且震惊地看到我的C ++代码运行速度比等效的Python代码慢一个数量级。由于我的C ++生锈，而且我还不是专家Pythonista，因此请告诉我我做错了什么还是误解了什么。

（TLDR回答：包括以下声明：cin.sync_with_stdio(false)或仅使用fgets代替。

TLDR结果：一直滚动到我的问题的底部，然后查看表格。）

C ++代码：

#include <iostream>
#include <time.h>

using namespace std;

int main() {
    string input_line;
    long line_count = 0;
    time_t start = time(NULL);
    int sec;
    int lps;

    while (cin) {
        getline(cin, input_line);
        if (!cin.eof())
            line_count++;
    };

    sec = (int) time(NULL) - start;
    cerr << "Read " << line_count << " lines in " << sec << " seconds.";
    if (sec > 0) {
        lps = line_count / sec;
        cerr << " LPS: " << lps << endl;
    } else
        cerr << endl;
    return 0;
}

// Compiled with:
// g++ -O3 -o readline_test_cpp foo.cpp

等同于Python：

#!/usr/bin/env python
import time
import sys

count = 0
start = time.time()

for line in  sys.stdin:
    count += 1

delta_sec = int(time.time() - start_time)
if delta_sec >= 0:
    lines_per_sec = int(round(count/delta_sec))
    print("Read {0} lines in {1} seconds. LPS: {2}".format(count, delta_sec,
       lines_per_sec))

这是我的结果：

$ cat test_lines | ./readline_test_cpp
Read 5570000 lines in 9 seconds. LPS: 618889

$cat test_lines | ./readline_test.py
Read 5570000 lines in 1 seconds. LPS: 5570000

我应该注意，我在Mac OS X v10.6.8（Snow Leopard）和Linux 2.6.32（Red Hat Linux 6.2）下都尝试过。前者是MacBook Pro，后者是非常强大的服务器，并不是说这太相关了。

$ for i in {1..5}; do echo "Test run $i at `date`"; echo -n "CPP:"; cat test_lines | ./readline_test_cpp ; echo -n "Python:"; cat test_lines | ./readline_test.py ; done
Test run 1 at Mon Feb 20 21:29:28 EST 2012
CPP:   Read 5570001 lines in 9 seconds. LPS: 618889
Python:Read 5570000 lines in 1 seconds. LPS: 5570000
Test run 2 at Mon Feb 20 21:29:39 EST 2012
CPP:   Read 5570001 lines in 9 seconds. LPS: 618889
Python:Read 5570000 lines in 1 seconds. LPS: 5570000
Test run 3 at Mon Feb 20 21:29:50 EST 2012
CPP:   Read 5570001 lines in 9 seconds. LPS: 618889
Python:Read 5570000 lines in 1 seconds. LPS: 5570000
Test run 4 at Mon Feb 20 21:30:01 EST 2012
CPP:   Read 5570001 lines in 9 seconds. LPS: 618889
Python:Read 5570000 lines in 1 seconds. LPS: 5570000
Test run 5 at Mon Feb 20 21:30:11 EST 2012
CPP:   Read 5570001 lines in 10 seconds. LPS: 557000
Python:Read 5570000 lines in  1 seconds. LPS: 5570000

微小的基准附录和总结

为了完整起见，我认为我将使用原始（已同步）C ++代码更新同一框上同一文件的读取速度。同样，这是针对快速磁盘上的100M行文件。这是比较，有几种解决方案/方法：

Implementation      Lines per second
python (default)           3,571,428
cin (default/naive)          819,672
cin (no sync)             12,500,000
fgets                     14,285,714
wc (not fair comparison)  54,644,808

— JJC
source

14

您是否多次运行测试？可能存在磁盘缓存问题。

— 沃恩·卡托

9

@JJC：我看到两种可能性（假设您已经消除了David建议的缓存问题）：1）<iostream>性能糟透了。这不是第一次。2）Python非常聪明，不会在for循环中复制数据，因为您没有使用它。您可以重新尝试使用scanf和char[]。或者，您可以尝试重写循环，以便对字符串进行某些处理（例如，保留第5个字母并将其连接到结果中）。

— 2012年

15

问题是与stdio同步-请参阅我的答案。

— 沃恩·卡托

19

由于似乎没有人提到为什么您会获得C ++的额外好处：请勿针对cin.eof()!! 将getline呼叫放入“ if”语句中。

— Xeo 2012年

21

wc -l之所以速度很快，是因为它一次读取的流多于一行（可能是fread(stdin)/memchr('\n')组合的）。Python结果的数量级相同，例如wc-l.py

— jfs 2012年

1644

默认情况下，cin与stdio同步，这将使其避免任何输入缓冲。如果将其添加到主目录的顶部，应该会看到更好的性能：

std::ios_base::sync_with_stdio(false);

通常，当缓冲输入流时，而不是一次读取一个字符，而是以更大的块读取该流。这减少了系统调用的数量，这些调用通常比较昂贵。但是，由于FILE*基于stdio和iostreams通常具有单独的实现，因此也具有单独的缓冲区，如果将两者一起使用，则可能会导致问题。例如：

int myvalue1;
cin >> myvalue1;
int myvalue2;
scanf("%d",&myvalue2);

如果读取的输入cin多于实际需要的输入，则该函数将无法使用第二个整数值，该scanf函数具有自己的独立缓冲区。这将导致意外的结果。

为避免这种情况，默认情况下，流与同步stdio。实现此目的的一种常用方法是cin使用stdio函数一次读取每个字符。不幸的是，这带来了很多开销。对于少量输入来说，这不是一个大问题，但是当您读取数百万行时，性能损失将是巨大的。

幸运的是，库设计人员决定，如果您知道自己在做什么，则还应该能够禁用此功能以提高性能，因此他们提供了该sync_with_stdio方法。

— 沃恩·卡托
source

142

这应该在顶部。几乎可以肯定是正确的。答案不能在于用fscanf调用替换read ，因为那根本不能像Python那样完成很多工作。Python必须为该字符串分配内存，可能会多次分配，因为现有的分配被认为是不足够的-就像C的C ++方法一样std::string。几乎可以肯定，这项任务是受I / O约束的，而且std::string在C ++ 中创建对象或<iostream>本身使用in本身的成本存在太多的FUD 。

— Karl Knechtel '02

51

是的，在我的原始while循环上方立即添加此行可以使代码加速，甚至超过python。我将发布结果作为最终编辑。再次感谢！

— JJC '02

6

是的，这实际上也适用于cout，cerr和clog。

— 沃恩·卡托

2

为了使cout，cin，cerr和clog更快，请按以下方式进行操作：std :: ios_base :: sync_with_stdio（false）;

— 01100110 2012年

56

请注意，这sync_with_stdio()是一个静态成员函数，并且在任何流对象（例如cin）上对此函数的调用都会为所有标准iostream对象打开或关闭同步。

— John Zwinck

170

出于好奇，我了解了幕后情况，并且在每次测试中都使用了dtruss / strace。

C ++

./a.out < in
Saw 6512403 lines in 8 seconds.  Crunch speed: 814050

系统调用 sudo dtruss -c ./a.out < in

CALL                                        COUNT
__mac_syscall                                   1
<snip>
open                                            6
pread                                           8
mprotect                                       17
mmap                                           22
stat64                                         30
read_nocancel                               25958

蟒蛇

./a.py < in
Read 6512402 lines in 1 seconds. LPS: 6512402

系统调用 sudo dtruss -c ./a.py < in

CALL                                        COUNT
__mac_syscall                                   1
<snip>
open                                            5
pread                                           8
mprotect                                       17
mmap                                           21
stat64                                         29

— 2米
source

159

我在这里落后了几年，但是：

在原始帖子的“编辑4/5/6”中，您正在使用以下结构：

$ /usr/bin/time cat big_file | program_to_benchmark

这有两种不同的错误方式：

您实际上是在定时执行cat，而不是基准测试。显示的“用户”和“系统” CPU使用率time是的cat，而不是基准测试程序。更糟糕的是，“实时”时间也不一定准确。根据cat本地操作系统中和管道的实现，有可能cat在读取器进程完成其工作之前写入最终的巨型缓冲区并退出。
使用cat是不必要的，实际上会适得其反；您正在添加活动部件。如果您使用的是足够老的系统（例如，具有单个CPU，并且-在某些代计算机中-I / O比CPU快），则仅cat运行一个事实就可以使结果显色。您还必须遵守输入和输出缓冲以及其他处理的所有cat要求。（如果我是Randal Schwartz，这可能会为您赢得“猫的无用使用”奖。

更好的构造是：

$ /usr/bin/time program_to_benchmark < big_file

在此语句中，外壳程序将打开big_file，并将其作为已打开的文件描述符传递给您的程序（time然后，实际上将其作为子进程执行到该程序）。所读取文件的100％严格是您要进行基准测试的程序的责任。这使您可以真正了解其性能，而不会产生虚假的并发症。

我会提到两个可能但实际上是错误的“修复程序”，这些也可以考虑（但我对它们进行了“不同”的编号，因为这些并不是原始帖子中出现的错误）：

答：您可以通过仅定时执行程序来“修复”此问题：

$ cat big_file | /usr/bin/time program_to_benchmark

B.或通过计时整个管道：

$ /usr/bin/time sh -c 'cat big_file | program_to_benchmark'

由于与＃2相同的原因，它们是错误的：它们仍在cat不必要地使用。我提到它们的原因有几个：

对于对POSIX shell的I / O重定向功能不完全满意的人来说，它们更“自然”
可能存在的情况cat 是需要（例如：要读取的文件需要某种特权来访问，并且不希望授予该特权的程序进行基准测试：sudo cat /dev/sda | /usr/bin/time my_compression_test --no-output）
实际上，在现代机器上，cat管道中添加的内容可能没有任何实际意义。

但是我有些犹豫地说那最后一件事。如果我们检查“ Edit 5”中的最后一个结果-

$ /usr/bin/time cat temp_big_file | wc -l
0.01user 1.34system 0:01.83elapsed 74%CPU ...

-这声称cat在测试期间消耗了74％的CPU; 而实际上1.34 / 1.83约为74％。也许运行：

$ /usr/bin/time wc -l < temp_big_file

只会花剩下的0.49秒！可能不需要：cat这里必须支付read()从文件“磁盘”（实际上是缓冲区高速缓存）传输文件的系统调用（或等效调用），以及为将文件传递到的管道写操作wc。正确的测试仍然必须进行这些read()调用。只有写到管道和读到管道调用将被保存，并且这些调用应该非常便宜。

尽管如此，我预计您将能够测量出两者之间的差异cat file | wc -l，wc -l < file并找到明显的差异（两位数百分比）。每个较慢的测试在绝对时间内都会付出类似的代价。但是，这只占其总时间的一小部分。

实际上，我在Linux 3.13（Ubuntu 14.04）系统上对1.5 GB的垃圾文件进行了一些快速测试，获得了这些结果（这些结果实际上是“最好的3个”结果；当然，在启动缓存之后）：

$ time wc -l < /tmp/junk
real 0.280s user 0.156s sys 0.124s (total cpu 0.280s)
$ time cat /tmp/junk | wc -l
real 0.407s user 0.157s sys 0.618s (total cpu 0.775s)
$ time sh -c 'cat /tmp/junk | wc -l'
real 0.411s user 0.118s sys 0.660s (total cpu 0.778s)

请注意，这两个管道结果声称比实际的挂钟时间花费了更多的CPU时间（user + sys）。这是因为我正在使用shell（bash）的内置“ time”命令，该命令可以识别管道。我在多核计算机上，流水线中的各个进程可以使用各个核，因此，CPU时间的累积要比实时更快。通过使用，/usr/bin/time我看到的CPU时间比实时时间要短-表明它只能计时单个管道元素在其命令行上传递给它的时间。而且，shell的输出/usr/bin/time仅提供毫秒，而仅提供百分之一秒。

因此，在的效率水平上wc -l，将cat产生巨大的差异：409/283 = 1.453或45.3％多的实时，和775/280 = 2.768，或多177％的CPU使用！在我的随机情况下，它是同时存在的测试箱。

我要补充一点，这些测试样式之间至少存在另一个显着差异，我不能说这是好处还是错误；您必须自己决定：

运行时cat big_file | /usr/bin/time my_program，您的程序正在以正好由发送的速度从管道接收输入cat，并且块的大小不得大于编写的速度cat。

运行时/usr/bin/time my_program < big_file，程序会收到一个指向实际文件的打开文件描述符。当您的程序（或在许多情况下，该语言是使用其编写的语言的I / O库）在提供引用常规文件的文件描述符时可能会采取不同的操作。它可能用于mmap(2)将输入文件映射到其地址空间，而不是使用显式的read(2)系统调用。与运行cat二进制文件的少量费用相比，这些差异可能会对基准测试结果产生更大的影响。

当然，如果同一程序在两种情况下的执行情况显着不同，这将是一个有趣的基准结果。它确实表明该程序或其I / O库正在做一些有趣的事情，例如使用mmap()。因此，在实践中最好同时使用两种基准。也许将cat结果小幅折算以“原谅”其运行成本cat。

— 贝拉·卢布金
source

26

哇，真是有见地！虽然我已经知道cat不需要将输入提供给程序的stdin，并且首选<shell重定向，但是由于前一种方法从视觉上保留了数据的左右流动性，所以我通常会坚持使用cat当我谈到管道时。我发现这种情况下的性能差异可以忽略不计。但是，贝拉，非常感谢您对我们的教育。

— JJC'17年

11

重定向是在外壳程序命令行的早期阶段进行解析的，如果它使左向右流更令人愉悦，则可以执行以下操作之一： $ < big_file time my_program $ time < big_file my_program 该命令可以在任何POSIX Shell中使用（即，不是`csh和我不确定像rc这样的奇异世界：）

— Bela Lubkin

6

再一次，除了由于同时运行`cat`二进制文件而可能引起的无趣的增量性能差异之外，您还放弃了被测程序能够对输入文件进行mmap（）的可能性。这可能会在结果上产生深远的影响。即使您自己仅使用基准测试的“来自文件的输入行”用各种语言编写了基准测试，也是如此。这取决于其各种I / O库的详细工作。

— 贝拉·卢布金

2

旁注：Bash的内置time函数正在测量整个管道，而不是第一个程序。time seq 2 | while read; do sleep 1; done打印2秒，/usr/bin/time seq 2 | while read; do sleep 1; done打印0秒。

— 民谣

1

@folkol-是的，<<请注意，这两个管道结果[显示]比[使用]（Bash）的内置“时间”命令实时显示更多的CPU；... / usr / bin / time ...只能计时在其命令行上传递给它的单个管道元素。>>'

— Bela Lubkin

90

我在Mac上使用g ++在计算机上重现了原始结果。

在while循环之前将以下语句添加到C ++版本，使其与Python版本内联：

std::ios_base::sync_with_stdio(false);
char buffer[1048576];
std::cin.rdbuf()->pubsetbuf(buffer, sizeof(buffer));

sync_with_stdio将速度提高到2秒，并且设置更大的缓冲区将其降低到1秒。

— 卡伦斯基
source

5

您可能想尝试不同的缓冲区大小以获得更多有用的信息。我怀疑您会看到收益迅速减少。

— Karl Knechtel '02

8

我的回答太仓促。将缓冲区大小设置为默认值以外的值不会产生明显的差异。

— karunski

109

我还要避免在堆栈上设置1MB的缓冲区。它可能导致stackoverflow（尽管我想这是一个辩论的好地方！）

— Matthieu M.

11

Mac的Matthieu默认情况下使用8MB进程堆栈。Linux默认每个线程使用4MB IIRC。对于以相对较浅的堆栈深度转换输入的程序而言，1MB并不是什么大问题。不过，更重要的是，如果缓冲区超出范围，std :: cin将破坏堆栈。

— 2014年

22

@SEK Windows默认堆栈大小为1MB。

— 艾蒂安

39

getlinescanf如果您不关心文件加载时间或正在加载小型文本文件，则流操作符可以很方便。但是，如果性能是您所关心的，那么您实际上应该只是将整个文件缓冲到内存中（假设它将适合）。

这是一个例子：

//open file in binary mode
std::fstream file( filename, std::ios::in|::std::ios::binary );
if( !file ) return NULL;

//read the size...
file.seekg(0, std::ios::end);
size_t length = (size_t)file.tellg();
file.seekg(0, std::ios::beg);

//read into memory buffer, then close it.
char *filebuf = new char[length+1];
file.read(filebuf, length);
filebuf[length] = '\0'; //make it null-terminated
file.close();

如果需要，可以将流包装在该缓冲区周围，以便更方便地进行访问，如下所示：

std::istrstream header(&filebuf[0], length);

另外，如果您控制文件，请考虑使用平面二进制数据格式而不是文本。读写更加可靠，因为您不必处理所有空白。它也更小且解析速度更快。

— 斯图
source

20

对于我来说，以下代码比到目前为止发布的其他代码更快：（Visual Studio 2013，64位，500 MB文件，行长统一为[0，1000））。

const int buffer_size = 500 * 1024;  // Too large/small buffer is not good.
std::vector<char> buffer(buffer_size);
int size;
while ((size = fread(buffer.data(), sizeof(char), buffer_size, stdin)) > 0) {
    line_count += count_if(buffer.begin(), buffer.begin() + size, [](char ch) { return ch == '\n'; });
}

它比我的所有Python尝试都要多2倍。

— 皮特
source

使用微型的自定义但完全简单的C程序，您可以得到比它更快的速度，该C程序将无缓冲的readsyscall 迭代地放入一个长度固定的静态缓冲区中，BUFSIZE或者通过等效的相应mmapsyscall进行迭代，然后通过该缓冲区进行计数以换行la for (char *cp = buf; *cp; cp++) count += *cp == "\n"。但是，您必须调整BUFSIZE系统，哪个stdio已经为您完成。但是，该for循环应编译为适用于您盒子硬件的令人赞叹的快速汇编语言说明。

— tchrist

3

count_if和一个lambda也可以编译为“速度非常快的汇编程序”。

— Petter

17

顺便说一句，C ++版本的行数比Python版本的行数大1个原因是，仅当尝试读取超出eof的值时，才会设置eof标志。因此正确的循环将是：

while (cin) {
    getline(cin, input_line);

    if (!cin.eof())
        line_count++;
};

— 格雷格
source

70

真正正确的循环是： while (getline(cin, input_line)) line_count++;

— 乔纳森·韦克利

2

@JonathanWakely我知道我来晚了，但是请使用++line_count;and not line_count++;。

— 瓦尔说，请恢复莫妮卡（Monica），

7

@val，如果有什么不同，则说明编译器存在错误。变量是long，编译器完全有能力告诉我们未使用增量的结果。如果它不能为后增量和前增量生成相同的代码，那么它就坏了。

— 乔纳森·威基利

2

确实，任何体面的编译器都将能够检测到增量后的滥用，并用预增量代替它，但是编译器并不需要。因此，即使编译器不执行替换操作，它也不会损坏。而且，写++line_count;而不是写line_count++;不会受伤:)

— Fareanor

1

@valsaysReinstateMonica在此特定示例中，为什么选择其中一个？无论哪种方式都不会使用结果，因此可以在后面读取它while，对吗？如果有某种错误，并且您想确保line_count正确，那会不会很重要？我只是在猜测，但我不明白为什么会如此。

— TankorSmash

14

在您的第二个示例（带有scanf（））的情况下，这样做仍然较慢的原因可能是因为scanf（“％s”）解析了字符串并查找了任何空格字符（空格，制表符，换行符）。

同样，是的，CPython进行了一些缓存以避免硬盘读取。

— 达文奇
source

12

答案的第一要素：<iostream>缓慢。该死的慢。scanf如下所示，我获得了巨大的性能提升，但是它仍然比Python慢两倍。

#include <iostream>
#include <time.h>
#include <cstdio>

using namespace std;

int main() {
    char buffer[10000];
    long line_count = 0;
    time_t start = time(NULL);
    int sec;
    int lps;

    int read = 1;
    while(read > 0) {
        read = scanf("%s", buffer);
        line_count++;
    };
    sec = (int) time(NULL) - start;
    line_count--;
    cerr << "Saw " << line_count << " lines in " << sec << " seconds." ;
    if (sec > 0) {
        lps = line_count / sec;
        cerr << "  Crunch speed: " << lps << endl;
    } 
    else
        cerr << endl;
    return 0;
}

— JN
source

直到我进行了第三次编辑后才看到此帖子，但再次感谢您的建议。奇怪的是，上面的edit3中的scanf行对我而言，与python相比现在没有2倍命中率。顺便说一下，我正在使用2.7。

— JJC

10

修复c ++版本后，此stdio版本比我计算机上的c ++ iostreams版本要慢得多。（3秒vs 1秒）

— karunski

10

好吧，我看到在您的第二个解决方案中，您从切换cin到scanf，这是我要向您提出的第一个建议（cin是sloooooooooooow）。现在，如果您从切换scanf到fgets，则会看到性能的另一提升：fgets是用于字符串输入的最快的C ++函数。

顺便说一句，不知道同步的事情，很好。但是您仍然应该尝试fgets。

— 何塞·埃内斯托·拉拉·罗德里格斯
source

2

fgets对于足够大的行，除非是错误的（就行数而言，如果要在整个循环中将行分割，就行而言），而无需对不完整的行进行额外检查（并尝试补偿它涉及分配不必要的大缓冲区），其中std::getline处理重新分配以无缝匹配实际输入）。快速和错误是容易的，但是使用“稍微慢一些但正确”的方法几乎总是值得的，关闭它sync_with_stdio会使您受益。

— ShadowRanger

为什么在C ++中从stdin读取行比Python慢​​得多？

为什么在C ++中从stdin读取行比Python慢得多？