两个循环都是无限的,但是我们可以看到哪个循环每次迭代需要更多的指令/资源。
使用gcc,我编译了以下两个程序以进行不同程度的优化:
int main(void) {
while(1) {}
return 0;
}
int main(void) {
while(2) {}
return 0;
}
即使没有优化(-O0
),两个程序的生成程序集也是相同的。因此,两个循环之间没有速度差异。
供参考,这是生成的程序集(使用 gcc main.c -S -masm=intel
与优化标志一起使用):
与-O0
:
.file "main.c"
.intel_syntax noprefix
.def __main; .scl 2; .type 32; .endef
.text
.globl main
.def main; .scl 2; .type 32; .endef
.seh_proc main
main:
push rbp
.seh_pushreg rbp
mov rbp, rsp
.seh_setframe rbp, 0
sub rsp, 32
.seh_stackalloc 32
.seh_endprologue
call __main
.L2:
jmp .L2
.seh_endproc
.ident "GCC: (tdm64-2) 4.8.1"
与-O1
:
.file "main.c"
.intel_syntax noprefix
.def __main; .scl 2; .type 32; .endef
.text
.globl main
.def main; .scl 2; .type 32; .endef
.seh_proc main
main:
sub rsp, 40
.seh_stackalloc 40
.seh_endprologue
call __main
.L2:
jmp .L2
.seh_endproc
.ident "GCC: (tdm64-2) 4.8.1"
使用-O2
和-O3
(相同的输出):
.file "main.c"
.intel_syntax noprefix
.def __main; .scl 2; .type 32; .endef
.section .text.startup,"x"
.p2align 4,,15
.globl main
.def main; .scl 2; .type 32; .endef
.seh_proc main
main:
sub rsp, 40
.seh_stackalloc 40
.seh_endprologue
call __main
.L2:
jmp .L2
.seh_endproc
.ident "GCC: (tdm64-2) 4.8.1"
实际上,对于每个优化级别,为循环生成的程序集都是相同的:
.L2:
jmp .L2
.seh_endproc
.ident "GCC: (tdm64-2) 4.8.1"
重要的位是:
.L2:
jmp .L2
我不能很好地阅读汇编,但这显然是一个无条件循环。该jmp
指令无条件地将程序重置为.L2
标签,甚至不将值与true进行比较,当然,立即再次进行重置,直到程序以某种方式结束。这直接对应于C / C ++代码:
L2:
goto L2;
编辑:
有趣的是,即使没有优化,下面的循环jmp
在汇编中也会产生完全相同的输出(无条件):
while(42) {}
while(1==1) {}
while(2==2) {}
while(4<7) {}
while(3==3 && 4==4) {}
while(8-9 < 0) {}
while(4.3 * 3e4 >= 2 << 6) {}
while(-0.1 + 02) {}
甚至令我惊讶的是:
#include<math.h>
while(sqrt(7)) {}
while(hypot(3,4)) {}
用户定义的函数使事情变得更加有趣:
int x(void) {
return 1;
}
while(x()) {}
#include<math.h>
double x(void) {
return sqrt(7);
}
while(x()) {}
在-O0
,这两个示例实际上称为x
为每个迭代并执行比较。
第一个示例(返回1):
.L4:
call x
testl %eax, %eax
jne .L4
movl $0, %eax
addq $32, %rsp
popq %rbp
ret
.seh_endproc
.ident "GCC: (tdm64-2) 4.8.1"
第二个示例(返回sqrt(7)
):
.L4:
call x
xorpd %xmm1, %xmm1
ucomisd %xmm1, %xmm0
jp .L4
xorpd %xmm1, %xmm1
ucomisd %xmm1, %xmm0
jne .L4
movl $0, %eax
addq $32, %rsp
popq %rbp
ret
.seh_endproc
.ident "GCC: (tdm64-2) 4.8.1"
但是,在-O1
以上版本中,它们都产生与先前示例相同的程序集(无条件jmp
返回到先前的标签)。
TL; DR
在GCC下,不同的循环被编译为相同的程序集。编译器将评估常量值,并且不会执行任何实际的比较。
这个故事的寓意是:
- C ++源代码和CPU指令之间存在翻译层,并且这一层对性能具有重要意义。
- 因此,不能仅通过查看源代码来评估性能。
- 编译器应该足够聪明以优化这种琐碎的情况。在绝大多数情况下,程序员不应浪费时间思考它们。