Answers:
有关从Java HotSpot的创建者编写微基准测试的提示:
规则0:阅读有关JVM和微基准测试的著名论文。好的人是布莱恩·格茨(Brian Goetz),2005年。不要对微观基准期望太高;它们仅测量有限范围的JVM性能特征。
规则1:始终包括一个预热阶段,该阶段一直运行您的测试内核,足以在计时阶段之前触发所有初始化和编译。(在预热阶段可以进行较少的迭代。经验法则是数以万计的内循环迭代。)
规则2:始终与-XX:+PrintCompilation
,-verbose:gc
等一起运行,因此您可以验证在计时阶段,编译器和JVM的其他部分是否未进行意外工作。
规则2.1:在计时和预热阶段的开始和结束时打印消息,因此您可以验证在计时阶段没有规则2的输出。
规则3:请注意-client
和-server
,OSR和常规编译之间的区别。该-XX:+PrintCompilation
标志报告OSR编译时带有一个符号,以表示非初始入口点,例如:Trouble$1::run @ 2 (41 bytes)
。如果您追求最佳性能,则优先选择服务器而不是客户端,并经常选择OSR。
规则4:注意初始化效果。在计时阶段不要第一次打印,因为打印会加载并初始化类。不要在预热阶段(或最终报告阶段)之外加载新的类,除非您正在专门测试类的加载(在这种情况下,仅加载测试类)。规则2是抵御此类影响的第一道防线。
规则5:注意优化和重新编译的影响。在时序阶段不要第一次采用任何代码路径,因为基于较早的乐观假设,即根本不会使用该路径,编译器可能会垃圾并重新编译代码。规则2是抵御此类影响的第一道防线。
规则6:使用适当的工具来阅读编译器的思想,并期望对其生成的代码感到惊讶。在形成有关使事物变快或变慢的理论之前,请自己检查代码。
规则7:减少测量中的噪音。在安静的计算机上运行基准测试,然后运行几次,丢弃异常值。用于-Xbatch
将编译器与应用程序序列化,并考虑进行设置-XX:CICompilerCount=1
以防止编译器与其自身并行运行。尽最大努力减少GC开销,将其设置Xmx
(足够大)等于Xms
并使用(UseEpsilonGC
如果可用)。
规则8:将库用于您的基准测试,因为它可能更有效,并且已经为此目的进行了调试。例如JMH,Caliper或Bill和Paul的Java优秀UCSD基准。
System.nanoTime()
是,不能保证比更加准确System.currentTimeMillis()
。它只能保证至少是准确的。但是,它通常会更加准确。
System.nanoTime()
代替的主要原因System.currentTimeMillis()
是保证前者单调增加。将两次currentTimeMillis
调用减去返回的值实际上可以得到否定的结果,这可能是因为系统时间是由某些NTP守护程序调整的。
我知道这个问题已被标记为已回答,但我想提两个可以帮助我们编写微基准测试的库
入门教程
入门教程
Java基准测试的重要事项是:
System.gc()
在迭代之间调用,但是在测试之间运行它是一个好主意,这样每个测试都有望获得一个“干净的”内存空间来使用。(是的,gc()
更多的是提示而不是保证,但是根据我的经验,它很有可能真的会造成垃圾回收。)我只是在撰写有关.NET中基准测试框架设计的博客。我有一对夫妇的较早的帖子这或许可以给你一些想法-而不是一切都将是合适的,当然,但它的一些可能。
gc
总是释放未使用的内存。
System.gc()
,由于先前测试中创建的对象,您如何建议在一个测试中最大程度地减少垃圾收集?我很务实,不是教条。
jmh是OpenJDK的最新成员,由Oracle的一些性能工程师编写。当然值得一看。
jmh是一种Java工具,用于构建,运行和分析以Java和其他针对JVM的语言编写的nano / micro / macro基准测试。
样本测试注释中隐藏了非常有趣的信息。
也可以看看:
如果要比较两种算法,请为每种算法至少执行两个基准测试,以交替顺序。即:
for(i=1..n)
alg1();
for(i=1..n)
alg2();
for(i=1..n)
alg2();
for(i=1..n)
alg1();
我发现相同算法在不同遍中的运行时有一些明显的差异(有时为5-10%)。
另外,请确保n非常大,以便每个循环的运行时间至少在10秒左右。迭代次数越多,基准时间中的数字就越大,数据越可靠。
用Java编写微基准有很多可能的陷阱。
首先:您必须计算各种事件,这些事件或多或少地需要时间,这些事件包括:垃圾回收,缓存效果(文件用于OS,内存用于CPU),IO等。
第二:您不能相信很短的时间间隔内测量时间的准确性。
第三:JVM在执行时优化您的代码。因此,在同一个JVM实例中的不同运行将变得越来越快。
我的建议:使基准测试运行几秒钟,这比运行时间(毫秒)要可靠。预热JVM(这意味着至少要运行一次基准测试而不进行测量,JVM才能运行优化)。并多次运行基准测试(可能是5次),并取中值。在新的JVM实例中运行每个微基准测试(调用每个基准测试新Java),否则JVM的优化效果会影响以后运行的测试。不要执行在预热阶段未执行的事情(因为这可能会触发类加载和重新编译)。
除了其他出色的建议,我还请注意以下几点:
对于某些CPU(例如,具有TurboBoost的Intel Core i5系列),温度(当前使用的内核数量以及利用率)会影响时钟速度。由于CPU是动态时钟的,因此这可能会影响您的结果。例如,如果您有一个单线程应用程序,则最大时钟速度(使用TurboBoost)要高于使用所有内核的应用程序的时钟速度。因此,这可能会干扰某些系统上单线程和多线程性能的比较。请记住,温度和挥发度也会影响Turbo频率的维持时间。
您可能直接控制着一个更根本的重要方面:确保您正在衡量正确的事情!例如,如果您正在使用System.nanoTime()
基准测试特定的代码,请将对调用的调用放在有意义的位置,以避免测量您不感兴趣的内容。例如,不要执行以下操作:
long startTime = System.nanoTime();
//code here...
System.out.println("Code took "+(System.nanoTime()-startTime)+"nano seconds");
问题是代码完成后您没有立即获得结束时间。相反,请尝试以下操作:
final long endTime, startTime = System.nanoTime();
//code here...
endTime = System.nanoTime();
System.out.println("Code took "+(endTime-startTime)+"nano seconds");
println
,而不是一个单独的标题行什么的,System.nanoTime()
已被评为第一个在构造字符串ARG该呼叫一步。编译器无法对第一个执行任何操作,而对第二个则无法执行,而且甚至没有人鼓励他们在记录停止时间之前做额外的工作。
http://opt.sourceforge.net/ Java Micro Benchmark-确定不同平台上计算机系统的比较性能特征所需的控制任务。可用于指导优化决策并比较不同的Java实现。