Java 8:Class.getName()会减慢字符串连接链的速度


13

最近,我遇到了有关字符串串联的问题。该基准总结如下:

@OutputTimeUnit(TimeUnit.NANOSECONDS)
public class BrokenConcatenationBenchmark {

  @Benchmark
  public String slow(Data data) {
    final Class<? extends Data> clazz = data.clazz;
    return "class " + clazz.getName();
  }

  @Benchmark
  public String fast(Data data) {
    final Class<? extends Data> clazz = data.clazz;
    final String clazzName = clazz.getName();
    return "class " + clazzName;
  }

  @State(Scope.Thread)
  public static class Data {
    final Class<? extends Data> clazz = getClass();

    @Setup
    public void setup() {
      //explicitly load name via native method Class.getName0()
      clazz.getName();
    }
  }
}

在JDK 1.8.0_222(OpenJDK 64位服务器VM,25.222-b10)上,我得到了以下结果:

Benchmark                                                            Mode  Cnt     Score     Error   Units
BrokenConcatenationBenchmark.fast                                    avgt   25    22,253 ±   0,962   ns/op
BrokenConcatenationBenchmark.fastgc.alloc.rate                     avgt   25  9824,603 ± 400,088  MB/sec
BrokenConcatenationBenchmark.fastgc.alloc.rate.norm                avgt   25   240,000 ±   0,001    B/op
BrokenConcatenationBenchmark.fastgc.churn.PS_Eden_Space            avgt   25  9824,162 ± 397,745  MB/sec
BrokenConcatenationBenchmark.fastgc.churn.PS_Eden_Space.norm       avgt   25   239,994 ±   0,522    B/op
BrokenConcatenationBenchmark.fastgc.churn.PS_Survivor_Space        avgt   25     0,040 ±   0,011  MB/sec
BrokenConcatenationBenchmark.fastgc.churn.PS_Survivor_Space.norm   avgt   25     0,001 ±   0,001    B/op
BrokenConcatenationBenchmark.fastgc.count                          avgt   25  3798,000            counts
BrokenConcatenationBenchmark.fastgc.time                           avgt   25  2241,000                ms

BrokenConcatenationBenchmark.slow                                    avgt   25    54,316 ±   1,340   ns/op
BrokenConcatenationBenchmark.slowgc.alloc.rate                     avgt   25  8435,703 ± 198,587  MB/sec
BrokenConcatenationBenchmark.slowgc.alloc.rate.norm                avgt   25   504,000 ±   0,001    B/op
BrokenConcatenationBenchmark.slowgc.churn.PS_Eden_Space            avgt   25  8434,983 ± 198,966  MB/sec
BrokenConcatenationBenchmark.slowgc.churn.PS_Eden_Space.norm       avgt   25   503,958 ±   1,000    B/op
BrokenConcatenationBenchmark.slowgc.churn.PS_Survivor_Space        avgt   25     0,127 ±   0,011  MB/sec
BrokenConcatenationBenchmark.slowgc.churn.PS_Survivor_Space.norm   avgt   25     0,008 ±   0,001    B/op
BrokenConcatenationBenchmark.slowgc.count                          avgt   25  3789,000            counts
BrokenConcatenationBenchmark.slowgc.time                           avgt   25  2245,000                ms

这看起来像一个类似于JDK-8043677的问题,其中具有副作用的表达式破坏了新StringBuilder.append().append().toString()链的优化。但是代码Class.getName()本身似乎没有任何副作用:

private transient String name;

public String getName() {
  String name = this.name;
  if (name == null) {
    this.name = name = this.getName0();
  }

  return name;
}

private native String getName0();

唯一可疑的事情是对本机方法的调用,该方法实际上仅发生一次,并且其结果被缓存在类的字段中。在我的基准测试中,我已将其显式缓存在设置方法中。

我期望分支预测器找出在每次基准测试调用时this.name的实际值永远不会为null并优化整个表达式。

但是,对于BrokenConcatenationBenchmark.fast()我来说有:

@ 19   tsypanov.strings.benchmark.concatenation.BrokenConcatenationBenchmark::fast (30 bytes)   force inline by CompileCommand
  @ 6   java.lang.Class::getName (18 bytes)   inline (hot)
    @ 14   java.lang.Class::initClassName (0 bytes)   native method
  @ 14   java.lang.StringBuilder::<init> (7 bytes)   inline (hot)
  @ 19   java.lang.StringBuilder::append (8 bytes)   inline (hot)
  @ 23   java.lang.StringBuilder::append (8 bytes)   inline (hot)
  @ 26   java.lang.StringBuilder::toString (35 bytes)   inline (hot)

即编译器能够内联所有内容,因为BrokenConcatenationBenchmark.slow()它有所不同:

@ 19   tsypanov.strings.benchmark.concatenation.BrokenConcatenationBenchmark::slow (28 bytes)   force inline by CompilerOracle
  @ 9   java.lang.StringBuilder::<init> (7 bytes)   inline (hot)
    @ 3   java.lang.AbstractStringBuilder::<init> (12 bytes)   inline (hot)
      @ 1   java.lang.Object::<init> (1 bytes)   inline (hot)
  @ 14   java.lang.StringBuilder::append (8 bytes)   inline (hot)
    @ 2   java.lang.AbstractStringBuilder::append (50 bytes)   inline (hot)
      @ 10   java.lang.String::length (6 bytes)   inline (hot)
      @ 21   java.lang.AbstractStringBuilder::ensureCapacityInternal (27 bytes)   inline (hot)
        @ 17   java.lang.AbstractStringBuilder::newCapacity (39 bytes)   inline (hot)
        @ 20   java.util.Arrays::copyOf (19 bytes)   inline (hot)
          @ 11   java.lang.Math::min (11 bytes)   (intrinsic)
          @ 14   java.lang.System::arraycopy (0 bytes)   (intrinsic)
      @ 35   java.lang.String::getChars (62 bytes)   inline (hot)
        @ 58   java.lang.System::arraycopy (0 bytes)   (intrinsic)
  @ 18   java.lang.Class::getName (21 bytes)   inline (hot)
    @ 11   java.lang.Class::getName0 (0 bytes)   native method
  @ 21   java.lang.StringBuilder::append (8 bytes)   inline (hot)
    @ 2   java.lang.AbstractStringBuilder::append (50 bytes)   inline (hot)
      @ 10   java.lang.String::length (6 bytes)   inline (hot)
      @ 21   java.lang.AbstractStringBuilder::ensureCapacityInternal (27 bytes)   inline (hot)
        @ 17   java.lang.AbstractStringBuilder::newCapacity (39 bytes)   inline (hot)
        @ 20   java.util.Arrays::copyOf (19 bytes)   inline (hot)
          @ 11   java.lang.Math::min (11 bytes)   (intrinsic)
          @ 14   java.lang.System::arraycopy (0 bytes)   (intrinsic)
      @ 35   java.lang.String::getChars (62 bytes)   inline (hot)
        @ 58   java.lang.System::arraycopy (0 bytes)   (intrinsic)
  @ 24   java.lang.StringBuilder::toString (17 bytes)   inline (hot)

那么问题是这是否是JVM或编译器错误的适当行为?

我问这个问题是因为某些项目仍在使用Java 8,如果它不会在任何发行版更新中得到修复,那么对我来说,Class.getName()从热点手动调用是合理的。

PS在最新的JDK(11、13、14-eap)上,未重现此问题。


您确实有副作用-分配给this.name
RealSkeptic

@RealSkeptic分配仅在第一次调用Class.getName()in setUp()方法时发生一次,而不在基准对象的正文中发生。
谢尔盖·特西帕诺夫

Answers:


7

HotSpot JVM按字节码收集执行统计信息。如果在不同的上下文中运行相同的代码,则结果概要文件将汇总所有上下文的统计信息。这种效应称为轮廓污染

Class.getName()显然,不仅从您的基准代码中调用它。在JIT开始编译基准之前,它已经知道Class.getName()多次满足以下条件:

    if (name == null)
        this.name = name = getName0();

至少有足够的时间处理该分支具有统计意义。因此,JIT并未从编译中排除此分支,因此由于可能的副作用而无法优化字符串连接。

这甚至不需要是本机方法调用。仅常规的现场分配也被认为是副作用。

这是一个示例,说明污染如何影响进一步的优化。

@State(Scope.Benchmark)
public class StringConcat {
    private final MyClass clazz = new MyClass();

    static class MyClass {
        private String name;

        public String getName() {
            if (name == null) name = "ZZZ";
            return name;
        }
    }

    @Param({"1", "100", "400", "1000"})
    private int pollutionCalls;

    @Setup
    public void setup() {
        for (int i = 0; i < pollutionCalls; i++) {
            new MyClass().getName();
        }
    }

    @Benchmark
    public String fast() {
        String clazzName = clazz.getName();
        return "str " + clazzName;
    }

    @Benchmark
    public String slow() {
        return "str " + clazz.getName();
    }
}

这基本上是基准的修改版本,可以模拟getName()轮廓污染。根据对getName()新对象进行初步调用的次数,字符串连接的进一步性能可能会大大不同:

Benchmark          (pollutionCalls)  Mode  Cnt   Score   Error  Units
StringConcat.fast                 1  avgt   15  11,458 ± 0,076  ns/op
StringConcat.fast               100  avgt   15  11,690 ± 0,222  ns/op
StringConcat.fast               400  avgt   15  12,131 ± 0,105  ns/op
StringConcat.fast              1000  avgt   15  12,194 ± 0,069  ns/op
StringConcat.slow                 1  avgt   15  11,771 ± 0,105  ns/op
StringConcat.slow               100  avgt   15  11,963 ± 0,212  ns/op
StringConcat.slow               400  avgt   15  26,104 ± 0,202  ns/op  << !
StringConcat.slow              1000  avgt   15  26,108 ± 0,436  ns/op  << !

轮廓污染的更多示例»

我不能称其为错误或“适当的行为”。这就是在HotSpot中实现动态自适应编译的方式。


1
还有谁(如果不是Pangin)……您是否知道Graal C2是否患有相同的疾病?
尤金(Eugene)

1

略有关联,但自Java 9和JEP 280:Indify String Concatenation以来,现在使用invokedynamicand 来完成字符串连接StringBuilder本文介绍了Java 8和Java 9之间字节码的区别。

如果在较新的Java版本上重新运行基准测试未显示问题,则几乎没有任何bug,javac因为编译器现在使用了新机制。不确定如果新版本中有如此重大的变化,那么深入探讨Java 8行为是否有益。


1
我同意这很可能是编译器问题,而不是与之相关的问题javacjavac生成字节码,并且不进行任何复杂的优化。我使用了相同的基准测试-XX:TieredStopAtLevel=1并收到了以下输出: Benchmark Mode Cnt Score Error Units BrokenConcatenationBenchmark.fast avgt 25 74,677 ? 2,961 ns/op BrokenConcatenationBenchmark.slow avgt 25 69,316 ? 1,239 ns/op 因此,当我们对两个方法的优化程度不高时,问题只会在代码被C2编译时才暴露出来。
谢尔盖·齐帕诺夫

1
现在是用invokedynamic完成的,而不是StringBuilder错误的invokedynamic仅告诉运行时选择如何进行串联,并且仍然使用6个策略中的5个(包括默认策略)StringBuilder
尤金(Eugene)

@Eugene感谢您指出这一点。当您说策略时,您是指StringConcatFactory.Strategy枚举吗?
Karol Dowbecki

完全是@KarolDowbecki。
尤金
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.