为什么\ R在Java 8和Java 9之间的正则表达式中表现不同?


78

以下代码在Java 8和9中都可以编译,但是行为不同。

class Simple {
    static String sample = "\nEn un lugar\r\nde la Mancha\nde cuyo nombre\r\nno quiero acordarme";

    public static void main(String args[]){
        String[] chunks = sample.split("\\R\\R");
        for (String chunk: chunks) {
            System.out.println("Chunk : "+chunk);
        }
    }
}

当我使用Java 8运行它时,它返回:

Chunk : 
En un lugar
de la Mancha
de cuyo nombre
no quiero acordarme

但是当我用Java 9运行它时,输出却不同:

Chunk : 
En un lugar
Chunk : de la Mancha
de cuyo nombre
Chunk : no quiero acordarme

为什么?


4
看起来在Java 8中\R是贪婪的,而在9中则不是。
16:02翻倍

你从什么弦上得到的System.getProperty("line.separator")
谢尔盖·卡利尼坚科

2
@dasblinkenlight:没关系;\R换行匹配器。它将匹配OP所具有的所有内容。
Makoto

2
当发布这样的问题它的价值,包括JDK版本号的,因为有时候这些都是固定点释放的错误,然后人不能复制等

2
@doublep我不确定您是否称其为贪婪,但在匹配时不允许回溯和将单个CR LF序列分成两部分\R,因为如果后面有LF,则禁止仅匹配CR。表达这一点的另一种方法是它不能回溯。Java 8是正确的;据我所知,Java 9现在不符合tr18。
tchrist

Answers:


48

Java文档是Unicode标准的一致性出来。Javadoc弄混了\R应该匹配的内容。内容为:

\R 任何Unicode换行符序列都等效于 \u000D\u000A|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029]

该Java文档是错误的。在R1.6换行符的小节中,有关正则表达式的Unicode技术标准#18明确指出:

强烈建议使用正则表达式元字符,例如“ \ R”,以匹配上面列出的所有行尾字符和序列(例如,在#1中)。这将对应于以下表达式。由于需要避免备份,因此该表达有些复杂。

 (?:\u{D A}|(?!\u{D A})[\u{A}-\u{D}\u{85}\u{2028}\u{2029}]

换句话说,它只能匹配两个码点CR + LF(回车+换行)序列或者从该组中的单个码点,只要它是只是单独一个回车然后后跟一个换行。这是因为不允许备份。CRLF必须是原子的\R才能正常运行。

因此,Java 9不再符合R1.6的强烈建议。而且,它现在正在执行Java 8中本该不该做或不做的事情。

似乎是时候该再给谢尔曼(沉雪明)了。之前,我曾与他合作处理过正式合规的细节问题。


2
因此,一种解决方法是使用(?>\\R)\\R{1}+代替\\R,或者在OP的特定情况下使用\\R{2}+代替\\R\\R。有趣的是,甚至\\R{1}\\R{1}\\R{2}得到所需结果的Java 9,它是不一致下,作为非所有格{n}不应禁用反向跟踪。
Holger

也许可以用JDK-8176983解决此问题
纳曼

@nullpointer谁能告诉我Java 10是否已解决此问题?看来javadoc仍然具有错误的“等效”模式,因此至少doc是错误的,如果没有实现的话。
帕特里克·帕克

63

这是Java 8中的一个错误,并且已得到修复:JDK-8176029:“换行符与Javadoc中所述的模式不等效”

另请参阅:Java-8 regex否定式带有\ R


7
有趣的是,对我来说Java 8行为看起来更聪明。尽管可以将“ \ r \ n”解释为两个连续的换行符,但据我所知,这没有什么意义。如果要表示两个换行符,则应输入“ \ n \ n”或“ \ r \ n \ r \ n”等,即两个相同的换行符。“ \ r \ n”实际上应该只是一个。
翻倍

2
这说得通!。但是Java 8具有我需要的行为。嗯
赫尔曼Bouzas

3
@GermánBouzas:我想您首先需要对换行符进行规范化,例如使用replaceAll ("\\R", "\\n")(未经测试,但我想回溯更改在这里不会发挥任何作用)。
翻倍

9
我很确定这是一个错误。\R不应被追溯到;这有充分的理由。我将看到可以找到的内容:您绝不能将CRLF分为两个实例或\R
tchrist
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.