Java正则表达式捕获组


170

我试图理解此代码块。在第一个中,我们在表达式中寻找什么?

我的理解是,它是任意字符(0或多次*),后跟0到9之间的任意数字(1或多次+),后跟任意字符(0或多次*)。

执行此操作时,结果为:

Found value: This order was placed for QT3000! OK?
Found value: This order was placed for QT300
Found value: 0

有人可以和我一起经历这个吗?

使用捕获组的优点是什么?

import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class RegexTut3 {

    public static void main(String args[]) {
        String line = "This order was placed for QT3000! OK?"; 
        String pattern = "(.*)(\\d+)(.*)";

        // Create a Pattern object
        Pattern r = Pattern.compile(pattern);

        // Now create matcher object.
        Matcher m = r.matcher(line);

        if (m.find()) {
            System.out.println("Found value: " + m.group(0));
            System.out.println("Found value: " + m.group(1));
            System.out.println("Found value: " + m.group(2));
        } else {
            System.out.println("NO MATCH");
        }
    }

}

1
要插入新行,请在行末放置2个空格。有关降价语法的更多信息:en.wikipedia.org/wiki/Markdown-另请参见:stackoverflow.com/editing-help
assylias 2013年

Answers:


248

您遇到的问题是量词的类型。您使用的是贪婪的量词在第一组(索引1 -指数0代表整Pattern),这意味着它会匹配尽可能多的,因为它可以(而且因为它是任何字符,它会匹配尽可能多的字符作为有为了满足下一组的条件)。

简而言之,您的第一个组将.*匹配任何内容,只要下一个组\\d+可以匹配某个内容(在本例中为最后一位)。

按照第三组,它将匹配最后一位数字之后的任何内容。

如果将其更改为第1组中的勉强量词,则会得到我期望的结果,即3000部分。

请注意第一组中的问号

String line = "This order was placed for QT3000! OK?";
Pattern pattern = Pattern.compile("(.*?)(\\d+)(.*)");
Matcher matcher = pattern.matcher(line);
while (matcher.find()) {
    System.out.println("group 1: " + matcher.group(1));
    System.out.println("group 2: " + matcher.group(2));
    System.out.println("group 3: " + matcher.group(3));
}

输出:

group 1: This order was placed for QT
group 2: 3000
group 3: ! OK?

Java的更多信息Pattern 这里

最后,捕获组由圆括号分隔,并提供了一种非常有用的方式来使用后向引用(以及其他方法),只要您Pattern将其与输入匹配即可。

在Java 6中,只能通过组的顺序来引用组(请注意嵌套组和排序的精巧性)。

在Java 7中,这很容易,因为您可以使用命名组。


谢谢!原因是第2组之所以存储0,是因为整个行都被贪婪的量词占用了,然后它回退直到与一个或多个数字接触为止。0满足此要求,因此表达式成功。我发现第三组令人困惑,贪婪的量词是否也占用了整行,但退缩直到找到一个或多个应该在其前面的数字(\\ d +)?
Xivilai

@Xivilai让我在回答中微调我的解释,只需几秒钟。
2013年

那是一个很好的解释。因此,不情愿从左边开始,只取最小值,而对于贪婪,它会尽可能多地(从右边开始),仅在满足该条件的最后一位之前停止。第三组剩下的。
Xivilai

@Xivilai或多或少。在这种情况下,它始终从左侧开始。是有关量词的更多信息。
梅纳2013年

2
您可以在Java 5/6中使用命名捕获组named-regexp

16

完全可以

  1. 第一组(m.group(0))始终捕获正则表达式覆盖的整个区域。在这种情况下,它就是整个字符串。
  2. 正则表达式默认情况下是贪婪的,这意味着第一组会尽可能多地捕获而不会违反正则表达式。在(.*)(\\d+)(你的正则表达式的第一部分)覆盖...QT300INT第一组和0第二。
  3. 您可以通过将第一组(.*)设为非贪婪来快速解决此问题:将更改为(.*?)

有关贪婪与懒惰的更多信息,请访问此站点。


4

从文档:

Capturing groups</a> are indexed from left
 * to right, starting at one.  Group zero denotes the entire pattern, so
 * the expression m.group(0) is equivalent to m.group().

因此捕获组0发送整行。


3

您的理解是正确的。但是,如果我们通过以下步骤:

  • (.*) 会吞下整个弦;
  • 它需要回馈字符以便(\\d+)被满足(这就是为什么0被捕获的原因,而不是3000);
  • 最后一个(.*)将捕获其余部分。

但是,我不确定作者的初衷是什么。

By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.