Java正则表达式捕获组索引

113

我有以下一行，

typeName="ABC:xxxxx;";

我需要拿这个词ABC，

我写了以下代码片段，

Pattern pattern4=Pattern.compile("(.*):");
matcher=pattern4.matcher(typeName);

String nameStr="";
if(matcher.find())
{
    nameStr=matcher.group(1);

}

所以，如果我说group(0)得到，ABC:但如果我说group(1)是ABC，那么我想知道

这是什么0和1意味着什么呢？如果有人可以用很好的例子向我解释，那会更好。
正则表达式模式中包含一个:，为什么group(1)结果忽略了它？组1是否检测到括号内的所有单词？
因此，如果我\\s*(\d*)(.*)再加上两个括号，例如：，那么会有两个小组吗？group(1)会退还(\d*)零件并group(2)退还(.*)零件？

给出该代码段的目的是为了消除我的困惑。这不是我要处理的代码。上面给出的代码可以用String.split()一种更容易的方式完成。

java regex

— 巴萨克
source

182

捕获和分组

捕获组将 (pattern)创建一个具有捕获属性的组。

您可能经常看到（和使用）的一个相关的对象是(?:pattern)，它创建了一个不捕获属性的组，因此命名为non-captureing group。

当您需要重复一系列模式（例如(\.\w+)+）或指定交替应在何处生效（例如^(0*1|1*0)$（^，然后0*1或1*0，然后$）与^0*1|1*0$（^0*1或1*0$））时，通常使用组。

除分组外，捕获组还将记录与捕获组内的模式匹配的文本(pattern)。使用你的榜样，(.*):，.*比赛ABC和:比赛:，由于.*是内捕获组(.*)，该文本ABC被记录，捕获组1。

组号

整个模式定义为组号0。

模式中的任何捕获组均从1开始索引。索引由捕获组的开头括号的顺序定义。举例来说，以下模式是所有 5个捕获组：

(group)(?:non-capturing-group)(g(?:ro|u)p( (nested)inside)(another)group)(?=assertion)
|     |                       |          | |      |      ||       |     |
1-----1                       |          | 4------4      |5-------5     |
                              |          3---------------3              |
                              2-----------------------------------------2

组号用于\n模式和$n替换字符串中的向后引用。

^{在其他正则表达式类型（PCRE，Perl）中，它们也可以用于子例程调用中。}

您可以使用访问特定组匹配的文本Matcher.group(int group)。可以使用上述规则标识组号。

^{在一些正则表达式的味道（PCRE，Perl的），还有一个分支复位功能，它允许您使用相同数量的交替的不同分支捕获组。}

团队名字

在Java 7中，您可以定义一个命名的捕获组 (?<name>pattern)，并且可以访问与匹配的内容Matcher.group(String name)。正则表达式更长，但是代码更有意义，因为它表明您正在尝试与正则表达式匹配或提取的内容。

组名用于\k<name>模式和${name}替换字符串中的向后引用。

命名的捕获组仍使用相同的编号方案进行编号，因此也可以通过进行访问Matcher.group(int group)。

在内部，Java的实现只是从名称映射到组号。因此，不能将相同的名称用于2个不同的捕获组。

— 纳赫德
source

1

哇！感谢@nhahtdh解释了非捕获组以及嵌套组顺序的工作原理。在最终阅读完您的解释之前，我对组号的工作方式感到困惑。非常感谢！

— MMeah'2

92

对于我们其余的人

这是一个简单而清晰的例子

正则表达式： ([a-zA-Z0-9]+)([\s]+)([a-zA-Z ]+)([\s]+)([0-9]+)

串： "!* UserName10 John Smith 01123 *!"

group(0): UserName10 John Smith 01123
group(1): UserName10
group(2):  
group(3): John Smith
group(4):  
group(5): 01123

如您所见，我创建了五个组，每个组都用括号括起来。

我包括了！*和*！使其更清晰。请注意，这些字符都不在RegEx中，因此不会在结果中产生。Group（0）仅给您整个匹配的字符串（我的所有搜索条件都放在一行中）。第1组在第一个空格之前停止，因为搜索标准中未包含空格字符。第2和第4组只是空白，在这种情况下，它实际上是一个空格字符，但也可以是制表符或换行符等。第3组包含该空格，因为我将其放在搜索条件中...等。

希望这是有道理的。

— 迈克尔·西姆斯
source

1

完美的示例，对于初学者来说很容易理解。我怀疑这与python中的reg ex分组相同吗？否则有什么区别吗？我是reg ex的新手，这就是为什么我对两种语言都有些困惑。

— 玛尼

1

这不是有效的Java正则表达式：反斜杠必须加倍。

— 尼古拉斯·拉乌尔

1

@NicolasRaoul：双反斜杠归因于字符串文字中的转义语法。实际的正则表达式语法（即，如果将包含正则表达式的字符串打印到控制台）不需要双反斜杠。

— nhahtdh

@NicolasRaoul如果要使用功能强大的IDE将我的regex字符串复制并粘贴到实际的Java代码中，则IDE将根据需要正确设置转义斜杠的格式。但我的正则表达式是技术上和语法正确和其服务的主要目的是展示正则表达式的代码和获得的结果（用一个非常具体的例子）之间的关联......减仓有点...☺

— 迈克尔西姆斯

44

括号()用于对正则表达式词组进行分组。

该group(1)包含是括号之间的字符串，(.*)所以.*在这种情况下，

并group(0)包含整个匹配的字符串。

如果您有更多组（读取(...)），它将与下一个索引（2、3等）一起放入组。

— 米哈尔·波雷克（Michal Borek）
source

2

因此，我正确地认为添加括号实际上是用于创建组？

— 巴萨克

3

是的，我们可以这么说。

— Michal Borek