创建正则表达式匹配数组


160

在Java中,我试图将所有正则表达式匹配项返回到数组,但是似乎您只能检查模式是否匹配某些内容(布尔值)。

如何使用正则表达式匹配在给定字符串中形成所有与正则表达式匹配的字符串数组?


2
好问题。您寻求的信息应该是Regex和Matcher上的Java文档的一部分。可悲的是,事实并非如此。
Cheeso 2015年

3
真可惜。几乎所有其他语言(具有正则表达式支持)似乎都可以立即使用此功能。
Ray Toal

Answers:


278

(如果您可以假设Java> = 9,那么4castle的答案比下面的要好)

您需要创建一个匹配器,并使用它来迭代查找匹配项。

 import java.util.regex.Matcher;
 import java.util.regex.Pattern;

 ...

 List<String> allMatches = new ArrayList<String>();
 Matcher m = Pattern.compile("your regular expression here")
     .matcher(yourStringHere);
 while (m.find()) {
   allMatches.add(m.group());
 }

之后,allMatches包含匹配项,allMatches.toArray(new String[0])如果您确实需要一个数组,则可以使用它来获取一个数组。


MatchResult由于Matcher.toMatchResult()返回了当前组状态的快照,因此您还可以编写辅助函数来循环匹配。

例如,您可以编写一个惰性迭代器来完成

for (MatchResult match : allMatches(pattern, input)) {
  // Use match, and maybe break without doing the work to find all possible matches.
}

通过做这样的事情:

public static Iterable<MatchResult> allMatches(
      final Pattern p, final CharSequence input) {
  return new Iterable<MatchResult>() {
    public Iterator<MatchResult> iterator() {
      return new Iterator<MatchResult>() {
        // Use a matcher internally.
        final Matcher matcher = p.matcher(input);
        // Keep a match around that supports any interleaving of hasNext/next calls.
        MatchResult pending;

        public boolean hasNext() {
          // Lazily fill pending, and avoid calling find() multiple times if the
          // clients call hasNext() repeatedly before sampling via next().
          if (pending == null && matcher.find()) {
            pending = matcher.toMatchResult();
          }
          return pending != null;
        }

        public MatchResult next() {
          // Fill pending if necessary (as when clients call next() without
          // checking hasNext()), throw if not possible.
          if (!hasNext()) { throw new NoSuchElementException(); }
          // Consume pending so next call to hasNext() does a find().
          MatchResult next = pending;
          pending = null;
          return next;
        }

        /** Required to satisfy the interface, but unsupported. */
        public void remove() { throw new UnsupportedOperationException(); }
      };
    }
  };
}

有了这个,

for (MatchResult match : allMatches(Pattern.compile("[abc]"), "abracadabra")) {
  System.out.println(match.group() + " at " + match.start());
}

产量

a at 0
b at 1
a at 3
c at 4
a at 5
a at 7
b at 8
a at 10

4
我不建议在这里使用ArrayList,因为您不知道预先的大小,并且可能要避免调整缓冲区大小。相反,我宁愿使用LinkedList -尽管这只是一个建议,并且不会使您的答案无效。
丽芙

13
@Liv,花时间对ArrayList和进行基准测试LinkedList,结果可能令人惊讶。
Anthony Accioly

我听到您在说什么,并且知道两种情况下的执行速度和内存占用量; ArrayList的问题是默认构造函数创建的容量为10-如果您通过调用add( ),您将不得不承担内存分配和数组复制的工作-这可能会发生几次。当然,如果您只希望进行几次比赛,那么您的方法会更有效;但是,如果您发现数组“调整大小”不止一次发生,我建议使用LinkedList,如果您正在处理低延迟的应用程序,则更是如此。
丽芙

12
@Liv,如果您的模式倾向于生成具有相当可预测的大小的匹配项,并且取决于模式是稀疏匹配还是密集匹配(基于allMatchesvs 长度的总和yourStringHere.length()),则可以为计算一个合适的大小allMatches。根据我的经验,LinkedList通常不值得在内存和迭代效率方面付出代价,因此LinkedList我的默认姿势也不值得。但是在优化热点时,绝对值得交换列表实现以查看是否有所改进。
Mike Samuel

1
在Java 9中,您现在可以使用Matcher#results获取一个Stream可以用来生成数组的方法(请参阅我的回答)。
4castle

56

在Java 9中,您现在可以使用Matcher#results()获取Stream<MatchResult>,您可以使用来获取匹配的列表/数组。

import java.util.regex.Pattern;
import java.util.regex.MatchResult;
String[] matches = Pattern.compile("your regex here")
                          .matcher("string to search from here")
                          .results()
                          .map(MatchResult::group)
                          .toArray(String[]::new);
                    // or .collect(Collectors.toList())

1
他们是no results()方法,请先运行此
Bravo

14
@Bravo您正在使用Java 9吗?它确实存在。我链接到文档。
4castle

:((是有java的8任何替代
logbasex

25

Java使正则表达式过于复杂,并且不遵循perl样式。看一下MentaRegex,看看如何在一行Java代码中完成该任务:

String[] matches = match("aa11bb22", "/(\\d+)/g" ); // => ["11", "22"]

6
这很酷。双斜线看起来仍然很丑陋,但我想这没有任何可替代之处。
JohnPristine 2011年

mentaregex-0.9.5.jar,6Kb拯救了我的生活,ObrigadoSérgio!
CONvid19 2012年

2
注意!最好的解决方案。用它!
弗拉德·霍尔比耶夫

13
MentaRegex网站是否关闭?当我访问mentaregex.soliveirajr.com时,只说“ hi”
user64141

1
@ user64141看起来像是
阿米特·金

11

这是一个简单的例子:

Pattern pattern = Pattern.compile(regexPattern);
List<String> list = new ArrayList<String>();
Matcher m = pattern.matcher(input);
while (m.find()) {
    list.add(m.group());
}

(如果您有更多捕获组,则可以通过它们的索引将它们作为组方法的参数来引用。如果需要一个数组,请使用list.toArray()


pattern.matches(input)不起作用。您必须再次传递正则表达式模式-> WTF Java?pattern.matches(字符串正则表达式,字符串输入); 你是说pattern.matcher(input)吗?
El Mac'3

@ElMac Pattern.matches()是静态方法,您不应在Pattern实例上调用它。Pattern.matches(regex, input)简直是的简写Pattern.compile(regex).matcher(input).matches()
dimo414

5

官方Regex Java Trails

        Pattern pattern = 
        Pattern.compile(console.readLine("%nEnter your regex: "));

        Matcher matcher = 
        pattern.matcher(console.readLine("Enter input string to search: "));

        boolean found = false;
        while (matcher.find()) {
            console.format("I found the text \"%s\" starting at " +
               "index %d and ending at index %d.%n",
                matcher.group(), matcher.start(), matcher.end());
            found = true;
        }

使用结果find并将其插入group您的数组/ List /任何位置。


0
        Set<String> keyList = new HashSet();
        Pattern regex = Pattern.compile("#\\{(.*?)\\}");
        Matcher matcher = regex.matcher("Content goes here");
        while(matcher.find()) {
            keyList.add(matcher.group(1)); 
        }
        return keyList;
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.