为什么将1250个字符串与90k模式匹配如此之慢？

我的字符串是文件路径，例如s/14/11/13/15/n7ce49B_235_25ed2d70.jpg；我的模式很简单，都喜欢n7ce49B_.+。

我跑GNU grep 2.6.3下的Debian 6.0.10对戴尔DL360G7服务器（我说出来，只是给这台机器性能比较的意义上）与15K硬盘，而这个命令：time LC_ALL=C grep -E -f path_to_patterns_file path_to_strings_file只是无法完成-服务器交换太差。如果使用20k模式，则需要3个多小时。

在我看来，这是不合理的。

每个注释请求都有以下文件：文件路径 20k个模式

还可以使用以下方法测试和调整输入线和图案的数量：

xxd -p /dev/urandom | fold -sw 100 | head -n 1250 |
  grep -Ef <(xxd -p /dev/urandom | fold -sw 10 | head -n 20000)

linux grep

— 卡鲁斯
source

您的标题有90k，说明中有20K样式

— -RomanPerekhrest

好吧，90k是我的原始输入大小，这使我的机器交换变得如此困难，以至于我不得不杀死该grep。然后，我尝试将其拆分为20k个文件，但仍然可以正常工作...但是，您说对我的描述不一致。

— skaurus

请说明在期间服务器是否被加了税（执行其他一些资源匮乏的任务）grep。

— agc

— 斯特凡Chazelas

对于事，而不是n7ce49B_.+等同于n7ce49B_.

— 斯特凡Chazelas

您在GNU grep的旧版本中遇到了性能问题（bug＃22357），此提交已在2.28中解决了该提交，尽管该更改引入了一些回归，所以您想grep改用GNU 3.0或更高版本。

— StéphaneChazelas
source