代码之家 › 专栏 › 技术社区 › Daniel Vandersluis

使用非贪婪的限定符还是向前看更好?

regex-greedy performance regex

Daniel Vandersluis · 技术社区 · 16 年前

我可能有一大块文本要搜索 [[...]] ... 可以是任何东西,包括其他括号(尽管它们不能嵌套;一审 ]] 之后 [[ 比赛结束)。

4 回复 | 直到 14 年前

Tomalak 16 年前

在这种情况下,最好使用非贪婪量词。

以这个字符串为例 "[[a]b]]"

非贪婪量词

       \[\[.+?\]\]
Atom # 1 2 3  4 5

展望未来:

       \[\[(?:(?!\]\]).)+\]\]
Atom # 1 2 3  4       5  6 7

所以看起来非贪婪量词要做的工作更少。

免责声明:这是一个人工示例,实际性能可能会有所不同,具体取决于regex引擎的输入、实际表达式和实现。我只有98%的把握,我在这里概述的是实际发生的事情,所以我愿意改正。另外,和所有的性能技巧一样,不要把这当作表面价值,如果你想确定的话,做你自己的基准比较。

Markus Jarderot 16 年前

另一种变体: /\[\[((?:\]?[^]])+)]]/

它既不使用非贪婪量词,也不使用look aheads。它允许一个 ] ] . 如果有两个

这种模式最好与FSA编译regex引擎一起使用。在回溯引擎上,它可能会比不贪婪的变体慢。

Alan Moore Chris Ballance 16 年前

你用哪种正则表达式?如果它支持所有格量词,有一个更好的选择:

\[\[(?:[^\]]++|\](?!\]))*+\]\]

[^\]]++ 狼吞虎咽除了 ] 而且不需要保存状态信息,这样就可以进行回溯。如果它真的看到 ] ,它执行一个向前看的操作,以查看是否还有另一个。用另一个所有格量词包装整个事物意味着它只在看到一个事物时进行前瞻 ] ,它只回溯一次:当它找到结束时 ]] .

Java、JGSoft、PCRE(PHP)、Oniguruma(Ruby 1.9)和perl5.12风格支持所有格量词。所有这些口味也都支持原子团,可以用来达到同样的效果:

\[\[(?>(?:(?>[^\]]+)|\](?!\]))*)\]\]

NET风格支持原子组,但不支持所有格量词。

Brent Arias 16 年前

我认为最好使用非贪婪限定符。你确定你读到的那篇文章没有说“小心 “匹配吗?”

推荐文章

DotFX · RegEx捕获关键字前但括号后的所有内容

1 年前

user66001 · 正则表达式用于匹配有引号和无引号的文本,并且不匹配任何部分

1 年前

perlchamp · 为什么这也匹配?

1 年前

con · Negative Lookaward在perl正则表达式中不起作用

1 年前

Andrus · 如何在sql中查找第二个匹配项

1 年前

iato · 确保正则表达式不从命名材料中的数字中提取

1 年前

vr8ce · 非成对标记中特定字符的正则表达式

1 年前

MARTIN · 交换第一个和最后一个单词,反转所有中间的字符

1 年前

Carsten · 使用最近的搜索模式更改文本块

1 年前

Eric Marceau · Grep:有没有一种特殊的方法可以将“无字符”作为“字符位置”匹配的置换?

1 年前