代码之家 › 专栏 › 技术社区 › zildjohn01

regex比较

regex

zildjohn01 · 技术社区 · 15 年前

我(终于)开始学习regex了,我想知道这两个模式字符串之间是否有显著的区别。我正在尝试匹配诸如“的线条 Title=Blah ,并在两个组中匹配“title”和“blah”。

问题出在诸如“的标题上。 Title=The = operator “。以下是解决问题的两种选择:

^([^=]+)=(.+)$
^(.+?)=(.+)$

这两者之间有什么区别,性能方面还是功能方面?

5 回复 | 直到 15 年前

Jim G. 15 年前

第一个要求在=之前至少有一个非-=字符才能匹配,而第二个则不匹配;它将在前导==上匹配。

根据你的内容,第一个能够跑得更快。 Here's why :

懒惰的替代品
在这有比这更好的选择使加号变懒。我们可以使用贪婪的加分和否定的性格类:<[^=+>。这是为什么更好的是因为回溯。使用Lazy Plus时,发动机必须对中的每个字符进行回溯它正在尝试的HTML标记比赛。当使用否定的字符类,无回溯当字符串包含有效的HTML代码。回溯速度变慢关闭Regex引擎。你不会注意在执行在文本编辑器中进行单一搜索。但是您将节省大量的CPU周期当在脚本中的一个紧密循环写作…

chaos 15 年前

第一个要求至少有一个非- = 前一个字符 = 为了匹配,第二个不匹配;它将匹配领先者 == .

至于性能,我并不期望有什么有意义的区别,但如果你真的在乎,唯一要做的就是分析它。我将编写一对脚本,每个脚本运行数十万次方法中的一个,并使用Unix对它们进行计时。 time 命令。

Dinah SLaks 15 年前

一个很好的问题,但不幸的是,它将取决于regex引擎。您必须对其进行分析,以了解运行时的差异。好吧,我想如果你有引擎的源代码,那么你可以做决定,但我假设情况并非如此。

Stephen C 15 年前

在性能方面,它(理论上)将取决于您正在使用的regex的实现。虽然这里可能不是这样,但有问题的正则表达式的实现之间可能存在深刻的差异。例如,regex a?a?a?aaa 应用于由n“a”s组成的字符串,其复杂性为 O(N**3) 使用典型的(即基于DFA的)regex引擎。

有关详细信息,请参阅:“ Regular Expression Matching Can Be Simple And Fast (but is slow in Java, Perl, PHP, Python, Ruby, ...) “Russ Cox。

Todd 15 年前

两者都反对 '==test'

推荐文章

lonix · 使用sed从JSON中提取非贪婪正则表达式

1 年前

me-me · regex检查电子邮件字符串是否有@后跟一个点以及点符号后至少2个字符[重复]

2 年前

Dave Guerrero · 是否有一个正则表达式模式来捕获字符串中直到第一个字母字符的数字?

2 年前

Dima Malko · 如何在指定符号前添加符号?

2 年前

shekharsabale · 从列表元素捕获子字符串

2 年前

maycca · 正则表达式:过滤年份数值大于某个值的文件?字符串中编码的年份

2 年前

Katia · 根据特定规则进行多行匹配

2 年前

Andrei Cleland · 在长正则表达式中包含unicode字符

2 年前

MHA · Pandas str.extract()以字母结尾的数字

2 年前

Slava Vir · 如何查找后面“/”之间的最后一组

2 年前